評估
評估是評估您的 LLM 驅動應用程式的效能和有效性的過程。它涉及根據一組預定義的標準或基準測試模型的響應,以確保其符合所需的品質標準並實現預期目的。這個過程對於構建可靠的應用程式至關重要。
LangSmith 在幾個方面幫助您完成此過程
- 它透過其追蹤和註釋功能,更輕鬆地創建和管理資料集
- 它提供了一個評估框架,可幫助您定義指標並根據您的資料集運行您的應用程式
- 它允許您隨時間追蹤結果,並自動排程或作為 CI/Code 的一部分運行您的評估器
要了解更多信息,請查看這份 LangSmith 指南。