跳到主要內容

評估

評估是評估您的 LLM 驅動應用程式的效能和有效性的過程。它涉及根據一組預定義的標準或基準測試模型的響應，以確保其符合所需的品質標準並實現預期目的。這個過程對於構建可靠的應用程式至關重要。

LangSmith 在幾個方面幫助您完成此過程

它透過其追蹤和註釋功能，更輕鬆地創建和管理資料集
它提供了一個評估框架，可幫助您定義指標並根據您的資料集運行您的應用程式
它允許您隨時間追蹤結果，並自動排程或作為 CI/Code 的一部分運行您的評估器

要了解更多信息，請查看這份 LangSmith 指南。

此頁面是否有幫助？