TruLens
本頁面介紹如何使用 TruLens 來評估和追蹤基於 langchain 建構的 LLM 應用程式。
安裝與設定
安裝 trulens-eval
python 套件。
pip install trulens-eval
快速入門
請參閱 TruLens 文件中的整合詳細資訊。
追蹤
一旦您建立了 LLM 鏈,您就可以使用 TruLens 進行評估和追蹤。TruLens 具有許多開箱即用的回饋函數,並且也是一個用於 LLM 評估的可擴展框架。
建立回饋函數
from trulens_eval.feedback import Feedback, Huggingface,
# Initialize HuggingFace-based feedback function collection class:
hugs = Huggingface()
openai = OpenAI()
# Define a language match feedback function using HuggingFace.
lang_match = Feedback(hugs.language_match).on_input_output()
# By default this will check language match on the main app input and main app
# output.
# Question/answer relevance between overall question and answer.
qa_relevance = Feedback(openai.relevance).on_input_output()
# By default this will evaluate feedback on main app input and main app output.
# Toxicity of input
toxicity = Feedback(openai.toxicity).on_input()
鏈
在您設定好用於評估 LLM 的回饋函數後,您可以使用 TruChain 包裝您的應用程式,以取得 LLM 應用程式的詳細追蹤、記錄和評估。
注意:鏈建立的程式碼請參閱 TruLens 文件。
from trulens_eval import TruChain
# wrap your chain with TruChain
truchain = TruChain(
chain,
app_id='Chain1_ChatApplication',
feedbacks=[lang_match, qa_relevance, toxicity]
)
# Note: any `feedbacks` specified here will be evaluated and logged whenever the chain is used.
truchain("que hora es?")
評估
現在您可以探索您基於 LLM 的應用程式了!
這樣做將幫助您一目瞭然地了解您的 LLM 應用程式的效能。當您迭代新版本的 LLM 應用程式時,您可以比較它們在您設定的所有不同品質指標上的效能。您還可以查看記錄層級的評估,並探索每條記錄的鏈元數據。
from trulens_eval import Tru
tru = Tru()
tru.run_dashboard() # open a Streamlit app to explore
有關 TruLens 的更多資訊,請訪問 trulens.org