跳到主要內容
Open on GitHub

TruLens

TruLens 是一個開放原始碼套件,為基於大型語言模型 (LLM) 的應用程式提供檢測和評估工具。

本頁面介紹如何使用 TruLens 來評估和追蹤基於 langchain 建構的 LLM 應用程式。

安裝與設定

安裝 trulens-eval python 套件。

pip install trulens-eval

快速入門

請參閱 TruLens 文件中的整合詳細資訊。

追蹤

一旦您建立了 LLM 鏈,您就可以使用 TruLens 進行評估和追蹤。TruLens 具有許多開箱即用的回饋函數,並且也是一個用於 LLM 評估的可擴展框架。

建立回饋函數

from trulens_eval.feedback import Feedback, Huggingface, 

# Initialize HuggingFace-based feedback function collection class:
hugs = Huggingface()
openai = OpenAI()

# Define a language match feedback function using HuggingFace.
lang_match = Feedback(hugs.language_match).on_input_output()
# By default this will check language match on the main app input and main app
# output.

# Question/answer relevance between overall question and answer.
qa_relevance = Feedback(openai.relevance).on_input_output()
# By default this will evaluate feedback on main app input and main app output.

# Toxicity of input
toxicity = Feedback(openai.toxicity).on_input()

在您設定好用於評估 LLM 的回饋函數後,您可以使用 TruChain 包裝您的應用程式,以取得 LLM 應用程式的詳細追蹤、記錄和評估。

注意:鏈建立的程式碼請參閱 TruLens 文件

from trulens_eval import TruChain

# wrap your chain with TruChain
truchain = TruChain(
chain,
app_id='Chain1_ChatApplication',
feedbacks=[lang_match, qa_relevance, toxicity]
)
# Note: any `feedbacks` specified here will be evaluated and logged whenever the chain is used.
truchain("que hora es?")

評估

現在您可以探索您基於 LLM 的應用程式了!

這樣做將幫助您一目瞭然地了解您的 LLM 應用程式的效能。當您迭代新版本的 LLM 應用程式時,您可以比較它們在您設定的所有不同品質指標上的效能。您還可以查看記錄層級的評估,並探索每條記錄的鏈元數據。

from trulens_eval import Tru

tru = Tru()
tru.run_dashboard() # open a Streamlit app to explore

有關 TruLens 的更多資訊,請訪問 trulens.org


此頁面是否有幫助?