TruLens

TruLens 是一個開放原始碼套件，為基於大型語言模型 (LLM) 的應用程式提供檢測和評估工具。

本頁面介紹如何使用 TruLens 來評估和追蹤基於 langchain 建構的 LLM 應用程式。

安裝與設定

安裝 trulens-eval python 套件。

pip install trulens-eval

快速入門

請參閱 TruLens 文件中的整合詳細資訊。

追蹤

一旦您建立了 LLM 鏈，您就可以使用 TruLens 進行評估和追蹤。TruLens 具有許多開箱即用的回饋函數，並且也是一個用於 LLM 評估的可擴展框架。

建立回饋函數

from trulens_eval.feedback import Feedback, Huggingface, 

# Initialize HuggingFace-based feedback function collection class:
hugs = Huggingface()
openai = OpenAI()

# Define a language match feedback function using HuggingFace.
lang_match = Feedback(hugs.language_match).on_input_output()
# By default this will check language match on the main app input and main app
# output.

# Question/answer relevance between overall question and answer.
qa_relevance = Feedback(openai.relevance).on_input_output()
# By default this will evaluate feedback on main app input and main app output.

# Toxicity of input
toxicity = Feedback(openai.toxicity).on_input()

鏈

在您設定好用於評估 LLM 的回饋函數後，您可以使用 TruChain 包裝您的應用程式，以取得 LLM 應用程式的詳細追蹤、記錄和評估。

注意：鏈建立的程式碼請參閱 TruLens 文件。

from trulens_eval import TruChain

# wrap your chain with TruChain
truchain = TruChain(
    chain,
    app_id='Chain1_ChatApplication',
    feedbacks=[lang_match, qa_relevance, toxicity]
)
# Note: any `feedbacks` specified here will be evaluated and logged whenever the chain is used.
truchain("que hora es?")

評估

現在您可以探索您基於 LLM 的應用程式了！

這樣做將幫助您一目瞭然地了解您的 LLM 應用程式的效能。當您迭代新版本的 LLM 應用程式時，您可以比較它們在您設定的所有不同品質指標上的效能。您還可以查看記錄層級的評估，並探索每條記錄的鏈元數據。

from trulens_eval import Tru

tru = Tru()
tru.run_dashboard() # open a Streamlit app to explore

有關 TruLens 的更多資訊，請訪問 trulens.org

安裝與設定​

快速入門​

追蹤​

鏈​

評估​

此頁面是否有幫助？

安裝與設定

快速入門

追蹤

鏈

評估