跳至主要內容

Pebblo Safe DocumentLoader

Pebblo 使開發人員能夠安全地載入資料,並將其 Gen AI 應用程式推廣到部署,而無需擔心組織的合規性和安全要求。該專案識別載入資料中的語義主題和實體,並在 UI 或 PDF 報告上對其進行摘要。

Pebblo 有兩個元件。

  1. 適用於 Langchain 的 Pebblo 安全 DocumentLoader
  2. Pebblo 伺服器 (Pebblo Server)

本文檔描述瞭如何使用 Pebblo 安全 DocumentLoader 擴充您現有的 Langchain DocumentLoader,以深入瞭解 Gen-AI Langchain 應用程式中提取的 Topics 和 Entities 類型。有關 Pebblo Server 的詳細資訊,請參閱此pebblo server 文件。

Pebblo Safeloader 為 Langchain DocumentLoader 啟用安全資料擷取。這是通過使用 Pebblo Safe DocumentLoader 包裝文檔載入器呼叫來完成的。

注意:要在 pebblo 預設網址 (localhost:8000) 以外的其他網址上配置 pebblo 伺服器,請將正確的 URL 放在 PEBBLO_CLASSIFIER_URL 環境變數中。也可以使用 classifier_url 關鍵字引數進行配置。參考:server-configurations

如何啟用 Pebblo 文檔載入?

假設一個 Langchain RAG 應用程式片段使用 CSVLoader 讀取 CSV 文檔以進行推論。

以下是使用 CSVLoader 載入文檔的片段。

from langchain_community.document_loaders import CSVLoader

loader = CSVLoader("data/corp_sens_data.csv")
documents = loader.load()
print(documents)
API 參考 (API Reference):CSVLoader

只需更改幾行程式碼即可啟用 Pebblo SafeLoader。

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
CSVLoader("data/corp_sens_data.csv"),
name="acme-corp-rag-1", # App name (Mandatory)
owner="Joe Smith", # Owner (Optional)
description="Support productivity RAG application", # Description (Optional)
)
documents = loader.load()
print(documents)
API 參考 (API Reference):CSVLoader | PebbloSafeLoader

將語義主題和身分傳送到 Pebblo 雲伺服器

要將語義資料傳送到 pebblo-cloud,請將 api-key 作為引數傳遞給 PebbloSafeLoader,或者將 api-key 放入 PEBBLO_API_KEY 環境變數中。

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
CSVLoader("data/corp_sens_data.csv"),
name="acme-corp-rag-1", # App name (Mandatory)
owner="Joe Smith", # Owner (Optional)
description="Support productivity RAG application", # Description (Optional)
api_key="my-api-key", # API key (Optional, can be set in the environment variable PEBBLO_API_KEY)
)
documents = loader.load()
print(documents)
API 參考 (API Reference):CSVLoader | PebbloSafeLoader

將語義主題和身分新增到已載入的中繼資料

要將語義主題和語義實體新增到已載入文檔的中繼資料,請將 load_semantic 設定為 True 作為引數,或者定義一個新的環境變數 PEBBLO_LOAD_SEMANTIC,並將其設定為 True。

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
CSVLoader("data/corp_sens_data.csv"),
name="acme-corp-rag-1", # App name (Mandatory)
owner="Joe Smith", # Owner (Optional)
description="Support productivity RAG application", # Description (Optional)
api_key="my-api-key", # API key (Optional, can be set in the environment variable PEBBLO_API_KEY)
load_semantic=True, # Load semantic data (Optional, default is False, can be set in the environment variable PEBBLO_LOAD_SEMANTIC)
)
documents = loader.load()
print(documents[0].metadata)
API 參考 (API Reference):CSVLoader | PebbloSafeLoader

匿名化程式碼片段以編輯所有 PII 詳細資訊

anonymize_snippets 設定為 True,以匿名化進入 VectorDB 和產生的報告的所有個人識別資訊 (PII)。

注意:Pebblo 實體分類器有效地識別個人識別資訊 (PII),並且在不斷發展。雖然其召回率尚未達到 100%,但正在穩步提高。有關更多詳細資訊,請參閱Pebblo 實體分類器文件

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
CSVLoader("data/corp_sens_data.csv"),
name="acme-corp-rag-1", # App name (Mandatory)
owner="Joe Smith", # Owner (Optional)
description="Support productivity RAG application", # Description (Optional)
anonymize_snippets=True, # Whether to anonymize entities in the PDF Report (Optional, default=False)
)
documents = loader.load()
print(documents[0].metadata)
API 參考 (API Reference):CSVLoader | PebbloSafeLoader

此頁面是否有幫助? (Was this page helpful?)