Nuclia
Nuclia 自動為您的非結構化資料建立索引,來源可以是任何內部和外部來源,提供最佳化的搜尋結果和生成式答案。它可以處理視訊和音訊轉錄、圖像內容擷取和文件剖析。
Nuclia Understanding API
文件轉換器將文字分割成段落和句子,識別實體,提供文字摘要,並為所有句子產生嵌入。
若要使用 Nuclia Understanding API,您需要擁有 Nuclia 帳戶。您可以在 https://nuclia.cloud 免費建立一個帳戶,然後建立 NUA 金鑰。
from langchain_community.document_transformers.nuclia_text_transform import NucliaTextTransformer
%pip install --upgrade --quiet protobuf
%pip install --upgrade --quiet nucliadb-protos
import os
os.environ["NUCLIA_ZONE"] = "<YOUR_ZONE>" # e.g. europe-1
os.environ["NUCLIA_NUA_KEY"] = "<YOUR_API_KEY>"
若要使用 Nuclia 文件轉換器,您需要將 NucliaUnderstandingAPI
工具例項化,並將 enable_ml
設定為 True
from langchain_community.tools.nuclia import NucliaUnderstandingAPI
nua = NucliaUnderstandingAPI(enable_ml=True)
API 參考:NucliaUnderstandingAPI
Nuclia 文件轉換器必須以非同步模式呼叫,因此您需要使用 atransform_documents
方法
import asyncio
from langchain_community.document_transformers.nuclia_text_transform import (
NucliaTextTransformer,
)
from langchain_core.documents import Document
async def process():
documents = [
Document(page_content="<TEXT 1>", metadata={}),
Document(page_content="<TEXT 2>", metadata={}),
Document(page_content="<TEXT 3>", metadata={}),
]
nuclia_transformer = NucliaTextTransformer(nua)
transformed_documents = await nuclia_transformer.atransform_documents(documents)
print(transformed_documents)
asyncio.run(process())
API 參考:NucliaTextTransformer | Document