跳到主要內容
Open In ColabOpen on GitHub

Nuclia

Nuclia 自動為您的非結構化資料建立索引,來源可以是任何內部和外部來源,提供最佳化的搜尋結果和生成式答案。它可以處理視訊和音訊轉錄、圖像內容擷取和文件剖析。

Nuclia Understanding API 文件轉換器將文字分割成段落和句子,識別實體,提供文字摘要,並為所有句子產生嵌入。

若要使用 Nuclia Understanding API,您需要擁有 Nuclia 帳戶。您可以在 https://nuclia.cloud 免費建立一個帳戶,然後建立 NUA 金鑰

from langchain_community.document_transformers.nuclia_text_transform import NucliaTextTransformer

%pip install --upgrade --quiet  protobuf
%pip install --upgrade --quiet nucliadb-protos
import os

os.environ["NUCLIA_ZONE"] = "<YOUR_ZONE>" # e.g. europe-1
os.environ["NUCLIA_NUA_KEY"] = "<YOUR_API_KEY>"

若要使用 Nuclia 文件轉換器,您需要將 NucliaUnderstandingAPI 工具例項化,並將 enable_ml 設定為 True

from langchain_community.tools.nuclia import NucliaUnderstandingAPI

nua = NucliaUnderstandingAPI(enable_ml=True)

Nuclia 文件轉換器必須以非同步模式呼叫,因此您需要使用 atransform_documents 方法

import asyncio

from langchain_community.document_transformers.nuclia_text_transform import (
NucliaTextTransformer,
)
from langchain_core.documents import Document


async def process():
documents = [
Document(page_content="<TEXT 1>", metadata={}),
Document(page_content="<TEXT 2>", metadata={}),
Document(page_content="<TEXT 3>", metadata={}),
]
nuclia_transformer = NucliaTextTransformer(nua)
transformed_documents = await nuclia_transformer.atransform_documents(documents)
print(transformed_documents)


asyncio.run(process())

此頁面是否對您有幫助?