Nuclia

Nuclia 自動為您的非結構化資料建立索引，來源可以是任何內部和外部來源，提供最佳化的搜尋結果和生成式答案。它可以處理視訊和音訊轉錄、圖像內容擷取和文件剖析。

Nuclia Understanding API 文件轉換器將文字分割成段落和句子，識別實體，提供文字摘要，並為所有句子產生嵌入。

若要使用 Nuclia Understanding API，您需要擁有 Nuclia 帳戶。您可以在 https://nuclia.cloud 免費建立一個帳戶，然後建立 NUA 金鑰。

from langchain_community.document_transformers.nuclia_text_transform import NucliaTextTransformer

%pip install --upgrade --quiet  protobuf
%pip install --upgrade --quiet  nucliadb-protos

import os

os.environ["NUCLIA_ZONE"] = "<YOUR_ZONE>"  # e.g. europe-1
os.environ["NUCLIA_NUA_KEY"] = "<YOUR_API_KEY>"

若要使用 Nuclia 文件轉換器，您需要將 NucliaUnderstandingAPI 工具例項化，並將 enable_ml 設定為 True

from langchain_community.tools.nuclia import NucliaUnderstandingAPI

nua = NucliaUnderstandingAPI(enable_ml=True)

API 參考：NucliaUnderstandingAPI

Nuclia 文件轉換器必須以非同步模式呼叫，因此您需要使用 atransform_documents 方法

import asyncio

from langchain_community.document_transformers.nuclia_text_transform import (
    NucliaTextTransformer,
)
from langchain_core.documents import Document


async def process():
    documents = [
        Document(page_content="<TEXT 1>", metadata={}),
        Document(page_content="<TEXT 2>", metadata={}),
        Document(page_content="<TEXT 3>", metadata={}),
    ]
    nuclia_transformer = NucliaTextTransformer(nua)
    transformed_documents = await nuclia_transformer.atransform_documents(documents)
    print(transformed_documents)


asyncio.run(process())

API 參考：NucliaTextTransformer | Document

此頁面是否對您有幫助？