Nuclia

Nuclia 自動為您的非結構化資料建立索引，來源可以是任何內部和外部來源，並提供最佳化的搜尋結果和生成式答案。它可以處理影片和音訊轉錄、圖片內容擷取和文件剖析。

Nuclia Understanding API 支援處理非結構化資料，包括文字、網頁、文件和音訊/影片內容。它會擷取所有文字（無論它們在哪裡，必要時使用語音轉文字或 OCR），也會擷取中繼資料、嵌入式檔案（例如 PDF 中的圖片）和網路連結。如果啟用機器學習，它會識別實體、提供內容摘要，並為所有句子產生嵌入。

設定

若要使用 Nuclia Understanding API，您需要擁有 Nuclia 帳戶。您可以在 https://nuclia.cloud 免費建立一個帳戶，然後建立 NUA 金鑰。

%pip install --upgrade --quiet  protobuf
%pip install --upgrade --quiet  nucliadb-protos

import os

os.environ["NUCLIA_ZONE"] = "<YOUR_ZONE>"  # e.g. europe-1
os.environ["NUCLIA_NUA_KEY"] = "<YOUR_API_KEY>"

範例

若要使用 Nuclia 文件載入器，您需要例項化 NucliaUnderstandingAPI 工具

from langchain_community.tools.nuclia import NucliaUnderstandingAPI

nua = NucliaUnderstandingAPI(enable_ml=False)

API 參考：NucliaUnderstandingAPI

from langchain_community.document_loaders.nuclia import NucliaLoader

loader = NucliaLoader("./interview.mp4", nua)

API 參考：NucliaLoader

您現在可以呼叫 load 在迴圈中載入文件，直到取得文件。

import time

pending = True
while pending:
    time.sleep(15)
    docs = loader.load()
    if len(docs) > 0:
        print(docs[0].page_content)
        print(docs[0].metadata)
        pending = False
    else:
        print("waiting...")

已檢索資訊

Nuclia 傳回下列資訊

檔案中繼資料
擷取的文字
巢狀文字（例如嵌入圖片中的文字）
段落和句子分割（由其第一個和最後一個字元的位置定義，外加影片或音訊檔案的開始時間和結束時間）
連結
縮圖
嵌入式檔案

注意

產生的檔案（縮圖、擷取的嵌入式檔案等）以權杖形式提供。您可以使用 /processing/download 端點下載它們。

此外，在任何層級，如果屬性超過特定大小，它將被放入可下載的檔案中，並在文件中被檔案指標取代。這將包含 {"file": {"uri": "JWT_TOKEN"}}。規則是，如果訊息的大小大於 1000000 個字元，則最大的部分將移至可下載的檔案。首先，壓縮程序將以向量為目標。如果這還不夠，它將以大型欄位中繼資料為目標，最後它將以擷取的文字為目標。

文件載入器概念指南
文件載入器操作指南

設定​

範例​

已檢索資訊​

相關連結​

此頁面是否對您有幫助？

設定

範例

已檢索資訊

相關連結