跳到主要內容
Open In ColabOpen on GitHub

Azure AI 數據

Azure AI Studio 提供將數據資產上傳到雲端儲存空間,以及從以下來源註冊現有數據資產的功能

  • Microsoft OneLake
  • Azure Blob Storage
  • Azure Data Lake gen 2

相較於 AzureBlobStorageContainerLoaderAzureBlobStorageFileLoader,此方法的優點在於可以無縫處理雲端儲存空間的驗證。您可以使用基於身分識別的資料存取控制或基於憑證(例如 SAS 權杖、帳戶金鑰)。如果使用基於憑證的資料存取,您不需要在程式碼中指定秘密或設定金鑰保存庫,系統會為您處理。

這個筆記本涵蓋了如何從 AI Studio 中的資料資產載入文件物件。

%pip install --upgrade --quiet  azureml-fsspec, azure-ai-generative
from azure.ai.resources.client import AIClient
from azure.identity import DefaultAzureCredential
from langchain_community.document_loaders import AzureAIDataLoader
API 參考文件:AzureAIDataLoader
# Create a connection to your project
client = AIClient(
credential=DefaultAzureCredential(),
subscription_id="<subscription_id>",
resource_group_name="<resource_group_name>",
project_name="<project_name>",
)
# get the latest version of your data asset
data_asset = client.data.get(name="<data_asset_name>", label="latest")
# load the data asset
loader = AzureAIDataLoader(url=data_asset.path)
loader.load()
[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpaa9xl6ch/fake.docx'}, lookup_index=0)]

指定 glob 模式

您也可以指定 glob 模式,以更精細地控制要載入的檔案。在以下範例中,只會載入副檔名為 pdf 的檔案。

loader = AzureAIDataLoader(url=data_asset.path, glob="*.pdf")
loader.load()
[Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': '/var/folders/y6/8_bzdg295ld6s1_97_12m4lr0000gn/T/tmpujbkzf_l/fake.docx'}, lookup_index=0)]

這個頁面有幫助嗎?