Glue 目錄

AWS Glue Data Catalog 是一個集中化的元數據儲存庫，可讓您管理、存取和共享有關儲存在 AWS 中資料的元數據。它作為資料資產的元數據儲存庫，使各種 AWS 服務和您的應用程式能夠有效率地查詢和連接到它們所需的資料。

當您在 AWS Glue 中定義資料來源、轉換和目標時，有關這些元素的元數據會儲存在 Data Catalog 中。這包括有關資料位置、結構描述定義、執行階段指標等的資訊。它支援各種資料儲存類型，例如 Amazon S3、Amazon RDS、Amazon Redshift 和與 JDBC 相容的外部資料庫。它還與 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR 直接整合，允許這些服務直接存取和查詢資料。

Langchain GlueCatalogLoader 將以與 Pandas dtype 相同的格式取得給定 Glue 資料庫中所有表格的結構描述。

設定

請按照說明設定 AWS 帳戶。
安裝 boto3 函式庫：pip install boto3

範例

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader

API 參考文件：GlueCatalogLoader

database_name = "my_database"
profile_name = "my_profile"

loader = GlueCatalogLoader(
    database=database_name,
    profile_name=profile_name,
)

schemas = loader.load()
print(schemas)

具有表格篩選功能的範例

表格篩選功能可讓您選擇性地檢索 Glue 資料庫中特定表格子集的結構描述資訊。您可以使用 table_filter 引數來指定您感興趣的確切表格，而不是載入所有表格的結構描述。

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader

API 參考文件：GlueCatalogLoader

database_name = "my_database"
profile_name = "my_profile"
table_filter = ["table1", "table2", "table3"]

loader = GlueCatalogLoader(
    database=database_name, profile_name=profile_name, table_filter=table_filter
)

schemas = loader.load()
print(schemas)

文件載入器概念指南
文件載入器操作指南

設定​

範例​

具有表格篩選功能的範例​

相關​

此頁面是否對您有幫助？

設定

範例

具有表格篩選功能的範例

相關