跳到主要內容
Open In ColabOpen on GitHub

Glue 目錄

AWS Glue Data Catalog 是一個集中化的元數據儲存庫,可讓您管理、存取和共享有關儲存在 AWS 中資料的元數據。它作為資料資產的元數據儲存庫,使各種 AWS 服務和您的應用程式能夠有效率地查詢和連接到它們所需的資料。

當您在 AWS Glue 中定義資料來源、轉換和目標時,有關這些元素的元數據會儲存在 Data Catalog 中。這包括有關資料位置、結構描述定義、執行階段指標等的資訊。它支援各種資料儲存類型,例如 Amazon S3、Amazon RDS、Amazon Redshift 和與 JDBC 相容的外部資料庫。它還與 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR 直接整合,允許這些服務直接存取和查詢資料。

Langchain GlueCatalogLoader 將以與 Pandas dtype 相同的格式取得給定 Glue 資料庫中所有表格的結構描述。

設定

範例

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
API 參考文件:GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"

loader = GlueCatalogLoader(
database=database_name,
profile_name=profile_name,
)

schemas = loader.load()
print(schemas)

具有表格篩選功能的範例

表格篩選功能可讓您選擇性地檢索 Glue 資料庫中特定表格子集的結構描述資訊。您可以使用 table_filter 引數來指定您感興趣的確切表格,而不是載入所有表格的結構描述。

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
API 參考文件:GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"
table_filter = ["table1", "table2", "table3"]

loader = GlueCatalogLoader(
database=database_name, profile_name=profile_name, table_filter=table_filter
)

schemas = loader.load()
print(schemas)

此頁面是否對您有幫助?