Glue 目錄
AWS Glue Data Catalog 是一個集中化的元數據儲存庫,可讓您管理、存取和共享有關儲存在 AWS 中資料的元數據。它作為資料資產的元數據儲存庫,使各種 AWS 服務和您的應用程式能夠有效率地查詢和連接到它們所需的資料。
當您在 AWS Glue 中定義資料來源、轉換和目標時,有關這些元素的元數據會儲存在 Data Catalog 中。這包括有關資料位置、結構描述定義、執行階段指標等的資訊。它支援各種資料儲存類型,例如 Amazon S3、Amazon RDS、Amazon Redshift 和與 JDBC 相容的外部資料庫。它還與 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR 直接整合,允許這些服務直接存取和查詢資料。
Langchain GlueCatalogLoader 將以與 Pandas dtype 相同的格式取得給定 Glue 資料庫中所有表格的結構描述。
設定
- 請按照說明設定 AWS 帳戶。
- 安裝 boto3 函式庫:
pip install boto3
範例
from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
API 參考文件:GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"
loader = GlueCatalogLoader(
database=database_name,
profile_name=profile_name,
)
schemas = loader.load()
print(schemas)
具有表格篩選功能的範例
表格篩選功能可讓您選擇性地檢索 Glue 資料庫中特定表格子集的結構描述資訊。您可以使用 table_filter
引數來指定您感興趣的確切表格,而不是載入所有表格的結構描述。
from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
API 參考文件:GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"
table_filter = ["table1", "table2", "table3"]
loader = GlueCatalogLoader(
database=database_name, profile_name=profile_name, table_filter=table_filter
)
schemas = loader.load()
print(schemas)