跳至主要內容

Glue Catalog

AWS Glue Data Catalog 是一個集中式的元資料儲存庫,可讓您管理、存取和共用儲存在 AWS 中的資料的元資料。 它可以作為資料資產的元資料儲存,使各種 AWS 服務和您的應用程式能夠有效率地查詢和連接到它們需要的資料。

當您在 AWS Glue 中定義資料來源、轉換和目標時,有關這些元素的元資料會儲存在 Data Catalog 中。 這包括有關資料位置、結構描述定義、運行時指標等的資訊。 它支援各種資料儲存類型,例如 Amazon S3、Amazon RDS、Amazon Redshift 以及與 JDBC 相容的外部資料庫。 它還與 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR 直接整合,允許這些服務直接存取和查詢資料。

Langchain GlueCatalogLoader 將以與 Pandas dtype 相同的格式取得給定 Glue 資料庫中所有表格的結構描述。

設定

範例

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
API 參考:GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"

loader = GlueCatalogLoader(
database=database_name,
profile_name=profile_name,
)

schemas = loader.load()
print(schemas)

帶表格篩選的範例

表格篩選允許您有選擇地檢索 Glue 資料庫中特定表格子集的結構描述資訊。 您可以使用 table_filter 引數來指定您感興趣的特定表格,而不是載入所有表格的結構描述。

from langchain_community.document_loaders.glue_catalog import GlueCatalogLoader
API 參考:GlueCatalogLoader
database_name = "my_database"
profile_name = "my_profile"
table_filter = ["table1", "table2", "table3"]

loader = GlueCatalogLoader(
database=database_name, profile_name=profile_name, table_filter=table_filter
)

schemas = loader.load()
print(schemas)

此頁面是否有幫助?