跳到主要內容

Athena

Amazon Athena 是一個伺服器less、互動式分析服務,建立在開源框架之上,支援開放表和檔案格式。Athena 提供了一種簡化、靈活的方式來分析PB級別的資料,無論它位於何處。 使用 SQL 或 Python 從 Amazon Simple Storage Service (S3) 數據湖和 30 個數據源(包括本地數據源或其他雲系統)分析數據或構建應用程式。 Athena 建立在開源 TrinoPresto 引擎以及 Apache Spark 框架之上,無需任何配置或配置工作。

此筆記本介紹如何從 AWS Athena 載入文件。

設定

依照說明設定 AWS 帳戶

安裝 Python 函式庫

! pip install boto3

範例

from langchain_community.document_loaders.athena import AthenaLoader
API 參考:AthenaLoader
database_name = "my_database"
s3_output_path = "s3://my_bucket/query_results/"
query = "SELECT * FROM my_table"
profile_name = "my_profile"

loader = AthenaLoader(
query=query,
database=database_name,
s3_output_uri=s3_output_path,
profile_name=profile_name,
)

documents = loader.load()
print(documents)

帶有元數據欄位的範例

database_name = "my_database"
s3_output_path = "s3://my_bucket/query_results/"
query = "SELECT * FROM my_table"
profile_name = "my_profile"
metadata_columns = ["_row", "_created_at"]

loader = AthenaLoader(
query=query,
database=database_name,
s3_output_uri=s3_output_path,
profile_name=profile_name,
metadata_columns=metadata_columns,
)

documents = loader.load()
print(documents)

此頁面是否對您有幫助?