Athena
Amazon Athena 是一個伺服器less、互動式分析服務,建立在開源框架之上,支援開放表和檔案格式。
Athena
提供了一種簡化、靈活的方式來分析PB級別的資料,無論它位於何處。 使用 SQL 或 Python 從 Amazon Simple Storage Service (S3) 數據湖和 30 個數據源(包括本地數據源或其他雲系統)分析數據或構建應用程式。Athena
建立在開源Trino
和Presto
引擎以及Apache Spark
框架之上,無需任何配置或配置工作。
此筆記本介紹如何從 AWS Athena
載入文件。
設定
依照說明設定 AWS 帳戶。
安裝 Python 函式庫
! pip install boto3
範例
from langchain_community.document_loaders.athena import AthenaLoader
API 參考:AthenaLoader
database_name = "my_database"
s3_output_path = "s3://my_bucket/query_results/"
query = "SELECT * FROM my_table"
profile_name = "my_profile"
loader = AthenaLoader(
query=query,
database=database_name,
s3_output_uri=s3_output_path,
profile_name=profile_name,
)
documents = loader.load()
print(documents)
帶有元數據欄位的範例
database_name = "my_database"
s3_output_path = "s3://my_bucket/query_results/"
query = "SELECT * FROM my_table"
profile_name = "my_profile"
metadata_columns = ["_row", "_created_at"]
loader = AthenaLoader(
query=query,
database=database_name,
s3_output_uri=s3_output_path,
profile_name=profile_name,
metadata_columns=metadata_columns,
)
documents = loader.load()
print(documents)