跳到主要內容
Open on GitHub

Spark

Apache Spark 是一個用於大規模資料處理的統一分析引擎。它以 Scala、Java、Python 和 R 提供高階 API,以及一個最佳化的引擎,支援用於資料分析的一般計算圖。它還支援一組豐富的更高階工具,包括用於 SQL 和 DataFrames 的 Spark SQL、用於 pandas 工作負載的 pandas API on Spark、用於機器學習的 MLlib、用於圖形處理的 GraphX 以及用於串流處理的 Structured Streaming

文件載入器

PySpark

它從 PySpark DataFrame 載入資料。

請參閱使用範例

from langchain_community.document_loaders import PySparkDataFrameLoader

工具/工具組

Spark SQL 工具組

用於與 Spark SQL 互動的工具組。

請參閱使用範例

from langchain_community.agent_toolkits import SparkSQLToolkit, create_spark_sql_agent
from langchain_community.utilities.spark_sql import SparkSQL

Spark SQL 個別工具

您可以使用 Spark SQL 工具組中的個別工具

  • InfoSparkSQLTool:用於取得 Spark SQL 相關中繼資料的工具
  • ListSparkSQLTool:用於取得表格名稱的工具
  • QueryCheckerTool:使用 LLM 檢查查詢是否正確的工具
  • QuerySparkSQLTool:用於查詢 Spark SQL 的工具
from langchain_community.tools.spark_sql.tool import InfoSparkSQLTool
from langchain_community.tools.spark_sql.tool import ListSparkSQLTool
from langchain_community.tools.spark_sql.tool import QueryCheckerTool
from langchain_community.tools.spark_sql.tool import QuerySparkSQLTool

此頁面是否對您有幫助?