跳到主要內容
Open on GitHub

文件載入器

DocumentLoaders 將資料載入到標準的 LangChain Document 格式中。

每個 DocumentLoader 都有其特定的參數,但它們都可以使用相同的 .load 方法調用。一個範例用例示範如下

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API 參考:CSVLoader

網頁

以下文件載入器可讓您載入網頁。

請參閱此指南以開始:如何:載入網頁

文件載入器描述套件/API
Web使用 urllib 和 BeautifulSoup 載入和剖析 HTML 網頁套件
Unstructured使用 Unstructured 載入和剖析網頁套件
RecursiveURL從根網址遞迴抓取所有子連結套件
網站地圖抓取給定網站地圖上的所有頁面套件
FirecrawlAPI 服務,可以本地部署,託管版本有免費額度。API
Docling使用 Docling 載入和剖析網頁套件
Hyperbrowser用於執行和擴展無頭瀏覽器的平台,可用於抓取/爬取任何網站API
AgentQL使用 AgentQL 查詢或自然語言提示,從任何網頁進行網頁互動和結構化資料擷取API

PDF

以下文件載入器可讓您載入 PDF 文件。

請參閱此指南以開始:如何:載入 PDF 檔案

文件載入器描述套件/API
PyPDF使用 `pypdf` 載入和剖析 PDF套件
Unstructured使用 Unstructured 的開放原始碼程式庫載入 PDF套件
Amazon Textract使用 AWS API 載入 PDFAPI
MathPix使用 MathPix 載入 PDF套件
PDFPlumber使用 PDFPlumber 載入 PDF 檔案套件
PyPDFDirectry載入包含 PDF 檔案的目錄套件
PyPDFium2使用 PyPDFium2 載入 PDF 檔案套件
PyMuPDF使用 PyMuPDF 載入 PDF 檔案套件
PyMuPDF4LLM使用 PyMuPDF4LLM 將 PDF 內容載入為 Markdown套件
PDFMiner使用 PDFMiner 載入 PDF 檔案套件
Upstage Document Parse Loader使用 UpstageDocumentParseLoader 載入 PDF 檔案套件
Docling使用 Docling 載入 PDF 檔案套件

雲端供應商

以下文件載入器可讓您從您喜愛的雲端供應商載入文件。

文件載入器描述合作夥伴套件API 參考
AWS S3 目錄從 AWS S3 目錄載入文件S3DirectoryLoader
AWS S3 檔案從 AWS S3 檔案載入文件S3FileLoader
Azure AI Data從 Azure AI 服務載入文件AzureAIDataLoader
Azure Blob Storage 容器從 Azure Blob Storage 容器載入文件AzureBlobStorageContainerLoader
Azure Blob Storage 檔案從 Azure Blob Storage 檔案載入文件AzureBlobStorageFileLoader
Dropbox從 Dropbox 載入文件DropboxLoader
Google Cloud Storage 目錄從 GCS 儲存貯體載入文件GCSDirectoryLoader
Google Cloud Storage 檔案從 GCS 檔案物件載入文件GCSFileLoader
Google Drive從 Google Drive 載入文件 (僅限 Google 文件)GoogleDriveLoader
Huawei OBS 目錄從 Huawei Object Storage Service 目錄載入文件OBSDirectoryLoader
Huawei OBS 檔案從 Huawei Object Storage Service 檔案載入文件OBSFileLoader
Microsoft OneDrive從 Microsoft OneDrive 載入文件OneDriveLoader
Microsoft SharePoint從 Microsoft SharePoint 載入文件SharePointLoader
Tencent COS 目錄從 Tencent Cloud Object Storage 目錄載入文件TencentCOSDirectoryLoader
Tencent COS 檔案從 Tencent Cloud Object Storage 檔案載入文件TencentCOSFileLoader

社群平台

以下文件載入器可讓您從不同的社群媒體平台載入文件。

文件載入器API 參考
TwitterTwitterTweetLoader
RedditRedditPostsLoader

訊息服務

以下文件載入器可讓您從不同的訊息平台載入資料。

文件載入器API 參考
TelegramTelegramChatFileLoader
WhatsAppWhatsAppChatLoader
DiscordDiscordChatLoader
Facebook ChatFacebookChatLoader
MastodonMastodonTootsLoader

生產力工具

以下文件載入器可讓您從常用的生產力工具載入資料。

文件載入器API 參考
FigmaFigmaFileLoader
NotionNotionDirectoryLoader
SlackSlackDirectoryLoader
QuipQuipLoader
TrelloTrelloLoader
RoamRoamLoader
GitHubGithubFileLoader

常見檔案類型

以下文件載入器可讓您從常見的資料格式載入資料。

文件載入器資料類型
CSVLoaderCSV 檔案
DirectoryLoader指定目錄中的所有檔案
Unstructured多種檔案類型 (請參閱 https://docs.unstructured.io/platform/supported-file-types)
JSONLoaderJSON 檔案
BSHTMLLoaderHTML 檔案
DoclingLoader各種檔案類型 (請參閱 https://ds4sd.github.io/docling/)

所有文件載入器

名稱描述
acreomacreom 是一個以開發人員為先的知識庫,任務在本地標記上執行...
AgentQLLoaderAgentQL 的文件載入器提供從...擷取結構化資料的功能
AirbyteLoaderAirbyte 是一個資料整合平台,適用於來自 API 的 ELT 管道,d...
Airtable* 在此處取得您的 API 金鑰。
Alibaba Cloud MaxComputeAlibaba Cloud MaxCompute (先前稱為 ODPS) 是一種通用用途...
Amazon TextractAmazon Textract 是一種機器學習 (ML) 服務,可自動...
Apify DatasetApify Dataset 是一種可擴展的僅附加儲存空間,具有循序存取...
ArcGIS此筆記本示範了 langchaincommunity.document... 的使用方式
ArxivLoaderarXiv 是一個開放存取的檔案庫,收錄了 t... 中 200 萬篇學術文章
AssemblyAI 音訊轉錄AssemblyAIAudioTranscriptLoader 允許轉錄音訊檔案...
AstraDBDataStax Astra DB 是一個以 Ca... 為基礎建構的無伺服器向量功能資料庫
Async ChromiumChromium 是 Playwright 支援的瀏覽器之一,Playwright 是一個程式庫,用...
AsyncHtmlAsyncHtmlLoader 同時從 URL 清單載入原始 HTML。
AthenaAmazon Athena 是一種無伺服器、互動式分析服務,建構於
AWS S3 目錄Amazon Simple Storage Service (Amazon S3) 是一種物件儲存服務
AWS S3 檔案Amazon Simple Storage Service (Amazon S3) 是一種物件儲存服務...
AZLyricsAZLyrics 是一個龐大、合法且每天都在成長的歌詞集合。
Azure AI DataAzure AI Studio 提供將資料資產上傳到雲端的能力...
Azure Blob Storage 容器Azure Blob Storage 是 Microsoft 針對 clo... 的物件儲存解決方案
Azure Blob Storage 檔案Azure Files 在雲端中提供完全受控的檔案共用,這些檔案可...
Azure AI 文件智慧Azure AI 文件智慧 (先前稱為 Azure Form Recogniz...
BibTeXBibTeX 是一種檔案格式和參考文獻管理系統,通常用於...
BiliBiliBilibili 是中國最受歡迎的長篇影片網站之一。
BlackboardBlackboard Learn (先前稱為 Blackboard Learning Management Syste...
區塊鏈總覽
Boxlangchain-box 套件提供兩種方法來索引您 fr... 的檔案
Brave SearchBrave Search 是由 Brave Software 開發的搜尋引擎。
BrowserbaseBrowserbase 是一個開發人員平台,可可靠地執行、管理和監控...
BrowserlessBrowserless 是一項服務,可讓您執行無頭 Chrome 執行個體...
BSHTMLLoader此筆記本提供了快速總覽,以開始使用 Beau...
CassandraCassandra 是一種 NoSQL、面向列、高度可擴展且高度可用的...
ChatGPT DataChatGPT 是 OpenAI 開發的人工智慧 (AI) 聊天機器人...
College ConfidentialCollege Confidential 提供 3,800 多所學院和大學的資訊...
並行載入器運作方式與 GenericLoader 相同,但為選擇同時執行的使用者提供並行處理能力...
ConfluenceConfluence 是一個 wiki 協作平台,可儲存和組織...
CoNLL-UCoNLL-U 是 CoNLL-X 格式的修訂版本。註釋已編碼...
複製貼上此筆記本涵蓋如何從您...載入文件物件
CouchbaseCouchbase 是一個屢獲殊榮的分散式 NoSQL 雲端資料庫,d...
CSV逗號分隔值 (CSV) 檔案是一種分隔文字檔案,使用...
Cube Semantic Layer此筆記本示範了檢索 Cube 資料模型...的過程
Datadog LogsDatadog 是一個用於雲端規模應用程式的監控和分析平台...
Dedoc此範例示範了 Dedoc 與 LangChain 結合使用的情況...
DiffbotDiffbot 是一套以 ML 為基礎的產品,可輕鬆建構...
DiscordDiscord 是一個 VoIP 和即時訊息社群平台。使用者必須...
DoclingDocling 將 PDF、DOCX、PPTX、HTML 和其他格式剖析為豐富的 u...
Docugami此筆記本涵蓋如何從 Docugami 載入文件。它提供了...
DocusaurusDocusaurus 是一個靜態網站產生器,提供開箱即用的 d...
DropboxDropbox 是一項檔案託管服務,帶來了所有傳統的...
DuckDBDuckDB 是一個進程內 SQL OLAP 資料庫管理系統。
電子郵件此筆記本展示如何載入電子郵件 (.eml) 或 Microsoft Outlook (.m...
EPubEPUB 是一種電子書檔案格式,使用 ".epub" 檔案副檔名。 T...
EtherscanEtherscan 是領先的區塊鏈瀏覽器、搜尋、API 和分析...
EverNoteEverNote 旨在用於封存和建立筆記,在筆記中照片...
example_data
Facebook ChatMessenger) 是一個美國專有的即時訊息應用程式和平台...
FaunaFauna 是一個文件資料庫。
FigmaFigma 是一個用於介面設計的協作網路應用程式。
FireCrawlFireCrawl 爬取任何網站並將其轉換為 LLM 就緒資料。它爬取...
GeopandasGeopandas 是一個開放原始碼專案,旨在讓處理地理空間資料 d... 更輕鬆
GitGit 是一個分散式版本控制系統,可追蹤 an... 中的變更
GitBookGitBook 是一個現代文件平台,團隊可以在其中記錄 e...
GitHub此筆記本展示了如何載入問題和提取請求 (PR) ...
Glue CatalogAWS Glue Data Catalog 是一個集中式中繼資料儲存庫,可...
Google AlloyDB for PostgreSQLAlloyDB 是一種完全受控的關係型資料庫服務,提供 hi...
Google BigQueryGoogle BigQuery 是一個無伺服器且符合成本效益的企業資料倉庫...
Google BigtableBigtable 是一個鍵值和寬列儲存庫,非常適合快速存取...
Google Cloud SQL for SQL serverCloud SQL 是一種完全受控的關係型資料庫服務,提供 ...
Google Cloud SQL for MySQLCloud SQL 是一種完全受控的關係型資料庫服務,提供 ...
Google Cloud SQL for PostgreSQLCloud SQL for PostgreSQL 是一項完全受管理的資料庫服務,可協助...
Google Cloud Storage 目錄Google Cloud Storage 是一項用於儲存非結構化資料的受管理服務...
Google Cloud Storage 檔案Google Cloud Storage 是一項用於儲存非結構化資料的受管理服務...
Google Firestore in Datastore ModeFirestore in Datastore Mode 是一個為 au... 建構的 NoSQL 文件資料庫
Google DriveGoogle Drive 是一項由...開發的檔案儲存和同步服務
Google El Carro for Oracle WorkloadsGoogle El Carro Oracle Operator
Google Firestore (原生模式)Firestore 是一個無伺服器、面向文件的資料庫,可擴展到 m...
Google Memorystore for RedisGoogle Memorystore for Redis 是一項完全受管理的服務,功能強大...
Google SpannerSpanner 是一個高度可擴展的資料庫,結合了無限的可擴展性...
Google Speech-to-Text 音訊轉錄SpeechToTextLoader 允許使用 Goog... 轉錄音訊檔案
GrobidGROBID 是一個機器學習程式庫,用於擷取、剖析和重新...
GutenbergProject Gutenberg 是一個免費電子書線上圖書館。
Hacker NewsHacker News (有時縮寫為 HN) 是一個社群新聞網站,適用於...
Huawei OBS 目錄以下程式碼示範如何從 Huawei O... 載入物件
Huawei OBS 檔案以下程式碼示範如何從 Huawei... 載入物件
HuggingFace 資料集Hugging Face Hub 是超過 5,000 個資料集的所在地,涵蓋超過 100 ...
HyperbrowserLoaderHyperbrowser 是一個用於執行和擴展無頭瀏覽器的平台....
iFixitiFixit 是網路上最大的開放修復社群。該網站包含...
影像這涵蓋了如何將影像載入到我們可以使用的文件格式中...
影像標題依預設,載入器會利用預先訓練的 Salesforce BLIP 影像...
IMSDbIMSDb 是網際網路電影劇本資料庫。
IuguIugu 是一家巴西服務和軟體即服務 (SaaS) 公司...
JoplinJoplin 是一個開放原始碼筆記應用程式。捕捉您的想法和 s...
JSONLoader此筆記本提供了快速總覽,以開始使用 JSON...
Jupyter NotebookJupyter Notebook (先前稱為 IPython Notebook) 是一個以網路為基礎的互動式...
Kinetica此筆記本介紹如何從 Kinetica 載入文件
lakeFSlakeFS 提供資料湖的可擴展版本控制,並使用...
LangSmith此筆記本提供了快速總覽,以開始使用 ...
LarkSuite (FeiShu)LarkSuite 是 ByteDa... 開發的企業協作平台
LLM Sherpa此筆記本涵蓋如何使用 LLM Sherpa 載入多種檔案類型...
MastodonMastodon 是一個聯合社群媒體和社群網路服務。
MathPixPDFLoader靈感來自 Daniel Gross 在這裡的程式碼片段 //gist.github.com/danielgross/...
MediaWiki DumpMediaWiki XML Dump 包含 wiki 的內容 (包含所有 wiki 頁面...)
合併文件載入器合併從一組指定資料載入器傳回的文件。
mhtmlMHTML 用於電子郵件和封存網頁。MH...
Microsoft ExcelUnstructuredExcelLoader 用於載入 Microsoft Excel 檔案。 Th...
Microsoft OneDriveMicrosoft OneDrive (先前稱為 SkyDrive) 是一項檔案託管服務,oper...
Microsoft OneNote此筆記本涵蓋如何從 OneNote 載入文件。
Microsoft PowerPointMicrosoft PowerPoint 是 Microsoft 的簡報程式。
Microsoft SharePointMicrosoft SharePoint 是一個以網站為基礎的協作系統,使用...
Microsoft WordMicrosoft Word 是 Microsoft 開發的文書處理器。
Near 區塊鏈總覽
Modern TreasuryModern Treasury 簡化了複雜的支付操作。它是一個統一的...
MongoDBMongoDB 是一個 NoSQL、面向文件的資料庫,支援類似 JSON 的...
Needle 文件載入器Needle 讓您輕鬆建立 RAG 管道,只需最少的力氣。
新聞網址這涵蓋了如何從 URL 列表將 HTML 新聞文章載入到...
Notion DB 2/2Notion 是一個協作平台,具有修改過的 Markdown 支援...
NucliaNuclia 自動為您的非結構化資料建立索引,從任何內部...
ObsidianObsidian 是一個強大且可擴展的知識庫
開放文件格式 (ODT)辦公應用程式開放文件格式 (ODF),也稱為...
開放城市資料Socrata 為城市開放資料提供 API。
Oracle Autonomous DatabaseOracle Autonomous Database 是一個雲端資料庫,使用機器學習...
Oracle AI Vector Search:文件處理Oracle AI Vector Search 專為人工智慧 (AI) 而設計...
Org-modeOrg Mode 文件是一種文件編輯、格式化和組織...
Pandas DataFrame這個筆記本說明如何從 pandas DataFrame 載入資料。
剖析器
PDFMinerLoader這個筆記本快速概述了如何開始使用 PDFM...
PDFPlumber與 PyMuPDF 類似,輸出文件包含關於...
Pebblo 安全文件載入器Pebblo 使開發人員能夠安全地載入資料並推廣他們的 Gen A...
Polars DataFrame這個筆記本說明如何從 polars DataFrame 載入資料。
Dell PowerScale 文件載入器Dell PowerScale 是一個企業級橫向擴展儲存系統,託管...
Psychic這個筆記本涵蓋如何從 Psychic 載入文件。請參閱此處以了解...
PubMedPubMed® 由美國國家生物技術資訊中心 (National Center for Biotechnology Information, Nationa)...
PullMdLoader用於將 URL 轉換為 Markdown 的載入器,使用 pull.md 服務。
PyMuPDFLoader這個筆記本快速概述了如何開始使用 PyMu...
PyMuPDF4LLM這個筆記本快速概述了如何開始使用 PyMu...
PyPDFDirectoryLoader這個載入器從特定目錄載入所有 PDF 檔案。
PyPDFium2Loader這個筆記本快速概述了如何開始使用 PyPD...
PyPDFLoader這個筆記本快速概述了如何開始使用 PyPD...
PySpark這個筆記本說明如何從 PySpark DataFrame 載入資料。
QuipQuip 是一個行動和網路協作生產力軟體套件...
ReadTheDocs 文件Read the Docs 是一個開源免費軟體文件託管...
遞迴網址RecursiveUrlLoader 讓您可以遞迴地抓取所有子連結...
RedditReddit 是一個美國社交新聞聚合、內容評級和討論...
RoamROAM 是一個用於網絡化思考的筆記工具,旨在創建...
RocksetRockset 是一個即時分析資料庫,可以在...
rspace這個筆記本展示如何使用 RSpace 文件載入器導入 r...
RSS Feed這涵蓋了如何從 RSS feed URL 列表載入 HTML 新聞文章...
RSTreStructured Text (RST) 檔案是一種用於文字資料的檔案格式,用於...
scrapflyScrapFly
ScrapingAnt總覽
網站地圖從 WebBaseLoader 擴展而來,SitemapLoader 從 ... 載入網站地圖
SlackSlack 是一個即時通訊程式。
Snowflake這個筆記本說明如何從 Snowflake 載入文件
原始碼這個筆記本涵蓋如何使用特殊應用程式載入原始碼檔案...
SpiderSpider 是最快且最經濟實惠的爬蟲和抓取工具,可以...
SpreedlySpreedly 是一項服務,可讓您安全地儲存信用卡...
StripeStripe 是一家愛爾蘭裔美國金融服務和軟體即服務...
字幕SubRip 檔案格式在 Matroska 多媒體容器上描述...
SurrealDBSurrealDB 是一個端到端雲原生資料庫,專為現代...
TelegramTelegram Messenger 是一個全球可訪問的免費增值、跨平台...
Tencent COS 目錄騰訊雲物件儲存 (COS) 是一個分散式
Tencent COS 檔案騰訊雲物件儲存 (COS) 是一個分散式
TensorFlow DatasetsTensorFlow Datasets 是一個準備好使用的資料集集合,包含 Te...
TiDBTiDB Cloud 是一個全面的資料庫即服務 (DBaaS) 解決方案...
2Markdown2markdown 服務將網站內容轉換為結構化 markdown...
TOMLTOML 是一種用於設定檔的檔案格式。它旨在成為 e...
TrelloTrello 是一個基於網路的專案管理和協作工具,可以...
TSVTab-separated values (TSV) 檔案是一種簡單、基於文字的檔案格式...
TwitterTwitter 是一個線上社群媒體和社群網路服務。
Unstructured這個筆記本涵蓋如何使用 Unstructured 文件載入器載入 ...
UnstructuredMarkdownLoader這個筆記本快速概述了如何開始使用 Unst...
UnstructuredPDFLoader總覽
Upstage這個筆記本涵蓋如何開始使用 UpstageDocumentParseLoad...
網址這個範例涵蓋如何從 URL 列表載入 HTML 文件,以...
Vsdxvisio 檔案(副檔名為 .vsdx)與 Microsoft Visio 關聯...
WeatherOpenWeatherMap 是一個開源天氣服務提供者
WebBaseLoader這涵蓋如何使用 WebBaseLoader 從 HTML 網頁載入所有文字...
WhatsApp ChatWhatsApp(也稱為 WhatsApp Messenger)是一個免費軟體、跨平台...
WikipediaWikipedia 是一個多語言免費線上百科全書,由...編寫和維護
UnstructuredXMLLoader這個筆記本快速概述了如何開始使用 Unst...
Xorbits Pandas DataFrame這個筆記本說明如何從 xorbits.pandas DataFrame 載入資料...
YouTube 音訊在 YouTube 影片上建立聊天或 QA 應用程式是一個高度關注的主題...
YouTube 轉錄YouTube 是一個線上影片分享和社群媒體平台,由 ... 創建
YoutubeLoaderDL用於 Youtube 的載入器,利用 yt-dlp 函式庫。
YuqueYuque 是一個專業的雲端知識庫,用於團隊協作...
ZeroxPDFLoader總覽

此頁面是否對您有幫助?