文件載入器
DocumentLoaders 將資料載入到標準的 LangChain Document 格式中。
每個 DocumentLoader 都有其特定的參數,但它們都可以使用相同的 .load 方法調用。一個範例用例示範如下
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API 參考:CSVLoader
網頁
以下文件載入器可讓您載入網頁。
請參閱此指南以開始:如何:載入網頁。
文件載入器 | 描述 | 套件/API |
---|---|---|
Web | 使用 urllib 和 BeautifulSoup 載入和剖析 HTML 網頁 | 套件 |
Unstructured | 使用 Unstructured 載入和剖析網頁 | 套件 |
RecursiveURL | 從根網址遞迴抓取所有子連結 | 套件 |
網站地圖 | 抓取給定網站地圖上的所有頁面 | 套件 |
Firecrawl | API 服務,可以本地部署,託管版本有免費額度。 | API |
Docling | 使用 Docling 載入和剖析網頁 | 套件 |
Hyperbrowser | 用於執行和擴展無頭瀏覽器的平台,可用於抓取/爬取任何網站 | API |
AgentQL | 使用 AgentQL 查詢或自然語言提示,從任何網頁進行網頁互動和結構化資料擷取 | API |
PDF
以下文件載入器可讓您載入 PDF 文件。
請參閱此指南以開始:如何:載入 PDF 檔案。
文件載入器 | 描述 | 套件/API |
---|---|---|
PyPDF | 使用 `pypdf` 載入和剖析 PDF | 套件 |
Unstructured | 使用 Unstructured 的開放原始碼程式庫載入 PDF | 套件 |
Amazon Textract | 使用 AWS API 載入 PDF | API |
MathPix | 使用 MathPix 載入 PDF | 套件 |
PDFPlumber | 使用 PDFPlumber 載入 PDF 檔案 | 套件 |
PyPDFDirectry | 載入包含 PDF 檔案的目錄 | 套件 |
PyPDFium2 | 使用 PyPDFium2 載入 PDF 檔案 | 套件 |
PyMuPDF | 使用 PyMuPDF 載入 PDF 檔案 | 套件 |
PyMuPDF4LLM | 使用 PyMuPDF4LLM 將 PDF 內容載入為 Markdown | 套件 |
PDFMiner | 使用 PDFMiner 載入 PDF 檔案 | 套件 |
Upstage Document Parse Loader | 使用 UpstageDocumentParseLoader 載入 PDF 檔案 | 套件 |
Docling | 使用 Docling 載入 PDF 檔案 | 套件 |
雲端供應商
以下文件載入器可讓您從您喜愛的雲端供應商載入文件。
文件載入器 | 描述 | 合作夥伴套件 | API 參考 |
---|---|---|---|
AWS S3 目錄 | 從 AWS S3 目錄載入文件 | ❌ | S3DirectoryLoader |
AWS S3 檔案 | 從 AWS S3 檔案載入文件 | ❌ | S3FileLoader |
Azure AI Data | 從 Azure AI 服務載入文件 | ❌ | AzureAIDataLoader |
Azure Blob Storage 容器 | 從 Azure Blob Storage 容器載入文件 | ❌ | AzureBlobStorageContainerLoader |
Azure Blob Storage 檔案 | 從 Azure Blob Storage 檔案載入文件 | ❌ | AzureBlobStorageFileLoader |
Dropbox | 從 Dropbox 載入文件 | ❌ | DropboxLoader |
Google Cloud Storage 目錄 | 從 GCS 儲存貯體載入文件 | ✅ | GCSDirectoryLoader |
Google Cloud Storage 檔案 | 從 GCS 檔案物件載入文件 | ✅ | GCSFileLoader |
Google Drive | 從 Google Drive 載入文件 (僅限 Google 文件) | ✅ | GoogleDriveLoader |
Huawei OBS 目錄 | 從 Huawei Object Storage Service 目錄載入文件 | ❌ | OBSDirectoryLoader |
Huawei OBS 檔案 | 從 Huawei Object Storage Service 檔案載入文件 | ❌ | OBSFileLoader |
Microsoft OneDrive | 從 Microsoft OneDrive 載入文件 | ❌ | OneDriveLoader |
Microsoft SharePoint | 從 Microsoft SharePoint 載入文件 | ❌ | SharePointLoader |
Tencent COS 目錄 | 從 Tencent Cloud Object Storage 目錄載入文件 | ❌ | TencentCOSDirectoryLoader |
Tencent COS 檔案 | 從 Tencent Cloud Object Storage 檔案載入文件 | ❌ | TencentCOSFileLoader |
社群平台
以下文件載入器可讓您從不同的社群媒體平台載入文件。
文件載入器 | API 參考 |
---|---|
TwitterTweetLoader | |
RedditPostsLoader |
訊息服務
以下文件載入器可讓您從不同的訊息平台載入資料。
文件載入器 | API 參考 |
---|---|
Telegram | TelegramChatFileLoader |
WhatsAppChatLoader | |
Discord | DiscordChatLoader |
Facebook Chat | FacebookChatLoader |
Mastodon | MastodonTootsLoader |
生產力工具
以下文件載入器可讓您從常用的生產力工具載入資料。
文件載入器 | API 參考 |
---|---|
Figma | FigmaFileLoader |
Notion | NotionDirectoryLoader |
Slack | SlackDirectoryLoader |
Quip | QuipLoader |
Trello | TrelloLoader |
Roam | RoamLoader |
GitHub | GithubFileLoader |
常見檔案類型
以下文件載入器可讓您從常見的資料格式載入資料。
文件載入器 | 資料類型 |
---|---|
CSVLoader | CSV 檔案 |
DirectoryLoader | 指定目錄中的所有檔案 |
Unstructured | 多種檔案類型 (請參閱 https://docs.unstructured.io/platform/supported-file-types) |
JSONLoader | JSON 檔案 |
BSHTMLLoader | HTML 檔案 |
DoclingLoader | 各種檔案類型 (請參閱 https://ds4sd.github.io/docling/) |
所有文件載入器
名稱 | 描述 |
---|---|
acreom | acreom 是一個以開發人員為先的知識庫,任務在本地標記上執行... |
AgentQLLoader | AgentQL 的文件載入器提供從...擷取結構化資料的功能 |
AirbyteLoader | Airbyte 是一個資料整合平台,適用於來自 API 的 ELT 管道,d... |
Airtable | * 在此處取得您的 API 金鑰。 |
Alibaba Cloud MaxCompute | Alibaba Cloud MaxCompute (先前稱為 ODPS) 是一種通用用途... |
Amazon Textract | Amazon Textract 是一種機器學習 (ML) 服務,可自動... |
Apify Dataset | Apify Dataset 是一種可擴展的僅附加儲存空間,具有循序存取... |
ArcGIS | 此筆記本示範了 langchaincommunity.document... 的使用方式 |
ArxivLoader | arXiv 是一個開放存取的檔案庫,收錄了 t... 中 200 萬篇學術文章 |
AssemblyAI 音訊轉錄 | AssemblyAIAudioTranscriptLoader 允許轉錄音訊檔案... |
AstraDB | DataStax Astra DB 是一個以 Ca... 為基礎建構的無伺服器向量功能資料庫 |
Async Chromium | Chromium 是 Playwright 支援的瀏覽器之一,Playwright 是一個程式庫,用... |
AsyncHtml | AsyncHtmlLoader 同時從 URL 清單載入原始 HTML。 |
Athena | Amazon Athena 是一種無伺服器、互動式分析服務,建構於 |
AWS S3 目錄 | Amazon Simple Storage Service (Amazon S3) 是一種物件儲存服務 |
AWS S3 檔案 | Amazon Simple Storage Service (Amazon S3) 是一種物件儲存服務... |
AZLyrics | AZLyrics 是一個龐大、合法且每天都在成長的歌詞集合。 |
Azure AI Data | Azure AI Studio 提供將資料資產上傳到雲端的能力... |
Azure Blob Storage 容器 | Azure Blob Storage 是 Microsoft 針對 clo... 的物件儲存解決方案 |
Azure Blob Storage 檔案 | Azure Files 在雲端中提供完全受控的檔案共用,這些檔案可... |
Azure AI 文件智慧 | Azure AI 文件智慧 (先前稱為 Azure Form Recogniz... |
BibTeX | BibTeX 是一種檔案格式和參考文獻管理系統,通常用於... |
BiliBili | Bilibili 是中國最受歡迎的長篇影片網站之一。 |
Blackboard | Blackboard Learn (先前稱為 Blackboard Learning Management Syste... |
區塊鏈 | 總覽 |
Box | langchain-box 套件提供兩種方法來索引您 fr... 的檔案 |
Brave Search | Brave Search 是由 Brave Software 開發的搜尋引擎。 |
Browserbase | Browserbase 是一個開發人員平台,可可靠地執行、管理和監控... |
Browserless | Browserless 是一項服務,可讓您執行無頭 Chrome 執行個體... |
BSHTMLLoader | 此筆記本提供了快速總覽,以開始使用 Beau... |
Cassandra | Cassandra 是一種 NoSQL、面向列、高度可擴展且高度可用的... |
ChatGPT Data | ChatGPT 是 OpenAI 開發的人工智慧 (AI) 聊天機器人... |
College Confidential | College Confidential 提供 3,800 多所學院和大學的資訊... |
並行載入器 | 運作方式與 GenericLoader 相同,但為選擇同時執行的使用者提供並行處理能力... |
Confluence | Confluence 是一個 wiki 協作平台,可儲存和組織... |
CoNLL-U | CoNLL-U 是 CoNLL-X 格式的修訂版本。註釋已編碼... |
複製貼上 | 此筆記本涵蓋如何從您...載入文件物件 |
Couchbase | Couchbase 是一個屢獲殊榮的分散式 NoSQL 雲端資料庫,d... |
CSV | 逗號分隔值 (CSV) 檔案是一種分隔文字檔案,使用... |
Cube Semantic Layer | 此筆記本示範了檢索 Cube 資料模型...的過程 |
Datadog Logs | Datadog 是一個用於雲端規模應用程式的監控和分析平台... |
Dedoc | 此範例示範了 Dedoc 與 LangChain 結合使用的情況... |
Diffbot | Diffbot 是一套以 ML 為基礎的產品,可輕鬆建構... |
Discord | Discord 是一個 VoIP 和即時訊息社群平台。使用者必須... |
Docling | Docling 將 PDF、DOCX、PPTX、HTML 和其他格式剖析為豐富的 u... |
Docugami | 此筆記本涵蓋如何從 Docugami 載入文件。它提供了... |
Docusaurus | Docusaurus 是一個靜態網站產生器,提供開箱即用的 d... |
Dropbox | Dropbox 是一項檔案託管服務,帶來了所有傳統的... |
DuckDB | DuckDB 是一個進程內 SQL OLAP 資料庫管理系統。 |
電子郵件 | 此筆記本展示如何載入電子郵件 (.eml) 或 Microsoft Outlook (.m... |
EPub | EPUB 是一種電子書檔案格式,使用 ".epub" 檔案副檔名。 T... |
Etherscan | Etherscan 是領先的區塊鏈瀏覽器、搜尋、API 和分析... |
EverNote | EverNote 旨在用於封存和建立筆記,在筆記中照片... |
example_data | |
Facebook Chat | Messenger) 是一個美國專有的即時訊息應用程式和平台... |
Fauna | Fauna 是一個文件資料庫。 |
Figma | Figma 是一個用於介面設計的協作網路應用程式。 |
FireCrawl | FireCrawl 爬取任何網站並將其轉換為 LLM 就緒資料。它爬取... |
Geopandas | Geopandas 是一個開放原始碼專案,旨在讓處理地理空間資料 d... 更輕鬆 |
Git | Git 是一個分散式版本控制系統,可追蹤 an... 中的變更 |
GitBook | GitBook 是一個現代文件平台,團隊可以在其中記錄 e... |
GitHub | 此筆記本展示了如何載入問題和提取請求 (PR) ... |
Glue Catalog | AWS Glue Data Catalog 是一個集中式中繼資料儲存庫,可... |
Google AlloyDB for PostgreSQL | AlloyDB 是一種完全受控的關係型資料庫服務,提供 hi... |
Google BigQuery | Google BigQuery 是一個無伺服器且符合成本效益的企業資料倉庫... |
Google Bigtable | Bigtable 是一個鍵值和寬列儲存庫,非常適合快速存取... |
Google Cloud SQL for SQL server | Cloud SQL 是一種完全受控的關係型資料庫服務,提供 ... |
Google Cloud SQL for MySQL | Cloud SQL 是一種完全受控的關係型資料庫服務,提供 ... |
Google Cloud SQL for PostgreSQL | Cloud SQL for PostgreSQL 是一項完全受管理的資料庫服務,可協助... |
Google Cloud Storage 目錄 | Google Cloud Storage 是一項用於儲存非結構化資料的受管理服務... |
Google Cloud Storage 檔案 | Google Cloud Storage 是一項用於儲存非結構化資料的受管理服務... |
Google Firestore in Datastore Mode | Firestore in Datastore Mode 是一個為 au... 建構的 NoSQL 文件資料庫 |
Google Drive | Google Drive 是一項由...開發的檔案儲存和同步服務 |
Google El Carro for Oracle Workloads | Google El Carro Oracle Operator |
Google Firestore (原生模式) | Firestore 是一個無伺服器、面向文件的資料庫,可擴展到 m... |
Google Memorystore for Redis | Google Memorystore for Redis 是一項完全受管理的服務,功能強大... |
Google Spanner | Spanner 是一個高度可擴展的資料庫,結合了無限的可擴展性... |
Google Speech-to-Text 音訊轉錄 | SpeechToTextLoader 允許使用 Goog... 轉錄音訊檔案 |
Grobid | GROBID 是一個機器學習程式庫,用於擷取、剖析和重新... |
Gutenberg | Project Gutenberg 是一個免費電子書線上圖書館。 |
Hacker News | Hacker News (有時縮寫為 HN) 是一個社群新聞網站,適用於... |
Huawei OBS 目錄 | 以下程式碼示範如何從 Huawei O... 載入物件 |
Huawei OBS 檔案 | 以下程式碼示範如何從 Huawei... 載入物件 |
HuggingFace 資料集 | Hugging Face Hub 是超過 5,000 個資料集的所在地,涵蓋超過 100 ... |
HyperbrowserLoader | Hyperbrowser 是一個用於執行和擴展無頭瀏覽器的平台.... |
iFixit | iFixit 是網路上最大的開放修復社群。該網站包含... |
影像 | 這涵蓋了如何將影像載入到我們可以使用的文件格式中... |
影像標題 | 依預設,載入器會利用預先訓練的 Salesforce BLIP 影像... |
IMSDb | IMSDb 是網際網路電影劇本資料庫。 |
Iugu | Iugu 是一家巴西服務和軟體即服務 (SaaS) 公司... |
Joplin | Joplin 是一個開放原始碼筆記應用程式。捕捉您的想法和 s... |
JSONLoader | 此筆記本提供了快速總覽,以開始使用 JSON... |
Jupyter Notebook | Jupyter Notebook (先前稱為 IPython Notebook) 是一個以網路為基礎的互動式... |
Kinetica | 此筆記本介紹如何從 Kinetica 載入文件 |
lakeFS | lakeFS 提供資料湖的可擴展版本控制,並使用... |
LangSmith | 此筆記本提供了快速總覽,以開始使用 ... |
LarkSuite (FeiShu) | LarkSuite 是 ByteDa... 開發的企業協作平台 |
LLM Sherpa | 此筆記本涵蓋如何使用 LLM Sherpa 載入多種檔案類型... |
Mastodon | Mastodon 是一個聯合社群媒體和社群網路服務。 |
MathPixPDFLoader | 靈感來自 Daniel Gross 在這裡的程式碼片段 //gist.github.com/danielgross/... |
MediaWiki Dump | MediaWiki XML Dump 包含 wiki 的內容 (包含所有 wiki 頁面...) |
合併文件載入器 | 合併從一組指定資料載入器傳回的文件。 |
mhtml | MHTML 用於電子郵件和封存網頁。MH... |
Microsoft Excel | UnstructuredExcelLoader 用於載入 Microsoft Excel 檔案。 Th... |
Microsoft OneDrive | Microsoft OneDrive (先前稱為 SkyDrive) 是一項檔案託管服務,oper... |
Microsoft OneNote | 此筆記本涵蓋如何從 OneNote 載入文件。 |
Microsoft PowerPoint | Microsoft PowerPoint 是 Microsoft 的簡報程式。 |
Microsoft SharePoint | Microsoft SharePoint 是一個以網站為基礎的協作系統,使用... |
Microsoft Word | Microsoft Word 是 Microsoft 開發的文書處理器。 |
Near 區塊鏈 | 總覽 |
Modern Treasury | Modern Treasury 簡化了複雜的支付操作。它是一個統一的... |
MongoDB | MongoDB 是一個 NoSQL、面向文件的資料庫,支援類似 JSON 的... |
Needle 文件載入器 | Needle 讓您輕鬆建立 RAG 管道,只需最少的力氣。 |
新聞網址 | 這涵蓋了如何從 URL 列表將 HTML 新聞文章載入到... |
Notion DB 2/2 | Notion 是一個協作平台,具有修改過的 Markdown 支援... |
Nuclia | Nuclia 自動為您的非結構化資料建立索引,從任何內部... |
Obsidian | Obsidian 是一個強大且可擴展的知識庫 |
開放文件格式 (ODT) | 辦公應用程式開放文件格式 (ODF),也稱為... |
開放城市資料 | Socrata 為城市開放資料提供 API。 |
Oracle Autonomous Database | Oracle Autonomous Database 是一個雲端資料庫,使用機器學習... |
Oracle AI Vector Search:文件處理 | Oracle AI Vector Search 專為人工智慧 (AI) 而設計... |
Org-mode | Org Mode 文件是一種文件編輯、格式化和組織... |
Pandas DataFrame | 這個筆記本說明如何從 pandas DataFrame 載入資料。 |
剖析器 | |
PDFMinerLoader | 這個筆記本快速概述了如何開始使用 PDFM... |
PDFPlumber | 與 PyMuPDF 類似,輸出文件包含關於... |
Pebblo 安全文件載入器 | Pebblo 使開發人員能夠安全地載入資料並推廣他們的 Gen A... |
Polars DataFrame | 這個筆記本說明如何從 polars DataFrame 載入資料。 |
Dell PowerScale 文件載入器 | Dell PowerScale 是一個企業級橫向擴展儲存系統,託管... |
Psychic | 這個筆記本涵蓋如何從 Psychic 載入文件。請參閱此處以了解... |
PubMed | PubMed® 由美國國家生物技術資訊中心 (National Center for Biotechnology Information, Nationa)... |
PullMdLoader | 用於將 URL 轉換為 Markdown 的載入器,使用 pull.md 服務。 |
PyMuPDFLoader | 這個筆記本快速概述了如何開始使用 PyMu... |
PyMuPDF4LLM | 這個筆記本快速概述了如何開始使用 PyMu... |
PyPDFDirectoryLoader | 這個載入器從特定目錄載入所有 PDF 檔案。 |
PyPDFium2Loader | 這個筆記本快速概述了如何開始使用 PyPD... |
PyPDFLoader | 這個筆記本快速概述了如何開始使用 PyPD... |
PySpark | 這個筆記本說明如何從 PySpark DataFrame 載入資料。 |
Quip | Quip 是一個行動和網路協作生產力軟體套件... |
ReadTheDocs 文件 | Read the Docs 是一個開源免費軟體文件託管... |
遞迴網址 | RecursiveUrlLoader 讓您可以遞迴地抓取所有子連結... |
Reddit 是一個美國社交新聞聚合、內容評級和討論... | |
Roam | ROAM 是一個用於網絡化思考的筆記工具,旨在創建... |
Rockset | Rockset 是一個即時分析資料庫,可以在... |
rspace | 這個筆記本展示如何使用 RSpace 文件載入器導入 r... |
RSS Feed | 這涵蓋了如何從 RSS feed URL 列表載入 HTML 新聞文章... |
RST | reStructured Text (RST) 檔案是一種用於文字資料的檔案格式,用於... |
scrapfly | ScrapFly |
ScrapingAnt | 總覽 |
網站地圖 | 從 WebBaseLoader 擴展而來,SitemapLoader 從 ... 載入網站地圖 |
Slack | Slack 是一個即時通訊程式。 |
Snowflake | 這個筆記本說明如何從 Snowflake 載入文件 |
原始碼 | 這個筆記本涵蓋如何使用特殊應用程式載入原始碼檔案... |
Spider | Spider 是最快且最經濟實惠的爬蟲和抓取工具,可以... |
Spreedly | Spreedly 是一項服務,可讓您安全地儲存信用卡... |
Stripe | Stripe 是一家愛爾蘭裔美國金融服務和軟體即服務... |
字幕 | SubRip 檔案格式在 Matroska 多媒體容器上描述... |
SurrealDB | SurrealDB 是一個端到端雲原生資料庫,專為現代... |
Telegram | Telegram Messenger 是一個全球可訪問的免費增值、跨平台... |
Tencent COS 目錄 | 騰訊雲物件儲存 (COS) 是一個分散式 |
Tencent COS 檔案 | 騰訊雲物件儲存 (COS) 是一個分散式 |
TensorFlow Datasets | TensorFlow Datasets 是一個準備好使用的資料集集合,包含 Te... |
TiDB | TiDB Cloud 是一個全面的資料庫即服務 (DBaaS) 解決方案... |
2Markdown | 2markdown 服務將網站內容轉換為結構化 markdown... |
TOML | TOML 是一種用於設定檔的檔案格式。它旨在成為 e... |
Trello | Trello 是一個基於網路的專案管理和協作工具,可以... |
TSV | Tab-separated values (TSV) 檔案是一種簡單、基於文字的檔案格式... |
Twitter 是一個線上社群媒體和社群網路服務。 | |
Unstructured | 這個筆記本涵蓋如何使用 Unstructured 文件載入器載入 ... |
UnstructuredMarkdownLoader | 這個筆記本快速概述了如何開始使用 Unst... |
UnstructuredPDFLoader | 總覽 |
Upstage | 這個筆記本涵蓋如何開始使用 UpstageDocumentParseLoad... |
網址 | 這個範例涵蓋如何從 URL 列表載入 HTML 文件,以... |
Vsdx | visio 檔案(副檔名為 .vsdx)與 Microsoft Visio 關聯... |
Weather | OpenWeatherMap 是一個開源天氣服務提供者 |
WebBaseLoader | 這涵蓋如何使用 WebBaseLoader 從 HTML 網頁載入所有文字... |
WhatsApp Chat | WhatsApp(也稱為 WhatsApp Messenger)是一個免費軟體、跨平台... |
Wikipedia | Wikipedia 是一個多語言免費線上百科全書,由...編寫和維護 |
UnstructuredXMLLoader | 這個筆記本快速概述了如何開始使用 Unst... |
Xorbits Pandas DataFrame | 這個筆記本說明如何從 xorbits.pandas DataFrame 載入資料... |
YouTube 音訊 | 在 YouTube 影片上建立聊天或 QA 應用程式是一個高度關注的主題... |
YouTube 轉錄 | YouTube 是一個線上影片分享和社群媒體平台,由 ... 創建 |
YoutubeLoaderDL | 用於 Youtube 的載入器,利用 yt-dlp 函式庫。 |
Yuque | Yuque 是一個專業的雲端知識庫,用於團隊協作... |
ZeroxPDFLoader | 總覽 |