文件載入器
DocumentLoader 將資料載入到標準 LangChain Document 格式。
每個 DocumentLoader 都有其特定的參數,但它們都可以使用 .load 方法以相同的方式調用。 以下是一個使用範例
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API 參考:CSVLoader
網頁 (Webpages)
以下的文件載入器可讓您載入網頁。
請參閱此指南作為起點:如何:載入網頁。
文件載入器 (Document Loader) | 描述 (Description) | 套件/API (Package/API) |
---|---|---|
網站 (Web) | 使用 urllib 和 BeautifulSoup 載入和解析 HTML 網頁 | 套件 (Package) |
Unstructured | 使用 Unstructured 載入和解析網頁 | 套件 (Package) |
RecursiveURL | 遞迴地抓取來自根 URL 的所有子連結 | 套件 (Package) |
Sitemap (網站地圖) | 抓取給定網站地圖上的所有頁面 | 套件 (Package) |
Firecrawl | 可於本地部署的 API 服務,託管版本有免費額度。 | API |
PDFs
以下的文件載入器可讓您載入 PDF 文件。
請參閱此指南作為起點:如何:載入 PDF 檔案。
文件載入器 (Document Loader) | 描述 (Description) | 套件/API (Package/API) |
---|---|---|
PyPDF | 使用 `pypdf` 載入和解析 PDF | 套件 (Package) |
Unstructured | 使用 Unstructured 的開源程式庫載入 PDF | 套件 (Package) |
Amazon Textract | 使用 AWS API 載入 PDF | API |
MathPix | 使用 MathPix 載入 PDF | 套件 (Package) |
PDFPlumber | 使用 PDFPlumber 載入 PDF 檔案 | 套件 (Package) |
PyPDFDirectry | 載入包含 PDF 檔案的目錄 | 套件 (Package) |
PyPDFium2 | 使用 PyPDFium2 載入 PDF 檔案 | 套件 (Package) |
PyMuPDF | 使用 PyMuPDF 載入 PDF 檔案 | 套件 (Package) |
PDFMiner | 使用 PDFMiner 載入 PDF 檔案 | 套件 (Package) |
雲端供應商 (Cloud Providers)
以下的文件載入器可讓您從您喜愛的雲端供應商載入文件。
文件載入器 (Document Loader) | 描述 (Description) | 合作夥伴套件 (Partner Package) | API 參考 (API reference) |
---|---|---|---|
AWS S3 目錄 | 從 AWS S3 目錄載入文件 | ❌ | S3DirectoryLoader |
AWS S3 檔案 | 從 AWS S3 檔案載入文件 | ❌ | S3FileLoader |
Azure AI Data | 從 Azure AI 服務載入文件 | ❌ | AzureAIDataLoader |
Azure Blob Storage 容器 | 從 Azure Blob Storage 容器載入文件 | ❌ | AzureBlobStorageContainerLoader |
Azure Blob Storage 檔案 | 從 Azure Blob Storage 檔案載入文件 | ❌ | AzureBlobStorageFileLoader |
Dropbox | 從 Dropbox 載入文件 | ❌ | DropboxLoader |
Google Cloud Storage 目錄 | 從 GCS 儲存桶載入文件 | ✅ | GCSDirectoryLoader |
Google Cloud Storage 檔案 | 從 GCS 檔案物件載入文件 | ✅ | GCSFileLoader |
Google Drive | 從 Google Drive 載入文件 (僅限 Google 文件) | ✅ | GoogleDriveLoader |
Huawei OBS 目錄 | 從華為物件儲存服務目錄載入文件 | ❌ | OBSDirectoryLoader |
Huawei OBS 檔案 | 從華為物件儲存服務檔案載入文件 | ❌ | OBSFileLoader |
Microsoft OneDrive | 從 Microsoft OneDrive 載入文件 | ❌ | OneDriveLoader |
Microsoft SharePoint | 從 Microsoft SharePoint 載入文件 | ❌ | SharePointLoader |
騰訊 COS 目錄 | 從騰訊雲物件儲存目錄載入文件 | ❌ | TencentCOSDirectoryLoader |
騰訊 COS 檔案 | 從騰訊雲物件儲存檔案載入文件 | ❌ | TencentCOSFileLoader |
社交平台 (Social Platforms)
以下的文件載入器可讓您從不同的社交媒體平台載入文件。
文件載入器 (Document Loader) | API 參考 (API reference) |
---|---|
TwitterTweetLoader | |
RedditPostsLoader |
訊息服務 (Messaging Services)
以下的文件載入器可讓您從不同的訊息平台載入資料。
文件載入器 (Document Loader) | API 參考 (API reference) |
---|---|
Telegram | TelegramChatFileLoader |
WhatsAppChatLoader | |
Discord | DiscordChatLoader |
Facebook Chat | FacebookChatLoader |
Mastodon | MastodonTootsLoader |
生產力工具 (Productivity tools)
以下的文件載入器可讓您從常用的生產力工具載入資料。
文件載入器 (Document Loader) | API 參考 (API reference) |
---|---|
Figma | FigmaFileLoader |
Notion | NotionDirectoryLoader |
Slack | SlackDirectoryLoader |
Quip | QuipLoader |
Trello | TrelloLoader |
Roam | RoamLoader |
GitHub | GithubFileLoader |
常見檔案類型 (Common File Types)
以下的文件載入器可讓您從常見的資料格式載入資料。
文件載入器 (Document Loader) | 資料類型 (Data Type) |
---|---|
CSVLoader | CSV 檔案 |
DirectoryLoader | 給定目錄中的所有檔案 |
Unstructured | 多種檔案類型 (請參閱 https://docs.unstructured.io/platform/supported-file-types) |
JSONLoader | JSON 檔案 |
BSHTMLLoader | HTML 檔案 |
所有文件載入器 (All document loaders)
名稱 (Name) | 描述 (Description) |
---|---|
acreom | acreom 是一個以開發人員為優先的知識庫,任務在本地標記上運行... |
AirbyteLoader | Airbyte 是一個資料整合平台,用於從 API 建立 ELT 管線,... |
Airtable | * 在此處取得您的 API 金鑰。 |
阿里巴巴雲 MaxCompute | Alibaba Cloud MaxCompute(先前稱為 ODPS)是一個通用的... |
Amazon Textract | Amazon Textract 是一種機器學習 (ML) 服務,可自動... |
Apify Dataset | Apify Dataset 是一個可擴展的僅附加儲存空間,具有循序存取... |
ArcGIS | 此筆記本示範如何使用 langchaincommunity.document... |
ArxivLoader | arXiv 是一個開放存取的檔案庫,其中包含約 200 萬篇學術文章... |
AssemblyAI 音訊轉錄 | AssemblyAIAudioTranscriptLoader 允許轉錄音訊檔案... |
AstraDB | DataStax Astra DB 是一個建立在 Cassandra 上的無伺服器、支援向量的資料庫... |
Async Chromium | Chromium 是 Playwright 支援的瀏覽器之一,Playwright 是一個用於... |
AsyncHtml | AsyncHtmlLoader 同時從 URL 清單載入原始 HTML。 |
Athena | Amazon Athena 是一種無伺服器、互動式分析服務,建立在 |
AWS S3 目錄 | Amazon Simple Storage Service (Amazon S3) 是一種物件儲存服務 |
AWS S3 檔案 | Amazon Simple Storage Service (Amazon S3) 是一種物件儲存服務... |
AZLyrics | AZLyrics 是一個龐大、合法且每日增長的歌詞集合。 |
Azure AI Data | Azure AI Studio 提供將資料資產上傳到雲端的功能... |
Azure Blob Storage 容器 | Azure Blob Storage 是 Microsoft 用於雲端的物件儲存解決方案... |
Azure Blob Storage 檔案 | Azure Files 提供完全受管理的雲端檔案共用,可透過... |
Azure AI 文件智慧 | Azure AI Document Intelligence(先前稱為 Azure Form Recognizer)... |
BibTeX | BibTeX 是一種檔案格式和參考管理系統,通常用於... |
BiliBili | Bilibili 是中國最受歡迎的長篇影片網站之一。 |
Blackboard | Blackboard Learn(先前為 Blackboard Learning Management System)... |
區塊鏈 | 概述 |
Box | 此筆記本提供快速概述,幫助您開始使用 Box... |
Brave Search | Brave Search 是由 Brave Software 開發的搜尋引擎。 |
Browserbase | Browserbase 是一個開發人員平台,可可靠地運行、管理和監控... |
Browserless | Browserless 是一項服務,可讓您運行無頭 Chrome 實例... |
BSHTMLLoader | 此筆記本提供快速概述,幫助您開始使用 BeautifulSoup... |
Cassandra | Cassandra 是一個 NoSQL、面向列、高度可擴展且高度可用的... |
ChatGPT 資料 | ChatGPT 是一個由 OpenAI 開發的人工智慧 (AI) 聊天機器人... |
College Confidential | College Confidential 提供有關 3,800 多所學院和大學的資訊... |
Concurrent Loader (並行載入器) | 運作方式與 GenericLoader 類似,但對於選擇的那些人來說是同時進行的... |
Confluence | Confluence 是一個 wiki 協作平台,可儲存和組織... |
CoNLL-U | CoNLL-U 是 CoNLL-X 格式的修訂版本。註釋被編碼... |
複製貼上 | 此筆記本涵蓋如何從您擁有的內容載入文件物件... |
Couchbase | Couchbase 是一個屢獲殊榮的分散式 NoSQL 雲端資料庫,它... |
CSV | 逗號分隔值 (CSV) 檔案是一種分隔文字檔案,使用... |
Cube Semantic Layer (Cube 語義層) | 此筆記本示範了檢索 Cube 資料模型的過程... |
Datadog Logs | Datadog 是一個用於雲端規模應用程式的監控和分析平台... |
Dedoc | 此範例示範了 Dedoc 與 LangChain 結合使用的情形... |
Diffbot | Diffbot 是一套基於 ML 的產品,可輕鬆建構... |
Discord | Discord 是一個 VoIP 和即時訊息社交平台。使用者必須... |
Docugami | 此筆記本涵蓋如何從 Docugami 載入文件。它提供... |
Docusaurus | Docusaurus 是一個靜態網站產生器,提供開箱即用的... |
Dropbox | Dropbox 是一種檔案託管服務,它將所有傳統檔案帶入... |
DuckDB | DuckDB 是一個進程內 SQL OLAP 資料庫管理系統。 |
電子郵件 | 此筆記本顯示如何載入電子郵件 (.eml) 或 Microsoft Outlook (.m... |
EPub | EPUB 是一種電子書檔案格式,使用「.epub」檔案副檔名。 T... |
Etherscan | Etherscan 是領先的區塊鏈瀏覽器、搜尋、API 和分析... |
EverNote | EverNote 旨在歸檔和建立筆記,其中包含照片... |
example_data (範例資料) | |
Facebook Chat | Messenger) 是一個美國專有的即時訊息應用程式和平台... |
Fauna | Fauna 是一個文件資料庫。 |
Figma | Figma 是一個用於介面設計的協作 Web 應用程式。 |
FireCrawl | FireCrawl 爬取網站並將其轉換為 LLM 準備就緒的資料。 它爬取... |
Geopandas | Geopandas 是一個開放原始碼專案,旨在簡化使用地理空間資料... |
Git | Git 是一個分散式版本控制系統,可追蹤變更... |
GitBook | GitBook 是一個現代化的文件平台,團隊可以在其中記錄一切... |
GitHub | 此筆記本顯示如何載入問題和提取請求 (PR) ... |
Glue Catalog | AWS Glue Data Catalog 是一個集中式中繼資料儲存庫,它... |
Google AlloyDB for PostgreSQL | AlloyDB 是一種完全託管的關係資料庫服務,提供高... |
Google BigQuery | Google BigQuery 是一個無伺服器且經濟高效的企業資料倉儲... |
Google Bigtable | Bigtable 是一個鍵值和寬列儲存,非常適合快速存取... |
Google Cloud SQL for SQL server | Cloud SQL 是一種完全託管的關聯式資料庫服務,提供... |
Google Cloud SQL for MySQL | Cloud SQL 是一種完全託管的關聯式資料庫服務,提供... |
Google Cloud SQL for PostgreSQL | Cloud SQL for PostgreSQL 是一種完全託管的資料庫服務,可協助... |
Google Cloud Storage 目錄 | Google Cloud Storage 是一項用於儲存非結構化資料的受管理服務... |
Google Cloud Storage 檔案 | Google Cloud Storage 是一項用於儲存非結構化資料的受管理服務... |
Google Firestore in Datastore Mode | Datastore 模式中的 Firestore 是一個為自動擴展而建構的 NoSQL 文件資料庫... |
Google Drive | Google Drive 是由 Google 開發的檔案儲存和同步服務... |
Google El Carro for Oracle Workloads | Google El Carro Oracle Operator |
Google Firestore (原生模式) | Firestore 是一個無伺服器、面向文件的資料庫,可擴展以滿足... |
Google Memorystore for Redis | Google Memorystore for Redis 是一項完全受管理的服務,它具有強大的功能... |
Google Spanner | Spanner 是一個高度可擴展的資料庫,結合了無限的可擴展性... |
Google Speech-to-Text 音訊轉錄 | SpeechToTextLoader 允許使用 Goog 轉錄音訊檔案... |
Grobid | GROBID 是一個機器學習函式庫,用於提取、剖析和重新... |
Gutenberg | Project Gutenberg 是一個免費電子書的線上圖書館。 |
Hacker News | Hacker News(有時縮寫為 HN)是一個社交新聞網站,用於... |
Huawei OBS 目錄 | 以下程式碼示範如何從 Huawei O 載入物件... |
Huawei OBS 檔案 | 以下程式碼示範如何從 Huawei 載入物件... |
HuggingFace dataset (HuggingFace 資料集) | Hugging Face Hub 擁有超過 5,000 個資料集,涵蓋 100 多種... |
iFixit | iFixit 是網路上最大的開放修復社群。 該網站包含... |
圖片 | 這涵蓋了如何將圖片載入到我們可以使用的文件格式中... |
影像標題 | 預設情況下,載入器會使用預先訓練的 Salesforce BLIP 圖片... |
IMSDb | IMSDb 是網際網路電影劇本資料庫。 |
Iugu | Iugu 是一家巴西服務和軟體即服務 (SaaS) 公司... |
Joplin | Joplin 是一個開放原始碼的筆記應用程式。 捕捉您的想法並儲存... |
JSONLoader | 此筆記本提供快速概述,幫助您開始使用 JSON... |
Jupyter Notebook | Jupyter Notebook(先前為 IPython Notebook)是一個基於 Web 的互動式... |
Kinetica | 此筆記本介紹如何從 Kinetica 載入文件 |
lakeFS | lakeFS 提供對資料湖的可擴展版本控制,並使用... |
LangSmith | 此筆記本提供快速概述,幫助您開始使用... |
LarkSuite (FeiShu) | LarkSuite 是由 ByteDance 開發的企業協作平台... |
LLM Sherpa | 此筆記本涵蓋如何使用 LLM Sherpa 載入多種檔案類型... |
Mastodon | Mastodon 是一個聯合社交媒體和社交網路服務。 |
MathPixPDFLoader | 受到 Daniel Gross 的程式碼片段的啟發//gist.github.com/danielgross/... |
MediaWiki Dump | MediaWiki XML Dumps 包含 wiki 的內容(包含所有版本的 wiki 頁面)... |
Merge Documents Loader (合併文件載入器) | 合併從一組指定資料載入器傳回的文件。 |
mhtml | MHTML 既用於電子郵件,也用於封存的網頁。MH... |
Microsoft Excel | UnstructuredExcelLoader 用於載入 Microsoft Excel 檔案。Th... |
Microsoft OneDrive | Microsoft OneDrive(前身為 SkyDrive)是一種檔案託管服務,由...提供。 |
Microsoft OneNote | 本筆記本涵蓋如何從 OneNote 載入文件。 |
Microsoft PowerPoint | Microsoft PowerPoint 是 Microsoft 的簡報程式。 |
Microsoft SharePoint | Microsoft SharePoint 是一個基於網站的協作系統,它使用... |
Microsoft Word | Microsoft Word 是由 Microsoft 開發的文書處理器。 |
Near Blockchain | 概述 |
Modern Treasury | Modern Treasury 簡化了複雜的支付操作。它是一個統一的... |
MongoDB | MongoDB 是一個 NoSQL、面向文件的資料庫,支援類似 JSON 的... |
Needle 文件載入器 | Needle 讓您輕鬆地以最小的努力創建 RAG 管道。 |
新聞 URL | 這涵蓋了如何將 HTML 新聞文章從 URL 列表載入到... |
Notion DB 2/2 | Notion 是一個協作平台,具有修改過的 Markdown 支援,Tha... |
Nuclia | Nuclia 自動為您索引來自任何內部...的非結構化資料。 |
Obsidian | Obsidian 是一個強大且可擴展的知識庫 |
開放文件格式 (ODT) | 辦公室應用程式的開放文件格式(ODF),也稱為... |
Open City Data (開放城市數據) | Socrata 為城市開放資料提供 API。 |
Oracle Autonomous Database | Oracle autonomous database 是一個雲端資料庫,使用機器學習... |
Oracle AI 向量搜尋:文件處理 | Oracle AI Vector Search 專為人工智慧 (AI) 而設計... |
Org-mode | Org Mode 文件是一種文件編輯、格式化和組織... |
Pandas DataFrame | 本筆記本介紹如何從 pandas DataFrame 載入資料。 |
parsers (解析器) | |
PDFMiner | 概述 |
PDFPlumber | 與 PyMuPDF 類似,輸出文件包含有關... |
Pebblo Safe DocumentLoader (Pebblo 安全文件載入器) | Pebblo 使開發人員能夠安全地載入資料並推廣他們的 Gen A... |
Polars DataFrame | 本筆記本介紹如何從 polars DataFrame 載入資料。 |
Psychic | 本筆記本涵蓋如何從 Psychic 載入文件。 請在此處查看... |
PubMed | PubMed® 由美國國家生物技術資訊中心、美國國家... |
PyMuPDF | PyMuPDF 針對速度進行了最佳化,並包含有關... |
PyPDFDirectoryLoader | 此載入器從特定目錄載入所有 PDF 檔案。 |
PyPDFium2Loader | 本筆記本提供了 PyPD 入門的快速概述... |
PyPDFLoader | 本筆記本提供了 PyPD 入門的快速概述... |
PySpark | 本筆記本介紹如何從 PySpark DataFrame 載入資料。 |
Quip | Quip 是一款適用於行動裝置和網路的協作生產力軟體套件... |
ReadTheDocs 文件 | Read the Docs 是一個開源免費軟體文件託管... |
Recursive URL (遞迴 URL) | RecursiveUrlLoader 允許您以遞迴方式抓取所有子連結... |
Reddit 是一個美國社交新聞聚合、內容評級和討論... | |
Roam | ROAM 是一款用於網絡思維的筆記工具,旨在創建... |
Rockset | Rockset 是一個即時分析資料庫,可以對 ma... 進行查詢。 |
rspace | 本筆記本展示瞭如何使用 RSpace 文件載入器匯入 r... |
RSS Feeds | 這涵蓋了如何從 RSS 提要 URL 列表載入 HTML 新聞文章... |
RST | reStructured Text (RST) 檔案是一種用於文字資料的檔案格式,用於... |
scrapfly | ScrapFly |
ScrapingAnt | 概述 |
Sitemap (網站地圖) | 從 WebBaseLoader 擴展,SitemapLoader 從...載入網站地圖。 |
Slack | Slack 是一個即時通訊程式。 |
Snowflake | 本筆記本介紹如何從 Snowflake 載入文件 |
原始碼 | 本筆記本涵蓋瞭如何使用特殊的 ap... 載入原始碼檔案。 |
Spider (爬蟲) | Spider 是最快、最經濟實惠的爬蟲和抓取工具,可以... |
Spreedly | Spreedly 是一項服務,可讓您安全地儲存信用卡... |
Stripe | Stripe 是一家愛爾蘭裔美國金融服務和軟體即服務... |
字幕 | SubRip 檔案格式在 Matroska 多媒體容器上描述... |
SurrealDB | SurrealDB 是一個端到端的雲原生資料庫,專為現代... |
Telegram | Telegram Messenger 是一個全球可訪問的免費增值、跨平台... |
騰訊 COS 目錄 | 騰訊雲物件儲存 (COS) 是一個分散式 |
騰訊 COS 檔案 | 騰訊雲物件儲存 (COS) 是一個分散式 |
TensorFlow Datasets | TensorFlow Datasets 是一個隨時可用的資料集集合,具有 Te... |
TiDB | TiDB Cloud 是一種全面的資料庫即服務 (DBaaS) 解決方案... |
2Markdown | 2markdown 服務將網站內容轉換為結構化的 markdown... |
TOML | TOML 是一種用於設定檔的檔案格式。 它的目的是成為 e... |
Trello | Trello 是一個基於 Web 的專案管理和協作工具,可以... |
TSV | Tab-separated values (TSV) 檔案是一種簡單的、基於文字的檔案格式... |
Twitter 是一種線上社交媒體和社交網路服務。 | |
Unstructured | 本筆記本涵蓋如何使用 Unstructured 文件載入器載入 ... |
UnstructuredMarkdownLoader | 本筆記本提供了 Unst 入門的快速概述... |
UnstructuredPDFLoader | 概述 |
Upstage | 本筆記本涵蓋如何開始使用 UpstageDocumentParseLoad... |
URL | 此範例涵蓋如何從 URL 列表載入 HTML 文件... |
Vsdx | visio 檔案(副檔名為 .vsdx)與 Microsoft Visio 相關聯... |
天氣 | OpenWeatherMap 是一個開放原始碼的天氣服務供應商 |
WebBaseLoader | 這涵蓋如何使用 WebBaseLoader 從 HTML 網頁載入所有文字... |
WhatsApp Chat | WhatsApp(也稱為 WhatsApp Messenger)是一種免費軟體、跨平台... |
Wikipedia | Wikipedia 是一個多語言的免費線上百科全書,由...編寫和維護。 |
UnstructuredXMLLoader | 本筆記本提供了 Unst 入門的快速概述... |
Xorbits Pandas DataFrame | 本筆記本介紹如何從 xorbits.pandas DataFr... 載入資料。 |
YouTube 音訊 | 在 YouTube 影片上建立聊天或 QA 應用程式是一個高度關注的主題... |
YouTube 轉錄 | YouTube 是一個線上影片分享和社交媒體平台,由 ... 創建。 |
Yuque | Yuque 是一個專業的基於雲端的知識庫,用於團隊協作... |
ZeroxPDFLoader | 概述 |