跳至主要內容

文件載入器

DocumentLoader 將資料載入到標準 LangChain Document 格式。

每個 DocumentLoader 都有其特定的參數,但它們都可以使用 .load 方法以相同的方式調用。 以下是一個使用範例

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API 參考:CSVLoader

網頁 (Webpages)

以下的文件載入器可讓您載入網頁。

請參閱此指南作為起點:如何:載入網頁

文件載入器 (Document Loader)描述 (Description)套件/API (Package/API)
網站 (Web)使用 urllib 和 BeautifulSoup 載入和解析 HTML 網頁套件 (Package)
Unstructured使用 Unstructured 載入和解析網頁套件 (Package)
RecursiveURL遞迴地抓取來自根 URL 的所有子連結套件 (Package)
Sitemap (網站地圖)抓取給定網站地圖上的所有頁面套件 (Package)
Firecrawl可於本地部署的 API 服務,託管版本有免費額度。API

PDFs

以下的文件載入器可讓您載入 PDF 文件。

請參閱此指南作為起點:如何:載入 PDF 檔案

文件載入器 (Document Loader)描述 (Description)套件/API (Package/API)
PyPDF使用 `pypdf` 載入和解析 PDF套件 (Package)
Unstructured使用 Unstructured 的開源程式庫載入 PDF套件 (Package)
Amazon Textract使用 AWS API 載入 PDFAPI
MathPix使用 MathPix 載入 PDF套件 (Package)
PDFPlumber使用 PDFPlumber 載入 PDF 檔案套件 (Package)
PyPDFDirectry載入包含 PDF 檔案的目錄套件 (Package)
PyPDFium2使用 PyPDFium2 載入 PDF 檔案套件 (Package)
PyMuPDF使用 PyMuPDF 載入 PDF 檔案套件 (Package)
PDFMiner使用 PDFMiner 載入 PDF 檔案套件 (Package)

雲端供應商 (Cloud Providers)

以下的文件載入器可讓您從您喜愛的雲端供應商載入文件。

文件載入器 (Document Loader)描述 (Description)合作夥伴套件 (Partner Package)API 參考 (API reference)
AWS S3 目錄從 AWS S3 目錄載入文件S3DirectoryLoader
AWS S3 檔案從 AWS S3 檔案載入文件S3FileLoader
Azure AI Data從 Azure AI 服務載入文件AzureAIDataLoader
Azure Blob Storage 容器從 Azure Blob Storage 容器載入文件AzureBlobStorageContainerLoader
Azure Blob Storage 檔案從 Azure Blob Storage 檔案載入文件AzureBlobStorageFileLoader
Dropbox從 Dropbox 載入文件DropboxLoader
Google Cloud Storage 目錄從 GCS 儲存桶載入文件GCSDirectoryLoader
Google Cloud Storage 檔案從 GCS 檔案物件載入文件GCSFileLoader
Google Drive從 Google Drive 載入文件 (僅限 Google 文件)GoogleDriveLoader
Huawei OBS 目錄從華為物件儲存服務目錄載入文件OBSDirectoryLoader
Huawei OBS 檔案從華為物件儲存服務檔案載入文件OBSFileLoader
Microsoft OneDrive從 Microsoft OneDrive 載入文件OneDriveLoader
Microsoft SharePoint從 Microsoft SharePoint 載入文件SharePointLoader
騰訊 COS 目錄從騰訊雲物件儲存目錄載入文件TencentCOSDirectoryLoader
騰訊 COS 檔案從騰訊雲物件儲存檔案載入文件TencentCOSFileLoader

社交平台 (Social Platforms)

以下的文件載入器可讓您從不同的社交媒體平台載入文件。

文件載入器 (Document Loader)API 參考 (API reference)
TwitterTwitterTweetLoader
RedditRedditPostsLoader

訊息服務 (Messaging Services)

以下的文件載入器可讓您從不同的訊息平台載入資料。

文件載入器 (Document Loader)API 參考 (API reference)
TelegramTelegramChatFileLoader
WhatsAppWhatsAppChatLoader
DiscordDiscordChatLoader
Facebook ChatFacebookChatLoader
MastodonMastodonTootsLoader

生產力工具 (Productivity tools)

以下的文件載入器可讓您從常用的生產力工具載入資料。

文件載入器 (Document Loader)API 參考 (API reference)
FigmaFigmaFileLoader
NotionNotionDirectoryLoader
SlackSlackDirectoryLoader
QuipQuipLoader
TrelloTrelloLoader
RoamRoamLoader
GitHubGithubFileLoader

常見檔案類型 (Common File Types)

以下的文件載入器可讓您從常見的資料格式載入資料。

文件載入器 (Document Loader)資料類型 (Data Type)
CSVLoaderCSV 檔案
DirectoryLoader給定目錄中的所有檔案
Unstructured多種檔案類型 (請參閱 https://docs.unstructured.io/platform/supported-file-types)
JSONLoaderJSON 檔案
BSHTMLLoaderHTML 檔案

所有文件載入器 (All document loaders)

名稱 (Name)描述 (Description)
acreomacreom 是一個以開發人員為優先的知識庫,任務在本地標記上運行...
AirbyteLoaderAirbyte 是一個資料整合平台,用於從 API 建立 ELT 管線,...
Airtable* 在此處取得您的 API 金鑰。
阿里巴巴雲 MaxComputeAlibaba Cloud MaxCompute(先前稱為 ODPS)是一個通用的...
Amazon TextractAmazon Textract 是一種機器學習 (ML) 服務,可自動...
Apify DatasetApify Dataset 是一個可擴展的僅附加儲存空間,具有循序存取...
ArcGIS此筆記本示範如何使用 langchaincommunity.document...
ArxivLoaderarXiv 是一個開放存取的檔案庫,其中包含約 200 萬篇學術文章...
AssemblyAI 音訊轉錄AssemblyAIAudioTranscriptLoader 允許轉錄音訊檔案...
AstraDBDataStax Astra DB 是一個建立在 Cassandra 上的無伺服器、支援向量的資料庫...
Async ChromiumChromium 是 Playwright 支援的瀏覽器之一,Playwright 是一個用於...
AsyncHtmlAsyncHtmlLoader 同時從 URL 清單載入原始 HTML。
AthenaAmazon Athena 是一種無伺服器、互動式分析服務,建立在
AWS S3 目錄Amazon Simple Storage Service (Amazon S3) 是一種物件儲存服務
AWS S3 檔案Amazon Simple Storage Service (Amazon S3) 是一種物件儲存服務...
AZLyricsAZLyrics 是一個龐大、合法且每日增長的歌詞集合。
Azure AI DataAzure AI Studio 提供將資料資產上傳到雲端的功能...
Azure Blob Storage 容器Azure Blob Storage 是 Microsoft 用於雲端的物件儲存解決方案...
Azure Blob Storage 檔案Azure Files 提供完全受管理的雲端檔案共用,可透過...
Azure AI 文件智慧Azure AI Document Intelligence(先前稱為 Azure Form Recognizer)...
BibTeXBibTeX 是一種檔案格式和參考管理系統,通常用於...
BiliBiliBilibili 是中國最受歡迎的長篇影片網站之一。
BlackboardBlackboard Learn(先前為 Blackboard Learning Management System)...
區塊鏈概述
Box此筆記本提供快速概述,幫助您開始使用 Box...
Brave SearchBrave Search 是由 Brave Software 開發的搜尋引擎。
BrowserbaseBrowserbase 是一個開發人員平台,可可靠地運行、管理和監控...
BrowserlessBrowserless 是一項服務,可讓您運行無頭 Chrome 實例...
BSHTMLLoader此筆記本提供快速概述,幫助您開始使用 BeautifulSoup...
CassandraCassandra 是一個 NoSQL、面向列、高度可擴展且高度可用的...
ChatGPT 資料ChatGPT 是一個由 OpenAI 開發的人工智慧 (AI) 聊天機器人...
College ConfidentialCollege Confidential 提供有關 3,800 多所學院和大學的資訊...
Concurrent Loader (並行載入器)運作方式與 GenericLoader 類似,但對於選擇的那些人來說是同時進行的...
ConfluenceConfluence 是一個 wiki 協作平台,可儲存和組織...
CoNLL-UCoNLL-U 是 CoNLL-X 格式的修訂版本。註釋被編碼...
複製貼上此筆記本涵蓋如何從您擁有的內容載入文件物件...
CouchbaseCouchbase 是一個屢獲殊榮的分散式 NoSQL 雲端資料庫,它...
CSV逗號分隔值 (CSV) 檔案是一種分隔文字檔案,使用...
Cube Semantic Layer (Cube 語義層)此筆記本示範了檢索 Cube 資料模型的過程...
Datadog LogsDatadog 是一個用於雲端規模應用程式的監控和分析平台...
Dedoc此範例示範了 Dedoc 與 LangChain 結合使用的情形...
DiffbotDiffbot 是一套基於 ML 的產品,可輕鬆建構...
DiscordDiscord 是一個 VoIP 和即時訊息社交平台。使用者必須...
Docugami此筆記本涵蓋如何從 Docugami 載入文件。它提供...
DocusaurusDocusaurus 是一個靜態網站產生器,提供開箱即用的...
DropboxDropbox 是一種檔案託管服務,它將所有傳統檔案帶入...
DuckDBDuckDB 是一個進程內 SQL OLAP 資料庫管理系統。
電子郵件此筆記本顯示如何載入電子郵件 (.eml) 或 Microsoft Outlook (.m...
EPubEPUB 是一種電子書檔案格式,使用「.epub」檔案副檔名。 T...
EtherscanEtherscan 是領先的區塊鏈瀏覽器、搜尋、API 和分析...
EverNoteEverNote 旨在歸檔和建立筆記,其中包含照片...
example_data (範例資料)
Facebook ChatMessenger) 是一個美國專有的即時訊息應用程式和平台...
FaunaFauna 是一個文件資料庫。
FigmaFigma 是一個用於介面設計的協作 Web 應用程式。
FireCrawlFireCrawl 爬取網站並將其轉換為 LLM 準備就緒的資料。 它爬取...
GeopandasGeopandas 是一個開放原始碼專案,旨在簡化使用地理空間資料...
GitGit 是一個分散式版本控制系統,可追蹤變更...
GitBookGitBook 是一個現代化的文件平台,團隊可以在其中記錄一切...
GitHub此筆記本顯示如何載入問題和提取請求 (PR) ...
Glue CatalogAWS Glue Data Catalog 是一個集中式中繼資料儲存庫,它...
Google AlloyDB for PostgreSQLAlloyDB 是一種完全託管的關係資料庫服務,提供高...
Google BigQueryGoogle BigQuery 是一個無伺服器且經濟高效的企業資料倉儲...
Google BigtableBigtable 是一個鍵值和寬列儲存,非常適合快速存取...
Google Cloud SQL for SQL serverCloud SQL 是一種完全託管的關聯式資料庫服務,提供...
Google Cloud SQL for MySQLCloud SQL 是一種完全託管的關聯式資料庫服務,提供...
Google Cloud SQL for PostgreSQLCloud SQL for PostgreSQL 是一種完全託管的資料庫服務,可協助...
Google Cloud Storage 目錄Google Cloud Storage 是一項用於儲存非結構化資料的受管理服務...
Google Cloud Storage 檔案Google Cloud Storage 是一項用於儲存非結構化資料的受管理服務...
Google Firestore in Datastore ModeDatastore 模式中的 Firestore 是一個為自動擴展而建構的 NoSQL 文件資料庫...
Google DriveGoogle Drive 是由 Google 開發的檔案儲存和同步服務...
Google El Carro for Oracle WorkloadsGoogle El Carro Oracle Operator
Google Firestore (原生模式)Firestore 是一個無伺服器、面向文件的資料庫,可擴展以滿足...
Google Memorystore for RedisGoogle Memorystore for Redis 是一項完全受管理的服務,它具有強大的功能...
Google SpannerSpanner 是一個高度可擴展的資料庫,結合了無限的可擴展性...
Google Speech-to-Text 音訊轉錄SpeechToTextLoader 允許使用 Goog 轉錄音訊檔案...
GrobidGROBID 是一個機器學習函式庫,用於提取、剖析和重新...
GutenbergProject Gutenberg 是一個免費電子書的線上圖書館。
Hacker NewsHacker News(有時縮寫為 HN)是一個社交新聞網站,用於...
Huawei OBS 目錄以下程式碼示範如何從 Huawei O 載入物件...
Huawei OBS 檔案以下程式碼示範如何從 Huawei 載入物件...
HuggingFace dataset (HuggingFace 資料集)Hugging Face Hub 擁有超過 5,000 個資料集,涵蓋 100 多種...
iFixitiFixit 是網路上最大的開放修復社群。 該網站包含...
圖片這涵蓋了如何將圖片載入到我們可以使用的文件格式中...
影像標題預設情況下,載入器會使用預先訓練的 Salesforce BLIP 圖片...
IMSDbIMSDb 是網際網路電影劇本資料庫。
IuguIugu 是一家巴西服務和軟體即服務 (SaaS) 公司...
JoplinJoplin 是一個開放原始碼的筆記應用程式。 捕捉您的想法並儲存...
JSONLoader此筆記本提供快速概述,幫助您開始使用 JSON...
Jupyter NotebookJupyter Notebook(先前為 IPython Notebook)是一個基於 Web 的互動式...
Kinetica此筆記本介紹如何從 Kinetica 載入文件
lakeFSlakeFS 提供對資料湖的可擴展版本控制,並使用...
LangSmith此筆記本提供快速概述,幫助您開始使用...
LarkSuite (FeiShu)LarkSuite 是由 ByteDance 開發的企業協作平台...
LLM Sherpa此筆記本涵蓋如何使用 LLM Sherpa 載入多種檔案類型...
MastodonMastodon 是一個聯合社交媒體和社交網路服務。
MathPixPDFLoader受到 Daniel Gross 的程式碼片段的啟發//gist.github.com/danielgross/...
MediaWiki DumpMediaWiki XML Dumps 包含 wiki 的內容(包含所有版本的 wiki 頁面)...
Merge Documents Loader (合併文件載入器)合併從一組指定資料載入器傳回的文件。
mhtmlMHTML 既用於電子郵件,也用於封存的網頁。MH...
Microsoft ExcelUnstructuredExcelLoader 用於載入 Microsoft Excel 檔案。Th...
Microsoft OneDriveMicrosoft OneDrive(前身為 SkyDrive)是一種檔案託管服務,由...提供。
Microsoft OneNote本筆記本涵蓋如何從 OneNote 載入文件。
Microsoft PowerPointMicrosoft PowerPoint 是 Microsoft 的簡報程式。
Microsoft SharePointMicrosoft SharePoint 是一個基於網站的協作系統,它使用...
Microsoft WordMicrosoft Word 是由 Microsoft 開發的文書處理器。
Near Blockchain概述
Modern TreasuryModern Treasury 簡化了複雜的支付操作。它是一個統一的...
MongoDBMongoDB 是一個 NoSQL、面向文件的資料庫,支援類似 JSON 的...
Needle 文件載入器Needle 讓您輕鬆地以最小的努力創建 RAG 管道。
新聞 URL這涵蓋了如何將 HTML 新聞文章從 URL 列表載入到...
Notion DB 2/2Notion 是一個協作平台,具有修改過的 Markdown 支援,Tha...
NucliaNuclia 自動為您索引來自任何內部...的非結構化資料。
ObsidianObsidian 是一個強大且可擴展的知識庫
開放文件格式 (ODT)辦公室應用程式的開放文件格式(ODF),也稱為...
Open City Data (開放城市數據)Socrata 為城市開放資料提供 API。
Oracle Autonomous DatabaseOracle autonomous database 是一個雲端資料庫,使用機器學習...
Oracle AI 向量搜尋:文件處理Oracle AI Vector Search 專為人工智慧 (AI) 而設計...
Org-modeOrg Mode 文件是一種文件編輯、格式化和組織...
Pandas DataFrame本筆記本介紹如何從 pandas DataFrame 載入資料。
parsers (解析器)
PDFMiner概述
PDFPlumber與 PyMuPDF 類似,輸出文件包含有關...
Pebblo Safe DocumentLoader (Pebblo 安全文件載入器)Pebblo 使開發人員能夠安全地載入資料並推廣他們的 Gen A...
Polars DataFrame本筆記本介紹如何從 polars DataFrame 載入資料。
Psychic本筆記本涵蓋如何從 Psychic 載入文件。 請在此處查看...
PubMedPubMed® 由美國國家生物技術資訊中心、美國國家...
PyMuPDFPyMuPDF 針對速度進行了最佳化,並包含有關...
PyPDFDirectoryLoader此載入器從特定目錄載入所有 PDF 檔案。
PyPDFium2Loader本筆記本提供了 PyPD 入門的快速概述...
PyPDFLoader本筆記本提供了 PyPD 入門的快速概述...
PySpark本筆記本介紹如何從 PySpark DataFrame 載入資料。
QuipQuip 是一款適用於行動裝置和網路的協作生產力軟體套件...
ReadTheDocs 文件Read the Docs 是一個開源免費軟體文件託管...
Recursive URL (遞迴 URL)RecursiveUrlLoader 允許您以遞迴方式抓取所有子連結...
RedditReddit 是一個美國社交新聞聚合、內容評級和討論...
RoamROAM 是一款用於網絡思維的筆記工具,旨在創建...
RocksetRockset 是一個即時分析資料庫,可以對 ma... 進行查詢。
rspace本筆記本展示瞭如何使用 RSpace 文件載入器匯入 r...
RSS Feeds這涵蓋了如何從 RSS 提要 URL 列表載入 HTML 新聞文章...
RSTreStructured Text (RST) 檔案是一種用於文字資料的檔案格式,用於...
scrapflyScrapFly
ScrapingAnt概述
Sitemap (網站地圖)從 WebBaseLoader 擴展,SitemapLoader 從...載入網站地圖。
SlackSlack 是一個即時通訊程式。
Snowflake本筆記本介紹如何從 Snowflake 載入文件
原始碼本筆記本涵蓋瞭如何使用特殊的 ap... 載入原始碼檔案。
Spider (爬蟲)Spider 是最快、最經濟實惠的爬蟲和抓取工具,可以...
SpreedlySpreedly 是一項服務,可讓您安全地儲存信用卡...
StripeStripe 是一家愛爾蘭裔美國金融服務和軟體即服務...
字幕SubRip 檔案格式在 Matroska 多媒體容器上描述...
SurrealDBSurrealDB 是一個端到端的雲原生資料庫,專為現代...
TelegramTelegram Messenger 是一個全球可訪問的免費增值、跨平台...
騰訊 COS 目錄騰訊雲物件儲存 (COS) 是一個分散式
騰訊 COS 檔案騰訊雲物件儲存 (COS) 是一個分散式
TensorFlow DatasetsTensorFlow Datasets 是一個隨時可用的資料集集合,具有 Te...
TiDBTiDB Cloud 是一種全面的資料庫即服務 (DBaaS) 解決方案...
2Markdown2markdown 服務將網站內容轉換為結構化的 markdown...
TOMLTOML 是一種用於設定檔的檔案格式。 它的目的是成為 e...
TrelloTrello 是一個基於 Web 的專案管理和協作工具,可以...
TSVTab-separated values (TSV) 檔案是一種簡單的、基於文字的檔案格式...
TwitterTwitter 是一種線上社交媒體和社交網路服務。
Unstructured本筆記本涵蓋如何使用 Unstructured 文件載入器載入 ...
UnstructuredMarkdownLoader本筆記本提供了 Unst 入門的快速概述...
UnstructuredPDFLoader概述
Upstage本筆記本涵蓋如何開始使用 UpstageDocumentParseLoad...
URL此範例涵蓋如何從 URL 列表載入 HTML 文件...
Vsdxvisio 檔案(副檔名為 .vsdx)與 Microsoft Visio 相關聯...
天氣OpenWeatherMap 是一個開放原始碼的天氣服務供應商
WebBaseLoader這涵蓋如何使用 WebBaseLoader 從 HTML 網頁載入所有文字...
WhatsApp ChatWhatsApp(也稱為 WhatsApp Messenger)是一種免費軟體、跨平台...
WikipediaWikipedia 是一個多語言的免費線上百科全書,由...編寫和維護。
UnstructuredXMLLoader本筆記本提供了 Unst 入門的快速概述...
Xorbits Pandas DataFrame本筆記本介紹如何從 xorbits.pandas DataFr... 載入資料。
YouTube 音訊在 YouTube 影片上建立聊天或 QA 應用程式是一個高度關注的主題...
YouTube 轉錄YouTube 是一個線上影片分享和社交媒體平台,由 ... 創建。
YuqueYuque 是一個專業的基於雲端的知識庫,用於團隊協作...
ZeroxPDFLoader概述

此頁面是否對您有幫助?