跳到主要內容
Open on GitHub

Docling

Docling 解析 PDF、DOCX、PPTX、HTML 和其他格式為豐富的統一表示形式,包括文件佈局、表格等,使其準備好用於生成式 AI 工作流程,如 RAG。

此整合透過 DoclingLoader 文件載入器提供 Docling 的功能。

安裝與設定

只需從您的套件管理器安裝 langchain-docling,例如 pip

pip install langchain-docling

文件載入器

langchain-docling 中的 DoclingLoader 類別無縫地將 Docling 整合到 LangChain 中,使您能夠

  • 輕鬆快速地在您的 LLM 應用程式中使用各種文件類型,以及
  • 利用 Docling 豐富的表示形式進行進階的、文件原生的基礎。

基本用法如下所示

from langchain_docling import DoclingLoader

FILE_PATH = ["https://arxiv.org/pdf/2408.09869"] # Docling Technical Report

loader = DoclingLoader(file_path=FILE_PATH)

docs = loader.load()

如需端對端用法,請查看此範例

其他資源


此頁面是否對您有幫助?