Docling
Docling 解析 PDF、DOCX、PPTX、HTML 和其他格式為豐富的統一表示形式,包括文件佈局、表格等,使其準備好用於生成式 AI 工作流程,如 RAG。
此整合透過
DoclingLoader
文件載入器提供 Docling 的功能。
安裝與設定
只需從您的套件管理器安裝 langchain-docling
,例如 pip
pip install langchain-docling
文件載入器
langchain-docling
中的 DoclingLoader
類別無縫地將 Docling 整合到 LangChain 中,使您能夠
- 輕鬆快速地在您的 LLM 應用程式中使用各種文件類型,以及
- 利用 Docling 豐富的表示形式進行進階的、文件原生的基礎。
基本用法如下所示
from langchain_docling import DoclingLoader
FILE_PATH = ["https://arxiv.org/pdf/2408.09869"] # Docling Technical Report
loader = DoclingLoader(file_path=FILE_PATH)
docs = loader.load()
如需端對端用法,請查看此範例。