跳到主要內容
Open In ColabOpen on GitHub

Writer PDF 解析器

本筆記本提供 Writer PDFParser 文件載入器的快速入門概述。

Writer 的 PDF 解析器 將 PDF 文件轉換為其他格式,例如文字或 Markdown。當您需要從 PDF 檔案中擷取和處理文字內容,以進行進一步分析或整合到您的工作流程中時,這特別有用。在 langchain-writer 中,我們提供 Writer 的 PDF 解析器作為 LangChain 文件解析器的用法。

概述

整合詳細資訊

類別套件本地可序列化JS 支援套件下載次數套件最新版本
PDFParserlangchain-writerPyPI - DownloadsPyPI - Version

設定

PDFParserlangchain-writer 套件中提供

%pip install --quiet -U langchain-writer

憑證

註冊 Writer AI Studio 以產生 API 金鑰 (您可以依照此快速入門)。然後,設定 WRITER_API_KEY 環境變數

import getpass
import os

if not os.getenv("WRITER_API_KEY"):
os.environ["WRITER_API_KEY"] = getpass.getpass("Enter your Writer API key: ")

設定 LangSmith 以獲得一流的可觀察性也很有幫助 (但非必要)。如果您希望這樣做,您可以設定 LANGSMITH_TRACINGLANGSMITH_API_KEY 環境變數

# os.environ["LANGSMITH_TRACING"] = "true"
# os.environ["LANGSMITH_API_KEY"] = getpass.getpass()

實例化

接下來,使用所需的輸出格式實例化 Writer PDF 解析器的實例

from langchain_writer.pdf_parser import PDFParser

parser = PDFParser(format="markdown")

用法

有兩種使用 PDF 解析器的方式,同步或非同步。在任一種情況下,PDF 解析器都會傳回 Document 物件的列表,每個物件都包含 PDF 檔案中已解析頁面的內容。

同步用法

若要同步調用 PDF 解析器,請將 Blob 物件傳遞給 parse 方法,以參考您要解析的 PDF 檔案

from langchain_core.documents.base import Blob

file = Blob.from_path("../example_data/layout-parser-paper.pdf")

parsed_pages = parser.parse(blob=file)
parsed_pages
API 參考:Blob

非同步用法

若要非同步調用 PDF 解析器,請將 Blob 物件傳遞給 aparse 方法,以參考您要解析的 PDF 檔案

parsed_pages_async = await parser.aparse(blob=file)
parsed_pages_async

API 參考

如需所有 PDFParser 功能和組態的詳細文件,請前往 API 參考

其他資源

您可以在 Writer 文件中找到有關 Writer 模型 (包括成本、上下文視窗和支援的輸入類型) 和工具的資訊。


此頁面是否有幫助?