Writer PDF 解析器

本筆記本提供 Writer PDFParser 文件載入器的快速入門概述。

Writer 的 PDF 解析器將 PDF 文件轉換為其他格式，例如文字或 Markdown。當您需要從 PDF 檔案中擷取和處理文字內容，以進行進一步分析或整合到您的工作流程中時，這特別有用。在 langchain-writer 中，我們提供 Writer 的 PDF 解析器作為 LangChain 文件解析器的用法。

概述

整合詳細資訊

類別	套件	本地	可序列化	JS 支援	套件下載次數	套件最新版本
PDFParser	langchain-writer	❌	❌	❌

設定

PDFParser 在 langchain-writer 套件中提供

%pip install --quiet -U langchain-writer

憑證

註冊 Writer AI Studio 以產生 API 金鑰 (您可以依照此快速入門)。然後，設定 WRITER_API_KEY 環境變數

import getpass
import os

if not os.getenv("WRITER_API_KEY"):
    os.environ["WRITER_API_KEY"] = getpass.getpass("Enter your Writer API key: ")

設定 LangSmith 以獲得一流的可觀察性也很有幫助 (但非必要)。如果您希望這樣做，您可以設定 LANGSMITH_TRACING 和 LANGSMITH_API_KEY 環境變數

# os.environ["LANGSMITH_TRACING"] = "true"
# os.environ["LANGSMITH_API_KEY"] = getpass.getpass()

實例化

接下來，使用所需的輸出格式實例化 Writer PDF 解析器的實例

from langchain_writer.pdf_parser import PDFParser

parser = PDFParser(format="markdown")

用法

有兩種使用 PDF 解析器的方式，同步或非同步。在任一種情況下，PDF 解析器都會傳回 Document 物件的列表，每個物件都包含 PDF 檔案中已解析頁面的內容。

同步用法

若要同步調用 PDF 解析器，請將 Blob 物件傳遞給 parse 方法，以參考您要解析的 PDF 檔案

from langchain_core.documents.base import Blob

file = Blob.from_path("../example_data/layout-parser-paper.pdf")

parsed_pages = parser.parse(blob=file)
parsed_pages

API 參考：Blob

非同步用法

若要非同步調用 PDF 解析器，請將 Blob 物件傳遞給 aparse 方法，以參考您要解析的 PDF 檔案

parsed_pages_async = await parser.aparse(blob=file)
parsed_pages_async

API 參考

如需所有 PDFParser 功能和組態的詳細文件，請前往 API 參考。

其他資源

您可以在 Writer 文件中找到有關 Writer 模型 (包括成本、上下文視窗和支援的輸入類型) 和工具的資訊。

概述​

整合詳細資訊​

設定​

憑證​

實例化​

用法​

同步用法​

非同步用法​

API 參考​

其他資源​

此頁面是否有幫助？

概述

整合詳細資訊

設定

憑證

實例化

用法

同步用法

非同步用法

API 參考

其他資源