Writer PDF 解析器
本筆記本提供 Writer PDFParser
文件載入器的快速入門概述。
Writer 的 PDF 解析器 將 PDF 文件轉換為其他格式,例如文字或 Markdown。當您需要從 PDF 檔案中擷取和處理文字內容,以進行進一步分析或整合到您的工作流程中時,這特別有用。在 langchain-writer
中,我們提供 Writer 的 PDF 解析器作為 LangChain 文件解析器的用法。
概述
整合詳細資訊
類別 | 套件 | 本地 | 可序列化 | JS 支援 | 套件下載次數 | 套件最新版本 |
---|---|---|---|---|---|---|
PDFParser | langchain-writer | ❌ | ❌ | ❌ |
設定
PDFParser
在 langchain-writer
套件中提供
%pip install --quiet -U langchain-writer
憑證
註冊 Writer AI Studio 以產生 API 金鑰 (您可以依照此快速入門)。然後,設定 WRITER_API_KEY 環境變數
import getpass
import os
if not os.getenv("WRITER_API_KEY"):
os.environ["WRITER_API_KEY"] = getpass.getpass("Enter your Writer API key: ")
設定 LangSmith 以獲得一流的可觀察性也很有幫助 (但非必要)。如果您希望這樣做,您可以設定 LANGSMITH_TRACING
和 LANGSMITH_API_KEY
環境變數
# os.environ["LANGSMITH_TRACING"] = "true"
# os.environ["LANGSMITH_API_KEY"] = getpass.getpass()
實例化
接下來,使用所需的輸出格式實例化 Writer PDF 解析器的實例
from langchain_writer.pdf_parser import PDFParser
parser = PDFParser(format="markdown")
用法
有兩種使用 PDF 解析器的方式,同步或非同步。在任一種情況下,PDF 解析器都會傳回 Document
物件的列表,每個物件都包含 PDF 檔案中已解析頁面的內容。
同步用法
若要同步調用 PDF 解析器,請將 Blob
物件傳遞給 parse
方法,以參考您要解析的 PDF 檔案
from langchain_core.documents.base import Blob
file = Blob.from_path("../example_data/layout-parser-paper.pdf")
parsed_pages = parser.parse(blob=file)
parsed_pages
API 參考:Blob
非同步用法
若要非同步調用 PDF 解析器,請將 Blob
物件傳遞給 aparse
方法,以參考您要解析的 PDF 檔案
parsed_pages_async = await parser.aparse(blob=file)
parsed_pages_async
API 參考
如需所有 PDFParser
功能和組態的詳細文件,請前往 API 參考。
其他資源
您可以在 Writer 文件中找到有關 Writer 模型 (包括成本、上下文視窗和支援的輸入類型) 和工具的資訊。