跳到主要內容
Open on GitHub

Dedoc

Dedoc 是一個開放原始碼的函式庫/服務,可以從各種格式的檔案中提取文字、表格、附件和文件結構(例如,標題、列表項目等)。

Dedoc 支援 DOCXXLSXPPTXEMLHTMLPDF、圖片等等。完整支援格式列表請參閱這裡

安裝與設定

Dedoc 函式庫

您可以使用 pip 安裝 Dedoc。在這種情況下,您需要安裝相依性,請前往這裡以取得更多資訊。

pip install dedoc

Dedoc API

如果您要使用 Dedoc API,則無需安裝 dedoc 函式庫。在這種情況下,您應該執行 Dedoc 服務,例如 Docker 容器(詳細資訊請參閱文件

docker pull dedocproject/dedoc
docker run -p 1231:1231

文件載入器

  • 為了處理任何格式(Dedoc 支援)的檔案,您可以使用 DedocFileLoader

    from langchain_community.document_loaders import DedocFileLoader
  • 為了處理 PDF 檔案(無論有無文字圖層),您可以使用 DedocPDFLoader

    from langchain_community.document_loaders import DedocPDFLoader
  • 為了在不安裝函式庫的情況下處理任何格式的檔案,您可以使用 Dedoc APIDedocAPIFileLoader

    from langchain_community.document_loaders import DedocAPIFileLoader

請參閱使用範例以取得更多詳細資訊。


此頁面是否對您有幫助?