Dedoc
Dedoc 是一個開放原始碼的函式庫/服務,可以從各種格式的檔案中提取文字、表格、附件和文件結構(例如,標題、列表項目等)。
Dedoc
支援 DOCX
、XLSX
、PPTX
、EML
、HTML
、PDF
、圖片等等。完整支援格式列表請參閱這裡。
安裝與設定
Dedoc 函式庫
您可以使用 pip
安裝 Dedoc
。在這種情況下,您需要安裝相依性,請前往這裡以取得更多資訊。
pip install dedoc
Dedoc API
如果您要使用 Dedoc
API,則無需安裝 dedoc
函式庫。在這種情況下,您應該執行 Dedoc
服務,例如 Docker
容器(詳細資訊請參閱文件)
docker pull dedocproject/dedoc
docker run -p 1231:1231
文件載入器
-
為了處理任何格式(
Dedoc
支援)的檔案,您可以使用DedocFileLoader
from langchain_community.document_loaders import DedocFileLoader
-
為了處理
PDF
檔案(無論有無文字圖層),您可以使用DedocPDFLoader
from langchain_community.document_loaders import DedocPDFLoader
-
為了在不安裝函式庫的情況下處理任何格式的檔案,您可以使用
Dedoc API
和DedocAPIFileLoader
from langchain_community.document_loaders import DedocAPIFileLoader
請參閱使用範例以取得更多詳細資訊。