開放文件格式 (ODT)
Office 應用程式開放文件格式 (ODF),也稱為
OpenDocument
,是一種開放的文件格式,用於處理文字文件、試算表、簡報和圖形,並使用 ZIP 壓縮的 XML 檔案。 它的開發目的是為辦公室應用程式提供一個開放、基於 XML 的檔案格式規範。
該標準由結構化資訊標準促進組織 (
OASIS
) 聯盟中的技術委員會開發和維護。 它基於 Sun Microsystems 的 OpenOffice.org XML 規範,這是OpenOffice.org
和LibreOffice
的預設格式。 它最初是為StarOffice
開發的,目的是 "為辦公文件提供一個開放標準"。
UnstructuredODTLoader
用於載入 Open Office ODT
檔案。
from langchain_community.document_loaders import UnstructuredODTLoader
loader = UnstructuredODTLoader("example_data/fake.odt", mode="elements")
docs = loader.load()
docs[0]
API 參考:UnstructuredODTLoader
Document(page_content='Lorem ipsum dolor sit amet.', metadata={'source': 'example_data/fake.odt', 'category_depth': 0, 'file_directory': 'example_data', 'filename': 'fake.odt', 'last_modified': '2023-12-19T13:42:18', 'languages': ['por', 'cat'], 'filetype': 'application/vnd.oasis.opendocument.text', 'category': 'Title'})