跳到主要內容
Open In ColabOpen on GitHub

CoNLL-U

CoNLL-U 是 CoNLL-X 格式的修訂版本。註釋編碼在純文字檔案中(UTF-8,正規化為 NFC,僅使用 LF 字元作為換行符號,包括檔案結尾的 LF 字元),包含三種類型的行

  • 單字行,包含以單一 Tab 字元分隔的 10 個欄位中單字/Token 的註釋;請參閱下方。
  • 空白行,標記句子邊界。
  • 註解行,以井字號 (#) 開頭。

這是一個如何在 CoNLL-U 格式中載入檔案的範例。整個檔案被視為一個文件。範例資料 (conllu.conllu) 基於標準 UD/CoNLL-U 範例之一。

from langchain_community.document_loaders import CoNLLULoader
API 參考:CoNLLULoader
loader = CoNLLULoader("example_data/conllu.conllu")
document = loader.load()
document
[Document(page_content='They buy and sell books.', metadata={'source': 'example_data/conllu.conllu'})]

此頁面是否對您有幫助?