Doctran
Doctran 是一個 python 套件。它使用 LLM 和開放原始碼 NLP 程式庫,將原始文字轉換為乾淨、結構化、資訊密集的文檔,並針對向量空間檢索進行了最佳化。您可以將
Doctran
視為一個黑盒子,混亂的字串進入,而良好、乾淨、標記的字串則出來。
安裝與設定
pip install doctran
文件轉換器
文件詢問器
請參閱 DoctranQATransformer 的使用範例。
from langchain_community.document_loaders import DoctranQATransformer
屬性提取器
請參閱 DoctranPropertyExtractor 的使用範例。
from langchain_community.document_loaders import DoctranPropertyExtractor
文件翻譯器
請參閱 DoctranTextTranslator 的使用範例。
from langchain_community.document_loaders import DoctranTextTranslator