文件轉換器 | 🦜️🔗 LangChain 框架

📄️ AI21SemanticTextSplitter

此範例說明如何在 LangChain 中使用 AI21SemanticTextSplitter。

📄️ Beautiful Soup

Beautiful Soup 是一個用於剖析的 Python 套件

📄️ Cross Encoder Reranker

此筆記本展示如何在檢索器中使用您自己的交叉編碼器（來自 Hugging Face 交叉編碼器模型或實作交叉編碼器功能的 Hugging Face 模型，例如：BAAI/bge-reranker-base）實作重新排序器。SagemakerEndpointCrossEncoder 讓您可以使用在 Sagemaker 上載入的這些 HuggingFace 模型。

📄️ DashScope Reranker

此筆記本展示如何使用 DashScope Reranker 進行文件壓縮和檢索。DashScope 是阿里巴巴雲端（阿里云）的生成式 AI 服務。

📄️ Doctran：提取屬性

我們可以使用 Doctran 函式庫提取文件的有用功能，該函式庫使用 OpenAI 的函式呼叫功能來提取特定的元數據。

📄️ Doctran：審問文件

向量儲存知識庫中使用的文件通常以敘述或對話格式儲存。但是，大多數使用者查詢都是問題格式。如果我們在向量化文件之前將文件轉換為問答格式，則可以增加檢索相關文件的可能性，並降低檢索不相關文件的可能性。

📄️ Doctran：語言翻譯

透過嵌入比較文件的好處是可以跨多種語言工作。「Harrison says hello」和「Harrison dice hola」在向量空間中將佔據相似的位置，因為它們在語義上具有相同的含義。

📄️ Google Cloud Vertex AI Reranker

Vertex Search Ranking API 是 Vertex AI Agent Builder 中的獨立 API 之一。它會取得文件列表，並根據文件與查詢的相關程度對這些文件重新排序。與僅查看文件和查詢的語義相似性的嵌入相比，排序 API 可以針對文件回答給定查詢的程度提供精確的分數。排序 API 可用於在檢索初始候選文件集後提高搜尋結果的品質。