📄️ AI21SemanticTextSplitter
此範例說明如何在 LangChain 中使用 AI21SemanticTextSplitter。
📄️ Beautiful Soup
Beautiful Soup 是一個用於剖析的 Python 套件
📄️ Cross Encoder Reranker
此筆記本展示如何在檢索器中使用您自己的交叉編碼器(來自 Hugging Face 交叉編碼器模型或實作交叉編碼器功能的 Hugging Face 模型,例如:BAAI/bge-reranker-base)實作重新排序器。SagemakerEndpointCrossEncoder 讓您可以使用在 Sagemaker 上載入的這些 HuggingFace 模型。
📄️ DashScope Reranker
此筆記本展示如何使用 DashScope Reranker 進行文件壓縮和檢索。DashScope 是阿里巴巴雲端(阿里云)的生成式 AI 服務。
📄️ Doctran:提取屬性
我們可以使用 Doctran 函式庫提取文件的有用功能,該函式庫使用 OpenAI 的函式呼叫功能來提取特定的元數據。
📄️ Doctran:審問文件
向量儲存知識庫中使用的文件通常以敘述或對話格式儲存。但是,大多數使用者查詢都是問題格式。如果我們在向量化文件之前將文件轉換為問答格式,則可以增加檢索相關文件的可能性,並降低檢索不相關文件的可能性。
📄️ Doctran:語言翻譯
透過嵌入比較文件的好處是可以跨多種語言工作。「Harrison says hello」和「Harrison dice hola」在向量空間中將佔據相似的位置,因為它們在語義上具有相同的含義。
📄️ Google Cloud Vertex AI Reranker
Vertex Search Ranking API 是 Vertex AI Agent Builder 中的獨立 API 之一。它會取得文件列表,並根據文件與查詢的相關程度對這些文件重新排序。與僅查看文件和查詢的語義相似性的嵌入相比,排序 API 可以針對文件回答給定查詢的程度提供精確的分數。排序 API 可用於在檢索初始候選文件集後提高搜尋結果的品質。
📄️ Google Cloud Document AI
Document AI 是 Google Cloud 的文件理解平台,旨在將文件中的非結構化資料轉換為結構化資料,使其更易於理解、分析和使用。
📄️ Google 翻譯
Google 翻譯是 Google 開發的多語言神經機器翻譯服務,用於翻譯文字、文件和網站,將一種語言翻譯成另一種語言。
📄️ HTML 轉文字
html2text 是一個 Python 套件,可將 HTML 頁面轉換為乾淨、易於閱讀的純 ASCII 文字。
📄️ Infinity Reranker
Infinity 是一個高吞吐量、低延遲的 REST API,用於服務文字嵌入、重新排序模型和剪輯。
📄️ Jina Reranker
此筆記本展示如何使用 Jina Reranker 進行文件壓縮和檢索。
📄️ Markdownify
markdownify 是一個 Python 套件,可將 HTML 文件轉換為 Markdown 格式,並提供可自訂的選項來處理標籤(連結、圖像...)、標題樣式和其他項目。
📄️ Nuclia
Nuclia 會自動索引來自任何內部和外部來源的非結構化資料,提供最佳化的搜尋結果和生成式答案。它可以處理影片和音訊轉錄、圖像內容提取和文件剖析。
📄️ OpenAI metadata tagger
使用結構化元數據(例如文件的標題、語氣或長度)標記擷取的文件通常很有用,以便稍後進行更有針對性的相似性搜尋。但是,對於大量文件,手動執行此標記過程可能很繁瑣。
📄️ OpenVINO Reranker
OpenVINO™ 是一個用於最佳化和部署 AI 推論的開放原始碼工具組。OpenVINO™ Runtime 支援各種硬體裝置,包括 x86 和 ARM CPU,以及 Intel GPU。它可以幫助提升電腦視覺、自動語音辨識、自然語言處理和其他常見任務中的深度學習效能。
📄️ RankLLM Reranker
RankLLM 提供了一套列表式重新排序器,儘管重點是針對該任務微調的開放原始碼 LLM - RankVicuna 和 RankZephyr 是其中之二。
📄️ Volcengine Reranker
此筆記本展示如何使用 Volcengine Reranker 進行文件壓縮和檢索。Volcengine 是 ByteDance(TikTok 的母公司)開發的雲端服務平台。
📄️ VoyageAI Reranker
Voyage AI 提供尖端的嵌入/向量化模型。