OpenSearch

OpenSearch 是一個可擴展、彈性且可延伸的開源軟體套件，適用於搜尋、分析和可觀測性應用程式，並以 Apache 2.0 授權條款授權。 OpenSearch 是一個基於 Apache Lucene 的分散式搜尋和分析引擎。

本筆記本展示如何使用與 OpenSearch 資料庫相關的功能。

若要執行，您應該啟動並執行 OpenSearch 實例：請參閱此處以取得簡易的 Docker 安裝方式。

similarity_search 預設執行近似 k-NN 搜尋，其使用多種演算法之一，例如 lucene、nmslib、faiss，建議用於大型資料集。若要執行暴力搜尋，我們有其他搜尋方法，稱為腳本評分和 Painless Scripting。請查看此處以取得更多詳細資訊。

安裝

安裝 Python 用戶端。

%pip install --upgrade --quiet  opensearch-py langchain-community

我們想要使用 OpenAIEmbeddings，因此必須取得 OpenAI API 金鑰。

import getpass
import os

if "OPENAI_API_KEY" not in os.environ:
    os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import OpenSearchVectorSearch
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

API 參考文檔：TextLoader | OpenSearchVectorSearch | OpenAIEmbeddings | CharacterTextSplitter

from langchain_community.document_loaders import TextLoader

loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings()

API 參考文檔：TextLoader

使用近似 k-NN 的相似度搜尋

使用 Approximate k-NN 搜尋和自訂參數的 similarity_search

docsearch = OpenSearchVectorSearch.from_documents(
    docs, embeddings, opensearch_url="https://127.0.0.1:9200"
)

# If using the default Docker installation, use this instantiation instead:
# docsearch = OpenSearchVectorSearch.from_documents(
#     docs,
#     embeddings,
#     opensearch_url="https://127.0.0.1:9200",
#     http_auth=("admin", "admin"),
#     use_ssl = False,
#     verify_certs = False,
#     ssl_assert_hostname = False,
#     ssl_show_warn = False,
# )

query = "What did the president say about Ketanji Brown Jackson"
docs = docsearch.similarity_search(query, k=10)

print(docs[0].page_content)

docsearch = OpenSearchVectorSearch.from_documents(
    docs,
    embeddings,
    opensearch_url="https://127.0.0.1:9200",
    engine="faiss",
    space_type="innerproduct",
    ef_construction=256,
    m=48,
)

query = "What did the president say about Ketanji Brown Jackson"
docs = docsearch.similarity_search(query)

print(docs[0].page_content)

使用腳本評分的相似度搜尋

使用 Script Scoring 和自訂參數的 similarity_search

docsearch = OpenSearchVectorSearch.from_documents(
    docs, embeddings, opensearch_url="https://127.0.0.1:9200", is_appx_search=False
)

query = "What did the president say about Ketanji Brown Jackson"
docs = docsearch.similarity_search(
    "What did the president say about Ketanji Brown Jackson",
    k=1,
    search_type="script_scoring",
)

print(docs[0].page_content)

使用 Painless Scripting 的相似度搜尋

使用 Painless Scripting 和自訂參數的 similarity_search

docsearch = OpenSearchVectorSearch.from_documents(
    docs, embeddings, opensearch_url="https://127.0.0.1:9200", is_appx_search=False
)
filter = {"bool": {"filter": {"term": {"text": "smuggling"}}}}
query = "What did the president say about Ketanji Brown Jackson"
docs = docsearch.similarity_search(
    "What did the president say about Ketanji Brown Jackson",
    search_type="painless_scripting",
    space_type="cosineSimilarity",
    pre_filter=filter,
)

print(docs[0].page_content)

最大邊際相關性搜尋 (MMR)

如果您想要查找一些類似的文件，但您也希望收到多樣化的結果，則應考慮使用 MMR 方法。最大邊際相關性針對與查詢的相似性以及所選文件之間的多樣性進行了最佳化。

query = "What did the president say about Ketanji Brown Jackson"
docs = docsearch.max_marginal_relevance_search(query, k=2, fetch_k=10, lambda_param=0.5)

使用預先存在的 OpenSearch 實例

也可以將預先存在的 OpenSearch 實例與已存在向量的文件一起使用。

# this is just an example, you would need to change these values to point to another opensearch instance
docsearch = OpenSearchVectorSearch(
    index_name="index-*",
    embedding_function=embeddings,
    opensearch_url="https://127.0.0.1:9200",
)

# you can specify custom field names to match the fields you're using to store your embedding, document text value, and metadata
docs = docsearch.similarity_search(
    "Who was asking about getting lunch today?",
    search_type="script_scoring",
    space_type="cosinesimil",
    vector_field="message_embedding",
    text_field="message",
    metadata_field="message_metadata",
)

使用 AOSS (Amazon OpenSearch Service Serverless)

這是具有 faiss 引擎和 efficient_filter 的 AOSS 範例。

我們需要安裝幾個 python 套件。

%pip install --upgrade --quiet  boto3 requests requests-aws4auth

import boto3
from opensearchpy import RequestsHttpConnection
from requests_aws4auth import AWS4Auth

service = "aoss"  # must set the service as 'aoss'
region = "us-east-2"
credentials = boto3.Session(
    aws_access_key_id="xxxxxx", aws_secret_access_key="xxxxx"
).get_credentials()
awsauth = AWS4Auth("xxxxx", "xxxxxx", region, service, session_token=credentials.token)

docsearch = OpenSearchVectorSearch.from_documents(
    docs,
    embeddings,
    opensearch_url="host url",
    http_auth=awsauth,
    timeout=300,
    use_ssl=True,
    verify_certs=True,
    connection_class=RequestsHttpConnection,
    index_name="test-index-using-aoss",
    engine="faiss",
)

docs = docsearch.similarity_search(
    "What is feature selection",
    efficient_filter=filter,
    k=200,
)

使用 AOS (Amazon OpenSearch Service)

%pip install --upgrade --quiet  boto3

# This is just an example to show how to use Amazon OpenSearch Service, you need to set proper values.
import boto3
from opensearchpy import RequestsHttpConnection

service = "es"  # must set the service as 'es'
region = "us-east-2"
credentials = boto3.Session(
    aws_access_key_id="xxxxxx", aws_secret_access_key="xxxxx"
).get_credentials()
awsauth = AWS4Auth("xxxxx", "xxxxxx", region, service, session_token=credentials.token)

docsearch = OpenSearchVectorSearch.from_documents(
    docs,
    embeddings,
    opensearch_url="host url",
    http_auth=awsauth,
    timeout=300,
    use_ssl=True,
    verify_certs=True,
    connection_class=RequestsHttpConnection,
    index_name="test-index",
)

docs = docsearch.similarity_search(
    "What is feature selection",
    k=200,
)

向量儲存庫概念指南
向量儲存庫操作指南

安裝​

使用近似 k-NN 的相似度搜尋​

使用腳本評分的相似度搜尋​

使用 Painless Scripting 的相似度搜尋​

最大邊際相關性搜尋 (MMR)​

使用預先存在的 OpenSearch 實例​

使用 AOSS (Amazon OpenSearch Service Serverless)​

使用 AOS (Amazon OpenSearch Service)​

相關內容​

此頁面是否對您有幫助？

安裝