Faiss (Async)
Facebook AI Similarity Search (Faiss) 是一個用於有效率的相似度搜尋和密集向量集群的函式庫。 它包含在任何大小的向量集中搜尋的演算法,甚至是那些可能不適合 RAM 的向量集。 它還包括用於評估和參數調整的支援程式碼。
請參閱 FAISS 函式庫 論文。
Faiss 文件 (Faiss documentation).
您需要使用 pip install -qU langchain-community
安裝 langchain-community
才能使用此整合。
本筆記本展示如何使用與使用 asyncio
的 FAISS
向量資料庫相關的功能。 LangChain 實作了同步和非同步向量儲存函數。
請參閱 此處 的 synchronous
版本。
%pip install --upgrade --quiet faiss-gpu # For CUDA 7.5+ Supported GPU's.
# OR
%pip install --upgrade --quiet faiss-cpu # For CPU Installation
我們想要使用 OpenAIEmbeddings,因此我們必須取得 OpenAI API 金鑰。
import getpass
import os
if "OPENAI_API_KEY" not in os.environ:
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")
# Uncomment the following line if you need to initialize FAISS with no AVX2 optimization
# os.environ['FAISS_NO_AVX2'] = '1'
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter
loader = TextLoader("../../../extras/modules/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
db = await FAISS.afrom_documents(docs, embeddings)
query = "What did the president say about Ketanji Brown Jackson"
docs = await db.asimilarity_search(query)
print(docs[0].page_content)
具有分數的相似度搜尋 (Similarity Search with score)
有一些 FAISS 特定的方法。 其中一種是 similarity_search_with_score
,它允許您不僅傳回文件,還傳回查詢與它們之間的距離分數。 傳回的距離分數是 L2 距離。 因此,較低的分數更好。
docs_and_scores = await db.asimilarity_search_with_score(query)
docs_and_scores[0]
也可以使用 similarity_search_by_vector
搜尋與給定嵌入向量相似的文件,該函數接受嵌入向量作為參數,而不是字串。
embedding_vector = await embeddings.aembed_query(query)
docs_and_scores = await db.asimilarity_search_by_vector(embedding_vector)
儲存和載入 (Saving and loading)
您還可以儲存和載入 FAISS 索引。 這很有用,因此您不必每次使用時都重新建立它。
db.save_local("faiss_index")
new_db = FAISS.load_local("faiss_index", embeddings, asynchronous=True)
docs = await new_db.asimilarity_search(query)
docs[0]
序列化和反序列化為位元組 (Serializing and De-Serializing to bytes)
您可以使用這些函數來 pickle FAISS 索引。 如果您使用的嵌入模型為 90 mb(sentence-transformers/all-MiniLM-L6-v2 或任何其他模型),則產生的 pickle 大小將超過 90 mb。 模型的體積也包含在總體體積中。 為了克服這個問題,請使用以下函數。 這些函數僅序列化 FAISS 索引,並且大小會小得多。 如果您希望將索引儲存在像 SQL 這樣的資料庫中,這可能會有所幫助。
from langchain_huggingface import HuggingFaceEmbeddings
pkl = db.serialize_to_bytes() # serializes the faiss index
embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
db = FAISS.deserialize_from_bytes(
embeddings=embeddings, serialized=pkl, asynchronous=True
) # Load the index
合併 (Merging)
您還可以合併兩個 FAISS 向量儲存區 (vectorstores)
db1 = await FAISS.afrom_texts(["foo"], embeddings)
db2 = await FAISS.afrom_texts(["bar"], embeddings)
db1.docstore._dict
{'8164a453-9643-4959-87f7-9ba79f9e8fb0': Document(page_content='foo')}
db2.docstore._dict
{'4fbcf8a2-e80f-4f65-9308-2f4cb27cb6e7': Document(page_content='bar')}
db1.merge_from(db2)
db1.docstore._dict
{'8164a453-9643-4959-87f7-9ba79f9e8fb0': Document(page_content='foo'),
'4fbcf8a2-e80f-4f65-9308-2f4cb27cb6e7': Document(page_content='bar')}
具有篩選功能的相似度搜尋 (Similarity Search with filtering)
FAISS 向量儲存區也支援篩選,由於 FAISS 本身不原生支援篩選,因此我們必須手動完成。 這是透過首先提取比 k
更多的結果,然後對它們進行篩選來完成的。 您可以根據中繼資料篩選文件。 您還可以在呼叫任何搜尋方法時設定 fetch_k
參數,以設定您希望在篩選之前提取多少文件。 這是一個小範例
from langchain_core.documents import Document
list_of_documents = [
Document(page_content="foo", metadata=dict(page=1)),
Document(page_content="bar", metadata=dict(page=1)),
Document(page_content="foo", metadata=dict(page=2)),
Document(page_content="barbar", metadata=dict(page=2)),
Document(page_content="foo", metadata=dict(page=3)),
Document(page_content="bar burr", metadata=dict(page=3)),
Document(page_content="foo", metadata=dict(page=4)),
Document(page_content="bar bruh", metadata=dict(page=4)),
]
db = FAISS.from_documents(list_of_documents, embeddings)
results_with_scores = db.similarity_search_with_score("foo")
for doc, score in results_with_scores:
print(f"Content: {doc.page_content}, Metadata: {doc.metadata}, Score: {score}")
Content: foo, Metadata: {'page': 1}, Score: 5.159960813797904e-15
Content: foo, Metadata: {'page': 2}, Score: 5.159960813797904e-15
Content: foo, Metadata: {'page': 3}, Score: 5.159960813797904e-15
Content: foo, Metadata: {'page': 4}, Score: 5.159960813797904e-15
現在我們進行相同的查詢呼叫,但我們僅針對 page = 1
進行篩選
results_with_scores = await db.asimilarity_search_with_score("foo", filter=dict(page=1))
for doc, score in results_with_scores:
print(f"Content: {doc.page_content}, Metadata: {doc.metadata}, Score: {score}")
Content: foo, Metadata: {'page': 1}, Score: 5.159960813797904e-15
Content: bar, Metadata: {'page': 1}, Score: 0.3131446838378906
使用 max_marginal_relevance_search
也可以完成同樣的事情。
results = await db.amax_marginal_relevance_search("foo", filter=dict(page=1))
for doc in results:
print(f"Content: {doc.page_content}, Metadata: {doc.metadata}")
Content: foo, Metadata: {'page': 1}
Content: bar, Metadata: {'page': 1}
這是一個如何在呼叫 similarity_search
時設定 fetch_k
參數的範例。 通常,您會希望 fetch_k
參數 >> k
參數。 這是因為 fetch_k
參數是在篩選之前將提取的文件數量。 如果您將 fetch_k
設定為較低的數字,您可能沒有足夠的文件可供篩選。
results = await db.asimilarity_search("foo", filter=dict(page=1), k=1, fetch_k=4)
for doc in results:
print(f"Content: {doc.page_content}, Metadata: {doc.metadata}")
Content: foo, Metadata: {'page': 1}
刪除 (Delete)
您還可以刪除 ID。 請注意,要刪除的 ID 應該是 docstore 中的 ID。
db.delete([db.index_to_docstore_id[0]])
True
# Is now missing
0 in db.index_to_docstore_id
False