跳至主要內容

Apify Dataset

Apify Dataset 是一個可擴展的僅附加儲存空間,具有順序存取功能,專為儲存結構化的網頁抓取結果而建構,例如產品列表或 Google SERP,然後將它們匯出為各種格式,如 JSON、CSV 或 Excel。資料集主要用於儲存 Apify Actors 的結果——用於各種網頁抓取、爬網和資料提取用例的無伺服器雲端程式。

此筆記本示範如何將 Apify 資料集載入到 LangChain。

先決條件

您需要在 Apify 平台上擁有現有的資料集。此範例示範如何載入由 Website Content Crawler 產生的資料集。

%pip install --upgrade --quiet  apify-client

首先,將 ApifyDatasetLoader 匯入您的原始碼

from langchain_community.document_loaders import ApifyDatasetLoader
from langchain_core.documents import Document

然後,提供一個函數,將 Apify 資料集記錄欄位對應到 LangChain Document 格式。

例如,如果您的資料集項目結構如下

{
"url": "https://apify.com",
"text": "Apify is the best web scraping and automation platform."
}

下面的程式碼中的對應函數會將它們轉換為 LangChain Document 格式,以便您可以將它們與任何 LLM 模型一起使用 (例如,用於問答)。

loader = ApifyDatasetLoader(
dataset_id="your-dataset-id",
dataset_mapping_function=lambda dataset_item: Document(
page_content=dataset_item["text"], metadata={"source": dataset_item["url"]}
),
)
data = loader.load()

一個問答範例

在此範例中,我們使用來自資料集的資料來回答問題。

from langchain.indexes import VectorstoreIndexCreator
from langchain_community.utilities import ApifyWrapper
from langchain_core.documents import Document
from langchain_openai import OpenAI
from langchain_openai.embeddings import OpenAIEmbeddings
loader = ApifyDatasetLoader(
dataset_id="your-dataset-id",
dataset_mapping_function=lambda item: Document(
page_content=item["text"] or "", metadata={"source": item["url"]}
),
)
index = VectorstoreIndexCreator(embedding=OpenAIEmbeddings()).from_loaders([loader])
query = "What is Apify?"
result = index.query_with_sources(query, llm=OpenAI())
print(result["answer"])
print(result["sources"])
 Apify is a platform for developing, running, and sharing serverless cloud programs. It enables users to create web scraping and automation tools and publish them on the Apify platform.

https://docs.apify.com/platform/actors, https://docs.apify.com/platform/actors/running/actors-in-store, https://docs.apify.com/platform/security, https://docs.apify.com/platform/actors/examples

此頁面是否有幫助?