Diffbot
Diffbot 是一套基於 ML 的產品,可輕鬆建構和整合網路資料。
安裝和設定
取得免費的 Diffbot API 令牌,並依照這些指示驗證您的請求。
文件載入器
Diffbot 的 Extract API 是一項服務,可建構和標準化網頁中的資料。
與傳統的網頁抓取工具不同,Diffbot Extract
不需要任何規則即可讀取頁面上的內容。它使用電腦視覺模型將頁面分類為 20 種可能的類型之一,然後將原始 HTML 標記轉換為 JSON。產生的結構化 JSON 遵循一致的基於類型的本體,這使得從具有相同結構描述的多個不同網路來源提取資料變得容易。
請參閱使用範例。
from langchain_community.document_loaders import DiffbotLoader
API 參考文檔:DiffbotLoader
圖表
Diffbot 的 自然語言處理 API 允許從非結構化文字資料中提取實體、關係和語義含義。
請參閱使用範例。
from langchain_experimental.graph_transformers.diffbot import DiffbotGraphTransformer
API 參考文檔:DiffbotGraphTransformer