跳到主要內容
Open on GitHub

Diffbot

Diffbot 是一套基於 ML 的產品,可輕鬆建構和整合網路資料。

安裝和設定

取得免費的 Diffbot API 令牌,並依照這些指示驗證您的請求。

文件載入器

Diffbot 的 Extract API 是一項服務,可建構和標準化網頁中的資料。

與傳統的網頁抓取工具不同,Diffbot Extract 不需要任何規則即可讀取頁面上的內容。它使用電腦視覺模型將頁面分類為 20 種可能的類型之一,然後將原始 HTML 標記轉換為 JSON。產生的結構化 JSON 遵循一致的基於類型的本體,這使得從具有相同結構描述的多個不同網路來源提取資料變得容易。

請參閱使用範例

from langchain_community.document_loaders import DiffbotLoader
API 參考文檔:DiffbotLoader

圖表

Diffbot 的 自然語言處理 API 允許從非結構化文字資料中提取實體、關係和語義含義。

請參閱使用範例

from langchain_experimental.graph_transformers.diffbot import DiffbotGraphTransformer
API 參考文檔:DiffbotGraphTransformer

此頁面是否對您有幫助?