跳到主要內容
Open on GitHub

Hyperbrowser

Hyperbrowser 是一個用於執行和擴展無頭瀏覽器的平台。它讓您可以大規模啟動和管理瀏覽器會話,並為任何網路爬取需求提供易於使用的解決方案,例如爬取單一頁面或爬取整個網站。

主要功能

  • 即時擴展性 - 在幾秒鐘內啟動數百個瀏覽器會話,無需基礎設施的麻煩
  • 簡單整合 - 與 Puppeteer 和 Playwright 等常用工具無縫協作
  • 強大的 API - 易於使用的 API,用於爬取任何網站等等
  • 繞過反機器人措施 - 內建隱身模式、廣告封鎖、自動 CAPTCHA 解決和輪換代理

有關 Hyperbrowser 的更多資訊,請訪問 Hyperbrowser 網站,或者如果您想查看文件,可以訪問 Hyperbrowser 文件

安裝與設定

要開始使用 langchain-hyperbrowser,您可以使用 pip 安裝套件

pip install langchain-hyperbrowser

您應該設定以下環境變數來配置憑證

HYPERBROWSER_API_KEY=<your-api-key>

請務必從 https://app.hyperbrowser.ai/ 取得您的 API 金鑰

文件載入器

`langchain-hyperbrowser` 中的 `HyperbrowserLoader` 類別可以輕鬆用於從任何單一頁面或多個頁面載入內容,以及爬取整個網站。內容可以 markdown 或 html 格式載入。

from langchain_hyperbrowser import HyperbrowserLoader

loader = HyperbrowserLoader(urls="https://example.com")
docs = loader.load()

print(docs[0])

進階用法

您可以指定載入器要執行的操作。預設操作為 `scrape`。對於 `scrape`,您可以提供單一 URL 或要爬取的 URL 列表。對於 `crawl`,您只能提供單一 URL。`crawl` 操作將爬取提供的頁面和子頁面,並為每個頁面傳回文件。

loader = HyperbrowserLoader(
urls="https://hyperbrowser.ai", api_key="YOUR_API_KEY", operation="crawl"
)

載入器的可選參數也可以在 `params` 參數中提供。有關支援參數的更多資訊,請訪問 https://docs.hyperbrowser.ai/reference/sdks/python/scrape#start-scrape-job-and-waithttps://docs.hyperbrowser.ai/reference/sdks/python/crawl#start-crawl-job-and-wait

loader = HyperbrowserLoader(
urls="https://example.com",
api_key="YOUR_API_KEY",
operation="scrape",
params={"scrape_options": {"include_tags": ["h1", "h2", "p"]}}
)

其他資源


此頁面是否有幫助?