Beautiful Soup
Beautiful Soup 是一個 Python 套件,用於解析 HTML 和 XML 文件(包括格式錯誤的標記,即未關閉的標籤,因此以標籤湯命名)。它為解析的頁面建立一個解析樹,可用於從 HTML 中提取數據,[3] 這對於網路爬蟲非常有用。
安裝與設定
pip install beautifulsoup4
文件轉換器
請參閱使用範例。
from langchain_community.document_loaders import BeautifulSoupTransformer