跳到主要內容
Open In ColabOpen on GitHub

Subtitle

SubRip 檔案格式在 Matroska 多媒體容器格式網站上被描述為「可能是所有字幕格式中最基本的」。SubRip (SubRip Text) 檔案以 .srt 副檔名命名,並包含格式化的純文字行,以空白行分隔成組。字幕依序編號,從 1 開始。使用的時間碼格式為 小時:分鐘:秒,毫秒,時間單位固定為兩位數零填充,小數部分固定為三位數零填充 (00:00:00,000)。由於該程式是在法國編寫的,因此使用逗號作為小數分隔符。

如何從字幕 (.srt) 檔案載入資料

請從此處下載範例 .srt 檔案。

%pip install --upgrade --quiet  pysrt
from langchain_community.document_loaders import SRTLoader
API 參考文檔:SRTLoader
loader = SRTLoader(
"example_data/Star_Wars_The_Clone_Wars_S06E07_Crisis_at_the_Heart.srt"
)
docs = loader.load()
docs[0].page_content[:100]
'<i>Corruption discovered\nat the core of the Banking Clan!</i> <i>Reunited, Rush Clovis\nand Senator A'

此頁面是否有幫助?