跳到主要內容
Open In ColabOpen on GitHub

Azure OpenAI Whisper Parser

Azure OpenAI Whisper Parser 是 Azure OpenAI Whisper API 的封裝器,它利用機器學習將音訊檔案轉錄為英文文字。

此解析器支援 .mp3.mp4.mpeg.mpga.m4a.wav.webm

目前的實作遵循 LangChain 核心原則,並且可以與其他載入器搭配使用,以處理音訊下載和解析。因此,此解析器將 yield 一個 Iterator[Document]

先決條件

此服務需要 Azure 憑證、Azure 端點和 Whisper 模型部署,可以依照此處的指南進行設定。此外,必須安裝必要的相依性。

%pip install -Uq  langchain langchain-community openai

範例 1

AzureOpenAIWhisperParser 的方法 .lazy_parse 接受 Blob 物件作為參數,其中包含要轉錄的檔案的檔案路徑。

from langchain_core.documents.base import Blob

audio_path = "path/to/your/audio/file"
audio_blob = Blob(path=audio_path)
API 參考:Blob
from langchain_community.document_loaders.parsers.audio import AzureOpenAIWhisperParser

endpoint = "<your_endpoint>"
key = "<your_api_key"
version = "<your_api_version>"
name = "<your_deployment_name>"

parser = AzureOpenAIWhisperParser(
api_key=key, azure_endpoint=endpoint, api_version=version, deployment_name=name
)
documents = parser.lazy_parse(blob=audio_blob)
for doc in documents:
print(doc.page_content)

範例 2

AzureOpenAIWhisperParser 也可以與音訊載入器結合使用,例如帶有 GenericLoaderYoutubeAudioLoader

from langchain_community.document_loaders.blob_loaders.youtube_audio import (
YoutubeAudioLoader,
)
from langchain_community.document_loaders.generic import GenericLoader
# Must be a list
url = ["www.youtube.url.com"]

save_dir = "save/directory/"
name = "<your_deployment_name>"

loader = GenericLoader(
YoutubeAudioLoader(url, save_dir), AzureOpenAIWhisperParser(deployment_name=name)
)

docs = loader.load()
for doc in documents:
print(doc.page_content)

此頁面是否對您有幫助?