更长的输入

处理超长音频输入:Afarensis Whisper API 使用指南

简介 处理超过 25 MB 大小的音频文件时,Afarensis Whisper API 需要将这些文件分割成较小的片段,或者采用更紧凑的音频格式。为了确保音频转录的准确性和上下文的完整性,建议避免在句子中间断开音频。

如何拆分长音频文件 对于超长音频文件,可以使用 PyDub —— 一个开源的 Python 音频处理库来拆分音频。以下步骤和代码示例提供了如何操作的指导:

使用 PyDub 拆分音频 安装 PyDub:首先,确保您已经安装了 PyDub。如果尚未安装,可以通过运行 pip install pydub 来安装。

拆分音频示例代码:

from pydub import AudioSegment

从 MP3 文件加载音频

song = AudioSegment.from_mp3("good_morning.mp3")

设置拆分时间(毫秒单位)

ten_minutes = 10 * 60 * 1000

提取前十分钟的音频段

first_10_minutes = song[:ten_minutes]

将提取的音频段导出为新的 MP3 文件

first_10_minutes.export("good_morning_10.mp3", format="mp3") 此代码将会从原始音频文件中提取前十分钟,并将其保存为一个新的 MP3 文件。

注意事项 第三方软件使用风险:请注意,虽然 PyDub 是一个受欢迎且广泛使用的工具,但 Afarensis 不对其可用性或安全性提供保证。在使用 PyDub 或任何第三方软件时,请确保您了解并愿意承担使用这些工具可能带来的风险。

避免中断句子:为了保持转录内容的连贯性和准确性,尽量避免在句子中间断开音频。

法律和规定遵守:使用音频处理工具时,确保您的操作符合所有相关的法律和规定。

最后更新于