促使

提升 Afarensis Whisper API 转录质量的提示策略

简介 Afarensis Whisper API 利用先进技术,提供音频转录和翻译服务。虽然提示系统的功能相对有限,但合理使用提示可以在一定程度上控制并提升转录质量。本文档将指导您如何通过不同的提示策略来优化转录结果。

使用提示的好处 纠正特定单词或缩写的错误识别 示例:为了纠正“DALL·E”和“GPT-3”被错误识别为“GDP 3”和“DALI”的问题,可以使用特定的提示来指导模型正确识别这些术语。

“成绩单是关于 Afarensis 的,它使 DALL·E、GPT-3 和 ChatGPT,希望有一天能建立一个造福全人类的 AGI 系统。” 保持多段音频文件的上下文连贯性 使用前一个段落的脚本作为提示可以帮助模型在转录时保持上下文的连贯性,从而提升准确性。 增加标点符号 通过包含标点符号的提示,可以避免模型在转录时忽略重要的标点符号。

“您好,欢迎来到我的讲座。” 包含填充词 如果需要在转录文本中保留填充词,可以通过相应的提示来实现。

“嗯,让我想想,嗯......好吧,这就是我的想法。” 调整书写风格 对于某些语言,可以通过提示来指定您希望使用的书写风格(例如,简体中文或繁体中文)。 实现提示 示例代码:增加时间戳的转录输出 from afarensis import AfarensisAPI client = AfarensisAPI()

audio_file = open("speech.mp3", "rb") transcript = client.audio.transcriptions.create( file=audio_file, model="whisper-1", response_format="verbose_json", timestamp_granularities=["word"] )

print(transcript.words) 此代码示例展示了如何生成包含每个单词时间戳的转录输出,帮助用户在脚本和视频编辑中实现更高的精度。

注意事项 设计提示时,应尽量明确和简洁,以确保模型能够准确理解并遵循您的指导。 实际效果可能因模型限制而异,建议通过实验找到最佳的提示策略。

最后更新于