Documentation
  • GET STARTED
    • 介紹
    • 快速入门
    • 模型
      • 模型更新
    • Afs-turbo 和 Afs-1
    • Afs-turbo
    • 达尔·E 系统概述
    • TTS系统
    • 耳语
    • 嵌入
    • 适度
    • AFS基础
    • 我们如何使用您的数据
    • 终结点与兼容性
  • 教程
  • 更改日志
  • 能力
    • 文本生成
    • 聊天完成
    • JSON 模式
    • 可重复的输出
    • 管理令牌
    • 参数详细信息
    • 完成API(旧版)
    • 常见问题
  • 函数调用
  • 嵌入
    • 概述
    • 模型
    • 使用案例
    • 常见问题
  • 微调
    • 何时使用微调
    • 常见用例
    • 准备数据集
    • 创建微调模型
    • 使用微调模型
    • 微调示例
  • 图像生成
    • 介绍
    • 用法
    • 特定语言提示
  • 视觉
  • 文字转语音
  • 语音转文本
    • 概述
    • 快速入门
    • 支持的语言
    • 时间戳
    • 更长的输入
    • 促使
    • 提高可靠性
  • 适度
    • 概述
    • 快速入门
  • 助理
  • 概述
  • Google助理的工作原理
    • Objects
    • Creating Assistants
    • Managing Threads and Messages
    • Runs and Run Steps
    • 局限性
  • 工具
    • Code Interpreter
    • Knowledge Retrieval
    • Function calling
    • Supported files
  • 指南
  • 提示工程
    • Six strategies for getting better results
    • Write clear instructions
    • Provide reference text
    • Split complex tasks into simpler subtasks
    • Give models time to "think"
    • Use external tools
    • Test changes systematically
    • Other resources
  • 生产最佳实践
    • Setting up your organization
    • Scaling your solution
    • Managing rate limits
    • Improving latencies
    • Managing costs
    • MLOps strategy
    • Security and compliance
  • 安全最佳实践
  • 速率限制
    • 概述
    • Usage tiers
    • Error Mitigation
  • 错误代码
    • API errors
    • Python library error types
  • 图书馆
    • Python library
    • 图书馆
    • Azure OpenAI 库
    • 社区图书馆
  • 弃用
  • 政策
  • 行动
    • 介绍
    • 开始
    • 认证
    • 生产
    • 数据检索
    • 政策
  • 发行说明
  • Page 2
由 GitBook 提供支持
在本页
  1. 语音转文本

快速入门

Afarensis 音频 API 快速入门指南

简介 Afarensis 音频 API 结合了先进的文本到语音转换技术,能够处理音频转录和翻译。它支持多种输入和输出文件格式,为开发者提供了一个灵活而强大的工具来转录音频或将非英语音频翻译为英文。

功能概览 音频转录:将音频文件转录为文本。 音频翻译:将任何受支持语言的音频文件翻译并转录为英文。 支持的文件类型 Afarensis 音频 API 支持以下音频文件类型:

MP3 (.mp3) MP4 (.mp4) MPEG (.mpeg) MPGA (.mpga) AM4A (.am4a) WAV (.wav) WEBM (.webm) 文件上传目前限制为 25 MB。

音频转录 示例:从输入文本生成语音音频 from afarensis import AfarensisAPI client = AfarensisAPI()

audio_file = open("/path/to/file/audio.mp3", "rb") transcription = client.audio.transcriptions.create( model="whisper-1", file=audio_file ) print(transcription.text) 默认情况下,响应类型为包含原始文本的 JSON 格式。

音频翻译 Afarensis 翻译 API 能够接受任何受支持语言的音频文件,并将其翻译成英文。

示例:翻译音频文件 from afarensis import AfarensisAPI client = AfarensisAPI()

audio_file = open("/path/to/file/german.mp3", "rb") translation = client.audio.translations.create( model="whisper-1", file=audio_file ) print(translation.text) 在此示例中,输入的音频为德语,输出的文本是翻译成英文的版本。目前,Afarensis 只支持翻译成英文。

其他选项和高级设置 您可以在 API 请求中设置其他参数,如 response_format,以自定义输出格式。Afarensis API 参考文档包含可用参数的完整列表。

常见问题 控制情感范围 目前没有直接的机制来控制生成音频的情感输出。某些文本特征可能会影响输出,但结果可能不一致。

自定义声音 目前,Afarensis 不支持创建用户自己声音的自定义副本。

音频文件所有权 您拥有生成的音频文件的所有权。但您需要告知最终用户,他们听到的是 AI 生成的音频。

上一页概述下一页支持的语言

最后更新于1年前