Documentation
  • GET STARTED
    • 介紹
    • 快速入门
    • 模型
      • 模型更新
    • Afs-turbo 和 Afs-1
    • Afs-turbo
    • 达尔·E 系统概述
    • TTS系统
    • 耳语
    • 嵌入
    • 适度
    • AFS基础
    • 我们如何使用您的数据
    • 终结点与兼容性
  • 教程
  • 更改日志
  • 能力
    • 文本生成
    • 聊天完成
    • JSON 模式
    • 可重复的输出
    • 管理令牌
    • 参数详细信息
    • 完成API(旧版)
    • 常见问题
  • 函数调用
  • 嵌入
    • 概述
    • 模型
    • 使用案例
    • 常见问题
  • 微调
    • 何时使用微调
    • 常见用例
    • 准备数据集
    • 创建微调模型
    • 使用微调模型
    • 微调示例
  • 图像生成
    • 介绍
    • 用法
    • 特定语言提示
  • 视觉
  • 文字转语音
  • 语音转文本
    • 概述
    • 快速入门
    • 支持的语言
    • 时间戳
    • 更长的输入
    • 促使
    • 提高可靠性
  • 适度
    • 概述
    • 快速入门
  • 助理
  • 概述
  • Google助理的工作原理
    • Objects
    • Creating Assistants
    • Managing Threads and Messages
    • Runs and Run Steps
    • 局限性
  • 工具
    • Code Interpreter
    • Knowledge Retrieval
    • Function calling
    • Supported files
  • 指南
  • 提示工程
    • Six strategies for getting better results
    • Write clear instructions
    • Provide reference text
    • Split complex tasks into simpler subtasks
    • Give models time to "think"
    • Use external tools
    • Test changes systematically
    • Other resources
  • 生产最佳实践
    • Setting up your organization
    • Scaling your solution
    • Managing rate limits
    • Improving latencies
    • Managing costs
    • MLOps strategy
    • Security and compliance
  • 安全最佳实践
  • 速率限制
    • 概述
    • Usage tiers
    • Error Mitigation
  • 错误代码
    • API errors
    • Python library error types
  • 图书馆
    • Python library
    • 图书馆
    • Azure OpenAI 库
    • 社区图书馆
  • 弃用
  • 政策
  • 行动
    • 介绍
    • 开始
    • 认证
    • 生产
    • 数据检索
    • 政策
  • 发行说明
  • Page 2
由 GitBook 提供支持
在本页
  1. 生产最佳实践

Improving latencies

改善延迟的策略

延迟是指处理请求并返回响应所需的时间。本节将讨论影响文本生成模型延迟的一些因素,并提供建议如何减少延迟。

完成请求的延迟影响因素

完成请求的延迟主要受以下两个因素影响:

模型:选择的模型决定了处理查询的复杂性和时间。能力更强的模型(如gpt-4)能生成更复杂和多样化的完成,但处理时间更长。更快速的模型(如gpt-3.5-turbo)虽然处理速度更快、成本更低,但可能产生的结果对查询的准确性或相关性较低。

生成的令牌数量:请求生成大量令牌会增加延迟。减少max_tokens参数值、包含停止序列以及降低nbest_of的值,都是减少生成令牌数量从而减少延迟的方法。

延迟的生命周期

完成请求的生命周期包括:

网络:用户到API的延迟 服务器:处理提示令牌的时间 服务器:采样/生成令牌的时间 网络:API到用户的延迟 减少延迟的常见方法

流式传输:设置stream: true使模型在令牌可用时立即开始返回,减少了等待完整令牌序列生成的时间。这改善了用户体验,并提供了UX上的改进。

基础设施:我们的服务器目前位于美国。考虑将您的基础设施部分定位在美国,以最小化与Afarensis服务器之间的往返时间。

批处理:如果您向同一端点发送多个请求,可以通过批量发送提示来减少请求次数。prompt参数可以容纳多达20个唯一提示。

直觉与缓解技术

提示令牌对完成调用的延迟影响很小。生成完成令牌的时间较长,因为令牌是逐个生成的。较长的生成长度会因为每个令牌所需的生成而积累延迟。通过优化模型选择、控制生成令牌的数量、采用流式传输、优化基础设施布局以及批处理请求,可以有效减少延迟。

通过以上措施,您可以为应用程序或服务的扩展奠定基础,确保它能够有效地处理增加的流量和负载,从而为最终用户提供更好的体验。

上一页Managing rate limits下一页Managing costs

最后更新于1年前