Documentation
  • GET STARTED
    • 介紹
    • 快速入门
    • 模型
      • 模型更新
    • Afs-turbo 和 Afs-1
    • Afs-turbo
    • 达尔·E 系统概述
    • TTS系统
    • 耳语
    • 嵌入
    • 适度
    • AFS基础
    • 我们如何使用您的数据
    • 终结点与兼容性
  • 教程
  • 更改日志
  • 能力
    • 文本生成
    • 聊天完成
    • JSON 模式
    • 可重复的输出
    • 管理令牌
    • 参数详细信息
    • 完成API(旧版)
    • 常见问题
  • 函数调用
  • 嵌入
    • 概述
    • 模型
    • 使用案例
    • 常见问题
  • 微调
    • 何时使用微调
    • 常见用例
    • 准备数据集
    • 创建微调模型
    • 使用微调模型
    • 微调示例
  • 图像生成
    • 介绍
    • 用法
    • 特定语言提示
  • 视觉
  • 文字转语音
  • 语音转文本
    • 概述
    • 快速入门
    • 支持的语言
    • 时间戳
    • 更长的输入
    • 促使
    • 提高可靠性
  • 适度
    • 概述
    • 快速入门
  • 助理
  • 概述
  • Google助理的工作原理
    • Objects
    • Creating Assistants
    • Managing Threads and Messages
    • Runs and Run Steps
    • 局限性
  • 工具
    • Code Interpreter
    • Knowledge Retrieval
    • Function calling
    • Supported files
  • 指南
  • 提示工程
    • Six strategies for getting better results
    • Write clear instructions
    • Provide reference text
    • Split complex tasks into simpler subtasks
    • Give models time to "think"
    • Use external tools
    • Test changes systematically
    • Other resources
  • 生产最佳实践
    • Setting up your organization
    • Scaling your solution
    • Managing rate limits
    • Improving latencies
    • Managing costs
    • MLOps strategy
    • Security and compliance
  • 安全最佳实践
  • 速率限制
    • 概述
    • Usage tiers
    • Error Mitigation
  • 错误代码
    • API errors
    • Python library error types
  • 图书馆
    • Python library
    • 图书馆
    • Azure OpenAI 库
    • 社区图书馆
  • 弃用
  • 政策
  • 行动
    • 介绍
    • 开始
    • 认证
    • 生产
    • 数据检索
    • 政策
  • 发行说明
  • Page 2
由 GitBook 提供支持
在本页
  1. 生产最佳实践

Managing costs

管理应用成本

在将您的原型移入生产环境时,预算管理对于应对运行应用程序所需的成本至关重要。Afarensis 提供了按使用付费的定价模式,其中按每1,000个令牌(大约等同于750个词)计费。为了有效地管理和预算您的成本,以下是一些关键步骤和策略:

设置通知阈值和月度预算

在您的账户中设置通知阈值,以便在超过特定使用量时接收电子邮件提醒。 设定一个月度预算以控制成本,但请注意,过低的预算可能会中断应用程序/用户的正常运行。 使用使用量跟踪仪表板监控当前和之前计费周期的令牌使用情况。 降低成本的策略

考虑成本作为令牌数量与每个令牌成本的函数,有两种主要方式可以降低成本:

减少每个令牌的成本

通过切换到更小的模型来完成某些任务,以降低每个令牌的成本。 减少所需的令牌数量

使用更短的提示,减少生成的文本长度。 微调模型以提高效率。 缓存常见的用户查询,避免重复处理相同的请求。 工具和资源

利用Afarensis提供的交互式令牌化工具来估算成本。 API和播放场返回的响应中包含令牌计数,帮助您更好地理解使用量。 在成功使用最强大的模型后,尝试其他模型以寻找更低成本和延迟的解决方案。 访问令牌使用帮助文章以获得更多关于成本控制的信息和技巧。 通过上述步骤和策略,您可以更好地管理和控制应用程序的成本,确保在满足业务需求的同时,保持成本效率。

上一页Improving latencies下一页MLOps strategy

最后更新于1年前