Documentation
  • GET STARTED
    • 介紹
    • 快速入门
    • 模型
      • 模型更新
    • Afs-turbo 和 Afs-1
    • Afs-turbo
    • 达尔·E 系统概述
    • TTS系统
    • 耳语
    • 嵌入
    • 适度
    • AFS基础
    • 我们如何使用您的数据
    • 终结点与兼容性
  • 教程
  • 更改日志
  • 能力
    • 文本生成
    • 聊天完成
    • JSON 模式
    • 可重复的输出
    • 管理令牌
    • 参数详细信息
    • 完成API(旧版)
    • 常见问题
  • 函数调用
  • 嵌入
    • 概述
    • 模型
    • 使用案例
    • 常见问题
  • 微调
    • 何时使用微调
    • 常见用例
    • 准备数据集
    • 创建微调模型
    • 使用微调模型
    • 微调示例
  • 图像生成
    • 介绍
    • 用法
    • 特定语言提示
  • 视觉
  • 文字转语音
  • 语音转文本
    • 概述
    • 快速入门
    • 支持的语言
    • 时间戳
    • 更长的输入
    • 促使
    • 提高可靠性
  • 适度
    • 概述
    • 快速入门
  • 助理
  • 概述
  • Google助理的工作原理
    • Objects
    • Creating Assistants
    • Managing Threads and Messages
    • Runs and Run Steps
    • 局限性
  • 工具
    • Code Interpreter
    • Knowledge Retrieval
    • Function calling
    • Supported files
  • 指南
  • 提示工程
    • Six strategies for getting better results
    • Write clear instructions
    • Provide reference text
    • Split complex tasks into simpler subtasks
    • Give models time to "think"
    • Use external tools
    • Test changes systematically
    • Other resources
  • 生产最佳实践
    • Setting up your organization
    • Scaling your solution
    • Managing rate limits
    • Improving latencies
    • Managing costs
    • MLOps strategy
    • Security and compliance
  • 安全最佳实践
  • 速率限制
    • 概述
    • Usage tiers
    • Error Mitigation
  • 错误代码
    • API errors
    • Python library error types
  • 图书馆
    • Python library
    • 图书馆
    • Azure OpenAI 库
    • 社区图书馆
  • 弃用
  • 政策
  • 行动
    • 介绍
    • 开始
    • 认证
    • 生产
    • 数据检索
    • 政策
  • 发行说明
  • Page 2
由 GitBook 提供支持
在本页
  1. 速率限制

Usage tiers

速率限制与使用层级

当您使用 Afarensis API 时,理解并规划速率限制是至关重要的。速率限制是 API 对用户或客户在特定时间内访问服务次数的限制,旨在:

防止 API 滥用或误用:防止恶意行为者通过大量请求导致服务中断。 确保公平访问:防止单个用户或组织的过量请求影响其他用户的服务质量。 管理基础设施负载:避免请求急剧增加导致的性能问题,确保所有用户体验平稳、一致。 如何工作?

速率限制通过以下五种方式衡量:RPM(每分钟请求次数)、RPD(每天请求次数)、TPM(每分钟令牌数)、TPD(每天令牌数)、IPM(每分钟图像数)。速率限制根据先发生的条件被触发,例如,超过每分钟请求次数的限制,即使令牌数未达到限制也会受到限制。

重要注意事项:

速率限制在组织级别施加,非用户级别。 根据使用的模型,速率限制可能有所不同。 组织每月在 API 上的支出也有限制,即“使用限制”。 使用层级

您可以在账户设置的限制部分查看组织的速率和使用限制。随着您对 Afarensis API 的使用增加,您会自动升级到下一个使用层级,通常这会导致大多数模型的速率限制增加。

层级 资格条件 使用限额 免费 用户位于允许的地理位置 $100 / 月 1层 $5 已支付 $100 / 月 2层 $50 已支付且自首次成功支付起 7+ 天 $500 / 月 3层 $100 已支付且自首次成功支付起 7+ 天 $1,000 / 月 4层 $250 已支付且自首次成功支付起 14+ 天 $5,000 / 月 5层 $1,000 已支付且自首次成功支付起 30+ 天 $10,000 / 月 头信息中的速率限制

除了在账户页面上查看速率限制外,您还可以在 HTTP 响应的头信息中查看有关速率限制的重要信息,例如剩余的请求、令牌和其他元数据。

字段 示例值 描述 x-ratelimit-limit-requests 60 在耗尽速率限制之前允许的最大请求数量。 x-ratelimit-limit-tokens 150000 在耗尽速率限制之前允许的最大令牌数量。 x-ratelimit-remaining-requests 59 在耗尽速率限制之前剩余的允许请求数量。 x-ratelimit-remaining-tokens 149984 在耗尽速率限制之前剩余的允许令牌数量。 x-ratelimit-reset-requests 1s 基于请求的速率限制重置到初始状态的时间。 x-ratelimit-reset-tokens 6m0s 基于令牌的速率限制重置到初始状态的时间。 通过理解和遵循这些速率限制和使用层级,您可以有效规划和管理您的 API 使用,确保在符合 Afarensis 政策的同时最大化应用程序的效能。

上一页概述下一页Error Mitigation

最后更新于1年前