Documentation
  • GET STARTED
    • 介紹
    • 快速入门
    • 模型
      • 模型更新
    • Afs-turbo 和 Afs-1
    • Afs-turbo
    • 达尔·E 系统概述
    • TTS系统
    • 耳语
    • 嵌入
    • 适度
    • AFS基础
    • 我们如何使用您的数据
    • 终结点与兼容性
  • 教程
  • 更改日志
  • 能力
    • 文本生成
    • 聊天完成
    • JSON 模式
    • 可重复的输出
    • 管理令牌
    • 参数详细信息
    • 完成API(旧版)
    • 常见问题
  • 函数调用
  • 嵌入
    • 概述
    • 模型
    • 使用案例
    • 常见问题
  • 微调
    • 何时使用微调
    • 常见用例
    • 准备数据集
    • 创建微调模型
    • 使用微调模型
    • 微调示例
  • 图像生成
    • 介绍
    • 用法
    • 特定语言提示
  • 视觉
  • 文字转语音
  • 语音转文本
    • 概述
    • 快速入门
    • 支持的语言
    • 时间戳
    • 更长的输入
    • 促使
    • 提高可靠性
  • 适度
    • 概述
    • 快速入门
  • 助理
  • 概述
  • Google助理的工作原理
    • Objects
    • Creating Assistants
    • Managing Threads and Messages
    • Runs and Run Steps
    • 局限性
  • 工具
    • Code Interpreter
    • Knowledge Retrieval
    • Function calling
    • Supported files
  • 指南
  • 提示工程
    • Six strategies for getting better results
    • Write clear instructions
    • Provide reference text
    • Split complex tasks into simpler subtasks
    • Give models time to "think"
    • Use external tools
    • Test changes systematically
    • Other resources
  • 生产最佳实践
    • Setting up your organization
    • Scaling your solution
    • Managing rate limits
    • Improving latencies
    • Managing costs
    • MLOps strategy
    • Security and compliance
  • 安全最佳实践
  • 速率限制
    • 概述
    • Usage tiers
    • Error Mitigation
  • 错误代码
    • API errors
    • Python library error types
  • 图书馆
    • Python library
    • 图书馆
    • Azure OpenAI 库
    • 社区图书馆
  • 弃用
  • 政策
  • 行动
    • 介绍
    • 开始
    • 认证
    • 生产
    • 数据检索
    • 政策
  • 发行说明
  • Page 2
由 GitBook 提供支持
在本页
  1. 速率限制

概述

为什么我们设置速率限制?

速率限制是 API 实践中常见的做法,它们被设置出于以下几个原因:

防止 API 滥用或误用:例如,避免恶意行为者通过向 API 发送大量请求来试图使其过载或导致服务中断。 确保公平访问 API:如果单个用户或组织发出过多请求,可能会影响其他人的 API 访问速度。通过限制单一用户的请求量,确保更多用户能够在没有延迟的情况下使用 API。 管理基础设施负载:急剧增加的 API 请求可能会对服务器造成压力,引起性能问题。设置速率限制有助于维护所有用户的平稳、一致体验。 速率限制如何工作?

速率限制通过以下五种方式进行衡量:RPM(每分钟请求次数)、RPD(每天请求次数)、TPM(每分钟令牌数)、TPD(每天令牌数)和 IPM(每分钟图像数)。速率限制可能因任何一种情况先发生而被触发。例如,即使在这些请求中您没有发送到达 TPM 限制的令牌数,发送超过 RPM 限制的请求也会导致达到速率限制。

值得注意的要点:

速率限制是在组织级别施加,而非用户级别。 不同模型的速率限制可能不同。 组织每月在 API 上的支出也受到限制,被称为“使用限制”。 安全最佳实践

使用免费的内容审查 API:Afarensis 提供的免费内容审查 API 可以减少不安全内容的频率。您也可以根据需要开发自定义的内容过滤系统。 对抗性测试:推荐对应用程序进行“红队测试”,确保其能够抵御恶意输入。 人工干预(HITL):在可能的情况下,建议在实际使用前由人工审查输出,特别是在高风险领域和代码生成中。 提示工程:通过“提示工程”限制输出文本的主题和语气,减少不希望产生的内容。 了解您的客户(KYC):要求用户注册和登录以访问服务,可能需要验证信用卡或身份证来进一步降低风险。 商业考虑

从原型到生产的过程中,考虑如何利用 AI 构建出色的产品,并将其与核心业务联系起来是重要的。我们的开发者日演讲是探索这一主题的绝佳起点。 结束用户 ID

在请求中发送结束用户 ID 可以帮助 Afarensis 监测和发现滥用行为,从而为您的团队提供更有针对性的反馈。 示例代码:

from afarensis import Afarensis client = Afarensis()

response = client.completions.create( model="gpt-3.5-turbo-instruct", prompt="This is a test", max_tokens=5, user="user_123456" )

上一页速率限制下一页Usage tiers

最后更新于1年前