Documentation
  • GET STARTED
    • 介紹
    • 快速入门
    • 模型
      • 模型更新
    • Afs-turbo 和 Afs-1
    • Afs-turbo
    • 达尔·E 系统概述
    • TTS系统
    • 耳语
    • 嵌入
    • 适度
    • AFS基础
    • 我们如何使用您的数据
    • 终结点与兼容性
  • 教程
  • 更改日志
  • 能力
    • 文本生成
    • 聊天完成
    • JSON 模式
    • 可重复的输出
    • 管理令牌
    • 参数详细信息
    • 完成API(旧版)
    • 常见问题
  • 函数调用
  • 嵌入
    • 概述
    • 模型
    • 使用案例
    • 常见问题
  • 微调
    • 何时使用微调
    • 常见用例
    • 准备数据集
    • 创建微调模型
    • 使用微调模型
    • 微调示例
  • 图像生成
    • 介绍
    • 用法
    • 特定语言提示
  • 视觉
  • 文字转语音
  • 语音转文本
    • 概述
    • 快速入门
    • 支持的语言
    • 时间戳
    • 更长的输入
    • 促使
    • 提高可靠性
  • 适度
    • 概述
    • 快速入门
  • 助理
  • 概述
  • Google助理的工作原理
    • Objects
    • Creating Assistants
    • Managing Threads and Messages
    • Runs and Run Steps
    • 局限性
  • 工具
    • Code Interpreter
    • Knowledge Retrieval
    • Function calling
    • Supported files
  • 指南
  • 提示工程
    • Six strategies for getting better results
    • Write clear instructions
    • Provide reference text
    • Split complex tasks into simpler subtasks
    • Give models time to "think"
    • Use external tools
    • Test changes systematically
    • Other resources
  • 生产最佳实践
    • Setting up your organization
    • Scaling your solution
    • Managing rate limits
    • Improving latencies
    • Managing costs
    • MLOps strategy
    • Security and compliance
  • 安全最佳实践
  • 速率限制
    • 概述
    • Usage tiers
    • Error Mitigation
  • 错误代码
    • API errors
    • Python library error types
  • 图书馆
    • Python library
    • 图书馆
    • Azure OpenAI 库
    • 社区图书馆
  • 弃用
  • 政策
  • 行动
    • 介绍
    • 开始
    • 认证
    • 生产
    • 数据检索
    • 政策
  • 发行说明
  • Page 2
由 GitBook 提供支持
在本页
  1. 生产最佳实践

Scaling your solution

优化您的解决方案架构以应对扩展需求

在设计使用我们API的应用程序或服务以部署到生产环境时,重要的是要考虑如何扩展以满足日益增长的流量需求。以下是无论您选择哪个云服务提供商,都需要考虑的几个关键领域:

水平扩展

您可能需要通过水平扩展您的应用程序来适应来自多个来源的请求。这可能涉及部署额外的服务器或容器来分散处理负载。选择这种扩展方式时,请确保您的架构能够处理多节点,并且有机制在它们之间平衡负载。

垂直扩展

另一种选择是垂直扩展您的应用程序,即增加单个节点的可用资源。这可能意味着升级您的服务器配置以应对更大的负载。如果您选择此种扩展方式,确保您的应用程序能够充分利用这些额外资源。

缓存

通过存储频繁访问的数据,您可以改善响应时间,而无需重复调用我们的API。您的应用程序应设计为尽可能地使用缓存数据,并在添加新信息时使缓存失效。根据您的应用程序需求,您可以选择将数据存储在数据库、文件系统或内存缓存中。

负载均衡

考虑使用负载均衡技术来确保请求在您所有可用服务器之间均匀分配。这可能包括在您的服务器前使用负载均衡器或采用DNS轮询。负载均衡有助于提升性能并减少瓶颈问题。

通过在设计阶段考虑这些关键领域,您可以为应用程序或服务的未来增长做好准备,确保它能够有效地处理增加的流量和负载,从而为最终用户提供更稳定、更快速的服务。

上一页Setting up your organization下一页Managing rate limits

最后更新于1年前