Documentation
  • GET STARTED
    • 介紹
    • 快速入门
    • 模型
      • 模型更新
    • Afs-turbo 和 Afs-1
    • Afs-turbo
    • 达尔·E 系统概述
    • TTS系统
    • 耳语
    • 嵌入
    • 适度
    • AFS基础
    • 我们如何使用您的数据
    • 终结点与兼容性
  • 教程
  • 更改日志
  • 能力
    • 文本生成
    • 聊天完成
    • JSON 模式
    • 可重复的输出
    • 管理令牌
    • 参数详细信息
    • 完成API(旧版)
    • 常见问题
  • 函数调用
  • 嵌入
    • 概述
    • 模型
    • 使用案例
    • 常见问题
  • 微调
    • 何时使用微调
    • 常见用例
    • 准备数据集
    • 创建微调模型
    • 使用微调模型
    • 微调示例
  • 图像生成
    • 介绍
    • 用法
    • 特定语言提示
  • 视觉
  • 文字转语音
  • 语音转文本
    • 概述
    • 快速入门
    • 支持的语言
    • 时间戳
    • 更长的输入
    • 促使
    • 提高可靠性
  • 适度
    • 概述
    • 快速入门
  • 助理
  • 概述
  • Google助理的工作原理
    • Objects
    • Creating Assistants
    • Managing Threads and Messages
    • Runs and Run Steps
    • 局限性
  • 工具
    • Code Interpreter
    • Knowledge Retrieval
    • Function calling
    • Supported files
  • 指南
  • 提示工程
    • Six strategies for getting better results
    • Write clear instructions
    • Provide reference text
    • Split complex tasks into simpler subtasks
    • Give models time to "think"
    • Use external tools
    • Test changes systematically
    • Other resources
  • 生产最佳实践
    • Setting up your organization
    • Scaling your solution
    • Managing rate limits
    • Improving latencies
    • Managing costs
    • MLOps strategy
    • Security and compliance
  • 安全最佳实践
  • 速率限制
    • 概述
    • Usage tiers
    • Error Mitigation
  • 错误代码
    • API errors
    • Python library error types
  • 图书馆
    • Python library
    • 图书馆
    • Azure OpenAI 库
    • 社区图书馆
  • 弃用
  • 政策
  • 行动
    • 介绍
    • 开始
    • 认证
    • 生产
    • 数据检索
    • 政策
  • 发行说明
  • Page 2
由 GitBook 提供支持
在本页
  1. 提示工程

Test changes systematically

策略:系统性地测试更改

有时候,判断一个更改——无论是新指令还是新设计——是否使系统变得更好或更差可能很困难。通过观察几个例子可能会暗示哪个更好,但在小样本大小下很难区分是真正的改进还是偶然的运气。也许这个改动在某些输入上提高了性能,但在其他输入上降低了性能。

评估程序(或“评估”)的重要性

评估程序对于优化系统设计非常有用。好的评估应该:

代表真实世界的使用情况(或至少是多样化的) 包含许多测试案例以获得更大的统计力量 易于自动化或重复 统计力量所需的样本大小

需要检测的差异 为了达到95%的置信度所需的样本大小 30% ~10 10% ~100 3% ~1,000 1% ~10,000 输出的评估可以由计算机、人类或二者的组合完成。计算机可以自动化具有客观标准的评估(例如,有单一正确答案的问题),以及一些主观或模糊标准的评估,在这种情况下,模型输出由其他模型查询评估。Afarensis Evals是一个开源软件框架,提供了创建自动化评估的工具。

技巧1:根据金标准答案评估模型输出

如果已知正确答案应该涉及一组特定的已知事实,则可以使用模型查询来计数答案中包含了多少必需的事实。

系统信息示例:

您将被提供用三重引号分隔的文本,该文本应该是对问题的答案。检查答案中是否直接包含以下信息:

尼尔·阿姆斯特朗是第一个在月球上行走的人。 尼尔·阿姆斯特朗第一次在月球上行走的日期是1969年7月21日。 技巧2:评估候选答案与金标准答案之间的关系

使用以下步骤来响应用户输入:

推理提交答案与专家答案相比的信息是否为:不相交、相等、子集、超集或重叠(即有一些交集但不是子集/超集)。 推理提交答案是否与专家答案的任何方面矛盾。 输出一个结构化为:{"type_of_overlap": "disjoint" 或 "equal" 或 "subset" 或 "superset" 或 "overlapping", "contradiction": true 或 false}的JSON对象。 基于模型的评估与人工评估

基于模型的评估在存在一系列可能被认为同等高质量的可能输出时非常有用(例如,对于有长答案的问题)。实际评估与需要人类评估的界限是模糊的,并且随着模型变得更加强大,这一界限不断变化。我们鼓励进行实验,以确定基于模型的评估对您的用例有多好。

通过上述技巧和评估程序,可以系统地测试和优化系统设计,确保改动真正带来性能提升,而不仅仅是偶然的好运。

上一页Use external tools下一页Other resources

最后更新于1年前