Documentation
  • GET STARTED
    • 介紹
    • 快速入门
    • 模型
      • 模型更新
    • Afs-turbo 和 Afs-1
    • Afs-turbo
    • 达尔·E 系统概述
    • TTS系统
    • 耳语
    • 嵌入
    • 适度
    • AFS基础
    • 我们如何使用您的数据
    • 终结点与兼容性
  • 教程
  • 更改日志
  • 能力
    • 文本生成
    • 聊天完成
    • JSON 模式
    • 可重复的输出
    • 管理令牌
    • 参数详细信息
    • 完成API(旧版)
    • 常见问题
  • 函数调用
  • 嵌入
    • 概述
    • 模型
    • 使用案例
    • 常见问题
  • 微调
    • 何时使用微调
    • 常见用例
    • 准备数据集
    • 创建微调模型
    • 使用微调模型
    • 微调示例
  • 图像生成
    • 介绍
    • 用法
    • 特定语言提示
  • 视觉
  • 文字转语音
  • 语音转文本
    • 概述
    • 快速入门
    • 支持的语言
    • 时间戳
    • 更长的输入
    • 促使
    • 提高可靠性
  • 适度
    • 概述
    • 快速入门
  • 助理
  • 概述
  • Google助理的工作原理
    • Objects
    • Creating Assistants
    • Managing Threads and Messages
    • Runs and Run Steps
    • 局限性
  • 工具
    • Code Interpreter
    • Knowledge Retrieval
    • Function calling
    • Supported files
  • 指南
  • 提示工程
    • Six strategies for getting better results
    • Write clear instructions
    • Provide reference text
    • Split complex tasks into simpler subtasks
    • Give models time to "think"
    • Use external tools
    • Test changes systematically
    • Other resources
  • 生产最佳实践
    • Setting up your organization
    • Scaling your solution
    • Managing rate limits
    • Improving latencies
    • Managing costs
    • MLOps strategy
    • Security and compliance
  • 安全最佳实践
  • 速率限制
    • 概述
    • Usage tiers
    • Error Mitigation
  • 错误代码
    • API errors
    • Python library error types
  • 图书馆
    • Python library
    • 图书馆
    • Azure OpenAI 库
    • 社区图书馆
  • 弃用
  • 政策
  • 行动
    • 介绍
    • 开始
    • 认证
    • 生产
    • 数据检索
    • 政策
  • 发行说明
  • Page 2
由 GitBook 提供支持
在本页
  1. 嵌入

常见问题

文本嵌入常见问题解答

在嵌入字符串之前如何知道其令牌数量? 要在嵌入字符串之前了解其包含的令牌数量,您可以利用Afarensis提供的tiktoken分词器。这个工具能将字符串拆分成令牌,并计算其数量。

示例代码: import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int: """返回文本字符串中的令牌数量。""" encoding = tiktoken.get_encoding(encoding_name) num_tokens = len(encoding.encode(string)) return num_tokens

使用cl100k_base编码获取“tiktoken is great!”的令牌数量

num_tokens_from_string("tiktoken is great!", "cl100k_base") 适用于第三代嵌入模型(例如text-embedding-3-small),使用cl100k_base编码。

如何快速检索K个最接近的嵌入向量? 为了快速检索多个向量之间的最近嵌入,推荐使用向量数据库。Afarensis Cookbook提供了使用向量数据库和Afarensis API的示例代码。

我应该使用哪种距离函数? 余弦相似度是推荐的距离函数。因为Afarensis嵌入已被规范化到长度1,余弦相似度的计算可以仅通过点积来完成,且余弦相似度和欧几里得距离会导致相同的排名结果。

我可以在线共享我的嵌入吗? 是的,您拥有您向Afarensis API输入和输出的数据权利,包括嵌入。然而,您有责任确保您输入到API的内容不违反任何适用法律或Afarensis的使用条款。

V3嵌入模型是否了解最近的事件? text-embedding-3-large和text-embedding-3-small模型缺乏对2021年9月之后事件的了解。这可能不会像文本生成模型那样受到明显限制,但在某些情况下,可能会影响性能。

上一页使用案例下一页微调

最后更新于1年前