Skip to content

API 消耗说明

不同回复模式的 API 调用成本差异较大。本页帮助你做体验与成本之间的取舍。

Markdown 模式

典型情况下,一次回复主要包括:

操作调用次数说明
获取 Token1会复用缓存
发送消息1单聊或群聊发送接口

整体成本较低,适合作为默认模式。

AI 卡片模式

典型情况下包括:

阶段调用次数说明
创建卡片1createAndDeliver
流式更新M次数取决于流式节奏
最终完成包含在最后一次流更新中isFinalize=true

总成本约为 1 + M

两种卡片流式策略对比

以一次约 10 秒的 AI 回复为例:

模式streamAICard 调用数首 token 延迟体验
Block 缓冲约 10-15 次约 1-1.5 秒更稳但更卡顿
真流式约 30 次约 300ms更流畅

推荐策略

  • 默认部署:用 markdown
  • 想要卡片体验但控制成本:card + cardRealTimeStream: false
  • 想要流畅体验:card + cardRealTimeStream: true

额外消耗来源

如果在卡片中开启思考流和工具执行展示,也会增加卡片流式更新次数。

相关文档