Appearance
API 消耗说明
不同回复模式的 API 调用成本差异较大。本页帮助你做体验与成本之间的取舍。
Markdown 模式
典型情况下,一次回复主要包括:
| 操作 | 调用次数 | 说明 |
|---|---|---|
| 获取 Token | 1 | 会复用缓存 |
| 发送消息 | 1 | 单聊或群聊发送接口 |
整体成本较低,适合作为默认模式。
AI 卡片模式
典型情况下包括:
| 阶段 | 调用次数 | 说明 |
|---|---|---|
| 创建卡片 | 1 | createAndDeliver |
| 流式更新 | M | 次数取决于流式节奏 |
| 最终完成 | 包含在最后一次流更新中 | isFinalize=true |
总成本约为 1 + M。
两种卡片流式策略对比
以一次约 10 秒的 AI 回复为例:
| 模式 | streamAICard 调用数 | 首 token 延迟 | 体验 |
|---|---|---|---|
| Block 缓冲 | 约 10-15 次 | 约 1-1.5 秒 | 更稳但更卡顿 |
| 真流式 | 约 30 次 | 约 300ms | 更流畅 |
推荐策略
- 默认部署:用
markdown - 想要卡片体验但控制成本:
card+cardRealTimeStream: false - 想要流畅体验:
card+cardRealTimeStream: true
额外消耗来源
如果在卡片中开启思考流和工具执行展示,也会增加卡片流式更新次数。