API 消耗说明

不同回复模式的 API 调用成本差异较大。本页帮助你做体验与成本之间的取舍。

Markdown 模式

典型情况下，一次回复主要包括：

操作	调用次数	说明
获取 Token	1	会复用缓存
发送消息	1	单聊或群聊发送接口

整体成本较低，适合作为默认模式。

AI 卡片模式

典型情况下包括：

阶段	调用次数	说明
创建卡片	1	`createAndDeliver`
流式更新	M	次数取决于流式节奏
最终完成	包含在最后一次流更新中	`isFinalize=true`

总成本约为 1 + M。

两种卡片流式策略对比

以一次约 10 秒的 AI 回复为例：

模式	`streamAICard` 调用数	首 token 延迟	体验
Block 缓冲	约 10-15 次	约 1-1.5 秒	更稳但更卡顿
真流式	约 30 次	约 300ms	更流畅

推荐策略

默认部署：用 markdown
想要卡片体验但控制成本：card + cardRealTimeStream: false
想要流畅体验：card + cardRealTimeStream: true

额外消耗来源

如果在卡片中开启思考流和工具执行展示，也会增加卡片流式更新次数。

相关文档