算盘
省钱实战2026-06-10 发布 · 约 11 分钟读完

Agent 应用为什么烧钱?5 个成本大头与对策

做聊天应用时,token 账单基本可预估:一问一答,输入输出都有数。换成 Agent(让模型自主多轮调用工具、循环执行直到完成任务的应用形态)之后,很多人第一个月账单直接超预算几倍——因为 Agent 的计费结构和单轮对话完全不是一回事:每走一步都要把之前的全部历史重发一遍,历史还在每步变长。

这篇按账单结构拆 5 个成本大头:上下文滚雪球、工具结果全量回灌、推理 token、失败重试与死循环、又长又重复的系统提示词。每个大头给一个能直接落地的对策,最后用一个 50 步任务算一笔完整的账——同样的任务,模型和上下文策略选得不同,总价能差出一个数量级。

先算一笔账:一个 50 步 Agent 任务值多少钱

设定一个典型任务:Agent 跑 50 步(每步=一次 API 调用),平均每步输入 20K token(系统提示词+对话历史+工具返回结果),输出 1K token(模型的分析和工具调用参数)。总输入 = 50 × 20K = 100 万 token,总输出 = 50 × 1K = 5 万 token。按三款常见模型的牌价(人民币/百万 token)算总成本:

Claude Opus 4.8(官方 $5/$25 每百万 token,按 1 USD = 6.7853 折算为 ¥33.93/¥169.63):输入 33.93 × 1,000,000/1,000,000 = ¥33.93,输出 169.63 × 50,000/1,000,000 ≈ ¥8.48,单任务合计约 ¥42.41。MiniMax M2.7(¥2.1/¥8.4):输入 2.1 × 1 = ¥2.10,输出 8.4 × 0.05 = ¥0.42,合计 ¥2.52。DeepSeek V4 Pro(¥3/¥6):输入 3 × 1 = ¥3.00,输出 6 × 0.05 = ¥0.30,合计 ¥3.30。

单任务 ¥42 看着能接受,乘上量就不是了:每天跑 1000 个任务,Opus 4.8 是 42.41 × 1000 ≈ ¥42,410/天,MiniMax M2.7 是 2.52 × 1000 = ¥2,520/天,差距约 17 倍(42.41 ÷ 2.52 ≈ 16.8)。还有一个反直觉的点:这个场景里输入费占了大头(Opus 4.8 上 33.93 ÷ 42.41 ≈ 80%),所以 Agent 省钱的主战场在输入侧,不在输出侧。

模型输入 ¥/百万输出 ¥/百万输入费输出费50 步任务总价
Claude Opus 4.833.93169.63¥33.93¥8.48≈¥42.41
DeepSeek V4 Pro3.006.00¥3.00¥0.30¥3.30
MiniMax M2.72.108.40¥2.10¥0.42¥2.52

大头一:上下文滚雪球,成本随步数平方级涨

Agent 循环的标准写法是:每步把完整历史(所有轮次的消息+工具结果)重新发给模型。历史每步都在变长,于是单步输入线性涨,累计输入就是平方级涨。算个具体的:起始上下文 4K token,每步新增 2K(模型输出 1K + 工具结果 1K),第 50 步的输入已经是 4K + 49 × 2K = 102K token;50 步累计输入 = 50 × 4K + 2K × (49 × 50 ÷ 2) = 200K + 2450K = 265 万 token。放在 Opus 4.8 上,光输入费就是 33.93 × 2.65 ≈ ¥89.91——步数翻倍时这个数字接近翻两番,这就是「跑长任务突然爆账单」的数学原因。

对策是上下文修剪和摘要。修剪:给历史设硬上限(比如 20K token),超出就丢最老的轮次,只保留任务目标和最近几步——上例如果把每步输入封顶在 20K,累计输入不超过 50 × 20K = 100 万 token,输入费回到 ¥33.93,省掉约 62%。摘要:每隔 N 步用便宜模型把老历史压成几百 token 的状态摘要(「已查 A、B 两个来源,结论 X,下一步做 Y」),替换原文。两招可以叠加,对长任务基本是必做项,不做的话后面所有优化都会被滚雪球吃掉。

大头二:工具返回结果全量塞回上下文

工具调用的返回值——网页 HTML、文件内容、API 的 JSON——很多框架默认原样追加进历史。一个网页抓回来 50K token 很正常,一个任务里抓 10 次,就往上下文里灌了 500K token;这 500K 在 Opus 4.8 上值 33.93 × 500,000/1,000,000 ≈ ¥16.97。更糟的是这些内容会留在历史里,被后面每一步重复计费,叠加上一节的滚雪球效应。

对策按投入产出排序:第一,无脑截断——每个工具结果设上限(比如 2K token),超出截断并标注「已截断」,10 次抓取从 500K 降到 20K,输入费从 ¥16.97 降到 33.93 × 0.02 ≈ ¥0.68;第二,工具侧预处理——网页转正文纯文本、JSON 只留需要的字段,这一步不花模型的钱;第三,引用句柄——大结果存本地/对象存储,只给模型一个 ID 和摘要,模型需要细节时再用读取工具按需取片段。多数场景做到第一、二条就能砍掉一大截。

大头三和四:推理 token 按输出计费,重试和死循环按倍数烧钱

思考型模型(输出前先生成一段内部推理的模型)的推理 token 是按输出价计费的,而输出价通常是输入价的数倍——以 Opus 4.8 为例是 5 倍。假设每步思考 2K token、50 步共 100K:Opus 4.8 按输出价 169.63 × 0.1 ≈ ¥16.96,GPT-5.5(输出 ¥203.56/百万)则是 203.56 × 0.1 ≈ ¥20.36——这笔钱在仪表盘上只显示为「输出 token」,很容易漏算。对策:大部分 Agent 步骤是格式固定的工具调用,不需要深度思考,把思考强度参数调低或关掉(各家参数名和档位不同,以官方文档为准),只在规划、复盘这类关键步骤开思考。

失败重试和死循环则是乘法项。整链重跑一次,成本直接 ×2;更隐蔽的是死循环——Agent 反复执行同一个无效动作(参数错了重试、在两个工具之间来回横跳)。按每步 20K 输入算,卡在循环里空转 100 步就是 200 万 token,在 Opus 4.8 上等于 33.93 × 2 = ¥67.86,一个 bug 烧掉一顿饭钱,而且是每个触发该 bug 的任务都烧。对策三件套:硬性最大步数(到顶强制终止并报告进度)、单任务预算熔断(累计 token 超阈值就停)、重复检测(连续 N 步调用同一工具+相近参数就拦截)。这三条是护栏,不优化成本,只防止成本失控。

大头五:又长又重复的 system prompt,用缓存把它变成地板价

Agent 的系统提示词(system prompt,每次请求开头那段固定的角色设定+工具定义+输出规范)普遍很长——几十个工具的 JSON schema 轻松堆到 8K token。它每步原样重发:8K × 50 步 = 400K token,在 Opus 4.8 上按全价是 33.93 × 0.4 ≈ ¥13.57,全是为「一字不变的内容」付的钱。

这正是前缀缓存(provider 对重复出现的相同开头按折扣价计费)的用武之地。命中缓存的输入按缓存读取价算:Opus 4.8 缓存读 ¥3.39/百万,是全价输入的十分之一,上面那 400K 降到 3.39 × 0.4 ≈ ¥1.36;DeepSeek V4 Pro 更夸张,缓存读 ¥0.03/百万 对全价 ¥3/百万 是百分之一,400K 从 3 × 0.4 = ¥1.20 降到 0.03 × 0.4 ≈ ¥0.01。而且 Agent 的对话历史本身就是「只增不改的前缀」,天然适合缓存:第一节那 100 万输入 token 如果 90% 命中,Opus 4.8 的输入费 = 0.9 × 3.39 + 0.1 × 33.93 ≈ 3.05 + 3.39 = ¥6.44,从 ¥33.93 降掉八成。

想吃到缓存有一个工程前提:前缀必须逐字节稳定。把时间戳、随机 ID、动态用户信息从 system prompt 挪到消息末尾;工具列表排序固定;历史只追加、不回头改写。注意各家缓存的写入费率、最短命中长度和有效期规则不同,接入前以官方文档为准。

  • system prompt 里别放时间戳、随机数等每次都变的内容,动态信息放到消息末尾
  • 工具定义的顺序和文案保持固定,改一个字符前缀就断
  • 历史消息只追加不修改,修剪时从中间摘要、保住开头的稳定前缀
  • 缓存写入费率与有效期各家规则不同,以官方文档为准

终极杠杆:便宜模型搬砖,旗舰模型把关

前面四招是「少花冤枉钱」,最大的一刀来自模型分工:Agent 的 50 步里,多数是格式固定的体力活(调工具、抽字段、整理结果),少数是真正需要智商的规划和验收。前者交给便宜模型完全够用,后者才值得上旗舰。MiniMax M2.7(¥2.1/¥8.4,官方主打 Agent 与代码场景)、DeepSeek V4 Pro(¥3/¥6)这一档模型,单价不到 Opus 4.8 的十分之一。

套回第一节的任务,按 8:2 分工——80% 步骤走 MiniMax M2.7、20% 关键步骤走 Opus 4.8:输入费 = 0.8 × 2.1 + 0.2 × 33.93 ≈ 1.68 + 6.79 = ¥8.47,输出费 = 0.04 × 8.4 + 0.01 × 169.63 ≈ 0.34 + 1.70 = ¥2.04,合计约 ¥10.51。对比纯 Opus 4.8 的 ¥42.41,省掉约四分之三,同时关键决策的质量没有让步。具体哪类步骤适合下放给哪一档模型,可以参考站内的模型路由页(/route)和 Agent 场景模型对比(/compare/agent-llm),按自己的任务类型挑组合。

落地顺序建议:先上护栏(最大步数+预算熔断,防失控),再做工具结果截断和上下文修剪(见效最快),然后调通前缀缓存(纯工程活、零质量损失),最后做模型分工路由(收益最大但要做评测验证质量)。四步做完,第一节那个 ¥42 的任务压到几块钱以内,是普遍能做到的水平。

常见问题

Agent 成本为什么会随步数平方级增长?

因为每步都要把完整历史重发给模型,而历史本身每步线性变长。起始 4K、每步新增 2K 的任务,第 50 步单步输入就到 102K token,50 步累计输入约 265 万 token——步数翻倍,累计输入增至近四倍。所以上下文修剪/摘要是长任务的必做项。

前缀缓存对 Agent 能省多少钱?

Agent 的 system prompt 和对话历史是天然的稳定前缀,命中率可以做得很高。以本文价格数据为例:Claude Opus 4.8 缓存读 ¥3.39/百万 token,是全价输入 ¥33.93 的十分之一;DeepSeek V4 Pro 缓存读 ¥0.03/百万,是全价 ¥3 的百分之一。若 100 万输入中 90% 命中,Opus 4.8 输入费从 ¥33.93 降到约 ¥6.44。注意写入费率和有效期以各家官方文档为准。

思考型模型的推理 token 怎么计费?

推理(思考)token 按输出价计费,而输出价普遍是输入价的数倍。每步思考 2K token 的 50 步任务会多出 100K 输出,按 Opus 4.8 输出价是 169.63 × 0.1 ≈ ¥16.96。对策是只在规划、验收等关键步骤开思考,工具调用类步骤把思考强度调低或关掉。

用便宜模型跑 Agent 靠谱吗?

分步骤看。格式固定的工具调用、字段抽取类步骤,MiniMax M2.7(¥2.1/¥8.4)、DeepSeek V4 Pro(¥3/¥6)这一档模型已经够用;需要全局规划和复杂判断的步骤再交给旗舰。本文算例里 8:2 分工把单任务成本从约 ¥42.41 压到约 ¥10.51,前提是对关键步骤做质量评测。

怎么快速估算自己 Agent 应用的成本?

用「步数 × 平均每步输入 token × 输入单价 + 总输出 token × 输出单价」先打个草稿,再考虑缓存命中率的折扣。各模型的人民币单价可以在算盘的模型列表页查,/estimate 页可以按自己的用量直接估账单。

文中价格与价格表同源、每日核对。选型前去看一眼最新价。

打开价格表 →