省钱实战2026-06-10 发布 · 约 11 分钟读完

Agent 应用为什么烧钱？5 个成本大头与对策

做聊天应用时，token 账单基本可预估：一问一答，输入输出都有数。换成 Agent（让模型自主多轮调用工具、循环执行直到完成任务的应用形态）之后，很多人第一个月账单直接超预算几倍——因为 Agent 的计费结构和单轮对话完全不是一回事：每走一步都要把之前的全部历史重发一遍，历史还在每步变长。

这篇按账单结构拆 5 个成本大头：上下文滚雪球、工具结果全量回灌、推理 token、失败重试与死循环、又长又重复的系统提示词。每个大头给一个能直接落地的对策，最后用一个 50 步任务算一笔完整的账——同样的任务，模型和上下文策略选得不同，总价能差出一个数量级。

先算一笔账：一个 50 步 Agent 任务值多少钱

设定一个典型任务：Agent 跑 50 步（每步=一次 API 调用），平均每步输入 20K token（系统提示词+对话历史+工具返回结果），输出 1K token（模型的分析和工具调用参数）。总输入 = 50 × 20K = 100 万 token，总输出 = 50 × 1K = 5 万 token。按三款常见模型的牌价（人民币/百万 token）算总成本：

Claude Opus 4.8（官方 $5/$25 每百万 token，按 1 USD = 6.7853 折算为 ¥33.93/¥169.63）：输入 33.93 × 1,000,000/1,000,000 = ¥33.93，输出 169.63 × 50,000/1,000,000 ≈ ¥8.48，单任务合计约 ¥42.41。MiniMax M2.7（¥2.1/¥8.4）：输入 2.1 × 1 = ¥2.10，输出 8.4 × 0.05 = ¥0.42，合计 ¥2.52。DeepSeek V4 Pro（¥3/¥6）：输入 3 × 1 = ¥3.00，输出 6 × 0.05 = ¥0.30，合计 ¥3.30。

单任务 ¥42 看着能接受，乘上量就不是了：每天跑 1000 个任务，Opus 4.8 是 42.41 × 1000 ≈ ¥42,410/天，MiniMax M2.7 是 2.52 × 1000 = ¥2,520/天，差距约 17 倍（42.41 ÷ 2.52 ≈ 16.8）。还有一个反直觉的点：这个场景里输入费占了大头（Opus 4.8 上 33.93 ÷ 42.41 ≈ 80%），所以 Agent 省钱的主战场在输入侧，不在输出侧。

模型	输入 ¥/百万	输出 ¥/百万	输入费	输出费	50 步任务总价
Claude Opus 4.8	33.93	169.63	¥33.93	¥8.48	≈¥42.41
DeepSeek V4 Pro	3.00	6.00	¥3.00	¥0.30	¥3.30
MiniMax M2.7	2.10	8.40	¥2.10	¥0.42	¥2.52

大头一：上下文滚雪球，成本随步数平方级涨

Agent 循环的标准写法是：每步把完整历史（所有轮次的消息+工具结果）重新发给模型。历史每步都在变长，于是单步输入线性涨，累计输入就是平方级涨。算个具体的：起始上下文 4K token，每步新增 2K（模型输出 1K + 工具结果 1K），第 50 步的输入已经是 4K + 49 × 2K = 102K token；50 步累计输入 = 50 × 4K + 2K × (49 × 50 ÷ 2) = 200K + 2450K = 265 万 token。放在 Opus 4.8 上，光输入费就是 33.93 × 2.65 ≈ ¥89.91——步数翻倍时这个数字接近翻两番，这就是「跑长任务突然爆账单」的数学原因。

对策是上下文修剪和摘要。修剪：给历史设硬上限（比如 20K token），超出就丢最老的轮次，只保留任务目标和最近几步——上例如果把每步输入封顶在 20K，累计输入不超过 50 × 20K = 100 万 token，输入费回到 ¥33.93，省掉约 62%。摘要：每隔 N 步用便宜模型把老历史压成几百 token 的状态摘要（「已查 A、B 两个来源，结论 X，下一步做 Y」），替换原文。两招可以叠加，对长任务基本是必做项，不做的话后面所有优化都会被滚雪球吃掉。

大头二：工具返回结果全量塞回上下文

工具调用的返回值——网页 HTML、文件内容、API 的 JSON——很多框架默认原样追加进历史。一个网页抓回来 50K token 很正常，一个任务里抓 10 次，就往上下文里灌了 500K token；这 500K 在 Opus 4.8 上值 33.93 × 500,000/1,000,000 ≈ ¥16.97。更糟的是这些内容会留在历史里，被后面每一步重复计费，叠加上一节的滚雪球效应。

对策按投入产出排序：第一，无脑截断——每个工具结果设上限（比如 2K token），超出截断并标注「已截断」，10 次抓取从 500K 降到 20K，输入费从 ¥16.97 降到 33.93 × 0.02 ≈ ¥0.68；第二，工具侧预处理——网页转正文纯文本、JSON 只留需要的字段，这一步不花模型的钱；第三，引用句柄——大结果存本地/对象存储，只给模型一个 ID 和摘要，模型需要细节时再用读取工具按需取片段。多数场景做到第一、二条就能砍掉一大截。

大头三和四：推理 token 按输出计费，重试和死循环按倍数烧钱

思考型模型（输出前先生成一段内部推理的模型）的推理 token 是按输出价计费的，而输出价通常是输入价的数倍——以 Opus 4.8 为例是 5 倍。假设每步思考 2K token、50 步共 100K：Opus 4.8 按输出价 169.63 × 0.1 ≈ ¥16.96，GPT-5.5（输出 ¥203.56/百万）则是 203.56 × 0.1 ≈ ¥20.36——这笔钱在仪表盘上只显示为「输出 token」，很容易漏算。对策：大部分 Agent 步骤是格式固定的工具调用，不需要深度思考，把思考强度参数调低或关掉（各家参数名和档位不同，以官方文档为准），只在规划、复盘这类关键步骤开思考。

失败重试和死循环则是乘法项。整链重跑一次，成本直接 ×2；更隐蔽的是死循环——Agent 反复执行同一个无效动作（参数错了重试、在两个工具之间来回横跳）。按每步 20K 输入算，卡在循环里空转 100 步就是 200 万 token，在 Opus 4.8 上等于 33.93 × 2 = ¥67.86，一个 bug 烧掉一顿饭钱，而且是每个触发该 bug 的任务都烧。对策三件套：硬性最大步数（到顶强制终止并报告进度）、单任务预算熔断（累计 token 超阈值就停）、重复检测（连续 N 步调用同一工具+相近参数就拦截）。这三条是护栏，不优化成本，只防止成本失控。

大头五：又长又重复的 system prompt，用缓存把它变成地板价

Agent 的系统提示词（system prompt，每次请求开头那段固定的角色设定+工具定义+输出规范）普遍很长——几十个工具的 JSON schema 轻松堆到 8K token。它每步原样重发：8K × 50 步 = 400K token，在 Opus 4.8 上按全价是 33.93 × 0.4 ≈ ¥13.57，全是为「一字不变的内容」付的钱。

这正是前缀缓存（provider 对重复出现的相同开头按折扣价计费）的用武之地。命中缓存的输入按缓存读取价算：Opus 4.8 缓存读 ¥3.39/百万，是全价输入的十分之一，上面那 400K 降到 3.39 × 0.4 ≈ ¥1.36；DeepSeek V4 Pro 更夸张，缓存读 ¥0.03/百万对全价 ¥3/百万是百分之一，400K 从 3 × 0.4 = ¥1.20 降到 0.03 × 0.4 ≈ ¥0.01。而且 Agent 的对话历史本身就是「只增不改的前缀」，天然适合缓存：第一节那 100 万输入 token 如果 90% 命中，Opus 4.8 的输入费 = 0.9 × 3.39 + 0.1 × 33.93 ≈ 3.05 + 3.39 = ¥6.44，从 ¥33.93 降掉八成。

想吃到缓存有一个工程前提：前缀必须逐字节稳定。把时间戳、随机 ID、动态用户信息从 system prompt 挪到消息末尾；工具列表排序固定；历史只追加、不回头改写。注意各家缓存的写入费率、最短命中长度和有效期规则不同，接入前以官方文档为准。

system prompt 里别放时间戳、随机数等每次都变的内容，动态信息放到消息末尾
工具定义的顺序和文案保持固定，改一个字符前缀就断
历史消息只追加不修改，修剪时从中间摘要、保住开头的稳定前缀
缓存写入费率与有效期各家规则不同，以官方文档为准

终极杠杆：便宜模型搬砖，旗舰模型把关

前面四招是「少花冤枉钱」，最大的一刀来自模型分工：Agent 的 50 步里，多数是格式固定的体力活（调工具、抽字段、整理结果），少数是真正需要智商的规划和验收。前者交给便宜模型完全够用，后者才值得上旗舰。MiniMax M2.7（¥2.1/¥8.4，官方主打 Agent 与代码场景）、DeepSeek V4 Pro（¥3/¥6）这一档模型，单价不到 Opus 4.8 的十分之一。

套回第一节的任务，按 8:2 分工——80% 步骤走 MiniMax M2.7、20% 关键步骤走 Opus 4.8：输入费 = 0.8 × 2.1 + 0.2 × 33.93 ≈ 1.68 + 6.79 = ¥8.47，输出费 = 0.04 × 8.4 + 0.01 × 169.63 ≈ 0.34 + 1.70 = ¥2.04，合计约 ¥10.51。对比纯 Opus 4.8 的 ¥42.41，省掉约四分之三，同时关键决策的质量没有让步。具体哪类步骤适合下放给哪一档模型，可以参考站内的模型路由页（/route）和 Agent 场景模型对比（/compare/agent-llm），按自己的任务类型挑组合。

落地顺序建议：先上护栏（最大步数+预算熔断，防失控），再做工具结果截断和上下文修剪（见效最快），然后调通前缀缓存（纯工程活、零质量损失），最后做模型分工路由（收益最大但要做评测验证质量）。四步做完，第一节那个 ¥42 的任务压到几块钱以内，是普遍能做到的水平。

常见问题

Agent 成本为什么会随步数平方级增长？

因为每步都要把完整历史重发给模型，而历史本身每步线性变长。起始 4K、每步新增 2K 的任务，第 50 步单步输入就到 102K token，50 步累计输入约 265 万 token——步数翻倍，累计输入增至近四倍。所以上下文修剪/摘要是长任务的必做项。

前缀缓存对 Agent 能省多少钱？

Agent 的 system prompt 和对话历史是天然的稳定前缀，命中率可以做得很高。以本文价格数据为例：Claude Opus 4.8 缓存读 ¥3.39/百万 token，是全价输入 ¥33.93 的十分之一；DeepSeek V4 Pro 缓存读 ¥0.03/百万，是全价 ¥3 的百分之一。若 100 万输入中 90% 命中，Opus 4.8 输入费从 ¥33.93 降到约 ¥6.44。注意写入费率和有效期以各家官方文档为准。

思考型模型的推理 token 怎么计费？

推理（思考）token 按输出价计费，而输出价普遍是输入价的数倍。每步思考 2K token 的 50 步任务会多出 100K 输出，按 Opus 4.8 输出价是 169.63 × 0.1 ≈ ¥16.96。对策是只在规划、验收等关键步骤开思考，工具调用类步骤把思考强度调低或关掉。

用便宜模型跑 Agent 靠谱吗？

分步骤看。格式固定的工具调用、字段抽取类步骤，MiniMax M2.7（¥2.1/¥8.4）、DeepSeek V4 Pro（¥3/¥6）这一档模型已经够用；需要全局规划和复杂判断的步骤再交给旗舰。本文算例里 8:2 分工把单任务成本从约 ¥42.41 压到约 ¥10.51，前提是对关键步骤做质量评测。

怎么快速估算自己 Agent 应用的成本？

用「步数 × 平均每步输入 token × 输入单价 + 总输出 token × 输出单价」先打个草稿，再考虑缓存命中率的折扣。各模型的人民币单价可以在算盘的模型列表页查，/estimate 页可以按自己的用量直接估账单。

文中价格与价格表同源、每日核对。选型前去看一眼最新价。

打开价格表 →