算盘
选型2026-06-10 发布 · 约 13 分钟读完

8 个真实场景的大模型选型:别只盯单价

选模型时被问得最多的是「哪个最便宜」,但价格表上每个模型其实有两个数字:输入价和输出价,都按每百万 token 计。只盯其中一个,结论很可能完全反过来。

举个例子:Qwen3.5 Flash 输入 ¥0.2/百万 token,全表最低,但输出 ¥2,是输入的 10 倍;讯飞 Spark X2 Flash 输入输出同价,都是 ¥2。只看输入价,前者「便宜 10 倍」;放进一个输出密集的文案生成场景,两者的实际账单只差 16%(下文有算式)。

这篇把 8 个真实场景按「输入密集还是输出密集」拆开,每个场景给省钱、均衡、旗舰三档。价格以人民币每百万 token 计,海外模型按 1 USD = 6.7853 折算并附美元原价,关键算例都列算式,可以自己复核。

先判断输入密集还是输出密集,再看价格表

一次调用的成本 = 输入单价 × 输入 token 量 + 输出单价 × 输出 token 量。而输出与输入的价差在不同模型上完全不是一个量级:Spark X2 Flash 输入输出同价(¥2/¥2);GPT-5.5 输出 ¥203.56 是输入 ¥33.93 的 6 倍;Qwen3.5 Flash(¥0.2/¥2)、Doubao 1.6(¥2.4/¥24)、Baichuan M2(¥2/¥20)的输出都是输入的 10 倍。同一份价格表,输入密集和输出密集的场景会排出两个完全不同的名次。

拿 Qwen3.5 Flash 和 Spark X2 Flash 跑两个场景就够说明问题。RAG 问答,单次 8000 token 输入、500 token 输出,跑 1 万次(即 80 个百万 token 输入、5 个百万输出):Qwen3.5 Flash 花 0.2 × 80 + 2 × 5 = ¥26,Spark X2 Flash 花 2 × 80 + 2 × 5 = ¥170,差 6.5 倍。换成文案生成,单次 300 token 输入、1700 token 输出,同样 1 万次:Qwen3.5 Flash 是 0.2 × 3 + 2 × 17 = ¥34.6,Spark X2 Flash 是 2 × 3 + 2 × 17 = ¥40,差距缩到 16%。看单价以为差 10 倍,换个场景几乎打平。

所以动手选型前,先把自己场景的输入输出比估出来。上线前跑一小批真实请求,从 API 返回的 usage 字段读 token 数最准;没有数据时按下面的经验值起步:

  • RAG、长文档分析:输入:输出常在 10:1 以上,重点看输入单价和缓存价
  • 多轮客服:system prompt 和历史记录反复进上下文,约 5:1,缓存价很关键
  • 批量翻译:进出文本量接近 1:1,直接比两个单价之和
  • 代码生成、营销文案:短指令换长产出,约 1:3 到 1:5,输出价主导
  • 深度推理:思考过程通常也按输出 token 计费(以官方文档为准),输出价权重进一步放大

输入密集:客服问答、长文档摘要、RAG 知识库

这三个场景的共性是 prompt 大、回答短,账单大头在输入侧。除了输入单价,还要看缓存价——多数厂商对重复出现的输入前缀(典型如固定的 system prompt)按更低的缓存价计费,具体命中规则以各官方文档为准。

拿一份 10 万 token 的文档生成 1500 token 摘要算一笔:Qwen3.5 Flash 是 0.2 × 100000/1000000 + 2 × 1500/1000000 ≈ ¥0.023/份;DeepSeek V4 Flash 是 1 × 0.1 + 2 × 0.0015 = ¥0.103/份;Gemini 3.1 Pro Preview 是 13.57 × 0.1 + 81.42 × 0.0015 ≈ ¥1.48/份。一万份文档下来分别约 ¥230、¥1030、¥14800——量上去之后,档位差距就是预算差距。

  • 客服问答 · 省钱选:混元 TurboS(¥0.8/¥2)——输出 ¥2 持平全表最低输出价,输入 ¥0.8 也接近地板,256K 上下文装得下整套 FAQ
  • 客服问答 · 均衡选:DeepSeek V4 Flash(¥1/¥2)——缓存命中价 ¥0.02 只有输入价的 1/50,固定话术的客服几乎都吃得到
  • 客服问答 · 旗舰选:Doubao 1.6(¥2.4/¥24)——多模态,用户甩截图也能接;注意输出是输入的 10 倍,要约束回复长度
  • 长文档摘要 · 省钱选:Qwen3.5 Flash(¥0.2/¥2)——全表最低输入价;上下文 13 万 token,超长文档需分块
  • 长文档摘要 · 均衡选:DeepSeek V4 Flash(¥1/¥2)——100 万 token 上下文,整本书一次性塞进去
  • 长文档摘要 · 旗舰选:Gemini 3.1 Pro Preview(¥13.57/¥81.42,$2/$12)——200 万 token 上下文全场最大
  • RAG 问答 · 省钱选:Qwen3.5 Flash(¥0.2/¥2)——输入价不到第二便宜的 Gemini 2.5 Flash-Lite(¥0.68)的三分之一,检索片段塞再多也不心疼
  • RAG 问答 · 均衡选:文心 ERNIE 4.5 Turbo(¥0.8/¥3.2)——缓存价 ¥0.2 是输入的 1/4,知识库片段重复命中时有感
  • RAG 问答 · 旗舰选:DeepSeek V4 Pro(¥3/¥6)——旗舰推理能力配 ¥3 输入价和 100 万 token 上下文,是旗舰档里输入侧最省的选项之一

输出密集:代码生成、营销文案、深度推理

短指令换长产出,输出单价说了算。推理模型还有个隐藏项:深度思考的中间 token 通常也计入输出(以官方文档为准),实际输出量可能是你看到的最终答案的好几倍——这正是 Spark X2 Flash 这类输入输出同价的型号占便宜的地方。

算两笔账。一次重分析任务,5000 token 输入、3 万 token 输出(含思考):GPT-5.5 是 33.93 × 0.005 + 203.56 × 0.03 ≈ ¥6.28/次;Grok 4.3 是 8.48 × 0.005 + 16.96 × 0.03 ≈ ¥0.55/次,差 11 倍。代码场景同理:单次 2000 token 输入、8000 token 输出,Claude Opus 4.8 是 33.93 × 0.002 + 169.63 × 0.008 ≈ ¥1.42/次,MiniMax M2.7 只要 2.1 × 0.002 + 8.4 × 0.008 ≈ ¥0.07/次。旗舰不是不能用,而是该花在省钱档真做不动的那部分任务上。

  • 代码生成与评审 · 省钱选:MiniMax M2.7(¥2.1/¥8.4)——代码、Agent 标签齐全,100 万 token 上下文装得下大半个仓库
  • 代码生成与评审 · 均衡选:Grok Build 0.1(¥6.79/¥13.57,$1/$2)——输出只有输入的 2 倍,生成长文件不肉疼
  • 代码生成与评审 · 旗舰选:Claude Opus 4.8(¥33.93/¥169.63,$5/$25)——代码标杆,100 万 token 上下文;预算紧可退一档 Claude Sonnet 4.6(¥20.36/¥101.78,$3/$15)
  • 营销文案批量生产 · 省钱选:混元 TurboS(¥0.8/¥2)——输出 ¥2 与全表最低输出价持平,输入 ¥0.8 也接近地板
  • 营销文案批量生产 · 均衡选:Spark X2 Flash(¥2/¥2)——¥2 输出档里唯一带推理标签的型号,长产出不被输出溢价惩罚
  • 营销文案批量生产 · 旗舰选:Kimi K2.6(¥6.5/¥27)——中文长文文风稳,适合配人工精修走高客单内容
  • 深度推理分析 · 省钱选:Spark X2 Flash(¥2/¥2)——思考 token 与输入同价;输入比输出重的分析任务可换文心 ERNIE X1 Turbo(¥1/¥4)
  • 深度推理分析 · 均衡选:DeepSeek V4 Pro(¥3/¥6)——输出仅为输入的 2 倍,思考链再长成本也可控
  • 深度推理分析 · 旗舰选:Grok 4.3(¥8.48/¥16.96,$1.25/$2.5)——海外旗舰推理里输出价最低:GPT-5.5 要 ¥203.56,Claude Opus 4.8 要 ¥169.63

两个特殊比例:批量翻译和 Agent 工具调用

翻译进出文本量接近 1:1,两侧单价谁也别想取巧,直接比两价之和。每翻 100 万 token 并产出 100 万 token:Qwen3.5 Flash 合计 0.2 + 2 = ¥2.2,混元 TurboS 合计 0.8 + 2 = ¥2.8,DeepSeek V4 Flash 合计 1 + 2 = ¥3,Spark X2 Flash 合计 2 + 2 = ¥4——同价策略在 1:1 场景反而没占到便宜。三档:省钱选 Qwen3.5 Flash;均衡选 DeepSeek V4 Flash(100 万 token 上下文,整篇带上下文翻、术语更一致);旗舰选 Gemini 3.5 Flash(¥10.18/¥61.07,$1.5/$9,合计 ¥71.25,多语种和带图文档再上)。

Agent 的成本结构最容易失控:每一轮都要把对话历史、工具定义和上一轮工具结果整体重发,输入量随轮数滚雪球,十几轮下来输入能滚到输出的几十倍。这时缓存价比输入价更重要。三档:省钱选 MiniMax M2.7(¥2.1/¥8.4,缓存 ¥0.42 是输入价的 1/5,带 Agent 标签);均衡选 Kimi K2.6(¥6.5/¥27,缓存 ¥1.1,Agent 调优,26 万 token 上下文);旗舰选 Claude Opus 4.8(¥33.93/¥169.63,缓存 ¥3.39 约为输入价的 1/10,长链路工具调用的稳定性是它的主场)。另外,对严格 JSON 工具调用有需求的,讯飞 Spark Ultra(¥2/¥2)带 FunctionCall 标签,值得进备选池。

八场景速查表,以及把账算到自己的量上

三档的本质是质量容忍度的阶梯,不是排名。合理路径:先拿省钱档跑 5%–10% 真实流量,人工抽检 bad case;扛不住再升均衡档,把旗舰档留给确实需要的那一小撮请求。按场景路由,通常比全量上旗舰省一个数量级。

比例和单价都齐了,剩下的就是代入你自己的量:/usecase 里有按场景的输入输出比例模板,直接套用估月账单;两个候选拿不准时,/vs 支持任选两个模型按自定义用量对价。站内价格每日与官方页核对,改动记录在 /changelog。

场景省钱选均衡选旗舰选
① 客服问答(输入密集)混元 TurboS ¥0.8/¥2DeepSeek V4 Flash ¥1/¥2Doubao 1.6 ¥2.4/¥24
② 代码生成与评审(输出密集)MiniMax M2.7 ¥2.1/¥8.4Grok Build 0.1 ¥6.79/¥13.57Claude Opus 4.8 ¥33.93/¥169.63
③ 长文档摘要(输入密集)Qwen3.5 Flash ¥0.2/¥2DeepSeek V4 Flash ¥1/¥2Gemini 3.1 Pro Preview ¥13.57/¥81.42
④ 批量翻译(约 1:1)Qwen3.5 Flash ¥0.2/¥2DeepSeek V4 Flash ¥1/¥2Gemini 3.5 Flash ¥10.18/¥61.07
⑤ RAG 知识库问答(输入密集)Qwen3.5 Flash ¥0.2/¥2文心 ERNIE 4.5 Turbo ¥0.8/¥3.2DeepSeek V4 Pro ¥3/¥6
⑥ Agent 工具调用(输入滚雪球)MiniMax M2.7 ¥2.1/¥8.4Kimi K2.6 ¥6.5/¥27Claude Opus 4.8 ¥33.93/¥169.63
⑦ 营销文案批量生产(输出密集)混元 TurboS ¥0.8/¥2Spark X2 Flash ¥2/¥2Kimi K2.6 ¥6.5/¥27
⑧ 深度推理分析(输出密集)Spark X2 Flash ¥2/¥2DeepSeek V4 Pro ¥3/¥6Grok 4.3 ¥8.48/¥16.96

常见问题

怎么知道自己场景的输入输出比例?

最准的办法是上线前跑一小批真实请求,从 API 返回的 usage 字段里读 prompt 和 completion 的 token 数。没有数据时按经验值起步:RAG 和文档分析通常 10:1 以上输入密集,代码生成和文案约 1:3 到 1:5 输出密集,翻译接近 1:1,之后再用真实数据校准。

缓存价是什么?我的场景用得上吗?

多数厂商对重复出现的输入前缀(典型如固定 system prompt)按更低的缓存价计费,例如 DeepSeek V4 Flash 缓存命中 ¥0.02,只有正常输入价 ¥1 的 1/50。客服、Agent 这类固定前缀反复进上下文的多轮场景收益最大,具体命中规则和计费细节以各官方文档为准。

海外模型的人民币价格是怎么折算的?

按官方美元定价以 1 USD = 6.7853 折算,例如 GPT-5.5 输入 $5,5 × 6.7853 ≈ ¥33.93。站内汇率会定期自动核对更新,文中同时标注了美元原价方便对照。

省钱档的质量不够用怎么办?

三档是质量容忍度的阶梯:先用省钱档跑 5%–10% 的真实流量并人工抽检,不达标再升均衡档,旗舰档只留给确实做不动的请求。用 /vs 把两档模型按你的真实用量对价,升档要多花多少钱一目了然。

推理模型为什么要特别盯输出价?

深度思考的中间过程通常也按输出 token 计费(以各官方文档为准),一次分析的思考量可能是最终答案的好几倍。同样 3 万 token 输出,GPT-5.5 约 ¥6.11(203.56 × 0.03),Grok 4.3 约 ¥0.51(16.96 × 0.03),输出单价直接决定推理场景的账单。

文中价格与价格表同源、每日核对。选型前去看一眼最新价。

打开价格表 →