选型2026-06-10 发布 · 约 13 分钟读完

8 个真实场景的大模型选型：别只盯单价

选模型时被问得最多的是「哪个最便宜」，但价格表上每个模型其实有两个数字：输入价和输出价，都按每百万 token 计。只盯其中一个，结论很可能完全反过来。

举个例子：Qwen3.5 Flash 输入 ¥0.2/百万 token，全表最低，但输出 ¥2，是输入的 10 倍；讯飞 Spark X2 Flash 输入输出同价，都是 ¥2。只看输入价，前者「便宜 10 倍」；放进一个输出密集的文案生成场景，两者的实际账单只差 16%（下文有算式）。

这篇把 8 个真实场景按「输入密集还是输出密集」拆开，每个场景给省钱、均衡、旗舰三档。价格以人民币每百万 token 计，海外模型按 1 USD = 6.7853 折算并附美元原价，关键算例都列算式，可以自己复核。

先判断输入密集还是输出密集，再看价格表

一次调用的成本 = 输入单价 × 输入 token 量 + 输出单价 × 输出 token 量。而输出与输入的价差在不同模型上完全不是一个量级：Spark X2 Flash 输入输出同价（¥2/¥2)；GPT-5.5 输出 ¥203.56 是输入 ¥33.93 的 6 倍；Qwen3.5 Flash（¥0.2/¥2）、Doubao 1.6（¥2.4/¥24）、Baichuan M2（¥2/¥20）的输出都是输入的 10 倍。同一份价格表，输入密集和输出密集的场景会排出两个完全不同的名次。

拿 Qwen3.5 Flash 和 Spark X2 Flash 跑两个场景就够说明问题。RAG 问答，单次 8000 token 输入、500 token 输出，跑 1 万次（即 80 个百万 token 输入、5 个百万输出）：Qwen3.5 Flash 花 0.2 × 80 + 2 × 5 = ¥26，Spark X2 Flash 花 2 × 80 + 2 × 5 = ¥170，差 6.5 倍。换成文案生成，单次 300 token 输入、1700 token 输出，同样 1 万次：Qwen3.5 Flash 是 0.2 × 3 + 2 × 17 = ¥34.6，Spark X2 Flash 是 2 × 3 + 2 × 17 = ¥40，差距缩到 16%。看单价以为差 10 倍，换个场景几乎打平。

所以动手选型前，先把自己场景的输入输出比估出来。上线前跑一小批真实请求，从 API 返回的 usage 字段读 token 数最准；没有数据时按下面的经验值起步：

RAG、长文档分析：输入:输出常在 10:1 以上，重点看输入单价和缓存价
多轮客服：system prompt 和历史记录反复进上下文，约 5:1，缓存价很关键
批量翻译：进出文本量接近 1:1，直接比两个单价之和
代码生成、营销文案：短指令换长产出，约 1:3 到 1:5，输出价主导
深度推理：思考过程通常也按输出 token 计费（以官方文档为准），输出价权重进一步放大

输入密集：客服问答、长文档摘要、RAG 知识库

这三个场景的共性是 prompt 大、回答短，账单大头在输入侧。除了输入单价，还要看缓存价——多数厂商对重复出现的输入前缀（典型如固定的 system prompt）按更低的缓存价计费，具体命中规则以各官方文档为准。

拿一份 10 万 token 的文档生成 1500 token 摘要算一笔：Qwen3.5 Flash 是 0.2 × 100000/1000000 + 2 × 1500/1000000 ≈ ¥0.023/份；DeepSeek V4 Flash 是 1 × 0.1 + 2 × 0.0015 = ¥0.103/份；Gemini 3.1 Pro Preview 是 13.57 × 0.1 + 81.42 × 0.0015 ≈ ¥1.48/份。一万份文档下来分别约 ¥230、¥1030、¥14800——量上去之后，档位差距就是预算差距。

客服问答 · 省钱选：混元 TurboS（¥0.8/¥2）——输出 ¥2 持平全表最低输出价，输入 ¥0.8 也接近地板，256K 上下文装得下整套 FAQ
客服问答 · 均衡选：DeepSeek V4 Flash（¥1/¥2）——缓存命中价 ¥0.02 只有输入价的 1/50，固定话术的客服几乎都吃得到
客服问答 · 旗舰选：Doubao 1.6（¥2.4/¥24）——多模态，用户甩截图也能接；注意输出是输入的 10 倍，要约束回复长度
长文档摘要 · 省钱选：Qwen3.5 Flash（¥0.2/¥2）——全表最低输入价；上下文 13 万 token，超长文档需分块
长文档摘要 · 均衡选：DeepSeek V4 Flash（¥1/¥2）——100 万 token 上下文，整本书一次性塞进去
长文档摘要 · 旗舰选：Gemini 3.1 Pro Preview（¥13.57/¥81.42，$2/$12）——200 万 token 上下文全场最大
RAG 问答 · 省钱选：Qwen3.5 Flash（¥0.2/¥2）——输入价不到第二便宜的 Gemini 2.5 Flash-Lite（¥0.68）的三分之一，检索片段塞再多也不心疼
RAG 问答 · 均衡选：文心 ERNIE 4.5 Turbo（¥0.8/¥3.2）——缓存价 ¥0.2 是输入的 1/4，知识库片段重复命中时有感
RAG 问答 · 旗舰选：DeepSeek V4 Pro（¥3/¥6）——旗舰推理能力配 ¥3 输入价和 100 万 token 上下文，是旗舰档里输入侧最省的选项之一

输出密集：代码生成、营销文案、深度推理

短指令换长产出，输出单价说了算。推理模型还有个隐藏项：深度思考的中间 token 通常也计入输出（以官方文档为准），实际输出量可能是你看到的最终答案的好几倍——这正是 Spark X2 Flash 这类输入输出同价的型号占便宜的地方。

算两笔账。一次重分析任务，5000 token 输入、3 万 token 输出（含思考）：GPT-5.5 是 33.93 × 0.005 + 203.56 × 0.03 ≈ ¥6.28/次；Grok 4.3 是 8.48 × 0.005 + 16.96 × 0.03 ≈ ¥0.55/次，差 11 倍。代码场景同理：单次 2000 token 输入、8000 token 输出，Claude Opus 4.8 是 33.93 × 0.002 + 169.63 × 0.008 ≈ ¥1.42/次，MiniMax M2.7 只要 2.1 × 0.002 + 8.4 × 0.008 ≈ ¥0.07/次。旗舰不是不能用，而是该花在省钱档真做不动的那部分任务上。

代码生成与评审 · 省钱选：MiniMax M2.7（¥2.1/¥8.4）——代码、Agent 标签齐全，100 万 token 上下文装得下大半个仓库
代码生成与评审 · 均衡选：Grok Build 0.1（¥6.79/¥13.57，$1/$2）——输出只有输入的 2 倍，生成长文件不肉疼
代码生成与评审 · 旗舰选：Claude Opus 4.8（¥33.93/¥169.63，$5/$25）——代码标杆，100 万 token 上下文；预算紧可退一档 Claude Sonnet 4.6（¥20.36/¥101.78，$3/$15）
营销文案批量生产 · 省钱选：混元 TurboS（¥0.8/¥2）——输出 ¥2 与全表最低输出价持平，输入 ¥0.8 也接近地板
营销文案批量生产 · 均衡选：Spark X2 Flash（¥2/¥2）——¥2 输出档里唯一带推理标签的型号，长产出不被输出溢价惩罚
营销文案批量生产 · 旗舰选：Kimi K2.6（¥6.5/¥27）——中文长文文风稳，适合配人工精修走高客单内容
深度推理分析 · 省钱选：Spark X2 Flash（¥2/¥2）——思考 token 与输入同价；输入比输出重的分析任务可换文心 ERNIE X1 Turbo（¥1/¥4）
深度推理分析 · 均衡选：DeepSeek V4 Pro（¥3/¥6）——输出仅为输入的 2 倍，思考链再长成本也可控
深度推理分析 · 旗舰选：Grok 4.3（¥8.48/¥16.96，$1.25/$2.5）——海外旗舰推理里输出价最低：GPT-5.5 要 ¥203.56，Claude Opus 4.8 要 ¥169.63

两个特殊比例：批量翻译和 Agent 工具调用

翻译进出文本量接近 1:1，两侧单价谁也别想取巧，直接比两价之和。每翻 100 万 token 并产出 100 万 token：Qwen3.5 Flash 合计 0.2 + 2 = ¥2.2，混元 TurboS 合计 0.8 + 2 = ¥2.8，DeepSeek V4 Flash 合计 1 + 2 = ¥3，Spark X2 Flash 合计 2 + 2 = ¥4——同价策略在 1:1 场景反而没占到便宜。三档：省钱选 Qwen3.5 Flash；均衡选 DeepSeek V4 Flash（100 万 token 上下文，整篇带上下文翻、术语更一致）；旗舰选 Gemini 3.5 Flash（¥10.18/¥61.07，$1.5/$9，合计 ¥71.25，多语种和带图文档再上）。

Agent 的成本结构最容易失控：每一轮都要把对话历史、工具定义和上一轮工具结果整体重发，输入量随轮数滚雪球，十几轮下来输入能滚到输出的几十倍。这时缓存价比输入价更重要。三档：省钱选 MiniMax M2.7（¥2.1/¥8.4，缓存 ¥0.42 是输入价的 1/5，带 Agent 标签）；均衡选 Kimi K2.6（¥6.5/¥27，缓存 ¥1.1，Agent 调优，26 万 token 上下文）；旗舰选 Claude Opus 4.8（¥33.93/¥169.63，缓存 ¥3.39 约为输入价的 1/10，长链路工具调用的稳定性是它的主场）。另外，对严格 JSON 工具调用有需求的，讯飞 Spark Ultra（¥2/¥2）带 FunctionCall 标签，值得进备选池。

八场景速查表，以及把账算到自己的量上

三档的本质是质量容忍度的阶梯，不是排名。合理路径：先拿省钱档跑 5%–10% 真实流量，人工抽检 bad case；扛不住再升均衡档，把旗舰档留给确实需要的那一小撮请求。按场景路由，通常比全量上旗舰省一个数量级。

比例和单价都齐了，剩下的就是代入你自己的量：/usecase 里有按场景的输入输出比例模板，直接套用估月账单；两个候选拿不准时，/vs 支持任选两个模型按自定义用量对价。站内价格每日与官方页核对，改动记录在 /changelog。

场景	省钱选	均衡选	旗舰选
① 客服问答（输入密集）	混元 TurboS ¥0.8/¥2	DeepSeek V4 Flash ¥1/¥2	Doubao 1.6 ¥2.4/¥24
② 代码生成与评审（输出密集）	MiniMax M2.7 ¥2.1/¥8.4	Grok Build 0.1 ¥6.79/¥13.57	Claude Opus 4.8 ¥33.93/¥169.63
③ 长文档摘要（输入密集）	Qwen3.5 Flash ¥0.2/¥2	DeepSeek V4 Flash ¥1/¥2	Gemini 3.1 Pro Preview ¥13.57/¥81.42
④ 批量翻译（约 1:1）	Qwen3.5 Flash ¥0.2/¥2	DeepSeek V4 Flash ¥1/¥2	Gemini 3.5 Flash ¥10.18/¥61.07
⑤ RAG 知识库问答（输入密集）	Qwen3.5 Flash ¥0.2/¥2	文心 ERNIE 4.5 Turbo ¥0.8/¥3.2	DeepSeek V4 Pro ¥3/¥6
⑥ Agent 工具调用（输入滚雪球）	MiniMax M2.7 ¥2.1/¥8.4	Kimi K2.6 ¥6.5/¥27	Claude Opus 4.8 ¥33.93/¥169.63
⑦ 营销文案批量生产（输出密集）	混元 TurboS ¥0.8/¥2	Spark X2 Flash ¥2/¥2	Kimi K2.6 ¥6.5/¥27
⑧ 深度推理分析（输出密集）	Spark X2 Flash ¥2/¥2	DeepSeek V4 Pro ¥3/¥6	Grok 4.3 ¥8.48/¥16.96

常见问题

怎么知道自己场景的输入输出比例？

最准的办法是上线前跑一小批真实请求，从 API 返回的 usage 字段里读 prompt 和 completion 的 token 数。没有数据时按经验值起步：RAG 和文档分析通常 10:1 以上输入密集，代码生成和文案约 1:3 到 1:5 输出密集，翻译接近 1:1，之后再用真实数据校准。

缓存价是什么？我的场景用得上吗？

多数厂商对重复出现的输入前缀（典型如固定 system prompt）按更低的缓存价计费，例如 DeepSeek V4 Flash 缓存命中 ¥0.02，只有正常输入价 ¥1 的 1/50。客服、Agent 这类固定前缀反复进上下文的多轮场景收益最大，具体命中规则和计费细节以各官方文档为准。

海外模型的人民币价格是怎么折算的？

按官方美元定价以 1 USD = 6.7853 折算，例如 GPT-5.5 输入 $5，5 × 6.7853 ≈ ¥33.93。站内汇率会定期自动核对更新，文中同时标注了美元原价方便对照。

省钱档的质量不够用怎么办？

三档是质量容忍度的阶梯：先用省钱档跑 5%–10% 的真实流量并人工抽检，不达标再升均衡档，旗舰档只留给确实做不动的请求。用 /vs 把两档模型按你的真实用量对价，升档要多花多少钱一目了然。

推理模型为什么要特别盯输出价？

深度思考的中间过程通常也按输出 token 计费（以各官方文档为准），一次分析的思考量可能是最终答案的好几倍。同样 3 万 token 输出，GPT-5.5 约 ¥6.11（203.56 × 0.03），Grok 4.3 约 ¥0.51（16.96 × 0.03），输出单价直接决定推理场景的账单。

文中价格与价格表同源、每日核对。选型前去看一眼最新价。

打开价格表 →