选型2026-06-10 发布 · 约 10 分钟读完

DeepSeek V4 API 成本完全指南：Flash 和 Pro 怎么选

DeepSeek 把 V4 系列拆成了两档：Flash 每百万 tokens 输入 ¥1、输出 ¥2；Pro 输入 ¥3、输出 ¥6。两档的上下文窗口都是 1,000,000 tokens，最大输出都是 384,000 tokens，规格完全一致，差的只有模型能力和整整三倍的价格。这让选型问题变得很纯粹：你的任务配不配得上三倍的钱。

这篇文章按四个问题展开：Flash 和 Pro 怎么分工；缓存命中价 ¥0.02 在真实业务里意味着什么；还挂在 V3.2 上的老项目怎么算迁移账；以及把 GPT-5.5、Qwen3.5 Flash、GLM-4.7 摆在一起时，V4 的价格到底处在什么位置。所有结论都附算式，你可以拿自己的用量直接代入。

先把最容易被忽略的一点放在前面：V4 Flash 的缓存命中价是输入标价的 2%（0.02 ÷ 1）。对于多轮对话、固定系统提示词这类高命中场景，实际输入均价会远低于 ¥1 的标价——比价时如果只看标价，估出来的成本可能是实际的三倍以上。

先看报价单：Flash 和 Pro 只差在模型能力

规格层面两档没有任何差异：1M 上下文意味着一次能塞进整个中型代码库或几百页文档；384K 最大输出是目前主流模型里最大的一档（对比 GPT-5.5 的 128K、多数国产模型的 16K 上下），长报告生成、整库重构这类任务不需要切片拼接再缝合。

价格上 Pro 是 Flash 的整三倍（输入 3 ÷ 1，输出 6 ÷ 2），没有隐藏的折扣结构差异，连缓存命中价都几乎同一个量级（¥0.03 对 ¥0.02）。所以选型不需要复杂的成本建模，只用回答一个问题：这个任务用 Flash 的产出质量够不够。

如果拿不准，有个工程上更稳的做法：先全量 Flash 跑一遍评测集，把不达标的子任务单独路由到 Pro。由于差价固定是三倍，哪怕 30% 的请求走 Pro，混合后的输入均价也只有 0.3 × 3 + 0.7 × 1 = ¥1.6/百万 tokens，是全量 Pro（¥3）的 53%。

选 Flash：批量摘要、数据清洗打标、客服 FAQ、固定模板的内容生成——任务结构清楚、不需要深度推理的大批量场景
选 Pro：多步推理、数学与代码难题、复杂 Agent 规划，以及出错代价高的场景（自动操作业务数据、合同要点提取）
拿不准：先 Flash 跑评测，不达标的子任务再按请求路由到 Pro，通常比全量 Pro 省接近一半

模型	输入（¥/百万 tokens）	输出（¥/百万 tokens）	缓存命中（¥/百万 tokens）	上下文	最大输出
DeepSeek V4 Flash	1	2	0.02	1M	384K
DeepSeek V4 Pro	3	6	0.03	1M	384K
DeepSeek V3.2（已下线）	2	8	0.5	128K	8K

缓存 ¥0.02：标价的 2% 才是多轮场景的真实单价

先解释一下「缓存命中」：当一次请求的前缀部分（系统提示词、历史对话、已上传的文档）和之前的请求完全相同时，厂商可以复用已经算过的中间结果，这部分 tokens 就按极低的缓存价计费。V4 Flash 的缓存命中价 ¥0.02，是输入标价的 2%（0.02 ÷ 1）；Pro 的 ¥0.03 更是只有标价的 1%（0.03 ÷ 3）。

多轮对话是命中率最高的场景——每一轮请求都要带上全部历史，而历史恰好是上一轮请求的前缀。拿一个客服机器人举例：假设每月消耗 100M 输入 tokens，缓存命中率 70%。Flash 的账是这样的：命中部分 100M × 70% × ¥0.02/M = ¥1.4，未命中部分 100M × 30% × ¥1/M = ¥30，输入合计 ¥31.4。实际均价 31.4 ÷ 100 = ¥0.314/百万 tokens，约为标价 ¥1 的 31%。如果按标价直接估算是 100 × 1 = ¥100，约为实际成本（¥31.4）的 3.2 倍。

Pro 同口径算一遍：100 × 70% × 0.03 + 100 × 30% × 3 = 2.1 + 90 = ¥92.1，均价 ¥0.921/百万 tokens。结论是一样的：凡是系统提示词长、多轮占比高的业务，比价时应该拿命中率折算后的均价，而不是标价。需要提醒的是，缓存的具体生效条件（前缀如何匹配、是否需要显式开启、缓存写入如何计费）各家规则不同，以 DeepSeek 官方文档为准。

还在用 V3.2？迁移账和两个注意点

V3.2 标价输入 ¥2、输出 ¥8，上下文 128K、最大输出只有 8,192 tokens，其官方入口（deepseek-chat / deepseek-reasoner）已于 2026-07-24 下线。还挂在 V3.2 上的项目必须迁移——迁 Flash 是能力升级的同时全面降价；迁 Pro，典型负载下账单也基本持平。

以每月 10M 输入 + 5M 输出的典型负载算：V3.2 是 10 × 2 + 5 × 8 = ¥60；迁到 V4 Flash 是 10 × 1 + 5 × 2 = ¥20，直接降 67%（(60 − 20) ÷ 60 ≈ 66.7%）；就算迁到旗舰 V4 Pro，10 × 3 + 5 × 6 = ¥60，账单和 V3.2 持平，但换来了推理能力、1M 上下文和 384K 最大输出。

两个容易忽略的点。第一，V4 的输出价反而比 V3.2 便宜：Flash 的 ¥2 和 Pro 的 ¥6 都低于 V3.2 的 ¥8，输出占比越高的业务（翻译、长文生成）迁移后的降幅越大，别被 Pro「输入 ¥3 比 ¥2 贵」的第一眼印象误导。第二，缓存价从 V3.2 的 ¥0.5 降到了 Flash 的 ¥0.02，差 25 倍（0.5 ÷ 0.02），重缓存业务的真实降幅比标价体现的还要夸张。迁移时记得检查代码里有没有按 V3.2 的 8,192 上限写死 max_tokens。

横向对比：贵的差 100 倍，便宜的差在上下文

先看最大的价差。对比 GPT-5.5（$5/$30，按 1 USD = 6.7853 折合 ¥33.93/¥203.56），V4 Flash 输入差 33.93 ÷ 1 ≈ 34 倍，输出差 203.56 ÷ 2 ≈ 102 倍。按 1M 输入 + 1M 输出的混合负载算：GPT-5.5 要 33.93 + 203.56 = ¥237.49，V4 Flash 只要 1 + 2 = ¥3，差 237.49 ÷ 3 ≈ 79 倍；即便对位旗舰 V4 Pro（3 + 6 = ¥9），也还差 237.49 ÷ 9 ≈ 26 倍。这个量级意味着：除非任务确实够得着 GPT-5.5 的能力上限，否则拿它跑批量任务在成本上没有讨论空间。

真正能在价格上压过 V4 Flash 的是 Qwen3.5 Flash：输入 ¥0.2 只有 V4 Flash 的五分之一（1 ÷ 0.2 = 5），输出同为 ¥2。但它的上下文只有 131K，约为 V4 Flash 的 1/7.6（1,000,000 ÷ 131,072），最大输出 16K 对 384K。输入轻、上下文需求小的高频任务（意图分类、标题改写）选 Qwen3.5 Flash 更省；要塞长文档、要长输出，只能 V4。

GLM-4.7 标价 ¥2/¥8，和 V3.2 完全一致：对比 V4 Flash 输入贵一倍、输出是 4 倍（8 ÷ 2），缓存 ¥0.4 对 ¥0.02，上下文 200K 对 1M。纯看账单它对 V4 Flash 没有优势，选它的理由应该来自具体任务上的模型表现实测，而不是价格。

模型	输入（¥/M）	输出（¥/M）	缓存命中（¥/M）	上下文
DeepSeek V4 Flash	1	2	0.02	1M
DeepSeek V4 Pro	3	6	0.03	1M
GPT-5.5（$5/$30）	33.93	203.56	3.39	400K
Qwen3.5 Flash	0.2	2	—	131K
GLM-4.7	2	8	0.4	200K

什么场景别选 V4

最硬的一条限制：V4 系列是纯文本模型，不接受图片、音频输入。需要 OCR 票据、理解 UI 截图、读图表的业务直接出局，该去多模态阵营里挑——海外有 Gemini 3.5 Flash（¥10.18/¥61.07），国产有 Doubao 1.6（¥2.4/¥24）。

另外两类场景值得多想一步。一是前面说的「输入极轻 + 上下文短」，Qwen3.5 Flash 的 ¥0.2 输入价更合适。二是无缓存的一次性批量任务：V4 Flash 的核心优势之一在缓存价，如果你的负载是一次性灌入、前缀互不相同（比如批量处理互不重复的文档），缓存基本不命中，这时它 ¥1/¥2 的标价虽然仍然便宜，但和混元 TurboS（¥0.8/¥2）这类低标价模型相比就没有代差了，值得拿自己的任务实测一轮再定。

一句话版决策树：要多模态，不选 V4；输入轻、上下文短，看 Qwen3.5 Flash；大批量模板化任务，V4 Flash；复杂推理和 Agent 主力，V4 Pro；还在 V3.2 上的，现在就迁。

常见问题

DeepSeek V4 API 多少钱一百万 tokens？

V4 Flash 输入 ¥1、输出 ¥2，缓存命中 ¥0.02；V4 Pro 输入 ¥3、输出 ¥6，缓存命中 ¥0.03。两档均为 1M tokens 上下文、384K 最大输出。

V4 Flash 和 V4 Pro 有什么区别，怎么选？

两档规格完全相同，差的是模型能力和三倍的价格。批量、模板化、结构清楚的任务用 Flash；多步推理、复杂 Agent、出错代价高的任务用 Pro。拿不准就先用 Flash 跑评测集，不达标的子任务再单独路由到 Pro。

DeepSeek 的缓存命中是怎么省钱的？

请求前缀与此前请求相同时，这部分 tokens 按缓存价计费。V4 Flash 缓存价 ¥0.02 是输入标价的 2%。假设 70% 命中率，实际输入均价为 0.7 × 0.02 + 0.3 × 1 = ¥0.314/百万 tokens，约为标价的 31%。具体生效规则以官方文档为准。

V3.2 还能继续用吗？要不要迁移？

官方入口已经关了：V3.2（¥2/¥8，128K 上下文）对应的 deepseek-chat / deepseek-reasoner 已于 2026-07-24 下线，必须迁移。V4 Flash 输入便宜一半、输出从 ¥8 降到 ¥2；V4 Pro 输出也降到 ¥6。注意检查代码里是否按 V3.2 的 8,192 上限写死了 max_tokens。

DeepSeek V4 支持图片输入吗？

不支持。V4 系列是纯文本模型，需要图片或多模态理解的业务可以看 Gemini 3.5 Flash、Doubao 1.6 等多模态模型。

文中价格与价格表同源、每日核对。选型前去看一眼最新价。

打开价格表 →