算盘
选型2026-06-10 发布 · 约 9 分钟读完

DeepSeek V4 API 成本完全指南:Flash 和 Pro 怎么选

DeepSeek 把 V4 系列拆成了两档:Flash 每百万 tokens 输入 ¥1、输出 ¥2;Pro 输入 ¥3、输出 ¥6。两档的上下文窗口都是 1,000,000 tokens,最大输出都是 384,000 tokens,规格完全一致,差的只有模型能力和整整三倍的价格。这让选型问题变得很纯粹:你的任务配不配得上三倍的钱。

这篇文章按四个问题展开:Flash 和 Pro 怎么分工;缓存命中价 ¥0.02 在真实业务里意味着什么;还挂在 V3.2 上的老项目怎么算迁移账;以及把 GPT-5.5、Qwen3.5 Flash、GLM-4.7 摆在一起时,V4 的价格到底处在什么位置。所有结论都附算式,你可以拿自己的用量直接代入。

先把最容易被忽略的一点放在前面:V4 Flash 的缓存命中价是输入标价的 2%(0.02 ÷ 1)。对于多轮对话、固定系统提示词这类高命中场景,实际输入均价会远低于 ¥1 的标价——比价时如果只看标价,估出来的成本可能是实际的三倍以上。

先看报价单:Flash 和 Pro 只差在模型能力

规格层面两档没有任何差异:1M 上下文意味着一次能塞进整个中型代码库或几百页文档;384K 最大输出是目前主流模型里最大的一档(对比 GPT-5.5 的 128K、多数国产模型的 16K 上下),长报告生成、整库重构这类任务不需要切片拼接再缝合。

价格上 Pro 是 Flash 的整三倍(输入 3 ÷ 1,输出 6 ÷ 2),没有隐藏的折扣结构差异,连缓存命中价都几乎同一个量级(¥0.03 对 ¥0.02)。所以选型不需要复杂的成本建模,只用回答一个问题:这个任务用 Flash 的产出质量够不够。

如果拿不准,有个工程上更稳的做法:先全量 Flash 跑一遍评测集,把不达标的子任务单独路由到 Pro。由于差价固定是三倍,哪怕 30% 的请求走 Pro,混合后的输入均价也只有 0.3 × 3 + 0.7 × 1 = ¥1.6/百万 tokens,是全量 Pro(¥3)的 53%。

  • 选 Flash:批量摘要、数据清洗打标、客服 FAQ、固定模板的内容生成——任务结构清楚、不需要深度推理的大批量场景
  • 选 Pro:多步推理、数学与代码难题、复杂 Agent 规划,以及出错代价高的场景(自动操作业务数据、合同要点提取)
  • 拿不准:先 Flash 跑评测,不达标的子任务再按请求路由到 Pro,通常比全量 Pro 省接近一半
模型输入(¥/百万 tokens)输出(¥/百万 tokens)缓存命中(¥/百万 tokens)上下文最大输出
DeepSeek V4 Flash120.021M384K
DeepSeek V4 Pro360.031M384K
DeepSeek V3.2(即将弃用)280.5128K8K

缓存 ¥0.02:标价的 2% 才是多轮场景的真实单价

先解释一下「缓存命中」:当一次请求的前缀部分(系统提示词、历史对话、已上传的文档)和之前的请求完全相同时,厂商可以复用已经算过的中间结果,这部分 tokens 就按极低的缓存价计费。V4 Flash 的缓存命中价 ¥0.02,是输入标价的 2%(0.02 ÷ 1);Pro 的 ¥0.03 更是只有标价的 1%(0.03 ÷ 3)。

多轮对话是命中率最高的场景——每一轮请求都要带上全部历史,而历史恰好是上一轮请求的前缀。拿一个客服机器人举例:假设每月消耗 100M 输入 tokens,缓存命中率 70%。Flash 的账是这样的:命中部分 100M × 70% × ¥0.02/M = ¥1.4,未命中部分 100M × 30% × ¥1/M = ¥30,输入合计 ¥31.4。实际均价 31.4 ÷ 100 = ¥0.314/百万 tokens,约为标价 ¥1 的 31%。如果按标价直接估算是 100 × 1 = ¥100,约为实际成本(¥31.4)的 3.2 倍。

Pro 同口径算一遍:100 × 70% × 0.03 + 100 × 30% × 3 = 2.1 + 90 = ¥92.1,均价 ¥0.921/百万 tokens。结论是一样的:凡是系统提示词长、多轮占比高的业务,比价时应该拿命中率折算后的均价,而不是标价。需要提醒的是,缓存的具体生效条件(前缀如何匹配、是否需要显式开启、缓存写入如何计费)各家规则不同,以 DeepSeek 官方文档为准。

还在用 V3.2?迁移账和两个注意点

V3.2 标价输入 ¥2、输出 ¥8,上下文 128K、最大输出只有 8,192 tokens,目前已被官方标记为即将弃用。还挂在 V3.2 上的项目建议尽快迁移——迁 Flash 是能力升级的同时全面降价;迁 Pro,典型负载下账单也基本持平。

以每月 10M 输入 + 5M 输出的典型负载算:V3.2 是 10 × 2 + 5 × 8 = ¥60;迁到 V4 Flash 是 10 × 1 + 5 × 2 = ¥20,直接降 67%((60 − 20) ÷ 60 ≈ 66.7%);就算迁到旗舰 V4 Pro,10 × 3 + 5 × 6 = ¥60,账单和 V3.2 持平,但换来了推理能力、1M 上下文和 384K 最大输出。

两个容易忽略的点。第一,V4 的输出价反而比 V3.2 便宜:Flash 的 ¥2 和 Pro 的 ¥6 都低于 V3.2 的 ¥8,输出占比越高的业务(翻译、长文生成)迁移后的降幅越大,别被 Pro「输入 ¥3 比 ¥2 贵」的第一眼印象误导。第二,缓存价从 V3.2 的 ¥0.5 降到了 Flash 的 ¥0.02,差 25 倍(0.5 ÷ 0.02),重缓存业务的真实降幅比标价体现的还要夸张。迁移时记得检查代码里有没有按 V3.2 的 8,192 上限写死 max_tokens。

横向对比:贵的差 100 倍,便宜的差在上下文

先看最大的价差。对比 GPT-5.5($5/$30,按 1 USD = 6.7853 折合 ¥33.93/¥203.56),V4 Flash 输入差 33.93 ÷ 1 ≈ 34 倍,输出差 203.56 ÷ 2 ≈ 102 倍。按 1M 输入 + 1M 输出的混合负载算:GPT-5.5 要 33.93 + 203.56 = ¥237.49,V4 Flash 只要 1 + 2 = ¥3,差 237.49 ÷ 3 ≈ 79 倍;即便对位旗舰 V4 Pro(3 + 6 = ¥9),也还差 237.49 ÷ 9 ≈ 26 倍。这个量级意味着:除非任务确实够得着 GPT-5.5 的能力上限,否则拿它跑批量任务在成本上没有讨论空间。

真正能在价格上压过 V4 Flash 的是 Qwen3.5 Flash:输入 ¥0.2 只有 V4 Flash 的五分之一(1 ÷ 0.2 = 5),输出同为 ¥2。但它的上下文只有 131K,约为 V4 Flash 的 1/7.6(1,000,000 ÷ 131,072),最大输出 16K 对 384K。输入轻、上下文需求小的高频任务(意图分类、标题改写)选 Qwen3.5 Flash 更省;要塞长文档、要长输出,只能 V4。

GLM-4.7 标价 ¥2/¥8,和 V3.2 完全一致:对比 V4 Flash 输入贵一倍、输出是 4 倍(8 ÷ 2),缓存 ¥0.4 对 ¥0.02,上下文 200K 对 1M。纯看账单它对 V4 Flash 没有优势,选它的理由应该来自具体任务上的模型表现实测,而不是价格。

模型输入(¥/M)输出(¥/M)缓存命中(¥/M)上下文
DeepSeek V4 Flash120.021M
DeepSeek V4 Pro360.031M
GPT-5.5($5/$30)33.93203.563.39400K
Qwen3.5 Flash0.22131K
GLM-4.7280.4200K

什么场景别选 V4

最硬的一条限制:V4 系列是纯文本模型,不接受图片、音频输入。需要 OCR 票据、理解 UI 截图、读图表的业务直接出局,该去多模态阵营里挑——海外有 Gemini 3.5 Flash(¥10.18/¥61.07),国产有 Doubao 1.6(¥2.4/¥24)。

另外两类场景值得多想一步。一是前面说的「输入极轻 + 上下文短」,Qwen3.5 Flash 的 ¥0.2 输入价更合适。二是无缓存的一次性批量任务:V4 Flash 的核心优势之一在缓存价,如果你的负载是一次性灌入、前缀互不相同(比如批量处理互不重复的文档),缓存基本不命中,这时它 ¥1/¥2 的标价虽然仍然便宜,但和混元 TurboS(¥0.8/¥2)这类低标价模型相比就没有代差了,值得拿自己的任务实测一轮再定。

一句话版决策树:要多模态,不选 V4;输入轻、上下文短,看 Qwen3.5 Flash;大批量模板化任务,V4 Flash;复杂推理和 Agent 主力,V4 Pro;还在 V3.2 上的,现在就迁。

常见问题

DeepSeek V4 API 多少钱一百万 tokens?

V4 Flash 输入 ¥1、输出 ¥2,缓存命中 ¥0.02;V4 Pro 输入 ¥3、输出 ¥6,缓存命中 ¥0.03。两档均为 1M tokens 上下文、384K 最大输出。

V4 Flash 和 V4 Pro 有什么区别,怎么选?

两档规格完全相同,差的是模型能力和三倍的价格。批量、模板化、结构清楚的任务用 Flash;多步推理、复杂 Agent、出错代价高的任务用 Pro。拿不准就先用 Flash 跑评测集,不达标的子任务再单独路由到 Pro。

DeepSeek 的缓存命中是怎么省钱的?

请求前缀与此前请求相同时,这部分 tokens 按缓存价计费。V4 Flash 缓存价 ¥0.02 是输入标价的 2%。假设 70% 命中率,实际输入均价为 0.7 × 0.02 + 0.3 × 1 = ¥0.314/百万 tokens,约为标价的 31%。具体生效规则以官方文档为准。

V3.2 还能继续用吗?要不要迁移?

V3.2(¥2/¥8,128K 上下文)已被标记为即将弃用,建议尽快迁移。V4 Flash 输入便宜一半、输出从 ¥8 降到 ¥2;V4 Pro 输出也降到 ¥6。注意检查代码里是否按 V3.2 的 8,192 上限写死了 max_tokens。

DeepSeek V4 支持图片输入吗?

不支持。V4 系列是纯文本模型,需要图片或多模态理解的业务可以看 Gemini 3.5 Flash、Doubao 1.6 等多模态模型。

文中价格与价格表同源、每日核对。选型前去看一眼最新价。

打开价格表 →