避坑2026-06-10 发布 · 约 10 分钟读完

1M 长上下文的价格真相：用满一次到底花多少钱

模型发布会上，上下文窗口是必报参数：1M、2M，数字一年比一年大。很多人选型时也把它当硬指标——窗口越大越好，反正放着不用又不要钱。前半句没错，后半句错得很贵：API 按输入 token 计费，上下文是容量上限，不是赠品。你塞多少，就按多少收钱；塞满，就按满收。

算一笔最直白的账：Claude Opus 4.8 输入价 ¥33.93/百万 token，把 1M 上下文塞满发一次请求，光输入就是 33.93 × 1,000,000/1,000,000 = ¥33.93。Gemini 3.1 Pro Preview 用满 2M 是 13.57 × 2 = ¥27.14。注意，这是一次请求的钱，输出还没算。

这篇把长上下文的真实成本拆成四笔账：用满一次的标价、多轮对话的累计雪球、长文档 QA 里整本塞与 RAG 的对照算式，以及缓存能救到什么程度。最后说清楚哪些场景真值得把窗口用满。

用满一次的标价：ctx ≥ 1M 的模型都在这

公式只有一行：满上下文一次请求的输入费 = 输入单价（¥/百万 token）× 上下文长度（百万 token）。下表是目前价格库里上下文 ≥ 1M 的全部模型，按用满一次的输入费从高到低排。

同样标着『1M 级长上下文』，用满一次的钱差出近 50 倍（33.93 ÷ 0.68 ≈ 49.9）。另一个反直觉的点：Gemini 3.1 Pro Preview 单价 ¥13.57/M 不到 Opus 4.8 的一半，但因为窗口是 2M，真用满反而要 ¥27.14，绝对金额直逼 Opus。看单价不够，得看『单价 × 你实际会塞多少』。

还没完——输出另算。Opus 4.8 输出价 ¥169.63/百万 token，如果顶满 64K 输出，再加 169.63 × 64,000/1,000,000 ≈ ¥10.86。一次满窗口请求合计约 ¥44.8。

模型	上下文	输入价(¥/M)	用满一次输入费
Claude Opus 4.8	1M	¥33.93 ($5)	¥33.93
Claude Opus 4.7	1M	¥33.93 ($5)	¥33.93
Gemini 3.1 Pro Preview	2M	¥13.57 ($2)	¥27.14
Claude Sonnet 4.6	1M	¥20.36 ($3)	¥20.36
Gemini 2.5 Pro	2M	¥8.48 ($1.25)	¥16.96
Qwen3.7 Max	1M	¥12.00	¥12.00
Gemini 3.5 Flash	1M	¥10.18 ($1.5)	¥10.18
Grok 4.3	1M	¥8.48 ($1.25)	¥8.48
MiniMax M3	1M	¥4.20	¥4.20
DeepSeek V4 Pro	1M	¥3.00	¥3.00
MiniMax M2.7	1M	¥2.10	¥2.10
Gemini 2.5 Flash	1M	¥2.04 ($0.3)	¥2.04
Gemini 3.1 Flash-Lite	1M	¥1.70 ($0.25)	¥1.70
DeepSeek V4 Flash	1M	¥1.00	¥1.00
Gemini 2.5 Flash-Lite	1M	¥0.68 ($0.1)	¥0.68

多轮对话的雪球：你发了 20 个字，计费的是 14 万 token

LLM API 是无状态的——服务端不记得上一轮聊了什么，每一轮都要把系统提示加全部历史原样重发，重发的部分按输入价全额计费。这意味着长对话的成本不是线性涨，而是近似平方级涨：历史越长，每一轮的『底座』越厚。

算个典型的 agent 会话：起始上下文 50K token（系统提示 + 检索进来的代码文件），每轮新增约 10K（工具输出 + 模型回复）。第 1 轮输入 50K，第 10 轮输入 50K + 9 × 10K = 140K——你这轮可能只追问了 20 个字，计费的是 140K。10 轮累计输入 = 50K × 10 + 10K × (1+2+…+9) = 950K token。用 Opus 4.8 跑：33.93 × 950,000/1,000,000 ≈ ¥32.23。注意，整个会话从没用满过 1M，但累计输入费已经几乎等于用满一次的钱。换 Claude Sonnet 4.6 是 20.36 × 0.95 ≈ ¥19.34，换 DeepSeek V4 Pro 是 3 × 0.95 = ¥2.85。

工程上的对策都不新鲜，但确实管用：

截断历史：只保留最近 N 轮 + 系统提示，老历史丢掉或换成滚动摘要
agent 的工具输出落盘，上下文里只留路径和摘要，需要时再读
长会话定期『重开』：把结论压缩成一段新系统提示，从零开始

长文档 QA：整本塞进去，还是 RAG？

场景：一套 30 万 token 的文档库（大约几百页 PDF），团队每天问 20 个问题。两条路：方案 A 每次把整库塞进上下文；方案 B 上 RAG——检索增强生成，白话讲就是先用向量检索从文档里捞出最相关的几段，只把这几段（按 5K token 算）发给模型。

方案 A 的日输入量是 300K × 20 = 6M token；方案 B 是 5K × 20 = 100K = 0.1M token。输入量直接差 60 倍（6M ÷ 0.1M），费用按模型算如下表。

RAG 不是免费午餐：要做切片、维护向量库、调检索质量，问题答不准时排查链路也更长。如果文档只有几万 token、一周问不了几次，整本塞反而省事。但像上面这种每天 20 问的重复场景，差的是数量级，工程投入很快回本。

方案	日输入量	日输入费	30 天
整本塞 × Claude Opus 4.8	6M	33.93 × 6 = ¥203.58	¥6,107.40
整本塞 × DeepSeek V4 Flash	6M	1 × 6 = ¥6.00	¥180.00
RAG × Claude Opus 4.8	0.1M	33.93 × 0.1 ≈ ¥3.39	¥101.79
RAG × DeepSeek V4 Flash	0.1M	1 × 0.1 = ¥0.10	¥3.00

缓存能救吗：能省九成，但治标

Prompt 缓存的原理：请求里重复出现的前缀（比如那本 30 万 token 的文档）在厂商侧缓存，后续请求命中时按便宜得多的缓存价计费。Opus 4.8 的缓存命中价是 ¥3.39/百万 token，约为输入原价的十分之一。

套回上面的整本塞场景：假设文档全部命中缓存，每问输入费 3.39 × 0.3 ≈ ¥1.02，一天 20 问约 ¥20.34——比不缓存的 ¥203.58 省了九成，确实可观。但对比 RAG 方案的 ¥3.39/天，仍是它的 6 倍。缓存把斜率压低了，没有改变『费用随上下文长度线性增长』这件事。便宜模型是另一回事：DeepSeek V4 Flash 缓存命中价 ¥0.02/M，每问只要 0.02 × 0.3 = ¥0.006，整本塞的痛感基本消失。

几个常见的翻车点：缓存命中要求前缀逐字节一致，文档前面改一个字、或者把动态内容（时间戳、用户名）放在了文档前头，就全员 miss；缓存有有效期，低频访问可能反复过期重建；首次写入通常另有计费。各家规则差异不小，以官方文档为准。另外缓存只救重复前缀，救不了多轮对话里每轮新增的历史，更救不了输出费。

什么时候长上下文真值得用满

骂完该说公道话：有些任务的价值恰恰在『全部内容同时在场』，切片会直接毁掉任务本身。

判断标准其实就一条：任务需要的是全局关联还是局部检索？前者值得整本塞，后者用 RAG。值得的典型场景：

跨文档推理：5 份合同对照找冲突条款、多份财报横向比对——关联本身分散在文档各处，检索切片给不出全局视角
整库代码理解：出重构方案要看跨文件调用链和依赖图，这正是 RAG 切片丢掉的东西
一次性任务：读完 50 万 token 的代码库出一份迁移评估，只调一次，Opus 4.8 也就 33.93 × 500,000/1,000,000 ≈ ¥16.97，比工程师人肉读三天便宜得多
低频高价值：法律尽调、论文综述这类一个月跑几次的活，单次贵点无所谓

选型建议：先用便宜的 1M 把流程跑通

真决定用满长上下文，顺序建议是：先拿便宜档验证流程——DeepSeek V4 Flash 用满一次 ¥1、Gemini 2.5 Flash-Lite ¥0.68、MiniMax M2.7 ¥2.10，把切分逻辑、提示词、输出格式都调顺；确认任务确实需要旗舰的推理质量，再换 Opus 4.8（¥33.93/次）或 Gemini 3.1 Pro Preview（用满 2M ¥27.14），这时多花的钱才花在刀刃上。

最后一个提醒：标称 1M 不等于全程稳定可用。长上下文末端的检索和推理精度普遍会衰减（业内常说的 lost in the middle），关键信息别埋在中段，各家衰减程度差异也大——窗口大小是营销数字，有效窗口得自己测。完整的长上下文模型横向对比可以看 /compare/long-context-llm，具体用量套自己的参数算一遍，比任何文章的结论都可靠。

常见问题

1M 上下文用满一次到底要花多少钱？

输入费 = 输入单价 × 上下文长度。以输入价计：Claude Opus 4.8 为 33.93 × 1 = ¥33.93，Gemini 3.1 Pro Preview 用满 2M 为 13.57 × 2 = ¥27.14，DeepSeek V4 Flash 为 1 × 1 = ¥1，Gemini 2.5 Flash-Lite 仅 0.68 × 1 = ¥0.68。输出 token 另计。

多轮对话为什么越聊越贵？

LLM API 无状态，每一轮都要把系统提示加全部历史重发并按输入价全额计费，累计费用随轮数近似平方级增长。起始 50K、每轮增 10K 的会话，10 轮累计输入就有 950K token，用 Opus 4.8 约 ¥32.23——几乎等于用满一次 1M 的钱。

Prompt 缓存能解决长上下文贵的问题吗？

能大幅缓解但治标：Opus 4.8 缓存命中价 ¥3.39/M 约为输入原价的十分之一，30 万 token 文档全命中时每问约 ¥1.02，但日费用仍约为 RAG 方案的 6 倍。缓存要求前缀逐字节一致且有有效期，写入另有计费，具体规则以官方文档为准。

长文档问答该整本塞还是用 RAG？

看频率和任务类型。每天 20 问的重复 QA，整本塞 30 万 token 日输入 6M，用 Opus 4.8 要 ¥203.58/天，RAG 只送 5K 切片则约 ¥3.39/天，差 60 倍。但跨文档推理、整库代码理解这类需要全局关联的任务，切片会丢信息，值得整本塞。

最便宜的 1M 级长上下文模型是哪个？

按输入价算，Gemini 2.5 Flash-Lite ¥0.68/M 最低，DeepSeek V4 Flash ¥1/M 次之且缓存命中价低到 ¥0.02/M。建议先用便宜档把流程跑通，确认需要旗舰推理质量再升级。

文中价格与价格表同源、每日核对。选型前去看一眼最新价。

打开价格表 →