算盘
避坑2026-06-10 发布 · 约 10 分钟读完

1M 长上下文的价格真相:用满一次到底花多少钱

模型发布会上,上下文窗口是必报参数:1M、2M,数字一年比一年大。很多人选型时也把它当硬指标——窗口越大越好,反正放着不用又不要钱。前半句没错,后半句错得很贵:API 按输入 token 计费,上下文是容量上限,不是赠品。你塞多少,就按多少收钱;塞满,就按满收。

算一笔最直白的账:Claude Opus 4.8 输入价 ¥33.93/百万 token,把 1M 上下文塞满发一次请求,光输入就是 33.93 × 1,000,000/1,000,000 = ¥33.93。Gemini 3.1 Pro Preview 用满 2M 是 13.57 × 2 = ¥27.14。注意,这是一次请求的钱,输出还没算。

这篇把长上下文的真实成本拆成四笔账:用满一次的标价、多轮对话的累计雪球、长文档 QA 里整本塞与 RAG 的对照算式,以及缓存能救到什么程度。最后说清楚哪些场景真值得把窗口用满。

用满一次的标价:ctx ≥ 1M 的模型都在这

公式只有一行:满上下文一次请求的输入费 = 输入单价(¥/百万 token)× 上下文长度(百万 token)。下表是目前价格库里上下文 ≥ 1M 的全部模型,按用满一次的输入费从高到低排。

同样标着『1M 级长上下文』,用满一次的钱差出近 50 倍(33.93 ÷ 0.68 ≈ 49.9)。另一个反直觉的点:Gemini 3.1 Pro Preview 单价 ¥13.57/M 不到 Opus 4.8 的一半,但因为窗口是 2M,真用满反而要 ¥27.14,绝对金额直逼 Opus。看单价不够,得看『单价 × 你实际会塞多少』。

还没完——输出另算。Opus 4.8 输出价 ¥169.63/百万 token,如果顶满 64K 输出,再加 169.63 × 64,000/1,000,000 ≈ ¥10.86。一次满窗口请求合计约 ¥44.8。

模型上下文输入价(¥/M)用满一次输入费
Claude Opus 4.81M¥33.93 ($5)¥33.93
Claude Opus 4.71M¥33.93 ($5)¥33.93
Gemini 3.1 Pro Preview2M¥13.57 ($2)¥27.14
Claude Sonnet 4.61M¥20.36 ($3)¥20.36
Gemini 2.5 Pro2M¥8.48 ($1.25)¥16.96
Qwen3.7 Max1M¥12.00¥12.00
Gemini 3.5 Flash1M¥10.18 ($1.5)¥10.18
Grok 4.31M¥8.48 ($1.25)¥8.48
MiniMax M31M¥4.20¥4.20
DeepSeek V4 Pro1M¥3.00¥3.00
MiniMax M2.71M¥2.10¥2.10
Gemini 2.5 Flash1M¥2.04 ($0.3)¥2.04
Gemini 3.1 Flash-Lite1M¥1.70 ($0.25)¥1.70
DeepSeek V4 Flash1M¥1.00¥1.00
Gemini 2.5 Flash-Lite1M¥0.68 ($0.1)¥0.68

多轮对话的雪球:你发了 20 个字,计费的是 14 万 token

LLM API 是无状态的——服务端不记得上一轮聊了什么,每一轮都要把系统提示加全部历史原样重发,重发的部分按输入价全额计费。这意味着长对话的成本不是线性涨,而是近似平方级涨:历史越长,每一轮的『底座』越厚。

算个典型的 agent 会话:起始上下文 50K token(系统提示 + 检索进来的代码文件),每轮新增约 10K(工具输出 + 模型回复)。第 1 轮输入 50K,第 10 轮输入 50K + 9 × 10K = 140K——你这轮可能只追问了 20 个字,计费的是 140K。10 轮累计输入 = 50K × 10 + 10K × (1+2+…+9) = 950K token。用 Opus 4.8 跑:33.93 × 950,000/1,000,000 ≈ ¥32.23。注意,整个会话从没用满过 1M,但累计输入费已经几乎等于用满一次的钱。换 Claude Sonnet 4.6 是 20.36 × 0.95 ≈ ¥19.34,换 DeepSeek V4 Pro 是 3 × 0.95 = ¥2.85。

工程上的对策都不新鲜,但确实管用:

  • 截断历史:只保留最近 N 轮 + 系统提示,老历史丢掉或换成滚动摘要
  • agent 的工具输出落盘,上下文里只留路径和摘要,需要时再读
  • 长会话定期『重开』:把结论压缩成一段新系统提示,从零开始

长文档 QA:整本塞进去,还是 RAG?

场景:一套 30 万 token 的文档库(大约几百页 PDF),团队每天问 20 个问题。两条路:方案 A 每次把整库塞进上下文;方案 B 上 RAG——检索增强生成,白话讲就是先用向量检索从文档里捞出最相关的几段,只把这几段(按 5K token 算)发给模型。

方案 A 的日输入量是 300K × 20 = 6M token;方案 B 是 5K × 20 = 100K = 0.1M token。输入量直接差 60 倍(6M ÷ 0.1M),费用按模型算如下表。

RAG 不是免费午餐:要做切片、维护向量库、调检索质量,问题答不准时排查链路也更长。如果文档只有几万 token、一周问不了几次,整本塞反而省事。但像上面这种每天 20 问的重复场景,差的是数量级,工程投入很快回本。

方案日输入量日输入费30 天
整本塞 × Claude Opus 4.86M33.93 × 6 = ¥203.58¥6,107.40
整本塞 × DeepSeek V4 Flash6M1 × 6 = ¥6.00¥180.00
RAG × Claude Opus 4.80.1M33.93 × 0.1 ≈ ¥3.39¥101.79
RAG × DeepSeek V4 Flash0.1M1 × 0.1 = ¥0.10¥3.00

缓存能救吗:能省九成,但治标

Prompt 缓存的原理:请求里重复出现的前缀(比如那本 30 万 token 的文档)在厂商侧缓存,后续请求命中时按便宜得多的缓存价计费。Opus 4.8 的缓存命中价是 ¥3.39/百万 token,约为输入原价的十分之一。

套回上面的整本塞场景:假设文档全部命中缓存,每问输入费 3.39 × 0.3 ≈ ¥1.02,一天 20 问约 ¥20.34——比不缓存的 ¥203.58 省了九成,确实可观。但对比 RAG 方案的 ¥3.39/天,仍是它的 6 倍。缓存把斜率压低了,没有改变『费用随上下文长度线性增长』这件事。便宜模型是另一回事:DeepSeek V4 Flash 缓存命中价 ¥0.02/M,每问只要 0.02 × 0.3 = ¥0.006,整本塞的痛感基本消失。

几个常见的翻车点:缓存命中要求前缀逐字节一致,文档前面改一个字、或者把动态内容(时间戳、用户名)放在了文档前头,就全员 miss;缓存有有效期,低频访问可能反复过期重建;首次写入通常另有计费。各家规则差异不小,以官方文档为准。另外缓存只救重复前缀,救不了多轮对话里每轮新增的历史,更救不了输出费。

什么时候长上下文真值得用满

骂完该说公道话:有些任务的价值恰恰在『全部内容同时在场』,切片会直接毁掉任务本身。

判断标准其实就一条:任务需要的是全局关联还是局部检索?前者值得整本塞,后者用 RAG。值得的典型场景:

  • 跨文档推理:5 份合同对照找冲突条款、多份财报横向比对——关联本身分散在文档各处,检索切片给不出全局视角
  • 整库代码理解:出重构方案要看跨文件调用链和依赖图,这正是 RAG 切片丢掉的东西
  • 一次性任务:读完 50 万 token 的代码库出一份迁移评估,只调一次,Opus 4.8 也就 33.93 × 500,000/1,000,000 ≈ ¥16.97,比工程师人肉读三天便宜得多
  • 低频高价值:法律尽调、论文综述这类一个月跑几次的活,单次贵点无所谓

选型建议:先用便宜的 1M 把流程跑通

真决定用满长上下文,顺序建议是:先拿便宜档验证流程——DeepSeek V4 Flash 用满一次 ¥1、Gemini 2.5 Flash-Lite ¥0.68、MiniMax M2.7 ¥2.10,把切分逻辑、提示词、输出格式都调顺;确认任务确实需要旗舰的推理质量,再换 Opus 4.8(¥33.93/次)或 Gemini 3.1 Pro Preview(用满 2M ¥27.14),这时多花的钱才花在刀刃上。

最后一个提醒:标称 1M 不等于全程稳定可用。长上下文末端的检索和推理精度普遍会衰减(业内常说的 lost in the middle),关键信息别埋在中段,各家衰减程度差异也大——窗口大小是营销数字,有效窗口得自己测。完整的长上下文模型横向对比可以看 /compare/long-context-llm,具体用量套自己的参数算一遍,比任何文章的结论都可靠。

常见问题

1M 上下文用满一次到底要花多少钱?

输入费 = 输入单价 × 上下文长度。以输入价计:Claude Opus 4.8 为 33.93 × 1 = ¥33.93,Gemini 3.1 Pro Preview 用满 2M 为 13.57 × 2 = ¥27.14,DeepSeek V4 Flash 为 1 × 1 = ¥1,Gemini 2.5 Flash-Lite 仅 0.68 × 1 = ¥0.68。输出 token 另计。

多轮对话为什么越聊越贵?

LLM API 无状态,每一轮都要把系统提示加全部历史重发并按输入价全额计费,累计费用随轮数近似平方级增长。起始 50K、每轮增 10K 的会话,10 轮累计输入就有 950K token,用 Opus 4.8 约 ¥32.23——几乎等于用满一次 1M 的钱。

Prompt 缓存能解决长上下文贵的问题吗?

能大幅缓解但治标:Opus 4.8 缓存命中价 ¥3.39/M 约为输入原价的十分之一,30 万 token 文档全命中时每问约 ¥1.02,但日费用仍约为 RAG 方案的 6 倍。缓存要求前缀逐字节一致且有有效期,写入另有计费,具体规则以官方文档为准。

长文档问答该整本塞还是用 RAG?

看频率和任务类型。每天 20 问的重复 QA,整本塞 30 万 token 日输入 6M,用 Opus 4.8 要 ¥203.58/天,RAG 只送 5K 切片则约 ¥3.39/天,差 60 倍。但跨文档推理、整库代码理解这类需要全局关联的任务,切片会丢信息,值得整本塞。

最便宜的 1M 级长上下文模型是哪个?

按输入价算,Gemini 2.5 Flash-Lite ¥0.68/M 最低,DeepSeek V4 Flash ¥1/M 次之且缓存命中价低到 ¥0.02/M。建议先用便宜档把流程跑通,确认需要旗舰推理质量再升级。

文中价格与价格表同源、每日核对。选型前去看一眼最新价。

打开价格表 →