大模型 API 到底怎么计费?token、输入输出、缓存、Batch 一文说清
第一次对接大模型 API,你在控制台看到的价目表大概是这样一行:「输入 ¥2 / 百万 tokens,输出 ¥8 / 百万 tokens」。三个问题马上冒出来:token 是什么?输入输出为什么分开收钱?我一次对话到底花几分钱?这篇把这套计费规则从头讲一遍。
先给个直观感受:同样一次「1000 token 输入 + 500 token 输出」的问答,用 Qwen3.5 Flash 约 ¥0.0012,用 GPT-5.5 约 ¥0.1357,差距约 113 倍。看不懂计费规则,就看不懂这 113 倍是怎么来的,更谈不上控制成本。
下文按计费要素逐个拆:计价单位与输入输出差价、token 的数法、缓存命中价、Batch 批处理和思考 token,最后是汇率问题。文中所有价格取自本站当前在售价目(人民币计价,海外模型按 1 USD = 6.7853 折算)。
输入价和输出价是两笔钱,单位是「每百万 tokens」
LLM API 按用量后付费,计量单位是 token,报价单位几乎统一成「每百万 tokens」(写作 $/M 或 ¥/M)。一次请求的费用 = 输入 token 数 × 输入单价 + 输出 token 数 × 输出单价——注意,是两个单价,分开定的。
输入(input/prompt)指你发给模型的一切:系统提示词、对话历史、用户消息、塞进去的文档。输出(output/completion)指模型生成的内容。输出几乎总是比输入贵,因为生成是逐 token 串行计算的,比并行读入 prompt 耗算力得多。但贵多少没有定数,几个例子见下表。
这个倍率决定了你该盯哪个数:RAG、长文档摘要这类「输入重、输出轻」的负载,重点看输入价;聊天机器人、代码生成这类「输出重」的负载,输出价才是大头。只比输入价就下单,是新手最常见的坑。
| 模型 | 输入 ¥/百万 tokens | 输出 ¥/百万 tokens | 输出/输入倍率 |
|---|---|---|---|
| GPT-5.5 | 33.93 | 203.56 | 约 6 倍 |
| Claude Sonnet 4.6 | 20.36 | 101.78 | 约 5 倍 |
| 豆包 Doubao 1.6 | 2.4 | 24 | 10 倍 |
| GLM-5.1 | 6 | 24 | 4 倍 |
| Qwen3.5 Flash | 0.2 | 2 | 10 倍 |
| 讯飞 Spark X2 | 3 | 3 | 同价 |
token 是什么,中文和英文差多少
token 是模型处理文本的最小切片,由每家厂商自己的分词器(tokenizer,把文本切成片段的程序)决定,既不等于汉字数,也不等于单词数。常见英文单词可能整个算一个 token,生僻词会被拆成几段;汉字有的一字一个 token,有的一个字被拆成两三个。
更麻烦的是,中英文的折算差异很大,而且各家分词器互不相同——同一段话在 OpenAI 和 DeepSeek 那里数出来的 token 数可以差出不少。网上流传的「1 个汉字约等于多少 token」换算表别背,跨厂商基本不可比,拿它做预算会产生系统性偏差。
实操建议两条:做预算前,把你真实的 prompt 贴进 /estimate 实测一遍 token 数,比任何换算公式都准;上线后以 API 响应里的 usage 字段为准对账,那才是厂商真正用来扣钱的数字。
算一笔账:同一次问答,两个模型差 113 倍
公式很简单:费用 = 单价 × token 数 ÷ 1,000,000。拿一次典型问答来算——1000 token 输入(一段系统提示词加用户问题),500 token 输出(一个中等长度的回答),两个模型的算式见下方。
两者相除:0.1357 ÷ 0.0012 ≈ 113 倍。单次看都不到两毛钱,无所谓;乘上调用量就是另一回事——1 万次这样的问答,Qwen3.5 Flash 约 ¥12,GPT-5.5 约 ¥1357。再注意一个细节:GPT-5.5 这笔账里输出只有 500 个 token,费用却占了约 75%(0.1018 ÷ 0.1357),印证了上一节「输出价才是大头」。
这不是说便宜的就该选——两档模型能力不在一个量级。比较稳的做法是先用旗舰模型把效果跑通,再逐档往便宜换,换到效果掉到不可接受为止。按价格排序的全量模型表见 /compare/cheapest-llm。
- Qwen3.5 Flash(输入 ¥0.2、输出 ¥2 / 百万 tokens):输入 0.2 × 1000 ÷ 1,000,000 = ¥0.0002;输出 2 × 500 ÷ 1,000,000 = ¥0.0010;合计 ¥0.0012
- GPT-5.5(输入 ¥33.93、输出 ¥203.56 / 百万 tokens):输入 33.93 × 1000 ÷ 1,000,000 ≈ ¥0.0339;输出 203.56 × 500 ÷ 1,000,000 ≈ ¥0.1018;合计约 ¥0.1357
缓存命中价:便宜一个数量级的那一列
很多价目表还有第三列:「缓存命中」。原理是:如果这次请求的前缀部分——系统提示词、塞进去的长文档、前几轮对话——和近期请求重复,厂商不必重新计算这部分,命中的 token 按缓存价收费,而缓存价通常比输入价低一个数量级,对照见下表。
对 Agent 和多轮对话这种「每一轮都把全部历史重发一遍」的负载,缓存是最重要的省钱杠杆:历史越长、轮数越多,可命中的前缀占比越高,命中率高时输入侧成本几乎砍掉一个数量级。
细节各家差异不小:有的自动检测命中,有的要在请求里显式声明缓存断点;缓存写入可能另有费率,有效期长短也不同,这些以各家官方文档为准。工程上通用的做法是:把固定不变的系统提示词和参考资料放在 prompt 最前面,可变内容放最后,最大化前缀重合。
| 模型 | 输入价 ¥/百万 | 缓存命中价 ¥/百万 | 相当于输入价的 |
|---|---|---|---|
| GPT-5.5 | 33.93 | 3.39 | 约 1/10 |
| Claude Opus 4.8 | 33.93 | 3.39 | 约 1/10 |
| Gemini 2.5 Flash | 2.04 | 0.20 | 约 1/10 |
| GLM-5.1 | 6 | 1.3 | 约 1/4.6 |
| DeepSeek V4 Flash | 1 | 0.02 | 1/50 |
Batch 批处理和思考 token:一个省钱,一个费钱
Batch 批处理:把不要求实时返回的请求打包提交,厂商在算力低峰期排队跑,通常若干小时内出结果。OpenAI、Anthropic 等对 Batch 提供折扣价,具体折扣比例和时效承诺以各家官方文档为准。批量打标、离线评测、全量文档摘要这类任务,没有理由不走 Batch——同样的活,账单能便宜一截。
思考 token(reasoning tokens)方向相反。带推理能力的模型(价目表里标「推理」的那些,如 GPT-5.5、DeepSeek V4 Pro、GLM-5.1)在给出答案前会先生成一段内部推理过程,这部分 token 一般按输出价计费——即使你在响应里看不到完整的思考内容。同一个问题开启深度思考后,计费的输出 token 数可能比答案本身多出数倍,预算时必须把这部分算进去,具体计费口径以官方文档为准。
一句话记住这对组合:Batch 是拿延迟换钱,思考 token 是拿钱换质量。账单突然超预期时,先查这两项。
美元、人民币和汇率:海外模型的价格会自己动
海外厂商(OpenAI、Anthropic、Google、xAI)一律按美元定价,你看到的人民币价是换算出来的。以 GPT-5.5 为例:官方定价 $5 / $30 每百万 tokens,按本站当前汇率 1 USD = 6.7853 折算,就是 5 × 6.7853 ≈ ¥33.93、30 × 6.7853 ≈ ¥203.56。
这意味着海外模型的人民币成本会随汇率浮动——美元报价一分没动,你月底的账单也可能变。如果用量大,预算建议按美元口径做,或者留出汇率余量。本站的汇率会自动核对更新,各模型页(如 /models/gpt-5-5)同时展示美元原价和人民币换算价,方便两头对照。
国产模型(DeepSeek、智谱、通义、豆包等)直接按人民币计价,没有汇率噪音,对账省心,这是经常被忽略的一个小优势。完整价目见 /models,想把几个候选模型并排比,用 /compare。
常见问题
输入 token 和输出 token 哪个更贵?
绝大多数模型输出更贵,但倍率差异很大:GPT-5.5 输出约是输入的 6 倍(¥203.56 对 ¥33.93),豆包 Doubao 1.6 是 10 倍(¥24 对 ¥2.4),讯飞 Spark X2 则输入输出同价(均 ¥3 / 百万 tokens)。选型时要按自己负载的输入输出比例算总价,不能只看其中一列。
1 个汉字等于多少 token?
没有通用答案。各家分词器不同,同一段中文在不同厂商数出来的 token 数差异明显,中英文折算也不一样。不要背固定换算比例——把真实 prompt 贴进 /estimate 实测,上线后以 API 返回的 usage 字段为准。
缓存命中价是自动生效的吗?
取决于厂商:有的自动检测重复前缀,有的需要在请求里显式声明缓存;缓存写入可能另有费率,有效期也各不相同,以官方文档为准。共同点是命中部分通常只按输入价的几分之一到几十分之一计费,例如 GPT-5.5 缓存价 ¥3.39 约为输入价 ¥33.93 的 1/10,DeepSeek V4 Flash 更是低到输入价的 1/50(¥0.02 对 ¥1)。
Batch 批处理适合什么场景?
一切不要求实时返回的批量任务:离线评测、数据打标、全量文档摘要等。OpenAI、Anthropic 等对 Batch 提供折扣价,代价是请求排队、通常若干小时内返回,具体折扣比例与时效以各家官方文档为准。
海外模型的人民币价格为什么会变?
海外厂商按美元定价,人民币价随汇率浮动。本站按 1 USD = 6.7853 换算并自动核对汇率,美元原价不变时人民币展示价也可能小幅调整。用量大的话,预算建议按美元口径做或留出汇率余量。
文中价格与价格表同源、每日核对。选型前去看一眼最新价。
打开价格表 →