计费入门2026-06-10 发布 · 约 9 分钟读完

大模型 API 到底怎么计费？token、输入输出、缓存、Batch 一文说清

第一次对接大模型 API，你在控制台看到的价目表大概是这样一行：「输入 ¥2 / 百万 tokens，输出 ¥8 / 百万 tokens」。三个问题马上冒出来：token 是什么？输入输出为什么分开收钱？我一次对话到底花几分钱？这篇把这套计费规则从头讲一遍。

先给个直观感受：同样一次「1000 token 输入 + 500 token 输出」的问答，用 Qwen3.5 Flash 约 ¥0.0012，用 GPT-5.5 约 ¥0.1357，差距约 113 倍。看不懂计费规则，就看不懂这 113 倍是怎么来的，更谈不上控制成本。

下文按计费要素逐个拆：计价单位与输入输出差价、token 的数法、缓存命中价、Batch 批处理和思考 token，最后是汇率问题。文中所有价格取自本站当前在售价目（人民币计价，海外模型按 1 USD = 6.7853 折算）。

输入价和输出价是两笔钱，单位是「每百万 tokens」

LLM API 按用量后付费，计量单位是 token，报价单位几乎统一成「每百万 tokens」（写作 $/M 或 ¥/M）。一次请求的费用 = 输入 token 数 × 输入单价 + 输出 token 数 × 输出单价——注意，是两个单价，分开定的。

输入（input/prompt）指你发给模型的一切：系统提示词、对话历史、用户消息、塞进去的文档。输出（output/completion）指模型生成的内容。输出几乎总是比输入贵，因为生成是逐 token 串行计算的，比并行读入 prompt 耗算力得多。但贵多少没有定数，几个例子见下表。

这个倍率决定了你该盯哪个数：RAG、长文档摘要这类「输入重、输出轻」的负载，重点看输入价；聊天机器人、代码生成这类「输出重」的负载，输出价才是大头。只比输入价就下单，是新手最常见的坑。

模型	输入 ¥/百万 tokens	输出 ¥/百万 tokens	输出/输入倍率
GPT-5.5	33.93	203.56	约 6 倍
Claude Sonnet 4.6	20.36	101.78	约 5 倍
豆包 Doubao 1.6	2.4	24	10 倍
GLM-5.1	6	24	4 倍
Qwen3.5 Flash	0.2	2	10 倍
讯飞 Spark X2	3	3	同价

token 是什么，中文和英文差多少

token 是模型处理文本的最小切片，由每家厂商自己的分词器（tokenizer，把文本切成片段的程序）决定，既不等于汉字数，也不等于单词数。常见英文单词可能整个算一个 token，生僻词会被拆成几段；汉字有的一字一个 token，有的一个字被拆成两三个。

更麻烦的是，中英文的折算差异很大，而且各家分词器互不相同——同一段话在 OpenAI 和 DeepSeek 那里数出来的 token 数可以差出不少。网上流传的「1 个汉字约等于多少 token」换算表别背，跨厂商基本不可比，拿它做预算会产生系统性偏差。

实操建议两条：做预算前，把你真实的 prompt 贴进 /estimate 实测一遍 token 数，比任何换算公式都准；上线后以 API 响应里的 usage 字段为准对账，那才是厂商真正用来扣钱的数字。

算一笔账：同一次问答，两个模型差 113 倍

公式很简单：费用 = 单价 × token 数 ÷ 1,000,000。拿一次典型问答来算——1000 token 输入（一段系统提示词加用户问题），500 token 输出（一个中等长度的回答），两个模型的算式见下方。

两者相除：0.1357 ÷ 0.0012 ≈ 113 倍。单次看都不到两毛钱，无所谓；乘上调用量就是另一回事——1 万次这样的问答，Qwen3.5 Flash 约 ¥12，GPT-5.5 约 ¥1357。再注意一个细节：GPT-5.5 这笔账里输出只有 500 个 token，费用却占了约 75%（0.1018 ÷ 0.1357），印证了上一节「输出价才是大头」。

这不是说便宜的就该选——两档模型能力不在一个量级。比较稳的做法是先用旗舰模型把效果跑通，再逐档往便宜换，换到效果掉到不可接受为止。按价格排序的全量模型表见 /compare/cheapest-llm。

Qwen3.5 Flash（输入 ¥0.2、输出 ¥2 / 百万 tokens）：输入 0.2 × 1000 ÷ 1,000,000 = ¥0.0002；输出 2 × 500 ÷ 1,000,000 = ¥0.0010；合计 ¥0.0012
GPT-5.5（输入 ¥33.93、输出 ¥203.56 / 百万 tokens）：输入 33.93 × 1000 ÷ 1,000,000 ≈ ¥0.0339；输出 203.56 × 500 ÷ 1,000,000 ≈ ¥0.1018；合计约 ¥0.1357

缓存命中价：便宜一个数量级的那一列

很多价目表还有第三列：「缓存命中」。原理是：如果这次请求的前缀部分——系统提示词、塞进去的长文档、前几轮对话——和近期请求重复，厂商不必重新计算这部分，命中的 token 按缓存价收费，而缓存价通常比输入价低一个数量级，对照见下表。

对 Agent 和多轮对话这种「每一轮都把全部历史重发一遍」的负载，缓存是最重要的省钱杠杆：历史越长、轮数越多，可命中的前缀占比越高，命中率高时输入侧成本几乎砍掉一个数量级。

细节各家差异不小：有的自动检测命中，有的要在请求里显式声明缓存断点；缓存写入可能另有费率，有效期长短也不同，这些以各家官方文档为准。工程上通用的做法是：把固定不变的系统提示词和参考资料放在 prompt 最前面，可变内容放最后，最大化前缀重合。

模型	输入价 ¥/百万	缓存命中价 ¥/百万	相当于输入价的
GPT-5.5	33.93	3.39	约 1/10
Claude Opus 4.8	33.93	3.39	约 1/10
Gemini 2.5 Flash	2.04	0.20	约 1/10
GLM-5.1	6	1.3	约 1/4.6
DeepSeek V4 Flash	1	0.02	1/50

Batch 批处理和思考 token：一个省钱，一个费钱

Batch 批处理：把不要求实时返回的请求打包提交，厂商在算力低峰期排队跑，通常若干小时内出结果。OpenAI、Anthropic 等对 Batch 提供折扣价，具体折扣比例和时效承诺以各家官方文档为准。批量打标、离线评测、全量文档摘要这类任务，没有理由不走 Batch——同样的活，账单能便宜一截。

思考 token（reasoning tokens）方向相反。带推理能力的模型（价目表里标「推理」的那些，如 GPT-5.5、DeepSeek V4 Pro、GLM-5.1）在给出答案前会先生成一段内部推理过程，这部分 token 一般按输出价计费——即使你在响应里看不到完整的思考内容。同一个问题开启深度思考后，计费的输出 token 数可能比答案本身多出数倍，预算时必须把这部分算进去，具体计费口径以官方文档为准。

一句话记住这对组合：Batch 是拿延迟换钱，思考 token 是拿钱换质量。账单突然超预期时，先查这两项。

美元、人民币和汇率：海外模型的价格会自己动

海外厂商（OpenAI、Anthropic、Google、xAI）一律按美元定价，你看到的人民币价是换算出来的。以 GPT-5.5 为例：官方定价 $5 / $30 每百万 tokens，按本站当前汇率 1 USD = 6.7853 折算，就是 5 × 6.7853 ≈ ¥33.93、30 × 6.7853 ≈ ¥203.56。

这意味着海外模型的人民币成本会随汇率浮动——美元报价一分没动，你月底的账单也可能变。如果用量大，预算建议按美元口径做，或者留出汇率余量。本站的汇率会自动核对更新，各模型页（如 /models/gpt-5-5）同时展示美元原价和人民币换算价，方便两头对照。

国产模型（DeepSeek、智谱、通义、豆包等）直接按人民币计价，没有汇率噪音，对账省心，这是经常被忽略的一个小优势。完整价目见 /models，想把几个候选模型并排比，用 /compare。

常见问题

输入 token 和输出 token 哪个更贵？

绝大多数模型输出更贵，但倍率差异很大：GPT-5.5 输出约是输入的 6 倍（¥203.56 对 ¥33.93），豆包 Doubao 1.6 是 10 倍（¥24 对 ¥2.4），讯飞 Spark X2 则输入输出同价（均 ¥3 / 百万 tokens）。选型时要按自己负载的输入输出比例算总价，不能只看其中一列。

1 个汉字等于多少 token？

没有通用答案。各家分词器不同，同一段中文在不同厂商数出来的 token 数差异明显，中英文折算也不一样。不要背固定换算比例——把真实 prompt 贴进 /estimate 实测，上线后以 API 返回的 usage 字段为准。

缓存命中价是自动生效的吗？

取决于厂商：有的自动检测重复前缀，有的需要在请求里显式声明缓存；缓存写入可能另有费率，有效期也各不相同，以官方文档为准。共同点是命中部分通常只按输入价的几分之一到几十分之一计费，例如 GPT-5.5 缓存价 ¥3.39 约为输入价 ¥33.93 的 1/10，DeepSeek V4 Flash 更是低到输入价的 1/50（¥0.02 对 ¥1）。

Batch 批处理适合什么场景？

一切不要求实时返回的批量任务：离线评测、数据打标、全量文档摘要等。OpenAI、Anthropic 等对 Batch 提供折扣价，代价是请求排队、通常若干小时内返回，具体折扣比例与时效以各家官方文档为准。

海外模型的人民币价格为什么会变？

海外厂商按美元定价，人民币价随汇率浮动。本站按 1 USD = 6.7853 换算并自动核对汇率，美元原价不变时人民币展示价也可能小幅调整。用量大的话，预算建议按美元口径做或留出汇率余量。

文中价格与价格表同源、每日核对。选型前去看一眼最新价。

打开价格表 →