Question 1

Token 到底是什么意思？

Accepted Answer

Token 是大模型「阅读」和「计费」的最小单位。模型不按字、不按句子处理文字，而是先把文字切成一颗颗 token（一个汉字通常切成 1-2 颗，一个英文单词约 1-1.3 颗），读你的问题按 token 计，写回答也按 token 计。API 的价格表上写的「¥X / 百万 tokens」就是这么来的。

Question 2

1 个 token 等于几个汉字？

Accepted Answer

反过来说更准：1 个汉字 ≈ 1.2-1.3 个 token（主流 tokenizer 实测），即 1 个 token ≈ 0.8 个汉字。粗记：1000 字中文 ≈ 1300 tokens。英文则是 1 个单词 ≈ 1.3 tokens。国产模型（DeepSeek、Qwen 等）的分词器对中文做过优化，同样的中文会切出更少的 token，更省钱。

Question 3

Token 怎么换算成人民币？

Accepted Answer

公式：成本 =（输入 token 数 ÷ 100 万 × 输入单价）+（输出 token 数 ÷ 100 万 × 输出单价）。例如输入单价 ¥1/百万 tokens 时，一次 1300 tokens（约 1000 字）的输入只要 0.13 分钱。把你的真实文本粘进算盘的 Token 计算器，会直接帮你算好所有模型的钱数。

Question 4

为什么输出比输入贵好几倍？

Accepted Answer

因为「写」比「读」费算力：模型生成回答时要一颗一颗 token 地自回归计算，而读取输入可以并行处理。所以几乎所有模型的输出单价是输入的 4-5 倍——这也是为什么「让 AI 少废话」是最有效的省钱技巧。

Question 5

上下文窗口是什么？128K、1M 是什么意思？

Accepted Answer

上下文窗口是模型一次能「记住」的 token 上限，包括你说过的所有话和它的所有回答。128K 即约 12.8 万 tokens（约 10 万字中文），1M 约 100 万 tokens。窗口越大，能塞进越长的文档和越久的对话历史，但每轮对话的计费 token 也越多。

Question 6

AI 为什么聊着聊着会忘记前面说的话？

Accepted Answer

因为对话历史超出了上下文窗口。每次你发消息，整段历史都要重新塞给模型；塞满后最早的内容会被丢弃或压缩，模型就「忘了」。这不是 bug，是 token 上限的物理约束。对策：重要信息别依赖它记住，长任务开新对话时把关键背景重新贴一遍。

Question 7

我用免费的 AI（豆包、DeepSeek）也在消耗 token 吗？

Accepted Answer

在消耗，只是厂商替你付了钱。免费产品背后同样按 token 烧算力成本，这正是 2026 年各家纷纷推出付费会员、限制免费额度的原因——天下没有免费的 token，只有暂时由别人买单的 token。

Question 8

怎么少花 token、省点钱？

Accepted Answer

三个最有效的：①让模型「直接给结果、别解释过程」（砍输出）；②长对话定期开新会话，别拖着几万字历史每轮重算（砍输入）；③简单任务用便宜模型，旗舰只留给难题。更完整的省钱手册见算盘的省钱指南。

Token 是什么？等于几个汉字、值多少钱

一句话定义

1 个 token 等于几个字？

为什么大模型按 token 收费？

Token 到底值多少钱？三个真实场景

上下文窗口：为什么 AI 聊着聊着会「忘」？

常见问题