Question 1

AI 大模型 API 是怎么计费的？

Accepted Answer

按 token 计费，分「输入价」和「输出价」两部分，单位通常是「元 / 百万 tokens」。你发给模型的内容算输入，模型生成的内容算输出。总成本 =（输入 tokens ÷ 100万 × 输入价）+（输出 tokens ÷ 100万 × 输出价）。很多模型还有更便宜的「缓存价」，用于重复的输入前缀。

Question 2

中文 1 个字算几个 token？

Accepted Answer

2026 年主流 tokenizer（如 GPT 的 o200k、cl100k）下，中文约 1.2-1.3 个 token/字，国产模型的 tokenizer 对中文更优、可能更少。英文约 1 个词 = 1.3 个 token。粗估：1000 字中文 ≈ 1300 tokens，1000 个英文单词 ≈ 1300 tokens。算盘的 Token 估算器会按这个比例帮你即时计算。

Question 3

怎么估算我的 AI 调用成本？

Accepted Answer

把你的实际 prompt 粘到算盘的「Token 估算器」，它会即时算出 token 数，并对比所有模型的单次成本和月成本。也可以手动算：(输入tokens/100万)×输入价 + (输出tokens/100万)×输出价，再乘以月调用次数。

Question 4

2026 哪个大模型最便宜？

Accepted Answer

国产里 Qwen3.5 Flash（¥0.20/¥2 每百万 tokens）输入价最便宜，DeepSeek V4 Flash（¥1/¥2）便宜又强、还带 1M 上下文。海外里 Gemini 2.5 Flash-Lite（约 ¥0.68/¥2.71）是最省的选择。具体看你的场景，可以用算盘的价格表按输入价排序查看。

Question 5

缓存价是什么？怎么靠它省钱？

Accepted Answer

当你的请求有大量重复的输入前缀（比如每次都带相同的 system prompt 或知识库上下文），命中缓存后这部分只按很低的「缓存价」收费。DeepSeek V4 Flash 缓存输入仅 ¥0.02/M，是普通输入价的 1/50。RAG、长 system prompt、多轮对话场景靠缓存能大幅省钱。

Question 6

输入价和输出价为什么差这么多？

Accepted Answer

因为「生成」（输出）比「读取」（输入）消耗更多算力 —— 模型要逐 token 自回归生成。所以几乎所有模型的输出价都是输入价的 4-5 倍。这也是为什么「控制输出长度」是最有效的省钱手段之一。

Question 7

国产模型和海外模型怎么选？

Accepted Answer

中国大陆用户优先国产（DeepSeek、通义、豆包、Kimi）：延迟低、不用科学上网、人民币计费、中文理解更贴合。需要顶级复杂推理、多模态或英文严谨写作时，可以混搭海外旗舰（GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro）兜底关键路径。

Question 8

怎么把 AI 账单降下来？

Accepted Answer

六个核心手段：①用对模型档位别默认旗舰；②善用缓存价；③控制输出长度；④批处理走 Batch API（5 折）；⑤混搭路由（便宜跑量+旗舰兜底）；⑥大陆用户优先国产。组合起来通常能把账单降到原来的 1/10 甚至更低。

AI 大模型省钱指南 & 常见问题

6 个省钱技巧

1. 用对模型档位，别默认旗舰

2. 善用缓存价（重复前缀）

3. 控制输出长度（输出比输入贵几倍）

4. 批处理走 Batch API

5. 混搭路由：便宜跑量 + 旗舰兜底

6. 中国大陆用户优先国产

常见问题