2026 最便宜的 LLM:白菜价模型盘点(够用又省钱)
不是每个任务都需要旗舰模型。分类、打标、翻译、简单问答这类高频低复杂度任务,用白菜价模型就够,成本只有旗舰的 1-5%。本文盘点 2026 年最便宜的几个「真能用」的模型,帮你把账单砍到地板。
| 模型 | 厂商 | 输入价 | 输出价 | 上下文 | 标签 |
|---|---|---|---|---|---|
| Qwen3.5 Flash | 🇨🇳 阿里通义 | ¥0.20 | ¥0.40 | 131K | 极便宜快速 |
| Gemini 2.5 Flash-Lite | ¥0.68 | ¥2.71 | 1.0M | 极便宜快速 | |
| Doubao 1.5 Pro | 🇨🇳 字节豆包 | ¥0.80 | ¥2.00 | 256K | 极便宜上代 |
| DeepSeek V4 Flash | 🇨🇳 DeepSeek | ¥0.95 | ¥1.90 | 1.0M | 国产之光极便宜长上下文 |
| Gemini 3.1 Flash-Lite | ¥1.70 | ¥10 | 1.0M | 极便宜快速 | |
| Qwen3.5 Plus | 🇨🇳 阿里通义 | ¥0.80 | ¥4.80 | 131K | 性价比新发布 |
价格单位 ¥/百万 tokens · 绿色高亮 = 本对比中最便宜 · 数据更新 2026-05-27
便宜榜(按输入价)
国产阵营:Qwen3.5 Flash(¥0.20/¥0.40)是目前最便宜的主流模型,DeepSeek V4 Flash(¥0.95/¥1.90)紧随其后且能力更强,Doubao 1.5 Pro(¥0.80/¥2)靠字节补贴也极便宜。海外阵营:Gemini 2.5 Flash-Lite(¥0.68/¥2.71)是海外最便宜的选项,Gemini 3.1 Flash-Lite(¥1.70/¥10.17)是新一代轻量款。这些模型的单价都在「每百万 tokens 几毛到几块」区间,跑十万次调用也就几十块。
便宜 ≠ 差:腰部模型的真实水平
2026 年的「便宜模型」早已不是几年前的弱鸡。Qwen3.5 Flash、DeepSeek V4 Flash、Gemini Flash-Lite 这些在日常对话、文本分类、信息抽取、常见语言翻译上的表现,和旗舰模型的差距对终端用户几乎无感。真正拉开差距的是复杂推理、长链路规划、刁钻的代码题 —— 而这些任务本来就不该用便宜模型跑。用对场景,便宜模型的性价比是碾压性的。
各场景的最便宜选择
①高频对话 / 客服:Qwen3.5 Flash 或 DeepSeek V4 Flash(缓存命中后近乎免费);②海外部署 / 需要多模态:Gemini 2.5 Flash-Lite(支持视觉,海外最便宜);③批量标注 / 分类:Qwen3.5 Flash 单价最低;④to-C 海量低延迟:Doubao 1.5 Pro(火山引擎生态 + 字节补贴);⑤需要长上下文又想省钱:DeepSeek V4 Flash(1M 上下文 + 白菜价,独一档)。
省钱避坑提醒
用便宜模型也有几个坑要避开:①超低价常有补贴成分(尤其豆包),未来可能涨价,别把长期成本模型建立在促销价上;②便宜模型可能有更严的限速(QPS/并发),高并发场景要提前测;③缓存价是省钱大杀器,但要求你的请求有大量重复前缀(system prompt、知识库),先确认你的场景能命中缓存再算账;④别为了省钱在关键路径上用便宜模型翻车,质量损失的代价可能远超省下的那点钱。
📌 一句话总结:绝对最便宜 → Qwen3.5 Flash(¥0.20/¥0.40);便宜又强 → DeepSeek V4 Flash;海外+多模态 → Gemini 2.5 Flash-Lite。便宜模型用对场景,性价比碾压旗舰。
想算具体的月账单差距?把你的 prompt 粘进 Token 估算器。
打开 Token 估算器 →其他对比