深度文章
大模型 API 的计费机制、省钱实战和选型方法论。文中价格全部来自厂商官方定价页, 与价格表同源、可溯源。
计费入门
省钱实战
省钱实战2026-06-10 · 约 10 分钟
上下文缓存(Prompt Caching)实战:哪些场景真能省 90%
用真实价格数据拆解 LLM 上下文缓存:DeepSeek V4 Flash 命中价仅为输入价 2%,GPT-5.5 与 Claude 约 10%。讲清哪些 workload 吃得到缓存、前缀怎么排、写入加价和时效的坑,并用客服机器人算例对比月成本。
省钱实战2026-06-10 · 约 11 分钟
Agent 应用为什么烧钱?5 个成本大头与对策
Agent 应用的账单为什么比单轮对话贵一个数量级?拆解上下文滚雪球、工具结果回灌、推理 token、失败重试、长系统提示词五个成本大头,用 50 步任务算例对比三款模型总价,逐项给出省钱对策。
避坑
避坑2026-06-12 · 约 4 分钟
AI 订阅限额大变局:Copilot 改按量、Claude 拆积分池,订阅党生存指南
2026 年 6 月,AI 订阅的游戏规则集中生变:GitHub Copilot 改按 token 计量、Claude 订阅 6 月 15 日起拆分积分池(不滚存)、ChatGPT 免费档投广告、豆包官宣 68/200/500 元三档。这篇把每家的变化、背后的成本逻辑和订阅用户的应对策略一次讲清。
避坑2026-06-10 · 约 10 分钟
1M 长上下文的价格真相:用满一次到底花多少钱
标称 1M、2M 的长上下文不是免费容量:Claude Opus 4.8 用满一次输入就要 ¥33.93,多轮对话还会平方级滚雪球。本文用算式拆解用满成本、整本塞与 RAG 的对照账,以及缓存能救到什么程度。
避坑2026-06-10 · 约 10 分钟
为什么账单总比估算贵?大模型计费的 6 个隐藏开销
账单比估算贵,多半不是厂商乱扣费:中文 token 折算、思考 token、多轮历史重发、工具调用、重试计费、max_tokens 失控,六个隐藏开销逐条给排查与止血动作,附可复算的算例和上线前估算工作流。
选型
选型2026-06-10 · 约 13 分钟
8 个真实场景的大模型选型:别只盯单价
单看「百万 token 多少钱」选模型容易选错:输入输出比例才决定真实成本。本文按输入密集、输出密集拆解客服、代码、RAG、Agent 等 8 个场景,各给省钱、均衡、旗舰三档推荐,所有算式可复核。
选型2026-06-10 · 约 9 分钟
DeepSeek V4 API 成本完全指南:Flash 和 Pro 怎么选
DeepSeek V4 Flash(¥1/¥2)和 V4 Pro(¥3/¥6)怎么选?本文用可复算的算式拆解缓存命中 ¥0.02 的真实省钱幅度、V3.2 迁移账,并横向对比 GPT-5.5、Qwen3.5 Flash 与 GLM-4.7 的价格差距。