AI 大模型术语词典

看价格表时遇到不懂的词？这里一句话讲清大模型 API 的常见术语。

Token（词元）Token: 大模型处理文本的最小计费单位。1 个中文字约 1.2–1.5 个 token，1 个英文单词约 1.3 个 token。几乎所有大模型 API 都按 token 计费。
输入价Input price: 你发给模型的内容（prompt）每百万 token 的价格。
输出价Output price: 模型生成的内容每百万 token 的价格，通常是输入价的 4–10 倍，所以「控制输出长度」是最直接的省钱手段。
缓存价 / 上下文缓存Cached input / Prompt caching: 当请求带有大量重复前缀（固定 system prompt、知识库）时，命中缓存后这部分输入按更低的「缓存价」计费，常低至原价的 1/10–1/50。RAG、客服机器人靠它大幅省钱。
上下文窗口Context window: 模型单次能「看到」的最大 token 数（输入 + 输出），决定能塞多长的文档或对话。2026 主流从 128K 到 2M 不等。
最大输出Max output tokens: 模型单次最多能生成的 token 数，独立于上下文窗口。需要一次生成大段内容（长文、整段代码）时要看它。
知识截止Knowledge cutoff: 模型训练数据的截止时间，之后发生的事它本身不知道（除非联网检索）。
智能指数Intelligence Index: Artificial Analysis 给出的综合能力评分（满分约 60），数字越高综合越强。算盘只采用这一个来源以保证可比性，拿不到就留空，不混用别的榜。
推理 / 思考模型Reasoning model: 会先「想」再答、用更多 token 做多步推理的模型，擅长数学、代码、复杂逻辑。注意思考过程也算输出 token，成本更高。
多模态Multimodal: 除文本外还能处理图像、音频、视频的模型。原生支持音频的可以直接「听」，无需先做语音转文字。
Batch API（批处理）Batch API: 非实时的批量任务异步提交、通常 24 小时内返回，价格多数打 5 折，适合标注、清洗、批量生成等离线任务。
限速 RPM / TPMRate limit: 每分钟请求数（Requests Per Minute）和每分钟 token 数（Tokens Per Minute）的上限。高并发场景上线前要确认额度够不够。
MoE 混合专家Mixture of Experts: 一种模型架构，每次推理只激活部分「专家」参数，在保持能力的同时降低成本，是 2026 多数高性价比模型的底层。
温度Temperature: 控制输出随机性的参数：越低越确定保守、适合事实/代码；越高越发散有创意、适合写作/头脑风暴。
Flash / Lite / 腰部模型Lightweight tier: 厂商的轻量档模型，能力略低于旗舰但价格只有旗舰的 1–5%，是高频、低复杂度任务（分类、翻译、简单问答）的性价比之选。

懂了术语，去看哪个模型最划算。

看价格表 →省钱指南