AI 大模型术语词典
看价格表时遇到不懂的词?这里一句话讲清大模型 API 的常见术语。
- Token(词元)Token
- 大模型处理文本的最小计费单位。1 个中文字约 1.2–1.5 个 token,1 个英文单词约 1.3 个 token。几乎所有大模型 API 都按 token 计费。
- 输入价Input price
- 你发给模型的内容(prompt)每百万 token 的价格。
- 输出价Output price
- 模型生成的内容每百万 token 的价格,通常是输入价的 4–10 倍,所以「控制输出长度」是最直接的省钱手段。
- 缓存价 / 上下文缓存Cached input / Prompt caching
- 当请求带有大量重复前缀(固定 system prompt、知识库)时,命中缓存后这部分输入按更低的「缓存价」计费,常低至原价的 1/10–1/50。RAG、客服机器人靠它大幅省钱。
- 上下文窗口Context window
- 模型单次能「看到」的最大 token 数(输入 + 输出),决定能塞多长的文档或对话。2026 主流从 128K 到 2M 不等。
- 最大输出Max output tokens
- 模型单次最多能生成的 token 数,独立于上下文窗口。需要一次生成大段内容(长文、整段代码)时要看它。
- 知识截止Knowledge cutoff
- 模型训练数据的截止时间,之后发生的事它本身不知道(除非联网检索)。
- 智能指数Intelligence Index
- Artificial Analysis 给出的综合能力评分(满分约 60),数字越高综合越强。算盘只采用这一个来源以保证可比性,拿不到就留空,不混用别的榜。
- 推理 / 思考模型Reasoning model
- 会先「想」再答、用更多 token 做多步推理的模型,擅长数学、代码、复杂逻辑。注意思考过程也算输出 token,成本更高。
- 多模态Multimodal
- 除文本外还能处理图像、音频、视频的模型。原生支持音频的可以直接「听」,无需先做语音转文字。
- Batch API(批处理)Batch API
- 非实时的批量任务异步提交、通常 24 小时内返回,价格多数打 5 折,适合标注、清洗、批量生成等离线任务。
- 限速 RPM / TPMRate limit
- 每分钟请求数(Requests Per Minute)和每分钟 token 数(Tokens Per Minute)的上限。高并发场景上线前要确认额度够不够。
- MoE 混合专家Mixture of Experts
- 一种模型架构,每次推理只激活部分「专家」参数,在保持能力的同时降低成本,是 2026 多数高性价比模型的底层。
- 温度Temperature
- 控制输出随机性的参数:越低越确定保守、适合事实/代码;越高越发散有创意、适合写作/头脑风暴。
- Flash / Lite / 腰部模型Lightweight tier
- 厂商的轻量档模型,能力略低于旗舰但价格只有旗舰的 1–5%,是高频、低复杂度任务(分类、翻译、简单问答)的性价比之选。