算盘LLM Abacus

AI 大模型术语词典

看价格表时遇到不懂的词?这里一句话讲清大模型 API 的常见术语。

Token(词元)Token
大模型处理文本的最小计费单位。1 个中文字约 1.2–1.5 个 token,1 个英文单词约 1.3 个 token。几乎所有大模型 API 都按 token 计费。
输入价Input price
你发给模型的内容(prompt)每百万 token 的价格。
输出价Output price
模型生成的内容每百万 token 的价格,通常是输入价的 4–10 倍,所以「控制输出长度」是最直接的省钱手段。
缓存价 / 上下文缓存Cached input / Prompt caching
当请求带有大量重复前缀(固定 system prompt、知识库)时,命中缓存后这部分输入按更低的「缓存价」计费,常低至原价的 1/10–1/50。RAG、客服机器人靠它大幅省钱。
上下文窗口Context window
模型单次能「看到」的最大 token 数(输入 + 输出),决定能塞多长的文档或对话。2026 主流从 128K 到 2M 不等。
最大输出Max output tokens
模型单次最多能生成的 token 数,独立于上下文窗口。需要一次生成大段内容(长文、整段代码)时要看它。
知识截止Knowledge cutoff
模型训练数据的截止时间,之后发生的事它本身不知道(除非联网检索)。
智能指数Intelligence Index
Artificial Analysis 给出的综合能力评分(满分约 60),数字越高综合越强。算盘只采用这一个来源以保证可比性,拿不到就留空,不混用别的榜。
推理 / 思考模型Reasoning model
会先「想」再答、用更多 token 做多步推理的模型,擅长数学、代码、复杂逻辑。注意思考过程也算输出 token,成本更高。
多模态Multimodal
除文本外还能处理图像、音频、视频的模型。原生支持音频的可以直接「听」,无需先做语音转文字。
Batch API(批处理)Batch API
非实时的批量任务异步提交、通常 24 小时内返回,价格多数打 5 折,适合标注、清洗、批量生成等离线任务。
限速 RPM / TPMRate limit
每分钟请求数(Requests Per Minute)和每分钟 token 数(Tokens Per Minute)的上限。高并发场景上线前要确认额度够不够。
MoE 混合专家Mixture of Experts
一种模型架构,每次推理只激活部分「专家」参数,在保持能力的同时降低成本,是 2026 多数高性价比模型的底层。
温度Temperature
控制输出随机性的参数:越低越确定保守、适合事实/代码;越高越发散有创意、适合写作/头脑风暴。
Flash / Lite / 腰部模型Lightweight tier
厂商的轻量档模型,能力略低于旗舰但价格只有旗舰的 1–5%,是高频、低复杂度任务(分类、翻译、简单问答)的性价比之选。

懂了术语,去看哪个模型最划算。