算盘LLM Abacus

图像 / 视频 / 语音生成模型价格

做 AIGC 应用不只用文本模型。文生图、文生视频、语音合成的计价方式各不相同 (按张 / 按秒 / 按字符),这里按类别分开对比,绿色是各类最便宜的。

图像生成每张

文生图 / 图生图,按生成张数计费

模型厂商价格(每张标签
Imagen 4.0 Fast🇺🇸Google¥0.136$0.02
快速
通义万相 wan2.6(文生图)🇨🇳阿里通义¥0.200
国产文生图
豆包 Seedream 4.0🇨🇳字节豆包¥0.200
国产文生图
豆包 Seedream 5.0 Lite🇨🇳字节豆包¥0.220
国产快速
豆包 Seedream 4.5🇨🇳字节豆包¥0.250
国产高质量
Gemini 2.5 Flash Image🇺🇸Google¥0.264$0.039
快速可编辑
Imagen 4.0🇺🇸Google¥0.271$0.04
高质量
Imagen 4.0 Ultra🇺🇸Google¥0.407$0.06
最高质量
Gemini 3 Pro Image🇺🇸Google¥0.908$0.134
旗舰多模态

视频生成每秒

文生视频 / 图生视频,按视频时长(秒)计费

模型厂商价格(每秒标签
Veo 3.1 Lite🇺🇸Google¥0.339$0.05
快速省钱
通义万相 wan2.6(文生视频·720P)🇨🇳阿里通义¥0.600
国产文生视频
Veo 3.1 Fast🇺🇸Google¥1.02$0.15
快速
Veo 2.0🇺🇸Google¥2.37$0.35
上代
Veo 3.1🇺🇸Google¥2.71$0.4
旗舰含音频

语音合成 TTS每百万字符

文字转语音,按输入字符计费

模型厂商价格(每百万字符标签
OpenAI TTS-1🇺🇸OpenAI¥102$15
标准
OpenAI TTS-1 HD🇺🇸OpenAI¥203$30
高清
ElevenLabs v3🇺🇸ElevenLabs¥1220$180
拟真多语言

语音识别 STT每分钟

语音转文字,按音频时长计费

模型厂商价格(每分钟标签
OpenAI Whisper🇺🇸OpenAI¥0.041$0.006
多语言

价格海外厂商附 $ 原价(按 1 USD = 6.78 换算)· 绿色 = 各类最便宜 · 数据更新 2026-05-30 · 以各厂商官方为准 · 更多国产生成模型(可灵 / 即梦 / 豆包 Seedream)陆续补充

生成模型计价怎么看?

图像按「张」算,但分辨率影响成本。文生图通常按生成张数计费,国产通义万相(¥0.200/张)和 Google Imagen 4.0 Fast 是便宜档;更高质量的 Gemini 3 Pro Image、Imagen Ultra 单张更贵。注意高分辨率 / 多图会按倍数计费。

视频按「秒」算,是最烧钱的一类。Veo 3.1(约 ¥2.71/秒)生成一段 8 秒视频就要 ¥20+,批量生成成本极高。 预算有限优先 Veo 3.1 Lite / Fast,或先用便宜档出草稿、满意了再用旗舰渲染。

语音合成 TTS 按「字符」算。OpenAI TTS-1(¥102/百万字符)适合大批量,ElevenLabs 拟真度最高但贵 一个数量级。一篇 1000 字文章转语音,OpenAI 约 ¥0.1、ElevenLabs 约 ¥1.2。

语音识别 STT 按「分钟」算。OpenAI Whisper 约 ¥0.041/分钟,一小时音频转写约 ¥2.5,非常便宜,是播客 / 会议纪要类应用的标配。

要算文本模型成本,回到 LLM 价格表;要做 RAG 还需要 向量模型

看完生成模型,回去挑文本模型。