图像 / 视频 / 语音生成模型价格
做 AIGC 应用不只用文本模型。文生图、文生视频、语音合成的计价方式各不相同 (按张 / 按秒 / 按字符),这里按类别分开对比,绿色是各类最便宜的。
图像生成(每张)
文生图 / 图生图,按生成张数计费
| 模型 | 厂商 | 价格(每张) | 标签 |
|---|---|---|---|
| Imagen 4.0 Fast | ¥0.136$0.02 | 快速 | |
| 通义万相 wan2.6(文生图) | 🇨🇳阿里通义 | ¥0.200 | 国产文生图 |
| 豆包 Seedream 4.0 | 🇨🇳字节豆包 | ¥0.200 | 国产文生图 |
| 豆包 Seedream 5.0 Lite | 🇨🇳字节豆包 | ¥0.220 | 国产快速 |
| 豆包 Seedream 4.5 | 🇨🇳字节豆包 | ¥0.250 | 国产高质量 |
| Gemini 2.5 Flash Image | ¥0.264$0.039 | 快速可编辑 | |
| Imagen 4.0 | ¥0.271$0.04 | 高质量 | |
| Imagen 4.0 Ultra | ¥0.407$0.06 | 最高质量 | |
| Gemini 3 Pro Image | ¥0.908$0.134 | 旗舰多模态 |
视频生成(每秒)
文生视频 / 图生视频,按视频时长(秒)计费
语音合成 TTS(每百万字符)
文字转语音,按输入字符计费
| 模型 | 厂商 | 价格(每百万字符) | 标签 |
|---|---|---|---|
| OpenAI TTS-1 | 🇺🇸OpenAI | ¥102$15 | 标准 |
| OpenAI TTS-1 HD | 🇺🇸OpenAI | ¥203$30 | 高清 |
| ElevenLabs v3 | 🇺🇸ElevenLabs | ¥1220$180 | 拟真多语言 |
语音识别 STT(每分钟)
语音转文字,按音频时长计费
| 模型 | 厂商 | 价格(每分钟) | 标签 |
|---|---|---|---|
| OpenAI Whisper | 🇺🇸OpenAI | ¥0.041$0.006 | 多语言 |
价格海外厂商附 $ 原价(按 1 USD = 6.78 换算)· 绿色 = 各类最便宜 · 数据更新 2026-05-30 · 以各厂商官方为准 · 更多国产生成模型(可灵 / 即梦 / 豆包 Seedream)陆续补充
生成模型计价怎么看?
图像按「张」算,但分辨率影响成本。文生图通常按生成张数计费,国产通义万相(¥0.200/张)和 Google Imagen 4.0 Fast 是便宜档;更高质量的 Gemini 3 Pro Image、Imagen Ultra 单张更贵。注意高分辨率 / 多图会按倍数计费。
视频按「秒」算,是最烧钱的一类。Veo 3.1(约 ¥2.71/秒)生成一段 8 秒视频就要 ¥20+,批量生成成本极高。 预算有限优先 Veo 3.1 Lite / Fast,或先用便宜档出草稿、满意了再用旗舰渲染。
语音合成 TTS 按「字符」算。OpenAI TTS-1(¥102/百万字符)适合大批量,ElevenLabs 拟真度最高但贵 一个数量级。一篇 1000 字文章转语音,OpenAI 约 ¥0.1、ElevenLabs 约 ¥1.2。
语音识别 STT 按「分钟」算。OpenAI Whisper 约 ¥0.041/分钟,一小时音频转写约 ¥2.5,非常便宜,是播客 / 会议纪要类应用的标配。