Fish Audio
Fish Audio — S1 表情可控 TTS + 声音克隆,并提供按量计费 API
Fish Audio 是面向 产品团队与内容创作者、用于 规模化交付“可演绎”的 TTS 与声音克隆 的 工作流友好 选择。LinkStart Lab 的感受是:S1 的“导演式表达”更利于把配音风格固化到模板里,而不是靠人工反复剪辑对齐。相比偏采购/席位的语音平台,Fish Audio 的 credits + 按量 API 更适合做成 自动化 管道。
我们喜欢它的原因
- 高频发布(短视频/播客/课程)时,免费层足够你把“声音风格+脚本结构”先跑通。
- Plus/Pro 解锁长文本与商用,这是做 YouTube 变现、广告、App 旁白的硬条件。
- API 路线适合批量配音与可观测性治理,并能把 ASR(transcribe-1)并入端到端语音系统。
使用前需了解
- 免费层仅限个人非商用,即使用量不大也可能需要为变现升级。
- 多语言配音或多角色脚本一旦标准化,credits 预算会迅速成为约束条件。
- 声音克隆需要合规治理(授权/同意/品牌安全),必须先立规则再扩规模。
关于
Fish Audio 是面向“可交付工作流”的 AI 配音平台:用 S1 做高自然度 TTS,结合声音克隆与情绪/风格控制,把输出当成“配音演员”来导演,而不是机械朗读。Fish Audio 提供 Freemium,付费从 $11/月(Plus)起,Pro 为 $75/月;对偏好 credits + 按量 API 的团队来说,整体通常 更划算。免费层包含 每月 8,000 credits(约 7 分钟最高质量 S1)、单次 500 字符、以及 3 个公开声音位;Plus 开始支持商用、增强克隆、更高字符上限并开放 API。若你在 Audio Generators 与 Automation Tools 里找可落地方案,Fish Audio 的优势是“创作者 UI + 可扩展 API”两条线都能对接你的生产系统。
主要功能
- ✓用 S1 生成更有情绪起伏的 TTS,付费层支持更长文本上限
- ✓通过公开/私有声音位管理克隆声音,并在付费层解锁商用
- ✓从 UI 到 API 扩展:按量计费 + 并发限制清晰,适合系统化集成
- ✓补齐语音链路:提供 ASR(transcribe-1)用于端到端语音工作流
常见问题
按量计费(Pay-as-you-go)。 官方说明 API 无订阅费、无月度最低消费;TTS(s1 / speech-1.5 / speech-1.6)为 $15/百万 UTF-8 bytes,ASR(transcribe-1)为 $0.36/音频小时。相较一些把 API 藏在企业套餐里的 Audio Generators,Fish Audio 的价格与并发限制更透明。
主要区别在“打包方式”:Fish Audio 更强调 credits 套餐 + 透明的按量 API(TTS 按 UTF-8 bytes 计费),而 ElevenLabs 常以更成熟的 Studio 体验与企业化打包被选择。ElevenLabs 更像一体化工作台;Fish Audio 更容易接入 自动化 管道,做批量生成、并发治理与按脚本核算成本。