Fish Audio
Fish Audio — TTS expresivo (S1) + clonación de voz con API pay-as-you-go
Fish Audio es la opción lista para workflow para equipos de producto y creadores que necesitan publicar TTS expresivo y clonación de voz a escala. En LinkStart Lab, los controles “dirige la interpretación” de S1 facilitaron estandarizar el estilo de voz sin horas de edición manual. Mientras plataformas por asiento simplifican compras, Fish Audio encaja mejor en pipelines de automatización con créditos + API pay-as-you-go.
Por qué nos encanta
- Si publicas a menudo, el Free Tier es un buen sandbox para validar tono, guiones y plantillas.
- Plus/Pro desbloquean uso comercial y textos largos, clave para YouTube monetizado, anuncios y narración en apps.
- La API permite automatizar locuciones en lote, sumar ASR (transcribe-1) y controlar concurrencia en producción.
Lo que debes saber
- El plan gratis es solo personal/no comercial: para monetizar tendrás que subir de plan.
- Presupuestar créditos se vuelve crítico con doblaje multilingüe o guiones multi-personaje.
- Gobernanza de clonación (consentimiento, permisos, brand safety) es tu responsabilidad: define política antes de escalar.
Acerca de
Fish Audio es una plataforma de voz con IA pensada para producción: TTS natural con S1, clonación de voz y control de emoción/estilo para dirigir la interpretación (más “actor de voz” que narración plana). Fish Audio ofrece un plan Freemium, con planes de pago desde $11/mes (Plus) y $75/mes (Pro). Suele ser más barato que la media si prefieres créditos + API pay-as-you-go en lugar de licencias fijas de empresa. El plan gratis incluye 8.000 créditos/mes (aprox. 7 minutos de S1 en máxima calidad), 500 caracteres por generación y 3 slots de voz públicos; Plus añade uso comercial, clonación mejorada, límites más altos y acceso a la API. Para quienes comparan Audio Generators y Automation Tools, su ventaja es tener UI para creadores y API para escalar a pipelines.
Características Clave
- ✓TTS expresivo con S1 y límites de texto largos en planes de pago
- ✓Clonación y gestión de voces con slots públicos/privados y uso comercial en premium
- ✓De UI a API: pricing pay-as-you-go y límites de concurrencia documentados
- ✓ASR (transcribe-1) para cerrar el ciclo de automatización de voz end-to-end
Preguntas frecuentes
Freemium. El plan gratis incluye 8.000 créditos/mes (aprox. 7 minutos de S1 en máxima calidad) y es para uso personal no comercial; Plus empieza en $11/mes y habilita uso comercial y límites mayores. Para automatización, Plus/Pro también abren acceso a la API.
Pay-as-you-go. Fish Audio indica que no hay cuotas de suscripción ni mínimos mensuales para la API; TTS (s1, speech-1.5, speech-1.6) cuesta $15 por 1M de bytes UTF-8 y ASR (transcribe-1) $0,36 por hora de audio. Mientras muchos Audio Generators lo esconden en enterprise, aquí el pricing y la concurrencia están publicados.
La diferencia principal es el empaquetado: Fish Audio apuesta por planes por créditos + API pay-as-you-go transparente (TTS facturado por bytes UTF-8), mientras ElevenLabs suele elegirse por su experiencia de estudio y empaquetado enterprise. Mientras ElevenLabs se siente “todo-en-uno”, Fish Audio encaja mejor en pipelines de automatización para generación en lote y control de costes por guion.