Fish Audio
Fish Audio — 감정 표현 TTS(S1) + 보이스 클로닝, 사용량 기반 API
Fish Audio는 프로덕트 팀과 크리에이터가 감정 표현 TTS와 보이스 클로닝을 규모 있게 출시해야 할 때 워크플로 친화적인 선택입니다. LinkStart Lab에서는 S1의 ‘연기 연출’형 컨트롤이 수작업 보이스 편집보다 스타일 표준화에 유리했습니다. 좌석형 과금 플랫폼이 조달에 강한 반면, Fish Audio는 크레딧 + 사용량 API로 자동화 파이프라인에 더 잘 맞습니다.
우리가 좋아하는 점
- 자주 제작할수록 무료 티어로 실험하고, 상업화 시 Plus/Pro로 자연스럽게 확장됩니다.
- Plus/Pro의 상업적 사용 + 긴 텍스트 한도는 유튜브·광고·앱 내레이션에 필수입니다.
- API로 배치 보이스오버를 자동화하고 ASR(transcribe-1)까지 묶어 엔드투엔드 설계가 가능합니다.
알아두면 좋은 점
- 무료 티어는 비상업적 용도라, 수익화 콘텐츠는 업그레이드가 필요합니다.
- 멀티언어 더빙/멀티스피커 스크립트를 표준화하면 크레딧 예산이 빠르게 제약이 됩니다.
- 보이스 클로닝은 동의·권한·브랜드 세이프티 거버넌스를 먼저 세워야 합니다.
소개
Fish Audio는 제작 워크플로에 맞춘 AI 보이스 플랫폼입니다. S1 모델로 자연스러운 TTS를 만들고, 보이스 클로닝과 감정/스타일 제어로 ‘평범한 낭독’이 아니라 ‘보이스 액팅’처럼 연출할 수 있습니다. Fish Audio는 Freemium이며 유료는 Plus $11/월, Pro $75/월부터 시작합니다. 크레딧 기반 + 사용량 기반 API를 선호하는 팀에는 좌석형 엔터프라이즈 과금보다 더 합리적인 편입니다. 무료 티어는 월 8,000 크레딧(S1 최고 품질 기준 약 7분), 1회 500자, 공개 보이스 슬롯 3개를 제공하고, Plus부터 상업적 사용·강화 클로닝·더 큰 문자 한도·API 접근이 열립니다. Audio Generators와 Automation Tools 관점에서 핵심은 ‘크리에이터 UI + 확장 가능한 API’ 조합입니다.
핵심 기능
- ✓S1로 감정 표현이 풍부한 TTS 생성, 유료 티어는 긴 텍스트 한도 지원
- ✓공개/비공개 보이스 슬롯으로 클론 관리, 유료에서 상업적 사용 해제
- ✓UI에서 API로 확장: 사용량 기반 과금과 동시 요청 제한이 문서화됨
- ✓ASR(transcribe-1)까지 제공해 음성 워크플로를 엔드투엔드로 구성
자주 묻는 질문
사용량 기반입니다. API는 구독료/월 최소 요금이 없다고 명시되어 있고, TTS(s1 / speech-1.5 / speech-1.6)는 $15/1M UTF-8 bytes, ASR(transcribe-1)는 $0.36/오디오 1시간입니다. API 비용이 엔터프라이즈에 숨겨지는 Audio Generators와 달리, Fish Audio는 가격과 동시성 제한을 공개합니다.
핵심 차이는 ‘패키징’입니다. **Fish Audio**는 크레딧 플랜 + 투명한 사용량 API(TTS는 UTF-8 bytes 기준 과금)에 초점을 두고, **ElevenLabs**는 스튜디오 UX와 엔터프라이즈 패키징으로 선택되는 경우가 많습니다. ElevenLabs가 올인원에 가깝다면, Fish Audio는 자동화 파이프라인에 넣어 배치 생성·동시성 제어·단가 추적을 하기 좋습니다.