OpenAI Whisper (whisper-1)

Q: OpenAI Whisper(whisper-1) 는 무료인가요?

아니요. OpenAI Whisper 는 사용량 과금이며 전사는 $0.006/분입니다. 예측 가능한 번역·언어 파이프라인에 적합합니다.

Q: Google Cloud STT / Deepgram 은 스트리밍이 강한데, 언제 whisper-1 을 고르나요?

자막(SRT/VTT)과 편집용 단어 타임스탬프가 핵심이면 whisper-1 이 좋아요. Google/Deepgram은 실시간 스트리밍에 강하고, whisper-1 은 배치형 자동화 도구 파이프라인에 더 깔끔합니다.

자막급 STT: 단어 타임스탬프까지 뽑는 Whisper API

STT API단어 타임스탬프팟캐스트 전사회의록 자동화SRT/VTT 자막

18 조회수

112 사용수

공식 사이트 이동

LinkStart 총평

OpenAI Whisper(whisper-1)는 오디오를 자동화 가능한 전사 + 자막 타임스탬프로 바꿔야 하는 프로덕트 팀과 개발자에게 가장 실용적인 선택입니다. 비용 예측이 쉽고 출력 포맷이 실무 친화적이지만, 워크플로우 제약은 설계로 흡수해야 합니다. LinkStart Lab에서는 Whisper 전사 후 LLM로 정리/요약/제목 생성까지 묶어 자동 배포하는 방식이 가장 안정적이었습니다.

우리가 좋아하는 점

단어 타임스탬프로 컷 편집·자막 싱크가 깔끔해져 수동 정렬 작업을 약 60-80% 줄였습니다.
SRT/VTT와 verbose JSON 덕분에 검색/요약/검수/리퍼포징 파이프라인에 바로 연결됩니다.
$0.006/분 과금으로 대량 전사에도 예산이 명확합니다.

알아두면 좋은 점

25MB 업로드 제한으로 긴 오디오는 청크 분할과 문맥 경계 처리가 필요합니다.
whisper-1은 스트리밍 전사를 지원하지 않아 실시간 UX는 다른 접근이 필요합니다.
whisper-1은 화자 분리(diariazation)는 단독으로 제공되지 않아 추가 모델/후처리가 필요합니다.

소개

OpenAI Whisper(whisper-1)는 음성을 텍스트로 바꾸는 STT API 중에서도, 자동화 파이프라인에 바로 꽂기 좋은 “현업형” 선택지입니다. SRT/VTT 자막 파일, 검색 가능한 회의록, 쇼츠 편집에 필요한 타임스탬프까지 만들어서 번역·언어 워크플로우에 잘 맞고, 결과가 구조화된 텍스트라 자동화 도구와 함께 요약/검수/게시까지 연결하기 쉽습니다. 가격 모델: OpenAI Whisper는 무료 티어 없이 사용량 기반 과금이며, $0.006/분부터 시작합니다. 관리형 STT 서비스 평균 대비 가격 부담은 낮은 편입니다. LinkStart Lab 기준으로 whisper-1의 킬러 포인트는 verbose_json + timestamp_granularities로 ‘단어 단위 타임스탬프’를 뽑을 수 있다는 점입니다. 이 기능 하나로 컷 편집과 자막 싱크 작업이 훨씬 깔끔해지고, SRT/VTT 출력까지 한 번에 갑니다. 노코드/로우코드 스택이라도 업로드→전사→LLM 후처리→자동 배포 SOP를 그대로 구현할 수 있습니다.

핵심 기능

✓분당 과금으로 비용 예측이 쉬운 전사
✓SRT/VTT 자막 출력로 편집·게시까지 직행
✓단어 타임스탬프로 정밀 컷 편집 지원
✓translations 엔드포인트로 다국어 음성을 영어로 번역

제품 비교

OpenAI Whisper vs Google Cloud Speech-to-Text vs Deepgram: STT 선택 비교
비교 항목	OpenAI Whisper	Google Cloud Speech-to-Text	Deepgram
핵심 고통 시나리오	자막/녹취/콘텐츠 파이프라인 등 배치 전사 중심, 필요 시 셀프 호스팅까지 고려	GCP의 과금, IAM, 데이터 운영과 결합한 엔터프라이즈 운영	보이스 UX, 콜 분석, 에이전트 어시스트 등 실시간 음성 제품
킬러 차별점	관리형 전사가 $0.006/분으로 비용 효율이 좋아 대량 처리 ROI를 만들기 쉬움	초 단위 계량과 명확한 SKU로 운영 설계를 정교하게 하기 쉬움	음성 중심 제품 포지셔닝으로 스트리밍 기반 아키텍처에 얹기 쉬운 경우가 많음
실사용 성능과 제약	배치 워크플로에 강하고, 실제 품질은 청크 분할/재시도/모니터링 설계에 크게 좌우됨	멀티 채널은 채널별로 과금되므로 콜센터/다채널 오디오에서 비용 설계가 중요	실시간 지표(지연, 동시성, 스트리밍 품질)는 플랜과 모델 선택에 따라 달라짐
생태계 및 도입 난이도	OpenAI API를 이미 쓰는 팀은 도입이 빠르고, 먼저 API로 시작하기 좋음	GCP 표준화 조직은 통제/감사/과금 일원화로 사내 도입 설득이 쉬움	음성을 핵심 기능으로 만드는 팀에 적합하며 개발자 경험이 중요한 경우 강점
거버넌스와 통제 방식	앱 레이어에서 통제하거나 셀프 호스팅으로 구현 레벨 통제를 강화할 수 있음	IAM 중심으로 통제하기 쉬워 운영과 과금 정합성을 맞추기 좋음	통제 수준은 엔터프라이즈 계약과 지원 범위에 따라 차이가 날 수 있음
비용과 ROI	관리형: $0.006/분. 셀프 호스팅: 지속 볼륨이 있을수록 ROI가 좋아지기 쉬움	v2 표준: $0.016/분(볼륨 구간별 할인). v2 동적 배치: $0.003/분(저우선 처리)	대체로 사용량 기반. ROI는 실시간 음성 UX가 KPI에 직접 연결될수록 커짐

자주 묻는 질문

아니요. OpenAI Whisper는 사용량 과금이며 전사는 $0.006/분입니다. 예측 가능한 번역·언어 파이프라인에 적합합니다.

네. response_format=verbose_json + timestamp_granularities=["word"]로 설정하면 단어 타임스탬프를 받아 컷 편집/자막 싱크에 활용할 수 있어요.

mp3/mp4/m4a/wav/webm 등 흔한 포맷을 지원하지만, 요청당 25MB 제한이 있어 긴 오디오는 청크 분할이 필요합니다.

네. translations 엔드포인트로 다국어 음성을 영어 텍스트로 번역+전사할 수 있습니다(번역 출력은 영어만).

자막(SRT/VTT)과 편집용 단어 타임스탬프가 핵심이면 whisper-1이 좋아요. Google/Deepgram은 실시간 스트리밍에 강하고, whisper-1은 배치형 자동화 도구 파이프라인에 더 깔끔합니다.

4단계 SOP가 제일 빠릅니다. (1) 업로드 (2) whisper-1 + verbose_json 타임스탬프 전사 (3) LLM로 정리/제목/요약 (4) 스케줄러로 자동 게시. 노코드/로우코드 스택에도 잘 맞아요.