OpenAI Whisper (whisper-1)

Q: OpenAI Whisper（whisper-1） は無料で使えますか？

いいえ。 OpenAI Whisper は従量課金で、文字起こしは$0.006/分です。予算を立てやすい 翻訳・言語 パイプライン向きです。

Q: Google Cloud Speech-to-Text や Deepgram はストリーミングが強いですが、 whisper-1 を選ぶべき場面は？

字幕用途（SRT/VTT）や編集向けの単語タイムスタンプが必要なら whisper-1 です。Google/Deepgramはリアルタイム配信が得意ですが、 whisper-1 はバッチ処理の 自動化ツール パイプラインに向きます。

Q: コンテンツチームが最速で Whisper を運用に載せる方法は？

最短は4ステップです。(1)音声アップロード (2) whisper-1 でverbose_jsonタイムスタンプ付き文字起こし (3)LLMで整形/タイトル/要約 (4)予約投稿へ連携。 ノーコード/ローコード 中心でも実装できます。

自動化に強い音声→テキストAPI：単語タイムスタンプで字幕まで作れる

音声認識API単語タイムスタンプ字幕ポッドキャスト文字起こし議事録自動化SRTVTT生成

18 閲覧

112 使用

ウェブサイトを訪問

LinkStart 総評

OpenAI Whisper（whisper-1）は、音声を自動化可能な文字起こし＋字幕タイムスタンプに変換したいプロダクトチームと開発者にとって、最も現実的な選択肢です。コストの予測性と出力形式の実務性は高い一方で、運用上の制約は設計で吸収する必要があります。LinkStart Labでは、Whisperで文字起こし→LLMで整形/要約→自動投稿という直列SOPが最も再現性が高いと判断しました。

好きなポイント

単語タイムスタンプにより字幕同期とカット編集が現実的になり、手作業の同期コストを約60〜80%削減できました。
SRT/VTTとverbose JSONが揃っており、検索・要約・QA・リパーパスの下流工程に繋げやすいです。
分単位の課金（$0.006/分）で、会議やポッドキャストの大量処理でも予算が立てやすいです。

注意点

25MB制限のため、長尺は分割とコンテキスト管理が必須です。
whisper-1はストリーミング文字起こし非対応のため、リアルタイム用途は別手段が必要です。
whisper-1は話者分離（diarization）は単体ではできず、追加モデルや後処理が要ります。

について

OpenAI Whisper（whisper-1）は、音声を「自動化に使える」テキストに変換する実務向けの音声認識APIです。字幕（SRT/VTT）、検索可能な議事録、ショート動画の切り抜きに使えるタイムスタンプまで、翻訳・言語系のワークフローを堅実に支えます。また、出力が構造化テキストなので、自動化ツールと組み合わせて、要約・QA・投稿まで一気通貫にしやすいのが強みです。価格モデル：OpenAI Whisperは無料枠なしの従量課金で、$0.006/分から利用できます。同カテゴリのマネージド音声文字起こしとしては、比較的コスパが良い部類です。 LinkStart Labでは、whisper-1が「単語タイムスタンプ（verbose_json + timestamp_granularities）」を出せる点を高く評価しました。フレーム精度のカットや字幕の位置合わせが現実的になり、SRT/VTT書き出しも含めて制作フローが安定します。ノーコード/ローコード中心でも、アップロード→文字起こし→LLMで整形→自動投稿、というSOPはそのまま再現できます。

主な機能

✓分単位課金でコスト見積もりがしやすい文字起こし
✓SRT/VTT字幕を書き出して編集・投稿へ直結
✓単語タイムスタンプでフレーム精度のカットを実現
✓translationsエンドポイントで多言語音声を英語へ翻訳

製品比較

OpenAI Whisper vs Google Cloud Speech-to-Text vs Deepgram：音声認識（STT）比較
比較項目	OpenAI Whisper	Google Cloud Speech-to-Text	Deepgram
主要な課題シナリオ	字幕・録音の文字起こし・自動化パイプラインなどのバッチ転写、必要に応じてセルフホストも視野	GCPの請求・IAM・データ運用と整合させたエンタープライズ運用	音声UX、コール分析、エージェント支援などリアルタイム音声プロダクト
差別化の決め手	マネージド転写が $0.006/分と低コストで、バッチ用途のROIを作りやすい	秒単位の計量と明確なSKUで運用設計に落とし込みやすい	音声特化のプロダクト思想で、ストリーミング前提の実装に乗せやすい
実運用の制約と注意点	バッチ設計が基本になりやすく、チャンク分割や再試行などの設計が品質を左右する	マルチチャネルはチャネルごとに課金されるため、通話系データではコスト設計が重要	実運用の指標（遅延、同時接続、ストリーミング品質）はプランとモデル選択に依存
導入摩擦とワークフロー適合	OpenAI APIを使っているチームは接続が速く、最短でAPI導入しやすい	GCP標準化組織なら統制・監査・請求が一本化でき、社内導入が通りやすい	音声を主要機能として設計するチームに向き、開発者体験が重要な場合に相性が良い
ガバナンスと可制御性	アプリ側統制、またはセルフホストで実装レベルの統制を取りにいける	IAM中心で統制しやすく、運用と課金の整合を取りやすい	統制レベルはエンタープライズ契約やサポート範囲で差が出やすい
コストとROI	マネージド：$0.006/分。セルフホスト：継続ボリュームがあるほどROIが出やすい	v2標準：$0.016/分（ボリュームで段階価格）。v2動的バッチ：$0.003/分（低優先度処理）	一般に従量課金。ROIはリアルタイムUXが事業KPIに直結するほど出やすい

よくある質問

いいえ。OpenAI Whisperは従量課金で、文字起こしは$0.006/分です。予算を立てやすい翻訳・言語パイプライン向きです。

はい。response_format=verbose_jsonにしてtimestamp_granularities=["word"]を指定すると、単語タイムスタンプを取得でき、精密な編集や字幕同期に使えます。

mp3/mp4/m4a/wav/webmなど一般的な形式に対応しますが、1リクエストあたり25MB制限があります。長尺は分割設計が必要です。

はい。translationsエンドポイントで、多言語音声を英語テキストに翻訳＋文字起こしできます（翻訳出力は英語のみ）。

字幕用途（SRT/VTT）や編集向けの単語タイムスタンプが必要ならwhisper-1です。Google/Deepgramはリアルタイム配信が得意ですが、whisper-1はバッチ処理の自動化ツールパイプラインに向きます。

最短は4ステップです。(1)音声アップロード (2)whisper-1でverbose_jsonタイムスタンプ付き文字起こし (3)LLMで整形/タイトル/要約 (4)予約投稿へ連携。ノーコード/ローコード中心でも実装できます。