Voxtral Transcribe 2 by Mistral
Voxtral Transcribe 2:Mistral AIによる最高峰の音声認識・文字起こしモデル
Voxtral Transcribe 2は、Mistral AIが提供する次世代の音声・テキスト変換モデルです。バッチ処理用のVoxtral Mini Transcribe V2と、超低遅延なライブ対応のVoxtral Realtimeをラインナップ。13ヶ国語に対応し、高精度なスピーカー識別(ダイアリゼーション)やコンテキストバイアス機能を備え、業界をリードするコスト効率と精度で、音声ワークフローを劇的に進化させます。
2026-02-06
7963.5K
Voxtral Transcribe 2 by Mistral 製品情報
Voxtral Transcribe 2:音速で進化する次世代の音声認識プラットフォーム
Voxtral Transcribe 2は、Mistral AIが提供する、最高水準の文字起こし品質、スピーカー識別(ダイアリゼーション)、および超低遅延を実現した次世代の音声・テキスト変換モデルファミリーです。本プラットフォームは、バッチ処理に最適な「Voxtral Mini Transcribe V2」と、ライブアプリケーション向けに設計された「Voxtral Realtime」の2つのモデルで構成されています。
What's Voxtral Transcribe 2?
Voxtral Transcribe 2とは、単なる文字起こしツールではなく、AIを活用して音声データを価値あるテキスト情報へと変換する高度なソリューションです。Mistral Studioのオーディオプレイグラウンドを通じて、即座にその精度をテストすることが可能です。
このモデルファミリーは、従来のオフラインモデルを細切れにする手法とは異なり、新しいストリーミングアーキテクチャを採用しています。これにより、日本語を含む13ヶ国語において、業界トップクラスの単語誤り率(WER)と、驚異的なコストパフォーマンスを実現しました。
Voxtral Transcribe 2 の主な特徴 (Features)
1. 超低遅延なリアルタイム性能
Voxtral Realtimeは、遅延を200ms未満まで構成可能。音声エージェントや対話型AIなど、即時性が求められる「音声第一」のアプリケーションに最適です。
2. 高精度なスピーカー識別(ダイアリゼーション)
複数の話者が混在する会議やインタビューでも、誰がいつ話したかを正確にラベル付けし、開始・終了時刻を生成します。
3. コンテキストバイアス(Context Biasing)
専門用語、固有名詞、業界用語など、最大100個の単語やフレーズを事前に提供することで、モデルの認識精度を意図的に向上させることができます。
4. 圧倒的なコスト効率
Voxtral Mini Transcribe V2は、1分あたり0.003ドルという低価格でありながら、GPT-4o mini TranscribeやGemini 2.5 Flash、Deepgram Novaなどの競合他社を凌駕する精度を誇ります。
5. オープンウェイトとプライバシー
Voxtral RealtimeはApache 2.0ライセンスの下でオープンウェイトとして公開されており、エッジデバイスへのデプロイも可能です。GDPRやHIPAAに準拠したセキュアな環境での運用をサポートします。
主な活用シーン (Use Case)
Voxtral Transcribe 2は、多様な業界で音声ワークフローを最適化します。
- 会議インテリジェンス: 多言語の会議を自動で記録し、誰の発言かを明確に分離。膨大な会議コンテンツを低コストでデータ化します。
- 音声エージェントと仮想アシスタント: Voxtral RealtimeをLLM(大規模言語モデル)やTTS(音声合成)と組み合わせることで、自然でレスポンスの良い対話インターフェースを構築できます。
- コンタクトセンターの自動化: 通話をリアルタイムで文字起こしし、感情分析やCRMへの自動入力を支援します。
- メディア・放送: ライブ配信に低遅延で多言語の字幕を生成。コンテキストバイアスにより、専門的なトピックも正確に捉えます。
- コンプライアンスとドキュメンテーション: 規制遵守のためのやり取りを監視・記録し、正確な監査証跡を残します。
使い方 (How to Use)
- Mistral Studio: オーディオプレイグラウンドで、最大10個の音声ファイル(.mp3, .wav, .m4a等)をアップロードしてテストできます。
- API連携:
- Voxtral Mini Transcribe V2: $0.003/分で利用可能。
- Voxtral Realtime: $0.006/分で利用可能。
- Le Chat: Mistralの対話型インターフェースから直接機能を体験できます。
- ローカルデプロイ: Hugging Face HubからVoxtral Realtimeのウェイトをダウンロードし、独自のインフラに構築できます。
よくある質問 (FAQ)
Q: 対応している言語は何ですか? A: 日本語、英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、韓国語、イタリア語、オランダ語の13ヶ国語に対応しています。
Q: 長い音声ファイルも処理できますか? A: はい、1回のリクエストで最大3時間の音声録音を処理することが可能です。
Q: セキュリティ面はどうなっていますか? A: GDPRおよびHIPAA準拠のデプロイメントをサポートしており、オンプレミスやプライベートクラウドでの構築も可能です。
Q: 精度はどの程度ですか? A: FLEURSベンチマークにおいて約4%の単語誤り率(WER)を達成しており、業界をリードする精度を提供します。








