Gemini 3.5 Live Translate

Gemini 3.5 Live Translate：70以上の言語に対応した次世代リアルタイム音声翻訳

導入:

Googleの最新音声モデル「Gemini 3.5 Live Translate」を徹底解説。70以上の言語に対応し、自然な抑揚を維持しながらほぼリアルタイムでの音声翻訳を実現します。Google Meet、Google 翻訳アプリ、開発者向けAPIなど、ビジネスから日常会話まで言語の壁を取り払う革新的な機能と、SynthIDによる安全性を備えた最新のAIソリューションです。

追加日:

2026-06-12

月間訪問者数:

14958.3K

翻訳と書き起こし

Gemini 3.5 Live Translate - AI Tool Screenshot and Interface Preview

Gemini 3.5 Live Translate 製品情報

Gemini 3.5 Live Translate：70以上の言語をリアルタイムでつなぐ次世代音声翻訳

Googleは、コミュニケーションのあり方を根本から変える最新の音声モデル、Gemini 3.5 Live Translateを発表しました。20年前に機械学習の実験として始まったGoogleの翻訳技術は、今や毎月数十億人のユーザーに対し、1兆語以上の言葉を翻訳するまでに進化しました。その最新到達点であるGemini 3.5 Live Translateは、これまでの音声翻訳の常識を覆す、流暢で自然なリアルタイム体験を提供します。

Gemini 3.5 Live Translateとは

Gemini 3.5 Live Translateは、70以上の言語に対応した最新の音声対音声（speech-to-speech）翻訳モデルです。従来のシステムのように、話し手が話し終わるのを待ってから翻訳を開始する「ターン制」ではなく、会話を継続的にストリームとして処理することで、ほぼリアルタイムの翻訳を実現しています。

このモデルは、単に言葉を置き換えるだけではありません。話し手のイントネーション、ペース、ピッチ（声の高さ）を維持したまま翻訳音声を生成するため、まるで本人がその言語を話しているかのような、極めて自然で人間味のある対話が可能になります。Gemini 3.5 Live Translateは、品質を向上させるための文脈理解と、同期を保つための即時性のバランスを最適化しており、不自然な一時停止のない、わずか数秒の遅延のみで進行するスムーズなオーディオを提供します。

Gemini 3.5 Live Translateの主な特徴

Gemini 3.5 Live Translateには、これまでの翻訳ツールを凌駕する多くの革新的な特徴があります。

70以上の言語を自動検出: 手動で設定を切り替えることなく、入力された多言語を即座に認識し、翻訳を開始します。
自然な音声表現: 話し手の感情やトーンを反映し、機械的な合成音ではない流暢な音声出力を生成します。
継続的な翻訳生成: 会話の流れを止めないシームレスな体験を提供。数秒のバッファで文脈を捉えつつ、同期を維持します。
高度なノイズ耐性: 騒がしい場所や予測不能な環境下でも、正確に音声を認識して翻訳を行う堅牢性を備えています。
SynthIDによる安全性: 生成されたすべての音声には、AI生成であることを示す不可視の透かし「SynthID」が組み込まれており、情報の信頼性と責任あるAI利用を担保しています。

Gemini 3.5 Live Translateの活用シーン（Use Case）

Gemini 3.5 Live Translateの活用範囲は、ビジネスからプライベート、開発者向けソリューションまで多岐にわたります。

1. グローバルなビジネス会議と教育

Google Meetに導入されることで、多言語が飛び交う会議やレッスンが劇的に変わります。英語、中国語（マンダリン）、スウェーデン語など、異なる言語を話す参加者が、それぞれの母国語で理解し合える環境を提供します。

2. ライドシェアや旅行先でのコミュニケーション

パートナー企業であるGrabでは、ドライバーと乗客の間で毎月1,000万件以上の音声通話が行われています。Gemini 3.5 Live Translateを導入することで、異なる言語を話す利用者同士が、ピックアップ時にストレスなく意思疎通できるようテストが進められています。

3. メディアと放送の多言語化

韓国のエンターテインメント大手CJ ENMなどは、世界中の視聴者に対してよりオーセンティックな視聴体験を提供するために、Gemini 3.5 Live Translateを活用した吹き替えや同時翻訳のテストを行っています。

4. 開発者による革新的なアプリ構築

Gemini Live APIを通じて、Agora、Fishjam、LiveKit、Pipecat、Vision Agentsなどのプラットフォームが、この強力な翻訳機能を自社のサービスに統合しています。これにより、複雑なメディアストリーミングのインフラを気にすることなく、高品質な翻訳アプリを開発することが可能です。

Gemini 3.5 Live Translateの使用方法（How to Use）

Gemini 3.5 Live Translateは、以下のプラットフォームを通じて順次提供が開始されます。

Google 翻訳アプリでの利用

AndroidおよびiOSのGoogle 翻訳アプリにグローバルで展開されます。「Live translate（ライブ翻訳）」機能を使用し、ヘッドフォンを接続するだけで、相手のトーンを反映したリアルタイム翻訳を体験できます。

リスニングモード（Android限定）: Androidユーザー向けに、スマホを受話器のように耳に当てるだけで翻訳を聞くことができる機能が登場します。ヘッドフォンがない状況や、周囲に翻訳内容を聞かれたくないツアーガイドなどの場面で非常に便利です。

Google Meetでの利用

ビジネス向けのGoogle Workspaceユーザーを対象に、今月からプライベートプレビューが開始されます。これまでの5言語制限が撤廃され、70以上の言語、2,000以上の言語の組み合わせがサポートされるようになります。

開発者向け（Google AI Studio / API）

Gemini Live APIおよびGoogle AI Studioを通じてパブリックプレビューが提供されています。開発者は、独自の音声翻訳体験を自身のアプリケーションに組み込むことができます。

FAQ：よくある質問

Q: Gemini 3.5 Live Translateは何言語に対応していますか？ A: 70以上の言語に対応しており、Google Meetでは2,000以上の言語の組み合わせでの翻訳が可能です。

Q: 翻訳までの遅延（レイテンシ）はどのくらいですか？ A: 非常に低遅延で設計されており、話し手のわずか数秒後ろを追随する形で継続的に翻訳が生成されます。

Q: AIが生成した音声だと見分けることはできますか？ A: はい。Gemini 3.5 Live Translateによって生成された音声には、SynthIDという技術を用いて、知覚できないレベルの透かしが直接オーディオに埋め込まれています。

Q: どのようなデバイスで利用できますか？ A: AndroidおよびiOSのスマートフォン、またGoogle Meetを介してPCなどのデバイスで利用可能です。また、開発者はGemini Live APIを通じて様々なプラットフォームに組み込めます。

Q: 音声のトーンやニュアンスは失われますか？ A: いいえ。このモデルの大きな特徴は、話し手のピッチ、イントネーション、ペースを維持することであり、非常に自然なコミュニケーションを可能にします。

Alternatives Tools

Lispr

Lispr - Mac専用の超高速リアルタイム音声入力・翻訳ツール。1キーで話して瞬時にテキスト化。

Lisprは、Macユーザー向けに開発された画期的な音声入力・翻訳アプリです。キーを押しながら話すだけで、自分の言葉を瞬時にテキスト化し、必要に応じて34以上の言語へリアルタイム翻訳します。Slack、Notion、Figmaなど、あらゆるMacアプリのカーソル位置に直接入力可能。Appleの公証済みで安全性も高く、アカウント登録不要、無料で利用可能です。タイピング時間を劇的に削減し、多言語コミュニケーションをスムーズにします。

翻訳と書き起こし

OpenTypeless

OpenTypeless - あらゆるアプリで使える無料・オープンソースのAI音声入力ツール

OpenTypelessは、Windows、macOS、Linuxで利用可能なオープンソースのAI音声入力ツールです。99ヶ国語に対応し、DeepgramやOpenAI Whisperなどの最新STTと、ClaudeやGeminiなどのLLMを組み合わせて、話した内容をリアルタイムで高品質なテキストに校正（AI Polish）します。独自のAPIキーを使用するBYOK方式により、ベンダーロックインなしで、あらゆるアプリ上で究極のタイプレスな入力体験を実現します。

翻訳と書き起こし

Wave

Wave - macOS専用の超高速・高プライバシーAI音声入力・文字起こしアプリ

WaveはmacOS 14以降に対応した、プライバシー重視のネイティブ音声入力アプリです。OpenAIのWhisperによるローカル処理とGroqによる超高速転写を選択可能。アカウント不要で、右Optionキー一つで即座に音声をテキスト化し、AIによる意図の文章化や既存テキストの校正も行えます。オープンソースで提供され、あらゆるアプリでの入力効率を劇的に向上させる究極のタイピング補完ツールです。

翻訳と書き起こし

Lingo.dev v1

Lingo.dev：翻訳をインフラ化する次世代ローカライゼーション・エンジニアリング・プラットフォーム

Lingo.devは、翻訳をプロダクトのインフラとして再定義するローカライゼーション・エンジニアリング・プラットフォームです。APIやCLI、GitHub Actionsを通じて、グロッサリーやブランドボイスを維持する独自の「ローカライゼーションエンジン」を構築可能。最新の「検索拡張ローカライゼーション（RAL）」技術により、文脈を維持しながら変更点のみを高品質に翻訳し、開発スピードと品質を劇的に向上させます。

翻訳と書き起こし

Tiny Aya

Tiny Aya: モバイルでも動作する高精度な多言語対応オープンウェイトAIモデル

Cohere Labsが開発したTiny Ayaは、33.5億パラメータという軽量設計ながら、70以上の言語に対応する最先端の多言語AIモデルです。モバイルデバイスや消費者向けハードウェアでのローカル実行が可能で、翻訳、言語理解、数学的推論において高いパフォーマンスを発揮します。地域特化型のモデルバリエーションも提供され、インフラが限られた環境でも高度なAI活用を実現します。

翻訳と書き起こし

Visual Translate by Vozo

Vozo AI Visual Translate：動画内のテキストを数分で自動翻訳・再構築する画期的なツール

Vozo AIのVisual Translateは、動画内のテロップや資料テキストを自動で検出し、消去した上でターゲット言語へ再構築する革新的な動画翻訳ソリューションです。従来の音声翻訳や字幕追加だけでなく、画面上の視覚情報を完全にローカライズすることで、視聴者へより深い理解を提供します。プロモーション、トレーニング、プレゼンなど、あらゆるビジネスシーンでのグローバル展開を加速させる強力なAIツールです。

翻訳と書き起こし

stagecaptions.io

Stage Captions: イベント向けリアルタイム自動字幕作成ソフトウェア

Stage Captionsは、ブラウザから即座に起動できるイベント用リアルタイム字幕ソフトウェアです。低遅延の音声認識エンジンにより、会場のスクリーンやライブ配信、参加者のデバイスへ正確な字幕を届けます。インストール不要で、専門用語の辞書登録やQRコードによる簡単共有、OBS等との連携も可能。カンファレンスやスポーツ、教育現場など、あらゆるステージでアクセシビリティを向上させるプロフェッショナルなツールです。

翻訳と書き起こし

Voxtral Transcribe 2 by Mistral

Voxtral Transcribe 2：Mistral AIによる最高峰の音声認識・文字起こしモデル

Voxtral Transcribe 2は、Mistral AIが提供する次世代の音声・テキスト変換モデルです。バッチ処理用のVoxtral Mini Transcribe V2と、超低遅延なライブ対応のVoxtral Realtimeをラインナップ。13ヶ国語に対応し、高精度なスピーカー識別（ダイアリゼーション）やコンテキストバイアス機能を備え、業界をリードするコスト効率と精度で、音声ワークフローを劇的に進化させます。

翻訳と書き起こし

Loading related products...