Gemini 3.5 Live Translate
Gemini 3.5 Live Translate:领先的70+语言实时语音同声传译模型
Gemini 3.5 Live Translate是Google推出的突破性音频模型,支持70多种语言的近乎实时语音转语音翻译。该模型能够精准捕捉并还原说话者的音调与语速,实现自然流畅的交流。无论是通过Google Translate应用、Google Meet远程会议,还是通过Gemini Live API进行开发者集成,Gemini 3.5 Live Translate都在重新定义跨语言沟通的效率与体验,助力全球用户跨越语言鸿沟。
2026-06-12
14958.3K
Gemini 3.5 Live Translate 产品信息
Gemini 3.5 Live Translate:重塑全球沟通的实时语音翻译利器
在语言科学转化为人类沟通魔法的征途中,Google 迈出了具有里程碑意义的一步。Gemini 3.5 Live Translate 作为最新的音频模型,正式开启了近乎实时的语音转语音(Speech-to-Speech)翻译新时代。凭借对 70 多种语言的深度支持和卓越的自然语言处理能力,Gemini 3.5 Live Translate 正在让跨语言交流变得像面对面交谈一样自然流畅。
什么是 Gemini 3.5 Live Translate?
Gemini 3.5 Live Translate 是 Google 推出的一款尖端音频模型,专门设计用于实现流畅、自然的实时语音翻译。与传统的、需要等待说话者停顿才能进行翻译的“轮流式”系统不同,Gemini 3.5 Live Translate 采用了先进的流式处理技术。它能够在说话者发声的同时持续生成翻译音频,并始终与说话者保持仅几秒钟的微小延迟。这确保了交流的连贯性,有效避免了令人尴尬的长时间停顿。
Gemini 3.5 Live Translate 的核心功能
Gemini 3.5 Live Translate 不仅仅是一个简单的翻译工具,它集成了多项前沿技术,旨在提供极致的用户体验:
1. 广泛的语言覆盖与自动检测
Gemini 3.5 Live Translate 支持 70 多种语言。更令人称赞的是,它具备自动检测功能,能够识别多语言输入而无需用户手动切换设置,这极大地提升了在复杂语言环境下的便利性。
2. 自然真实的语音合成
该模型不仅能翻译文字,更能在生成的语音中保留原说话者的语调(Intonation)、语速(Pacing)和音高(Pitch)。这意味着翻译后的声音听起来更加生动自然,而非生硬的机器合成音。
3. 低延迟与流式翻译
Gemini 3.5 Live Translate 在等待上下文以提高质量与即时翻译以保持同步之间取得了完美的平衡。这种流式生成的机制使得语音输出非常流畅,极大地改善了沟通体验。
4. 强大的噪声鲁棒性
在实际应用中,环境往往是嘈杂且不可预测的。Gemini 3.5 Live Translate 具备出色的噪声鲁棒性,即使在嘈杂的环境中也能精准捕捉语音并完成高质量翻译。
5. 安全性保障:SynthID 水印
为了防止误导信息的传播,所有由 Gemini 3.5 Live Translate 生成的音频都嵌入了 SynthID 水印。这种不可见的水印直接织入音频输出中,确保 AI 生成的内容可被检测,体现了 Google 对安全与责任的承诺。
如何使用 Gemini 3.5 Live Translate
目前,Gemini 3.5 Live Translate 已经通过多种渠道向全球用户和开发者开放:
在 Google Translate App 中使用
- Android 和 iOS 用户:您可以直接在 Google Translate 应用中体验 Live Translate 功能。连接耳机后,即可体验镜像说话者语调的无缝翻译。
- Android 专用“听力模式”(Listening Mode):如果您没有耳机,可以将手机像打普通电话一样贴在耳边。Gemini 3.5 Live Translate 会通过手机听筒直接为您传输翻译后的音频,既私密又便捷。
在 Google Meet 中使用
企业用户(Google Workspace)可以在视频会议中启用此功能。它支持超过 2000 种语言组合,且不再局限于仅与英语互译。用户可以通过更新后的界面快速访问语音翻译设置。
开发者与企业集成
- Google AI Studio 与 Gemini Live API:开发者可以利用 API 将 Gemini 3.5 Live Translate 集成到自己的应用中。
- 第三方平台集成:通过与 Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等平台的合作,开发者可以更轻松地部署具有语音翻译功能的应用程序。
典型应用场景 (Use Case)
Gemini 3.5 Live Translate 的应用场景非常广泛,涵盖了从日常生活到专业工作的方方面面:
- 共享出行与旅游:例如,Grab 正在测试该模型,以实现司机与乘客之间多达 1000 万次/月的近乎实时语音沟通,彻底解决跨境出行中的沟通障碍。
- 跨国商务会议:在 Google Meet 中,Gemini 3.5 Live Translate 能够为不同国籍的参与者提供同声传译,确保团队协作不受语言限制。
- 教育与课堂:帮助国际学生实时理解不同语言授课的内容,提升学习效率。
- 内容创作与广播:通过 Gemini Live API,内容创作者可以轻松实现视频配音和多语言实时直播。
- 媒体与娱乐:CJ ENM 等合作伙伴正在利用该模型为全球观众提供更真实的韩语及全球内容观看体验。
合作伙伴评价
Grab 首席产品官 Philipp Kandal:“在测试 Gemini 3.5 Live Translate 时,我们非常看重它自动检测多语言以及低延迟精准翻译的能力。”
CJ ENM 首席 AI 官 Bella Baek:“早期测试显示其翻译质量极具前景,能为全球观众提供更正宗的体验。”
Agora 开发者布道师 Mason Adams:“该模型提供了业界领先(SOTA)的结果,其低延迟和高准确性为实时翻译树立了新标杆。”
常见问题解答 (FAQ)
Q: Gemini 3.5 Live Translate 支持多少种语言? A: 目前支持超过 70 种语言,并能实现超过 2000 种语言组合的互译。
Q: 它和传统的翻译工具有什么区别? A: Gemini 3.5 Live Translate 是流式实时翻译,不需要等待对方说完,且能保留说话者的情绪、语调和语速,更加接近真人的同声传译。
Q: 我可以在哪些设备上使用它? A: 您可以在 Android 和 iOS 的 Google Translate 应用、Google Meet 平台以及支持 Gemini Live API 的第三方应用中使用。
Q: 如何确保 AI 生成音频的真实性? A: 所有生成的音频都经过 SynthID 技术加水印,以确保 AI 生成的内容是可追溯和可检测的,从而防止虚假信息的传播。
Q: 开发者如何接入这个模型? A: 开发者可以通过 Google AI Studio 访问 Gemini Live API,或者通过 Agora、LiveKit 等合作伙伴平台进行集成。








