Google 发布 Gemini 3.5 Flash 计算机使用功能：跨平台智能体新突破

Google DeepMind 宣布在 Gemini 3.5 Flash 中原生集成“计算机使用”（Computer Use）功能。该功能允许开发者构建能够跨浏览器、移动端和桌面环境进行观察、推理及操作的智能体。相比之前的独立模型，此次集成提升了长程任务和企业自动化（如软件测试和专业应用协作）的性能。同时，Google 引入了对抗性训练及企业级安全防护机制，以降低提示词注入风险并确保操作安全。

核心要点

原生集成：Gemini 3.5 Flash 现已内置“计算机使用”工具，无需再依赖之前的独立模型，实现了更高效的任务处理。
跨平台能力：支持智能体在浏览器、移动设备和桌面环境中执行视觉识别、推理和操作，打破了应用间的壁垒。
企业级应用：优化了长程任务性能，特别适用于软件持续测试、文档审计和专业知识工作自动化。
安全保障：通过针对性对抗性训练及可选的确认机制、自动拦截系统，防范提示词注入风险，确保操作安全。
获取渠道：开发者和企业可通过 Gemini API 和 Gemini 企业智能体平台（Gemini Enterprise Agent Platform）接入使用。

详细分析

从独立模型到原生集成的演进

此前，计算机使用功能仅作为 Gemini 2.5 的独立模型提供。现在，Google 将其原生集成至 Gemini 3.5 Flash 中。这种集成不仅简化了开发流程，还利用了 Flash 模型的高性能特性，使其在处理复杂的智能体任务时表现更佳。通过内置该工具，Gemini 3.5 Flash 能够更好地协同现有的函数调用、搜索和地图接地（grounding）功能，为开发者提供了一个更统一、更强大的开发环境。

跨环境的操作与推理能力

Gemini 3.5 Flash 的计算机使用功能赋予了 AI 智能体“看”和“做”的能力。它不仅能分析屏幕内容，还能在不同平台间无缝切换。根据官方示例，该模型可以分析 Gemini 应用并生成功能分类列表，甚至能自动审计自身的文档以发现无障碍性（accessibility）问题。这种跨浏览器、移动端和桌面的通用性，为企业自动化提供了更广阔的空间，使其能够处理需要跨多个专业应用程序协作的复杂任务。

安全性与风险管控

针对智能体在实时环境中可能面临的提示词注入（prompt injection）风险，Google 采取了多重防护措施。首先是针对性的对抗性训练，以增强模型自身的防御能力。其次，为企业提供了两项关键的可选安全系统：一是针对敏感或不可逆操作的显式用户确认机制；二是能够识别并自动停止受间接提示词注入影响的任务。这些措施旨在确保 AI 在执行自动化任务时的可控性与安全性，降低企业部署风险。

行业影响

Gemini 3.5 Flash 集成计算机使用功能标志着 AI 智能体从简单的“对话框交互”走向了深度的“操作系统级操作”。对于行业而言，这意味着低成本、高效率的自动化工具将更加普及。特别是对于需要频繁跨应用操作的知识型工作和软件开发领域，原生集成计算机能力将显著降低构建复杂自动化流程的门槛。这不仅推动了企业级 AI 应用从信息检索向任务执行的转型，也预示着未来 AI 将更深入地融入日常办公和专业生产力流程中。

常见问题

问题 1：Gemini 3.5 Flash 的计算机使用功能与之前的版本有何不同？

答：此前该功能仅在 Gemini 2.5 的独立模型中可用，而现在它已原生集成在 Gemini 3.5 Flash 主模型中，提供了更好的性能支持，并能与其他内置工具（如搜索和地图）更紧密地协作。

问题 2：开发者如何接入这一新功能？

答：开发者和企业可以通过 Gemini API 以及 Gemini Enterprise Agent Platform（企业智能体平台）开始使用 Gemini 3.5 Flash 的计算机使用功能。

问题 3：如何确保 AI 在操作电脑时的安全性？

答：Google 采用了对抗性训练来抵御提示词注入。此外，企业可以开启安全防护系统，要求对敏感操作进行人工确认，或在检测到风险时自动终止任务。

Gemini 3.5 Flash 正式集成“计算机使用”功能：赋能跨平台智能体自动化