
Gemini 3.5 Flash 正式集成“计算机使用”功能:赋能跨平台智能体自动化
Google DeepMind 宣布在 Gemini 3.5 Flash 中原生集成“计算机使用”(Computer Use)功能。该功能允许开发者构建能够跨浏览器、移动端和桌面环境进行观察、推理及操作的智能体。相比之前的独立模型,此次集成提升了长程任务和企业自动化(如软件测试和专业应用协作)的性能。同时,Google 引入了对抗性训练及企业级安全防护机制,以降低提示词注入风险并确保操作安全。
核心要点
- 原生集成:Gemini 3.5 Flash 现已内置“计算机使用”工具,无需再依赖之前的独立模型,实现了更高效的任务处理。
- 跨平台能力:支持智能体在浏览器、移动设备和桌面环境中执行视觉识别、推理和操作,打破了应用间的壁垒。
- 企业级应用:优化了长程任务性能,特别适用于软件持续测试、文档审计和专业知识工作自动化。
- 安全保障:通过针对性对抗性训练及可选的确认机制、自动拦截系统,防范提示词注入风险,确保操作安全。
- 获取渠道:开发者和企业可通过 Gemini API 和 Gemini 企业智能体平台(Gemini Enterprise Agent Platform)接入使用。
详细分析
从独立模型到原生集成的演进
此前,计算机使用功能仅作为 Gemini 2.5 的独立模型提供。现在,Google 将其原生集成至 Gemini 3.5 Flash 中。这种集成不仅简化了开发流程,还利用了 Flash 模型的高性能特性,使其在处理复杂的智能体任务时表现更佳。通过内置该工具,Gemini 3.5 Flash 能够更好地协同现有的函数调用、搜索和地图接地(grounding)功能,为开发者提供了一个更统一、更强大的开发环境。
跨环境的操作与推理能力
Gemini 3.5 Flash 的计算机使用功能赋予了 AI 智能体“看”和“做”的能力。它不仅能分析屏幕内容,还能在不同平台间无缝切换。根据官方示例,该模型可以分析 Gemini 应用并生成功能分类列表,甚至能自动审计自身的文档以发现无障碍性(accessibility)问题。这种跨浏览器、移动端和桌面的通用性,为企业自动化提供了更广阔的空间,使其能够处理需要跨多个专业应用程序协作的复杂任务。
安全性与风险管控
针对智能体在实时环境中可能面临的提示词注入(prompt injection)风险,Google 采取了多重防护措施。首先是针对性的对抗性训练,以增强模型自身的防御能力。其次,为企业提供了两项关键的可选安全系统:一是针对敏感或不可逆操作的显式用户确认机制;二是能够识别并自动停止受间接提示词注入影响的任务。这些措施旨在确保 AI 在执行自动化任务时的可控性与安全性,降低企业部署风险。
行业影响
Gemini 3.5 Flash 集成计算机使用功能标志着 AI 智能体从简单的“对话框交互”走向了深度的“操作系统级操作”。对于行业而言,这意味着低成本、高效率的自动化工具将更加普及。特别是对于需要频繁跨应用操作的知识型工作和软件开发领域,原生集成计算机能力将显著降低构建复杂自动化流程的门槛。这不仅推动了企业级 AI 应用从信息检索向任务执行的转型,也预示着未来 AI 将更深入地融入日常办公和专业生产力流程中。
常见问题
问题 1:Gemini 3.5 Flash 的计算机使用功能与之前的版本有何不同?
答:此前该功能仅在 Gemini 2.5 的独立模型中可用,而现在它已原生集成在 Gemini 3.5 Flash 主模型中,提供了更好的性能支持,并能与其他内置工具(如搜索和地图)更紧密地协作。
问题 2:开发者如何接入这一新功能?
答:开发者和企业可以通过 Gemini API 以及 Gemini Enterprise Agent Platform(企业智能体平台)开始使用 Gemini 3.5 Flash 的计算机使用功能。
问题 3:如何确保 AI 在操作电脑时的安全性?
答:Google 采用了对抗性训练来抵御提示词注入。此外,企业可以开启安全防护系统,要求对敏感操作进行人工确认,或在检测到风险时自动终止任务。


