返回列表
技术AI人机交互创新

Google推出Generative UI:AI从“语言输出”迈向“交互体验生成”新范式

Google Research宣布推出Generative UI(生成式界面)技术,使AI模型能根据用户提示即时生成完整的可视化、交互式用户界面,如网页、工具、游戏和应用程序。这项技术已集成至Gemini App的“动态视图”和Google Search的AI Mode中,标志着Google将生成式AI从单纯的语言输出扩展到交互体验生成。Generative UI旨在解决传统AI线性文本输出在呈现复杂知识和交互任务时的局限性,通过AI系统即时设计并实现交互式界面。其核心机制包括工具访问、系统级指令集和输出后处理,确保AI能生成可运行、结构清晰且安全的界面。该技术有望推动人机交互范式转型,使未来的界面根据用户需求由AI即时生成。

Xiaohu.AI 日报

Google Research近日宣布推出一项名为Generative UI(生成式界面)的全新交互式技术范式。这项技术突破使得AI模型不仅能够生成内容,还能自动生成完整的可视化、交互式用户界面,包括网页、工具、游戏和应用程序等。Generative UI的核心理念在于,它已集成至Gemini App的“动态视图”(Gemini 动态视图)和Google Search的AI Mode中,这代表着Google正将生成式AI从传统的“语言输出”拓展到“交互体验生成”的新阶段。

传统的AI交互方式存在一个根本限制,即无论语言模型多么强大,用户最终看到的仍是线性的文本输出,这对于呈现复杂知识、空间关系或交互任务极为不利。Google研究团队正是基于这一问题,提出了Generative UI的概念:一个能够根据用户提示(prompt)即时设计并实现交互式界面的AI系统。

Generative UI被定义为一种新型AI能力,它使模型能够根据自然语言提示,生成完整、可交互、视觉化、任务导向的用户体验。生成结果可以是可运行的网页、可操作的工具、可视化仪表板、交互式模拟场景,甚至是教学或实验环境。与以往不同的是,这些界面并非预先设计好的模板,而是AI在用户提出问题的那一刻即时生成的。例如,当用户输入“解释DNA转录过程”时,传统AI可能只会输出一段解释文字,而Generative UI则会生成一个动态页面,显示DNA链和RNA聚合酶的动画,用不同颜色标出转录步骤,并允许用户点击查看细胞差异,甚至拖动滑块来“观察”整个过程。这体现了“生成内容”和“生成“体验”的根本区别。

Generative UI已在两个核心Google平台进行落地实验。首先是Gemini App的“动态视图”(Dynamic View)和Visual Layout模式。Gemini 3通过其智能体式编程能力(Agentic Coding),能够针对每个提示生成独立的界面逻辑。其特征包括自动设计交互式体验,根据目标用户(如儿童、成人、专业人士)调整内容层次,并可生成教育工具、学习游戏、商业展示或计划管理界面。例如,输入“帮我解释微生物群,让一个五岁小孩能听懂”,AI会生成一个带插图、动画和语音解说的教学页面。输入“为一个品牌创建社交媒体画廊”,AI则会生成带图片和排版的展示界面。此功能目前以实验形式推出。

其次,Generative UI也整合进了Google搜索的AI Mode模式。搜索引擎不再仅仅提供文本摘要或网页链接,而是直接构建互动式说明环境。例如,当用户搜索“解释量子纠缠”时,AI会即时生成动态分步动画、分子结构示意图、可操作的分子模型以及文本与图像混合解释区。目前,该功能面向Google AI Pro与Ultra用户(美国地区)开放,需在搜索AI模式的“Thinking”选项中启用。

Google在论文《Generative UI: LLMs are Effective UI Generators》中介绍了其实现架构,核心由三个部分构成:

1. **工具访问(Tool Access)**:AI不再“孤立工作”,而是可以访问一组外部工具,例如图像生成(如Imagen系统)、搜索引擎结果、代码执行或数据检索模块、图形绘制和模拟环境。这些工具的结果可以被模型用于生成更高质量的内容,并直接传递到用户浏览器以减少延迟,使AI能够生成真正运行的界面。
2. **系统级指令集(System-Level Instructions)**:AI在后台接收一组严格的系统指令,例如要生成什么类型的界面、代码格式、设计风格以及避免错误的规范。这些指令如同设计说明书,确保AI生成的结果能够正确运行、结构清晰、风格统一。
3. **输出后处理(Post-Processing)**:AI输出后由多层算法进行修正与安全检查,包括检查代码是否能运行、修正常见错误、保持统一的视觉风格(如“Wizard Green”样式),并确保输出安全、不混乱。最终,AI输出的不是纯文字,而是一个可以直接使用的界面。

Generative UI的研究价值在于推动人机交互(HCI)进入“AI生成交互界面”阶段。未来的界面将不再由设计师预制,而是根据上下文由AI即时生成,完全以用户需求为中心。这不仅是一种新的UI形式,更是AI迈向“环境生成智能”的起点,意味着AI不只是回答问题,而是构建一个让用户自己去理解和探索的环境。

相关新闻

技术

Google发布Antigravity平台:AI智能体主导软件开发,深度集成Gemini 3模型

Google正式推出Google Antigravity平台,这是一个面向“AI智能体主导开发”的全新系统。它不再是传统IDE,而是具备自治能力的智能体协作平台,使AI能够独立规划、执行和验证完整的软件开发任务。Antigravity深度集成Gemini 3模型,是Google在“智能体式编码”方向的关键落地产品,旨在解决传统AI辅助工具的局限性,实现AI跨环境工作、规划复杂任务、自动执行操作并自行检查结果,从而重新定义AI时代的开发方式。

技术

谷歌DeepMind发布SIMA2:通用智能体在复杂3D虚拟世界中性能显著提升

谷歌DeepMind近日推出SIMA2,一款基于Gemini模型的通用智能体,旨在提升其在复杂3D游戏世界中的表现。SIMA2整合了Gemini2.5Flash Lite作为核心推理引擎,使其不仅能执行指令,还能与玩家互动,并能解释意图、回答问题。相比前身SIMA1的31%任务完成率,SIMA2的任务完成率已提升至62%,接近人类玩家的71%。该智能体还扩展了指令渠道,支持文本、语音、图形和表情符号,并通过自我改进机制在无需额外人类演示的情况下学习新任务。SIMA2与Genie3结合,展示了在全新3D环境中识别物体和完成任务的能力,标志着通用智能体向现实世界机器人迈进的重要一步。

技术

xAI发布Grok 4.1:情感智能与人格一致性显著提升,LMArena榜单居首

xAI正式发布Grok 4.1,旨在打造更自然、可信的对话伙伴,而非单纯的答题机器。新版本在创造力、情感智能、人格一致性和协作性四大维度实现质变,尤其强调理解细微意图和连贯的人格表现。Grok 4.1引入高阶推理模型作为奖励模型,实现AI训练AI,并首次提出“人格一致性”优化目标。性能评估显示,Grok 4.1在LMArena通用能力榜单中位居榜首,情感智能、创意写作表现优异,并显著降低了幻觉发生率。