返回列表
行业新闻AI创新科技

谷歌发布Gemini 3:宣称在数学、科学、多模态及智能体AI基准测试中领先

在经历一个多月的传闻和猜测后,谷歌于今日正式发布了其最新专有前沿模型家族Gemini 3。这是自2023年Gemini系列首次亮相以来,谷歌最全面的AI发布。Gemini 3作为完整的模型组合推出,包括旗舰模型Gemini 3 Pro、增强推理模式Gemini 3 Deep Think、支持视觉布局和动态视图的生成接口模型,以及用于多步任务执行的Gemini Agent。独立AI基准测试机构Artificial Analysis已将Gemini 3 Pro评为全球“AI新领导者”,得分73,使谷歌从之前的第九位跃升至首位。LMArena也报告Gemini 3 Pro在文本推理、视觉、编码和网页开发等所有主要评估轨道上均排名世界第一。

VentureBeat

在经历一个多月的传闻和热烈猜测——包括Polymarket对发布日期的押注——之后,谷歌今天正式发布了Gemini 3,这是其最新的专有前沿模型家族,也是该公司自2023年Gemini系列首次亮相以来最全面的AI发布。这些模型是专有的(闭源),仅通过谷歌产品、开发者平台和付费API提供,包括Google AI Studio、Vertex AI、面向开发者的Gemini命令行界面(CLI),以及更广泛的集成开发环境(IDE)生态系统中的第三方集成。

Gemini 3作为一个完整的组合推出,包括:

  • Gemini 3 Pro:旗舰前沿模型
  • Gemini 3 Deep Think:增强推理模式
  • 支持视觉布局和动态视图的生成接口模型
  • 用于多步任务执行的Gemini Agent
  • 嵌入在谷歌新一代以智能体为中心的开发环境Google Antigravity中的Gemini 3引擎。

“这是世界上最好的模型,领先幅度惊人!”谷歌DeepMind研究科学家Yi Tay在X上写道。事实上,独立的AI基准测试和分析机构Artificial Analysis已经将Gemini 3 Pro加冕为全球“AI新领导者”,在该机构的指数上获得了73分的最高分,使谷歌从之前凭借Gemini 2.5 Pro模型(得分为60,落后于OpenAI、Moonshot AI、xAI、Anthropic和MiniMax模型)排名第九的位置跃升。正如Artificial Analysis在X上所写:“谷歌首次拥有最智能的模型。”

另一个独立的排行榜网站LMArena报告称,Gemini 3 Pro在所有主要评估轨道上均排名世界第一,包括文本推理、视觉、编码和网页开发。在X上的@arena账户发布的一篇公开帖子中表示,该模型甚至超越了新发布的(数小时前)Grok-4.1,以及Claude 4.5和GPT-5级别的系统,在数学、长篇查询、创意写作等类别中表现出色。

相关新闻

奥斯卡官方宣布:AI生成的演员与剧本正式失去参评资格
行业新闻

奥斯卡官方宣布:AI生成的演员与剧本正式失去参评资格

根据最新行业动态,奥斯卡金像奖(Oscars)已明确规定,由人工智能生成的演员和剧本将不再具备参评资格。这一政策变动标志着传统影视最高奖项对人类原生创作权的严格保护,同时也对如Tilly Norwood等相关从业者产生了直接的负面影响。

智能体框架应置于沙箱之外:AI Agent 架构设计的安全与效率权衡
行业新闻

智能体框架应置于沙箱之外:AI Agent 架构设计的安全与效率权衡

本文深入探讨了 AI Agent 核心驱动循环(Harness)的两种部署架构:置于沙箱内部与置于沙箱外部。分析指出,虽然将 Harness 置于沙箱内具有模型简单、易于复用现有工具的优点,但在多用户组织环境下,将 Harness 置于沙箱外能有效保障凭证安全,防止 LLM API 密钥和用户令牌泄露。文章详细对比了两种架构在安全属性、故障模式及适用场景上的核心差异。

VS Code 拟默认在提交信息中添加 Copilot 署名,引发开发者社区强烈抗议
行业新闻

VS Code 拟默认在提交信息中添加 Copilot 署名,引发开发者社区强烈抗议

微软 VS Code 团队近期提交的一项拉取请求(PR #310226)显示,官方计划默认在 Git 提交信息中插入“Co-authored-by: Copilot”标识。这意味着无论开发者是否实际使用了 AI 辅助,提交记录都可能包含 AI 署名。该提议在 GitHub 上引发了巨大争议,反对票数(👎)已超过 370 票,反映出开发者对代码所有权、贡献透明度及工具过度干预的深度担忧。