谷歌推出Gemini 3.1 Pro,推理性能翻倍重夺AI模型榜首
谷歌近日发布了其旗舰AI模型Gemini 3.1 Pro,旨在为科学、研究和工程等需要深度规划和综合的任务提供更智能的基础。第三方机构Artificial Analysis的评估显示,Gemini 3.1 Pro已再次成为全球最强大、性能最优的AI模型。该模型在ARC-AGI-2逻辑基准测试中取得了77.1%的验证分数,推理性能是前一代Gemini 3 Pro的两倍多。此外,Gemini 3.1 Pro在科学知识、编码和多模态理解等专业领域也表现出色,标志着模型在处理“思考”令牌和长周期任务方面的显著改进。
去年底,谷歌凭借Gemini 3 Pro的发布,曾短暂地成为全球最强大的AI模型,但很快就被OpenAI和Anthropic发布的新模型超越,这在竞争激烈的AI竞赛中屡见不鲜。现在,谷歌携其旗舰模型的更新版本Gemini 3.1 Pro卷土重来,旨在重新夺回宝座。Gemini 3.1 Pro被定位为更智能的基线模型,适用于那些简单响应不足以满足需求的任务,特别是针对科学、研究和工程等需要深度规划和综合的工作流程。
第三方公司Artificial Analysis的评估已显示,谷歌的Gemini 3.1 Pro已跃居前列,再次成为全球最强大、性能最优的AI模型。其最显著的进步在于核心推理能力的巨大飞跃。在严格的逻辑基准测试中,Gemini 3.1 Pro表现出色。值得注意的是,该模型在ARC-AGI-2测试中取得了77.1%的验证分数。这个特定的基准旨在评估模型解决在训练期间从未遇到过的全新逻辑模式的能力。这一结果表明,其推理性能是之前Gemini 3 Pro模型的两倍多。
除了抽象逻辑,内部基准测试表明Gemini 3.1 Pro在专业领域也极具竞争力:
科学知识:在GPQA Diamond测试中得分94.3%。
编码:在LiveCodeBench Pro中达到2887的Elo分数,并在SWE-Bench Verified中得分80.6%。
多模态理解:在MMMLU中达到92.6%。
这些技术上的进步不仅仅是增量的;它们代表了模型在处理“思考”令牌和长周期任务方面的改进,为开发人员构建自主代理提供了更可靠的基础。
谷歌正在通过“智能应用”来展示该模型的实用性,将重点从聊天界面转向功能性输出。其中最突出的特点之一是模型生成的能力。