返回列表
美团LongCat发布General 365评测基准:Gemini 3 Pro仅获62.8分,多数模型不及格
行业新闻美团人工智能评测基准

美团LongCat发布General 365评测基准:Gemini 3 Pro仅获62.8分,多数模型不及格

美团LongCat团队正式发布General 365推理评测基准,旨在为大模型推理能力树立新标尺。在对26款主流模型的实测中,当前顶尖模型Gemini 3 Pro的准确率仅为62.8%,而绝大多数模型得分均低于60分及格线。这一结果揭示了当前AI模型在复杂推理任务中面临的严峻挑战,为行业提供了更具辨识度的性能参考。

美团技术团队

核心要点

  • 发布全新基准:美团LongCat团队正式推出名为“General 365”的通用推理评测基准。
  • 覆盖范围广泛:该评测对目前市面上26款主流大模型进行了深度实测。
  • 顶尖模型受挫:被视为目前最强的Gemini 3 Pro在实测中仅取得了62.8%的准确率。
  • 行业普遍困境:测试结果显示,绝大多数参与评测的模型准确率未能达到60%的及格水平。

详细分析

General 365:推理能力的新试金石

美团LongCat团队发布的General 365评测基准,其核心价值在于为当前的大模型推理能力提供了一个更为严苛且具象的衡量标准。在人工智能领域,推理能力是衡量模型智能程度的关键指标之一。通过对26款主流模型的集中实测,General 365不仅展示了不同模型之间的性能梯队,更重要的是,它揭示了当前AI技术在处理复杂逻辑与推理任务时存在的真实瓶颈。这一基准的出现,打破了以往部分评测中模型得分普遍偏高的虚假繁荣,为行业回归技术本质提供了数据支持。

性能天花板:Gemini 3 Pro的领先与局限

在本次General 365的实测数据中,Gemini 3 Pro的表现尤为引人关注。作为目前公认的顶尖模型,其62.8%的准确率虽然在26款模型中位居前列,但也从侧面反映出即使是行业领先的技术,在面对General 365所设定的推理挑战时,依然显得力不从心。62.8%的得分意味着在复杂的推理场景下,即便是最强的模型也存在近四成的错误率。这一数据不仅定义了当前AI推理能力的“天花板”,也为后续模型的迭代优化指明了巨大的提升空间。

行业现状:普遍面临的“及格线”难题

除了顶尖模型的表现外,General 365的测试结果还呈现出一个令人深思的现象:绝大多数主流模型甚至无法触及60分的及格线。这一普遍性的低分现象说明,当前大模型在通用推理任务上的表现仍处于初级阶段。多数模型在处理高难度、多步骤或深层次逻辑推理时,往往会出现逻辑断裂或判断失误。这种集体性的“不及格”现状,预示着AI行业在追求参数规模增长的同时,亟需在推理算法和逻辑构建上寻求更深层次的突破。

行业影响

美团LongCat发布General 365,对AI行业具有深远的导向意义。首先,它提供了一个更具公信力和难度的评测工具,有助于过滤掉那些在简单任务上表现良好但在复杂推理中失效的“刷榜”模型。其次,通过公开Gemini 3 Pro等顶尖模型的真实得分,它降低了行业对AI能力的盲目乐观,促使研发团队更加关注模型逻辑推理的底层建设。最后,这一基准的确立将推动全球AI研究向更高质量、更深逻辑的方向演进,为下一代更具智能的推理模型诞生奠定基础。

常见问题

问题 1:General 365评测基准的主要测试对象是谁?

美团LongCat团队发布的General 365主要针对目前全球范围内的26款主流大模型进行实测,旨在评估这些模型在通用场景下的推理能力。

问题 2:Gemini 3 Pro在General 365中的表现如何?

在General 365的实测中,Gemini 3 Pro虽然被认为是目前最强的模型,但其准确率仅为62.8%,尚未达到极高水平,这也反映了该评测基准的高难度。

问题 3:为什么说大多数模型在General 365中表现不佳?

根据美团技术团队公布的数据,绝大多数参与测试的模型准确率都低于60%,未能达到及格线,这表明当前主流模型在复杂推理任务上仍有待加强。

相关新闻

ACL 2026美团技术团队6篇入选论文深度解读:大模型评测与推理优化新范式
行业新闻

ACL 2026美团技术团队6篇入选论文深度解读:大模型评测与推理优化新范式

本文深度解读了美团技术团队入选ACL 2026顶会的6篇高质量论文。研究内容涵盖了大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化以及生成式推荐等前沿领域。这些成果展示了美团在自然语言处理(NLP)领域的深厚技术积淀,为构建生成式AI新范式提供了重要的理论支持与实践参考。

美团BI架构演进:以指标平台为核心解决口径混乱与查询性能难题
行业新闻

美团BI架构演进:以指标平台为核心解决口径混乱与查询性能难题

美团技术团队近期分享了其在BI领域的最新实践。通过构建以指标平台为核心的新一代BI架构,美团重点打造了“自动语义”和“增强计算”两大核心能力。该方案针对性地解决了传统BI平台在个性化数据集驱动下普遍存在的数据口径不一及查询性能低下等痛点,实现了数据驱动决策效率的显著提升。

行业新闻

“无人化经济”并非不可能?深度解析AI取代人类后的经济逻辑悖论

本文探讨了人工智能全面取代人类劳动力后,经济体系是否会因消费停滞而崩溃的观点。作者George Malandrakis指出,认为“没有人类消费就没有经济”的逻辑可能基于错误的隐含假设。文章从哲学角度分析了人类逻辑的局限性,并对“金钱”和“正义”等抽象概念进行了反思,提出“无人化经济”在技术上并非完全不可能,挑战了传统的经济循环认知。