返回列表
美团LongCat发布General 365推理评测基准:Gemini 3 Pro仅获62.8分
行业新闻美团大模型评测基准

美团LongCat发布General 365推理评测基准:Gemini 3 Pro仅获62.8分

美团LongCat团队正式推出General 365推理评测基准,旨在为大模型推理能力树立新标尺。在对26款主流模型的实测中,当前顶尖模型Gemini 3 Pro的准确率仅为62.8%,而绝大多数模型未能达到60分的及格线。这一结果揭示了当前AI模型在复杂推理任务中面临的严峻挑战,为行业提供了更具辨析力的评估工具。

美团技术团队

核心要点

  • 发布全新基准:美团LongCat团队正式开源General 365,这是一个专注于大模型推理能力的全新评测标尺。
  • 覆盖范围广泛:该评测对目前市面上26款主流大模型进行了深度实测,涵盖了当前行业内的核心竞争力量。
  • 顶尖模型表现受限:即便是在行业内被视为“地表最强”的Gemini 3 Pro,在General 365的测试中准确率也仅为62.8%。
  • 行业整体水平待提升:实测数据显示,绝大多数参测模型未能触及60分的及格线,反映出复杂推理仍是AI发展的瓶颈。

详细分析

推理评测的新高度:General 365的诞生

随着大语言模型(LLM)的快速迭代,传统的评测基准在面对日益增强的模型能力时,往往出现“分数饱和”现象,难以区分顶尖模型之间的细微差距。美团LongCat团队推出的General 365正是为了打破这一僵局。作为一套全新的推理评测标尺,General 365的设计初衷是提供更具挑战性、更贴近真实复杂逻辑场景的测试环境。通过对26款主流模型的横向对比,该基准不仅验证了现有模型的实际水平,也为未来AI推理能力的进化指明了方向。

顶尖模型的“滑铁卢”:62.8%背后的深意

在本次公布的测试结果中,最引人注目的莫过于Gemini 3 Pro的表现。作为目前公认的性能巅峰,Gemini 3 Pro在General 365中的准确率仅为62.8%。这一数据极具冲击力,它不仅打破了市场对顶尖模型“无所不能”的固有印象,更客观地展示了在严苛的推理逻辑要求下,即便是最先进的算法架构仍有巨大的提升空间。当最强模型也只能勉强跨过及格线时,General 365的含金量与测试难度不言而喻。

行业及格线之困:多数模型表现乏力

除了顶尖模型的表现外,General 365的实测结果还揭示了一个残酷的现实:在参与测试的26款模型中,绝大多数模型的得分甚至未能达到60分。这意味着在面对General 365所设定的推理任务时,当前主流模型的整体表现尚处于初级阶段。这种“集体不及格”的现象说明,现有的模型训练方法在处理高强度逻辑推理、多步链式思考等方面仍存在短板。美团此举通过开源这一标尺,实际上是在倒逼行业从单纯的参数竞赛转向更深层次的逻辑推理优化。

行业影响

美团General 365的开源对AI行业具有深远意义。首先,它提供了一个更具辨析力的评价体系,有助于开发者更精准地定位模型在推理能力上的缺陷。其次,Gemini 3 Pro等顶尖模型的实测数据为行业树立了新的参照系,打破了部分模型在简单测试集上刷分的虚假繁荣。最后,这一基准的发布体现了中国互联网大厂在AI基础设施与评价标准建设上的话语权提升,将推动全球大模型研发向更高质量的逻辑推理阶段迈进。

常见问题

问题 1:什么是General 365评测基准?

General 365是由美团LongCat团队研发并开源的一套针对大模型推理能力的通用评测基准。它通过高难度的测试设计,旨在客观评估模型在复杂逻辑推理任务中的真实表现,是目前行业内极具挑战性的“试金石”。

问题 2:为什么Gemini 3 Pro在General 365中只拿到了62.8分?

这主要源于General 365极高的测试难度和严苛的评分标准。62.8%的准确率虽然在数值上看起来不高,但在该基准下已是26款主流模型中的最高分。这反映了该基准能够有效拉开模型间的差距,识别出即便在顶尖模型中也难以攻克的推理难题。

问题 3:General 365的开源对开发者有什么帮助?

通过General 365,开发者可以利用这套标准对自有模型进行深度体检,了解模型在处理复杂推理任务时的薄弱环节。同时,开源特性允许社区共同参与完善评测体系,促进大模型推理技术的整体进步。

相关新闻

美团BI架构演进:以指标平台为核心解决数据口径与性能难题
行业新闻

美团BI架构演进:以指标平台为核心解决数据口径与性能难题

美团数据平台近期分享了其在BI领域的最新技术实践。通过构建以指标平台为核心的新一代BI架构,美团重点攻克了传统BI在个性化数据集驱动下产生的数据口径混乱与查询性能低下等痛点。该架构凭借“自动语义”与“增强计算”两大核心能力,实现了数据定义的标准化与查询效率的显著提升,为企业级数据治理与高效分析提供了重要的实践参考。

ACL 2026美团论文精选:从能力评测到推理优化,构建生成新范式
行业新闻

ACL 2026美团论文精选:从能力评测到推理优化,构建生成新范式

美团技术团队在ACL 2026国际顶会上发表了6篇高质量论文,研究范畴横跨大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习及生成式推荐等前沿领域。这些研究不仅展示了美团在自然语言处理(NLP)领域的深厚技术积淀,更通过多维度的技术创新,致力于构建大模型时代下的生成新范式,为行业提供了宝贵的理论支撑与实践参考。

三星考虑利用光州工厂进行AI芯片封装,12层HBM4E样品已正式出货
行业新闻

三星考虑利用光州工厂进行AI芯片封装,12层HBM4E样品已正式出货

三星电子正计划扩大其AI芯片业务版图,考虑将其位于韩国光州的工厂用于AI芯片封装。与此同时,三星在下一代高带宽内存技术上取得重要进展,已于2026年5月开始向客户交付12层HBM4E芯片样品,标志着其在AI存储市场的竞争进入新阶段。