
美团LongCat发布General 365推理评测基准:Gemini 3 Pro仅获62.8分
美团LongCat团队正式推出General 365推理评测基准,旨在为大模型推理能力树立新标尺。在对26款主流模型的实测中,当前顶尖模型Gemini 3 Pro的准确率仅为62.8%,而绝大多数模型未能达到60分的及格线。这一结果揭示了当前AI模型在复杂推理任务中面临的严峻挑战,为行业提供了更具辨析力的评估工具。
核心要点
- 发布全新基准:美团LongCat团队正式开源General 365,这是一个专注于大模型推理能力的全新评测标尺。
- 覆盖范围广泛:该评测对目前市面上26款主流大模型进行了深度实测,涵盖了当前行业内的核心竞争力量。
- 顶尖模型表现受限:即便是在行业内被视为“地表最强”的Gemini 3 Pro,在General 365的测试中准确率也仅为62.8%。
- 行业整体水平待提升:实测数据显示,绝大多数参测模型未能触及60分的及格线,反映出复杂推理仍是AI发展的瓶颈。
详细分析
推理评测的新高度:General 365的诞生
随着大语言模型(LLM)的快速迭代,传统的评测基准在面对日益增强的模型能力时,往往出现“分数饱和”现象,难以区分顶尖模型之间的细微差距。美团LongCat团队推出的General 365正是为了打破这一僵局。作为一套全新的推理评测标尺,General 365的设计初衷是提供更具挑战性、更贴近真实复杂逻辑场景的测试环境。通过对26款主流模型的横向对比,该基准不仅验证了现有模型的实际水平,也为未来AI推理能力的进化指明了方向。
顶尖模型的“滑铁卢”:62.8%背后的深意
在本次公布的测试结果中,最引人注目的莫过于Gemini 3 Pro的表现。作为目前公认的性能巅峰,Gemini 3 Pro在General 365中的准确率仅为62.8%。这一数据极具冲击力,它不仅打破了市场对顶尖模型“无所不能”的固有印象,更客观地展示了在严苛的推理逻辑要求下,即便是最先进的算法架构仍有巨大的提升空间。当最强模型也只能勉强跨过及格线时,General 365的含金量与测试难度不言而喻。
行业及格线之困:多数模型表现乏力
除了顶尖模型的表现外,General 365的实测结果还揭示了一个残酷的现实:在参与测试的26款模型中,绝大多数模型的得分甚至未能达到60分。这意味着在面对General 365所设定的推理任务时,当前主流模型的整体表现尚处于初级阶段。这种“集体不及格”的现象说明,现有的模型训练方法在处理高强度逻辑推理、多步链式思考等方面仍存在短板。美团此举通过开源这一标尺,实际上是在倒逼行业从单纯的参数竞赛转向更深层次的逻辑推理优化。
行业影响
美团General 365的开源对AI行业具有深远意义。首先,它提供了一个更具辨析力的评价体系,有助于开发者更精准地定位模型在推理能力上的缺陷。其次,Gemini 3 Pro等顶尖模型的实测数据为行业树立了新的参照系,打破了部分模型在简单测试集上刷分的虚假繁荣。最后,这一基准的发布体现了中国互联网大厂在AI基础设施与评价标准建设上的话语权提升,将推动全球大模型研发向更高质量的逻辑推理阶段迈进。
常见问题
问题 1:什么是General 365评测基准?
General 365是由美团LongCat团队研发并开源的一套针对大模型推理能力的通用评测基准。它通过高难度的测试设计,旨在客观评估模型在复杂逻辑推理任务中的真实表现,是目前行业内极具挑战性的“试金石”。
问题 2:为什么Gemini 3 Pro在General 365中只拿到了62.8分?
这主要源于General 365极高的测试难度和严苛的评分标准。62.8%的准确率虽然在数值上看起来不高,但在该基准下已是26款主流模型中的最高分。这反映了该基准能够有效拉开模型间的差距,识别出即便在顶尖模型中也难以攻克的推理难题。
问题 3:General 365的开源对开发者有什么帮助?
通过General 365,开发者可以利用这套标准对自有模型进行深度体检,了解模型在处理复杂推理任务时的薄弱环节。同时,开源特性允许社区共同参与完善评测体系,促进大模型推理技术的整体进步。


