
美团LongCat开源General 365评测集:Gemini 3 Pro仅获62.8分,树立推理新标尺
美团LongCat团队正式发布General 365推理评测集,旨在为大模型推理能力建立更严苛的标准。在对26款主流模型的实测中,目前顶尖的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型未能达到60分的及格线。这一结果揭示了当前AI模型在复杂推理任务上的局限性,为行业提供了全新的性能衡量基准。
核心要点
- 发布新标尺:美团LongCat团队正式开源General 365推理评测集,专注于衡量大模型的通用推理能力。
- 覆盖范围广:该评测集对目前市面上26款主流模型进行了深度实测。
- 顶尖模型受挫:被视为行业领先的Gemini 3 Pro在测试中仅取得62.8%的准确率。
- 行业整体表现:测试结果显示,绝大多数主流模型在General 365面前表现不佳,准确率普遍低于60%的及格水平。
详细分析
General 365:推理能力的新挑战
美团LongCat团队推出的General 365评测集,其核心目标是为AI领域提供一个更具挑战性的推理能力衡量标准。在当前大模型层出不穷的背景下,传统的评测基准往往难以拉开模型间的差距。General 365通过对26款主流模型的实测证明,真实的推理能力依然是AI发展的核心瓶颈。该评测集的开源,意味着开发者现在拥有了一个能够精准识别模型逻辑短板的“试金石”。
性能断层:Gemini 3 Pro的领先与局限
在本次公布的实测数据中,Gemini 3 Pro以62.8%的准确率位居前列。虽然这一成绩在26款模型中表现突出,但从绝对数值来看,62.8%的准确率反映出即便是全球最顶尖的模型,在面对General 365所设定的推理任务时,依然存在显著的提升空间。这一数据打破了市场对大模型“全知全能”的固有印象,强调了在复杂逻辑推演领域,AI仍处于不断进化的早期阶段。
行业现状:多数模型未及及格线
更为引人注目的是,参与测试的绝大多数模型甚至未能触及60分的及格线。这一现象揭示了当前AI行业的一个残酷现实:虽然许多模型在对话生成、创意写作等任务上表现出色,但在严谨的逻辑推理层面,基础能力依然薄弱。美团LongCat团队通过General 365展示了这种普遍存在的“推理赤字”,促使行业重新思考模型训练的侧重点,从单纯的参数规模扩张转向底层逻辑能力的深度构建。
行业影响
General 365的发布对AI行业具有深远的意义。首先,它树立了推理评测的新标尺,有助于纠正行业中过度关注表面性能的倾向。其次,通过开源这一工具,美团技术团队为全球开发者提供了高质量的测试资源,有助于加速大模型在逻辑推理方面的技术突破。最后,Gemini 3 Pro等顶尖模型的实测表现,为后续的研究指明了方向,即如何跨越60分这一“及格线”,实现真正高可靠性的智能推理。
常见问题
什么是General 365评测集?
General 365是由美团LongCat团队发布的、针对大模型推理能力的专业评测基准。它通过对主流模型进行实测,旨在提供一个比现有标准更严苛、更具参考价值的推理能力衡量尺度。
为什么Gemini 3 Pro在General 365中的得分只有62.8%?
这主要源于General 365评测集极高的难度和对逻辑推理能力的深度挖掘。62.8%的得分虽然在26款模型中领先,但也说明了当前最先进的模型在处理复杂推理任务时仍面临巨大挑战,尚未达到完美的水平。
绝大多数模型不及格意味着什么?
这意味着目前市面上大多数主流模型在通用推理任务上的表现仍不理想。这一结果提醒行业,大模型的逻辑推理能力仍有待加强,距离实现真正的高级认知智能还有较长的路要走。


