
美团LongCat发布General 365评测基准:Gemini 3 Pro仅获62.8分,多数模型不及格
美团LongCat团队正式发布General 365推理评测基准,旨在为大模型推理能力树立新标尺。在对26款主流模型的实测中,当前顶尖模型Gemini 3 Pro的准确率仅为62.8%,而绝大多数模型得分均低于60分及格线。这一结果揭示了当前AI模型在复杂推理任务中面临的严峻挑战,为行业提供了更具辨识度的性能参考。
核心要点
- 发布全新基准:美团LongCat团队正式推出名为“General 365”的通用推理评测基准。
- 覆盖范围广泛:该评测对目前市面上26款主流大模型进行了深度实测。
- 顶尖模型受挫:被视为目前最强的Gemini 3 Pro在实测中仅取得了62.8%的准确率。
- 行业普遍困境:测试结果显示,绝大多数参与评测的模型准确率未能达到60%的及格水平。
详细分析
General 365:推理能力的新试金石
美团LongCat团队发布的General 365评测基准,其核心价值在于为当前的大模型推理能力提供了一个更为严苛且具象的衡量标准。在人工智能领域,推理能力是衡量模型智能程度的关键指标之一。通过对26款主流模型的集中实测,General 365不仅展示了不同模型之间的性能梯队,更重要的是,它揭示了当前AI技术在处理复杂逻辑与推理任务时存在的真实瓶颈。这一基准的出现,打破了以往部分评测中模型得分普遍偏高的虚假繁荣,为行业回归技术本质提供了数据支持。
性能天花板:Gemini 3 Pro的领先与局限
在本次General 365的实测数据中,Gemini 3 Pro的表现尤为引人关注。作为目前公认的顶尖模型,其62.8%的准确率虽然在26款模型中位居前列,但也从侧面反映出即使是行业领先的技术,在面对General 365所设定的推理挑战时,依然显得力不从心。62.8%的得分意味着在复杂的推理场景下,即便是最强的模型也存在近四成的错误率。这一数据不仅定义了当前AI推理能力的“天花板”,也为后续模型的迭代优化指明了巨大的提升空间。
行业现状:普遍面临的“及格线”难题
除了顶尖模型的表现外,General 365的测试结果还呈现出一个令人深思的现象:绝大多数主流模型甚至无法触及60分的及格线。这一普遍性的低分现象说明,当前大模型在通用推理任务上的表现仍处于初级阶段。多数模型在处理高难度、多步骤或深层次逻辑推理时,往往会出现逻辑断裂或判断失误。这种集体性的“不及格”现状,预示着AI行业在追求参数规模增长的同时,亟需在推理算法和逻辑构建上寻求更深层次的突破。
行业影响
美团LongCat发布General 365,对AI行业具有深远的导向意义。首先,它提供了一个更具公信力和难度的评测工具,有助于过滤掉那些在简单任务上表现良好但在复杂推理中失效的“刷榜”模型。其次,通过公开Gemini 3 Pro等顶尖模型的真实得分,它降低了行业对AI能力的盲目乐观,促使研发团队更加关注模型逻辑推理的底层建设。最后,这一基准的确立将推动全球AI研究向更高质量、更深逻辑的方向演进,为下一代更具智能的推理模型诞生奠定基础。
常见问题
问题 1:General 365评测基准的主要测试对象是谁?
美团LongCat团队发布的General 365主要针对目前全球范围内的26款主流大模型进行实测,旨在评估这些模型在通用场景下的推理能力。
问题 2:Gemini 3 Pro在General 365中的表现如何?
在General 365的实测中,Gemini 3 Pro虽然被认为是目前最强的模型,但其准确率仅为62.8%,尚未达到极高水平,这也反映了该评测基准的高难度。
问题 3:为什么说大多数模型在General 365中表现不佳?
根据美团技术团队公布的数据,绝大多数参与测试的模型准确率都低于60%,未能达到及格线,这表明当前主流模型在复杂推理任务上仍有待加强。

