
美团LongCat发布General 365评测集:Gemini 3 Pro推理准确率仅62.8%
美团LongCat团队正式发布全新推理评测基准General 365。在对全球26款主流大模型的实测中,目前性能顶尖的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型表现均未达到60分的及格线。这一结果揭示了当前大模型在复杂推理任务上的局限性,为AI行业树立了更高难度的性能评估新标尺。
核心要点
- 发布全新基准:美团LongCat团队正式推出名为“General 365”的通用推理评测集,旨在评估大模型的深度推理能力。
- 覆盖范围广泛:该评测集对全球范围内26款主流大模型进行了实测,涵盖了当前市场上的核心竞争产品。
- 顶尖模型受挫:实测数据显示,目前公认的最强模型Gemini 3 Pro在General 365上的准确率仅为62.8%。
- 行业普遍瓶颈:绝大多数参测模型未能达到60分的及格水平,反映出大模型在逻辑推理领域仍存在显著短板。
详细分析
General 365:推理能力的新试金石
美团LongCat团队此次发布的General 365,其核心意义在于为大模型提供了一个更具挑战性的“推理考场”。在当前大模型技术快速迭代的背景下,传统的评测基准往往容易出现“分数虚高”或“针对性刷榜”的现象。General 365的出现,通过对26款主流模型的横向测评,真实地反映了当前AI技术在处理复杂逻辑、多步推理以及常识判断等任务时的实际水平。这一标尺的建立,不仅有助于开发者识别模型的薄弱环节,也为行业提供了更具参考价值的性能坐标。
评测数据背后的逻辑困境
根据美团技术团队公布的实测结果,即便是目前处于行业领先地位的Gemini 3 Pro,其准确率也仅维持在62.8%的水平。这一数据极具冲击力,因为它打破了市场对顶尖模型“无所不能”的固有印象。更值得关注的是,绝大多数模型甚至无法触及60分的及格线。这意味着在面对General 365所设定的推理任务时,现有的大模型架构在逻辑链条的完整性、因果关系的识别以及复杂指令的执行上,依然面临着巨大的技术瓶颈。这种普遍性的低分现象,预示着大模型从“语言生成”向“深度推理”跨越的难度远超预期。
行业影响
General 365的发布对AI行业具有深远的指导意义。首先,它重新定义了“高性能模型”的门槛,促使研发团队不再仅仅追求参数规模的扩张,而是转向对推理质量的精耕细作。其次,美团作为技术领先的互联网平台,通过开源此类评测基准,有助于推动行业标准的统一,减少模型评估中的信息不对称。最后,Gemini 3 Pro等顶尖模型的表现也给行业敲响了警钟:在通往通用人工智能(AGI)的道路上,逻辑推理能力的突破将是未来几年内最核心的攻坚方向。
常见问题
问题:General 365主要评测模型的哪些能力?
根据美团LongCat团队的发布信息,General 365是一个专注于“推理”的评测集。它主要考察模型在处理复杂逻辑、多步骤思考以及在特定语境下进行准确推断的能力,而非简单的信息检索或文本生成。
问题:为什么Gemini 3 Pro在General 365上的得分只有62.8%?
这主要源于General 365极高的难度设计和严苛的评测标准。62.8%的准确率虽然在数值上看起来不高,但在26款主流模型的对比中已属于“地表最强”。这说明该评测集包含了大量现有模型难以攻克的复杂推理题目,揭示了当前AI技术与人类高级逻辑思维之间仍存在差距。
问题:General 365对普通开发者有什么价值?
对于开发者而言,General 365提供了一个透明的性能参考。通过观察不同模型在该基准下的表现,开发者可以更客观地选择适合自身业务场景的基础模型,并针对推理能力的不足进行定向优化或微调。


