
美团LongCat发布General 365推理评测:Gemini 3 Pro仅获62.8分,多数模型不及格
美团LongCat团队正式发布全新推理评测基准General 365。在对全球26款主流大模型的实测中,目前性能顶尖的Gemini 3 Pro准确率仅为62.8%,而绝大多数参测模型未能达到60分的及格线。这一结果揭示了当前大模型在深度推理能力上的普遍短板,General 365也因此成为衡量AI推理水平的新标尺。
核心要点
- 权威发布:美团LongCat团队正式推出名为“General 365”的通用推理评测基准。
- 覆盖广泛:该评测对全球范围内26款主流大模型进行了深度实测。
- 性能瓶颈:强如Gemini 3 Pro,在General 365下的准确率也仅为62.8%。
- 行业现状:测试结果显示,绝大多数主流模型在推理任务上的表现未能触及60分的及格线。
详细分析
推理能力的“试金石”:General 365的严苛挑战
美团LongCat团队此次发布的General 365不仅是一个新的评测工具,更像是为当前处于高速发展的大模型行业投下了一枚“震撼弹”。在过去的一段时间里,许多大模型在常规基准测试中频频取得高分,甚至出现分数“通胀”的现象。然而,General 365的实测数据却给出了截然不同的反馈。通过对26款主流模型的系统性测试,General 365证明了真正的深度推理能力依然是AI领域难以攻克的堡垒。大多数模型在面对该基准测试时表现疲软,未能达到60分的及格水平,这表明当前模型在处理复杂逻辑和多步推理任务时仍存在显著局限。
顶尖模型的上限:Gemini 3 Pro的62.8%意味着什么
在本次公布的测试数据中,Gemini 3 Pro的表现尤为引人关注。作为目前公认的“地表最强”模型之一,它在General 365中的准确率仅为62.8%。虽然这一成绩使其在26款模型中脱颖而出,位居前列,但从绝对数值来看,62.8%的准确率距离“完美解决问题”仍有巨大空间。这一数据设定了当前AI推理能力的上限,同时也反映出即便是一线梯队的顶尖模型,在面对General 365所设定的推理挑战时,也仅仅是处于“勉强及格”边缘。这为后续模型的迭代优化指明了方向,即如何跨越从“逻辑模仿”到“深度推理”的鸿沟。
行业影响
General 365的发布为AI行业树立了新的推理评测标尺。它打破了以往部分评测基准可能存在的“高分低能”幻象,迫使开发者和研究机构重新审视大模型的逻辑推理核心。对于美团技术团队而言,LongCat General 365的开源不仅展示了其在AI评测领域的深厚积淀,也通过公开透明的实测数据,推动了行业向更高质量、更深层次的推理能力演进。未来,General 365或将成为衡量大模型是否具备处理复杂业务逻辑能力的关键参考依据。
常见问题
问题 1:General 365主要评测大模型的哪方面能力?
General 365是由美团LongCat团队发布的评测基准,主要侧重于对大模型进行“推理能力”的深度评估。通过对26款主流模型的实测,它旨在揭示模型在处理复杂逻辑任务时的真实水平。
问题 2:目前在General 365测试中表现最好的模型是谁?
根据美团技术团队发布的数据,在26款主流模型中,Gemini 3 Pro表现最强,但其准确率也仅为62.8%。
问题 3:为什么说大多数模型在General 365中“不及格”?
因为在实测过程中,绝大多数参测模型的准确率未能达到60%这一基础及格线,这说明General 365的题目难度和推理要求远高于目前的平均水平。

