
美团LongCat发布General 365推理评测集:Gemini 3 Pro仅获62.8分,多数模型不及格
美团LongCat团队正式发布General 365推理评测基准。在对26款主流大模型的实测中,目前顶尖的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分未能达到60分的及格线。这一结果揭示了当前AI模型在复杂推理任务中面临的巨大挑战,General 365有望成为衡量模型推理能力的新标尺。
核心要点
- 发布新标尺:美团LongCat团队正式推出General 365,旨在为大模型推理能力建立更严格的评测标准。
- 顶尖模型受挫:在实测的26款主流模型中,Gemini 3 Pro以62.8%的准确率位居前列,但表现远未达到完美。
- 行业普遍困境:测试结果显示,绝大多数参与评测的模型准确率均低于60%,未能触及及格线。
- 推理能力瓶颈:该评测结果量化了当前AI模型在处理复杂逻辑推理任务时存在的显著短板。
详细分析
推理能力的严苛考验
美团LongCat团队推出的General 365评测集对当前主流大模型提出了严峻挑战。在针对26款模型的实测中,即便是被视为行业顶尖水平的Gemini 3 Pro,其准确率也仅维持在62.8%。这一数据表明,现有的AI模型在处理General 365所涵盖的复杂推理任务时,仍存在明显的局限性。General 365的出现,通过高难度的题目设计,打破了以往模型在简单评测集上轻松获取高分的假象,真实反映了模型在逻辑深度上的不足。
行业普遍面临“及格难”困境
测试结果显示,参与评测的大多数模型表现不尽如人意,准确率甚至未能触及60%的及格水平。这反映出当前大模型在通用推理能力的稳定性与深度上仍有巨大提升空间。在26款主流模型的横向对比中,这种普遍不及格的现象说明,推理能力的突破已成为当前AI技术发展的核心瓶颈。General 365通过量化的方式揭示了模型在真实复杂场景下的性能瓶颈,为后续的模型优化提供了明确的参照系。
行业影响
General 365的发布为AI行业提供了一个更高难度的推理能力评价体系。它不仅挑战了现有模型的性能上限,也为开发者指明了未来模型优化的方向。随着美团LongCat团队将该评测集开源,行业内对于“推理能力”的定义将更加清晰且严苛。这有助于推动AI模型从单纯的参数竞赛转向更深层次的逻辑理解与问题解决能力的竞争,加速通用人工智能(AGI)在复杂逻辑领域的落地进程。
常见问题
问题 1:General 365是什么?
General 365是由美团LongCat团队发布的通用推理评测基准,专门用于评估大模型在复杂逻辑推理任务中的表现,被视为衡量推理能力的新标尺。
问题 2:目前表现最好的模型是谁?
根据美团技术团队的实测数据,在26款主流模型中,Gemini 3 Pro表现最佳,但其准确率也仅为62.8%。
问题 3:为什么说大多数模型在General 365中表现不佳?
因为在实测中,绝大多数模型的准确率甚至没能达到60分的及格线,这说明该评测集对模型的逻辑推理能力要求极高,远超当前多数模型的平均水平。


