
美团LongCat发布General 365推理评测集:Gemini 3 Pro仅获62.8分,树立行业新标尺
美团LongCat团队正式发布全新推理评测基准General 365。在对全球26款主流大模型的实测中,目前性能顶尖的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分均未达到60分的及格线。这一结果揭示了当前大模型在复杂推理任务上的真实水平,General 365也由此成为衡量AI推理能力的新高度与新标准。
核心要点
- 发布全新评测基准:美团LongCat团队正式推出名为“General 365”的推理评测集,旨在为大模型推理能力提供更严苛的衡量标准。
- 主流模型全覆盖:该评测涵盖了目前行业内26款主流大模型,具有广泛的代表性。
- 顶尖模型表现受限:即使是目前被视为“地表最强”的Gemini 3 Pro,在General 365中的准确率也仅为62.8%。
- 行业整体水平待提升:测试结果显示,绝大多数参测模型未能触及60分的及格线,反映出推理能力仍是大模型发展的核心瓶颈。
详细分析
General 365:推理能力的高难度试金石
美团LongCat团队推出的General 365并非普通的综合性评测,而是专门针对“推理”这一核心能力设计的标尺。在当前大模型技术快速迭代的背景下,许多模型在对话、创作和基础问答上表现出色,但在面对需要严密逻辑思维的复杂任务时,往往表现出乏力。General 365的出现,通过实测数据证明了当前AI模型在深度推理方面的局限性。其设计的难度梯度显然超出了目前大多数模型的处理能力,使得这一评测集成为区分“通用对话”与“深度推理”的重要分水岭。
现状解读:Gemini 3 Pro领跑下的“不及格”困境
根据美团技术团队公布的实测数据,Gemini 3 Pro以62.8%的准确率位居前列。虽然这一成绩在26款模型中堪称顶尖,但从绝对分值来看,62.8%仅仅略高于及格线。更令人关注的是,参与测试的绝大多数模型甚至无法摸到60分的门槛。这一数据对比强烈地揭示了行业现状:尽管大模型在参数规模和多模态能力上不断突破,但在逻辑推理的严谨性与准确性上,依然存在巨大的提升空间。General 365的测试结果为整个行业敲响了警钟,提醒开发者推理能力的构建并非一日之功。
行业影响
General 365的发布对AI行业具有深远意义。首先,它为大模型推理能力的评估确立了新的高度,打破了以往部分评测集可能存在的“高分虚标”现象,让模型在更真实的逻辑挑战面前露出原形。其次,这一评测结果将引导行业资源从单纯追求模型规模转向追求更高质量的推理算法优化。对于美团等技术驱动型企业而言,发布此类评测集不仅展示了其在AI底层能力研究上的深度,也为后续大模型在复杂业务场景(如自动驾驶、智能调度等需要高精度推理的领域)的落地提供了参考依据。
常见问题
问题 1:General 365与其他大模型评测集有什么区别?
General 365由美团LongCat团队发布,其核心特征在于极高的难度和对“推理”能力的专注。从实测结果来看,它能够有效拉开顶尖模型与普通模型之间的差距,目前行业最强的模型也仅能获得60分出头的成绩,这说明其评测维度更偏向于考察模型的深度逻辑处理能力,而非简单的信息检索或文本生成。
问题 2:Gemini 3 Pro在General 365中的表现说明了什么?
Gemini 3 Pro作为目前公认的强力模型,在General 365中仅获得62.8%的准确率。这说明即使是全球最领先的AI模型,在面对General 365所设定的推理任务时依然面临巨大挑战。这同时也证明了General 365作为“新标尺”的严苛性,它成功定义了当前AI推理能力的上限。
问题 3:为什么绝大多数模型在General 365中不及格?
这反映了当前大模型普遍存在的“推理短板”。大多数模型在训练过程中可能更侧重于语言模式的学习和海量信息的记忆,但在处理需要多步逻辑推演、因果分析或复杂约束下的问题时,准确率会大幅下降。General 365正是捕捉到了这一行业共性问题,通过数据量化了模型在推理严谨性上的不足。


