
美团LongCat发布General 365评测集:Gemini 3 Pro准确率仅62.8%树立推理新标尺
美团LongCat团队正式发布General 365推理评测基准。在对26款主流大模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分未能达到60分的及格线。这一结果揭示了当前大模型在复杂推理任务中的局限性,General 365也由此成为衡量AI模型推理能力的新标准。
核心要点
- 发布全新基准:美团LongCat团队正式推出名为General 365的通用推理评测集。
- 覆盖范围广泛:该评测集对目前市面上26款主流大模型进行了深度实测。
- 头部模型表现:目前公认最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
- 行业整体现状:绝大多数参与测试的模型准确率均低于60%,未能触及及格线。
详细分析
General 365:推理能力的高难度试金石
美团LongCat团队推出的General 365旨在为大模型提供更具挑战性的推理评测环境。通过对26款主流模型的实测数据可以看出,该评测集的设计初衷是打破现有评测的“高分幻象”,通过更严苛的逻辑要求来衡量模型的真实推理水平。General 365的出现,为行业提供了一个能够有效区分模型逻辑深度的新标尺。
现状透视:大模型集体面临“及格难”
在本次评测中,即便是性能顶尖的Gemini 3 Pro,其准确率也仅为62.8%,这一数据反映出即便是最先进的模型在处理复杂推理任务时仍有巨大提升空间。更令人关注的是,绝大多数模型甚至无法达到60分的及格水平,这表明当前大模型在通用推理能力的构建上仍处于攻坚阶段,尚未实现真正的逻辑闭环。
行业影响
General 365的发布对AI行业具有重要的导向意义。首先,它揭示了当前大模型在推理任务上的短板,促使研发团队从单纯追求参数规模转向提升逻辑推理质量。其次,作为由美团技术团队推出的基准,它为国内乃至全球的AI开发者提供了一个客观、高标准的参考体系,有助于推动下一代更具逻辑思考能力的AI模型诞生。
常见问题
什么是General 365评测集?
General 365是由美团LongCat团队发布的针对大语言模型推理能力的通用评测基准,旨在通过高难度的实测任务评估模型的逻辑推理准确度。
为什么Gemini 3 Pro的准确率只有62.8%?
这主要源于General 365评测任务的复杂性。62.8%的准确率虽然看似不高,但在参与测试的26款主流模型中已是最高分,这反映了该评测集对逻辑推理能力的极高要求。
绝大多数模型不及格说明了什么?
这说明目前主流大模型在处理深层次、复杂逻辑推理任务时仍存在明显局限,现有的技术路径在推理稳定性上仍需进一步突破。


