
美团LongCat发布General 365推理评测集:Gemini 3 Pro仅获62.8分,多数模型不及格
美团LongCat团队正式推出General 365推理评测基准,旨在为大语言模型的推理能力树立新标尺。在对26款主流模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型未能达到60分的及格线。这一结果揭示了当前顶尖AI模型在复杂推理任务上仍存在显著局限性,为行业评估模型真实性能提供了重要参考。
核心要点
- 发布新标尺:美团LongCat团队正式发布General 365,专注于评估大模型的推理能力。
- 覆盖范围广:此次评测涵盖了目前市场上26款主流大语言模型。
- 顶尖表现受限:地表最强的Gemini 3 Pro在实测中仅取得62.8%的准确率。
- 整体水平待提升:绝大多数参测模型准确率低于60%,未能触及及格线。
详细分析
General 365:推理能力的新试金石
随着大语言模型技术的飞速发展,如何准确评估模型的逻辑推理能力成为了行业关注的焦点。美团LongCat团队推出的General 365评测集,正是为了应对这一挑战而设计的“新标尺”。该评测集不仅关注模型的语言生成能力,更侧重于考察模型在处理复杂逻辑、多步推理以及泛化任务时的真实表现。通过引入General 365,美团技术团队试图为AI界提供一个更具挑战性、更能区分模型优劣的评估框架。
实测数据揭示行业现状:Gemini 3 Pro领跑但未及预期
在美团LongCat团队进行的针对26款主流模型的实测中,数据结果引发了广泛关注。作为目前公认的顶尖模型,Gemini 3 Pro虽然在所有参测模型中表现最为出色,但其准确率也仅停留在62.8%。这一数据表明,即使是处于行业金字塔尖的模型,在面对General 365所设定的推理任务时,依然存在明显的短板。更令人深思的是,参与测试的绝大多数模型甚至没能摸到60分的及格线,这反映出当前大模型在通用推理能力上普遍面临瓶颈。
26款模型集体“遇冷”背后的逻辑
此次评测结果显示,大模型在处理高难度推理任务时,其表现与公众的普遍预期存在一定差距。General 365的测试环境可能包含了大量需要深度逻辑推演的题目,这导致了26款主流模型集体表现平平。这种“集体遇冷”的现象,实际上为模型开发者敲响了警钟:单纯依靠参数规模的扩大和海量数据的堆砌,或许已不足以让模型在复杂推理领域取得突破性进展,算法结构的优化与推理机制的创新迫在眉睫。
行业影响
美团General 365的发布对AI行业具有深远意义。首先,它打破了部分模型在常规榜单上“高分低能”的假象,通过严苛的推理测试回归技术本质。其次,Gemini 3 Pro仅62.8%的准确率设定了一个极具挑战性的行业基准,将激励全球开发者针对逻辑推理这一核心能力进行专项攻坚。最后,作为由国内互联网巨头技术团队推出的评测集,General 365增强了中国技术团队在AI评价体系中的话语权,有助于推动全球大模型向更高质量、更深层次的智能演进。
常见问题
问题 1:General 365评测集的主要评估目标是什么?
General 365是由美团LongCat团队开发的推理评测标尺,其核心目标是评估大语言模型在复杂逻辑推理任务中的准确率和稳定性,旨在通过高难度的实测题目区分不同模型的推理能力等级。
问题 2:在本次实测中,表现最好的模型是谁?其成绩如何?
根据美团技术团队公布的数据,在26款主流模型中,Gemini 3 Pro表现最强,准确率为62.8%。尽管位居第一,但这一成绩也反映出复杂推理任务对当前顶尖AI而言仍具挑战。
问题 3:为什么说大多数模型在General 365测试中表现不佳?
因为在实测的26款模型中,绝大多数模型的准确率未能达到60%的及格线。这说明General 365具有极高的测试难度,能够有效暴露出当前主流模型在推理能力上的普遍不足。


