
美团LongCat发布General 365推理评测集:Gemini 3 Pro准确率仅62.8%
美团LongCat团队正式发布General 365推理评测基准,旨在为大模型推理能力树立新标尺。在对26款主流模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数受测模型未能达到60分的及格线。这一结果揭示了当前AI模型在复杂推理任务中面临的严峻挑战。
核心要点
- 发布新标尺:美团LongCat团队正式推出名为General 365的开源推理评测基准。
- 覆盖范围广:该评测对行业内26款主流大模型进行了深度实测。
- 顶尖模型受挫:目前公认最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
- 行业普遍困境:绝大多数参与测试的模型准确率均低于60%,未能达到及格水平。
详细分析
推理评测的新高度:General 365的诞生
美团LongCat团队此次发布的General 365,不仅是一个简单的测试集,更是对当前大模型逻辑推理能力的一次全方位审视。在AI技术日新月异的背景下,传统的评测基准往往难以区分顶尖模型之间的细微差距。General 365通过精心设计的任务,试图挖掘模型在处理复杂逻辑、多步推理以及常识判断中的真实表现。美团技术团队的这一举动,旨在为行业提供一个更具公信力和挑战性的评价体系,从而推动大模型从“语言生成”向“深度推理”迈进。
标杆模型的表现:Gemini 3 Pro的62.8%意味着什么?
在本次实测的26款主流模型中,Gemini 3 Pro作为目前公认的性能天花板,其表现备受关注。然而,最终62.8%的准确率却给行业敲响了警钟。这一数据表明,即便是在算力和算法上都达到顶尖水平的模型,在面对General 365所设定的推理任务时,依然存在明显的短板。62.8%虽然在所有受测模型中位居榜首,但距离人类理想的逻辑严密性仍有巨大空间。这不仅证明了General 365评测集的难度与含金量,也揭示了当前AI在通往通用人工智能(AGI)道路上,推理能力依然是核心瓶颈之一。
难以逾越的及格线:行业现状的真实写照
更为引人深思的是,在参与测评的26款模型中,绝大多数模型的准确率甚至没能摸到60分的及格线。这一现象反映出当前大模型开发中的普遍问题:虽然模型在对话流畅度、知识覆盖面上有了显著提升,但在严谨的逻辑链条构建和复杂问题拆解上,依然显得力不从心。及格线的集体失守,意味着目前市面上大部分模型在处理高难度推理任务时,其可靠性仍有待商榷。General 365的出现,将这种“虚假繁荣”下的技术短板清晰地暴露在公众视野中,迫使开发者重新思考模型训练的侧重点。
行业影响
General 365的发布对AI行业具有深远的指导意义。首先,它打破了以往评测基准容易被“刷榜”的局面,通过高难度的推理任务重新定义了优秀模型的标准。其次,美团LongCat团队的开源举措,为广大开发者提供了宝贵的测试工具,有助于加速国内乃至全球AI社区在逻辑推理技术上的迭代。最后,这一评测结果将引导行业资源从单纯追求参数规模转向追求更高质量的逻辑推理能力,对于工业级AI应用的落地具有重要的参考价值。
常见问题
问题 1:General 365主要测试模型的哪些能力?
General 365是由美团LongCat团队发布的推理评测基准,主要聚焦于测试大模型在复杂逻辑、多步拆解以及深度推理方面的综合能力,而非简单的知识问答。
问题 2:为什么Gemini 3 Pro的准确率只有62.8%?
这主要源于General 365评测集本身极高的难度设定。62.8%的准确率虽然看起来不高,但在26款主流模型的对比中已是最高分,这反映了当前顶尖AI模型在复杂推理任务上仍处于起步和探索阶段。
问题 3:普通开发者可以使用General 365吗?
是的,根据美团技术团队的发布信息,General 365是一个开源的评测基准,旨在为全行业提供推理能力的新标尺,开发者可以利用该基准对自己的模型进行性能评估和优化。


