
美团LongCat发布General 365推理评测基准:Gemini 3 Pro准确率仅62.8%
美团LongCat团队正式发布General 365推理评测基准,旨在为大模型推理能力树立新标尺。在对26款全球主流模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分均低于60分。这一结果揭示了当前顶尖AI模型在复杂推理任务中仍面临严峻挑战,同时也凸显了General 365作为高难度评测工具的行业价值。
核心要点
- 发布新标尺:美团LongCat团队正式推出名为“General 365”的通用推理评测基准。
- 覆盖范围广:该评测对全球范围内26款主流大模型进行了深度实测。
- 顶尖模型受挫:被视为目前最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
- 行业普遍困境:测试结果显示,绝大多数主流模型未能达到60分的及格线,推理能力仍有巨大提升空间。
详细分析
General 365:重新定义推理评测难度
美团LongCat团队发布的General 365并非普通的性能测试,而是一个专注于“推理能力”的深度评测基准。在当前大模型技术日新月异的背景下,传统的评测集往往因题目被纳入训练语料(数据污染)或难度不足,导致模型得分虚高。General 365的出现,旨在通过更高难度的任务设计,真实还原模型在处理复杂逻辑、多步推理及泛化场景下的表现。通过对26款主流模型的实测,该基准成功拉开了模型间的差距,为行业提供了一个更具参考价值的性能坐标系。
顶尖模型的“滑铁卢”:Gemini 3 Pro的表现
在本次实测中,Gemini 3 Pro作为目前公认的顶尖模型,其表现备受关注。然而,即便是在General 365的严苛测试下,Gemini 3 Pro也仅交出了62.8%的答卷。这一数据不仅反映了General 365极高的测试难度,更揭示了即便是全球最先进的AI系统,在面对复杂推理任务时依然存在明显的短板。62.8%的准确率意味着在深度逻辑链条的构建与维护上,AI仍有近四成的错误率,这对于追求高可靠性的工业级应用而言,仍是一个需要跨越的鸿沟。
行业现状:多数模型徘徊在及格线以下
更为引人深思的是,在参与测试的26款模型中,绝大多数模型的得分甚至没能触及60分的“及格线”。这一现象表明,当前大模型的发展虽然在对话流畅度、知识覆盖面等方面取得了长足进步,但在核心的“逻辑推理”能力上,行业整体水平仍处于早期阶段。多数模型在处理需要严密逻辑支撑的问题时,往往会出现逻辑断裂或幻觉现象。美团LongCat团队通过General 365这一工具,清晰地勾勒出了当前AI技术在推理领域的真实边界,促使开发者重新审视模型架构与训练策略。
行业影响
美团General 365的发布对AI行业具有深远意义。首先,它打破了模型性能“虚假繁荣”的幻象,通过高难度的实测数据迫使行业回归对底层推理能力的关注。其次,作为由国内顶尖技术团队发起的评测基准,它增强了中国在AI评价体系中的话语权。最后,General 365为后续模型的迭代指明了方向:未来的竞争焦点将不再仅仅是参数规模的堆砌,而是如何在复杂推理任务中实现准确率的实质性突破。这一基准将成为推动大模型向更高阶智能演进的重要催化剂。
常见问题
问题 1:General 365主要评测模型的哪方面能力?
General 365主要聚焦于大模型的“推理能力”(Reasoning),通过对26款主流模型的实测,评估它们在处理复杂逻辑任务时的准确性和稳定性。
问题 2:Gemini 3 Pro在General 365中的表现如何?
在General 365的测试中,Gemini 3 Pro虽然被认为是目前最强的模型,但其准确率仅为62.8%,这反映了该评测基准具有极高的难度和挑战性。
问题 3:为什么大多数模型在General 365中不及格?
这说明目前大多数主流大模型在深度逻辑推理方面仍存在局限。General 365的设计初衷就是树立高标准,揭示模型在处理复杂问题时的真实短板,从而推动行业技术进步。


