
美团LongCat发布General 365评测集:Gemini 3 Pro推理准确率仅62.8%
美团LongCat团队正式发布General 365推理评测基准。在对26款主流大模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数受测模型未能达到60分的及格线。这一结果揭示了当前大模型在复杂推理任务上的普遍短板,为行业树立了更高难度的推理评测新标尺。
核心要点
- 发布新基准:美团LongCat团队正式推出General 365,专注于评估大模型的通用推理能力。
- 头部模型受挫:目前公认最强的Gemini 3 Pro在实测中仅获得62.8%的准确率。
- 行业普遍困境:在参与测试的26款主流模型中,绝大多数模型的得分未能触及60分的及格线。
- 树立新标尺:General 365的出现为大模型推理能力的评估提供了更严苛、更具区分度的标准。
详细分析
General 365:大模型推理能力的“试金石”
美团LongCat团队此次发布的General 365评测集,旨在解决当前大模型评测中存在的“高分低能”现象。随着大语言模型在各类基础考试中屡获高分,行业急需一个能够真实反映模型逻辑推理深度的基准。General 365通过精心设计的任务,对26款主流模型进行了深度体检。测试结果显示,推理能力的突破远比参数规模的增长更为困难。这一基准的发布,标志着大模型评测从单纯的知识覆盖转向了更深层次的逻辑结构考核。
性能天花板:Gemini 3 Pro的62.8%意味着什么
在本次横向评测中,Gemini 3 Pro作为目前全球顶尖的模型代表,其62.8%的准确率虽然位居榜首,但也反映出了当前AI技术的局限性。62.8%的得分意味着即便是在最先进的算法支持下,模型在处理General 365所涵盖的复杂推理任务时,仍有近四成的错误率。这一数据打破了市场对顶级模型推理能力的盲目乐观,明确了即便是“地表最强”模型,在通往真正通用人工智能(AGI)的道路上,依然面临着严峻的逻辑推理挑战。
行业现状:多数模型徘徊在及格线以下
更为引人注目的是,参与测试的绝大多数模型甚至没能摸到60分的及格线。这一现象揭示了当前大模型行业的一个残酷现实:虽然许多模型在对话流畅度和信息检索上表现出色,但在需要严密逻辑链条支撑的推理任务中,表现往往不尽如人意。General 365通过量化的数据,直观地展示了模型在推理深度上的缺失,促使开发者重新审视现有的训练策略与数据质量,将研发重心从“博学”转向“慎思”。
行业影响
General 365的发布对AI行业具有深远意义。首先,它提供了一个更具公信力的第三方评测工具,有助于消除模型宣传中的水分。其次,它为大模型的迭代方向指明了道路——即如何提升模型在复杂场景下的逻辑一致性与推理准确性。对于美团而言,LongCat团队的这一贡献不仅展示了其在AI前沿技术领域的深厚积淀,也通过建立行业标准,提升了其在开源社区与技术生态中的影响力。未来,General 365有望成为衡量大模型是否具备生产力级别推理能力的关键指标。
常见问题
问题 1:General 365与其他评测集有什么区别?
General 365由美团LongCat团队开发,更侧重于考察模型的通用推理能力(General Reasoning)。从实测结果来看,其题目难度显著高于现有许多基准,能够有效区分顶级模型与普通模型在逻辑深度上的差异。
问题 2:为什么大多数模型在General 365中表现不佳?
这主要是因为General 365设计的推理任务对逻辑链条的完整性和严密性要求极高。目前的许多模型在训练过程中更多依赖模式匹配而非真正的逻辑理解,因此在面对高难度推理题时容易出现逻辑断裂或幻觉,导致得分普遍较低。
问题 3:Gemini 3 Pro的62.8%准确率是否代表它是目前最强的模型?
根据美团LongCat团队对26款主流模型的实测数据,Gemini 3 Pro确实是目前表现最强的模型。但62.8%的得分也说明,即便是行业领先者,在复杂推理领域仍有巨大的提升空间。


