
美团LongCat开源General 365推理评测集:主流模型推理能力普遍告急
美团LongCat团队正式发布并开源了General 365推理评测集,旨在为大模型推理能力树立新标尺。在对全球26款主流大模型的实测中,即便是表现最出色的Gemini 3 Pro,其准确率也仅为62.8%,而绝大多数模型甚至未能达到60%的及格水平。这一结果揭示了当前AI模型在复杂推理任务上的真实瓶颈,为行业提供了客观的评估工具。
核心要点
- 开源发布:美团LongCat团队正式推出并开源了名为“General 365”的推理能力评测集。
- 实测规模:该评测集对目前市面上26款主流大模型进行了深度实测。
- 顶尖表现:在所有受测模型中,Gemini 3 Pro以62.8%的准确率位居第一,但仍处于较低水平。
- 行业现状:测试结果显示,绝大多数主流模型在推理任务上的准确率均未达到60%的及格线。
详细分析
General 365:重塑推理评测的新标准
美团LongCat团队此次发布的General 365推理评测集,其核心目标是为大语言模型(LLM)的逻辑推理能力提供一个更加严苛且真实的衡量尺度。在当前AI技术快速迭代的背景下,基础的语言理解和文本生成能力已趋于成熟,但深层次的逻辑推理依然是区分模型优劣的关键。General 365通过开源的方式,邀请全球开发者共同审视现有模型的推理短板,这不仅是美团技术实力的展现,更是对AI评测体系的一次重要补充。
实测数据揭示的“推理鸿沟”
根据美团技术团队公布的实测数据,当前地表最强的模型Gemini 3 Pro在General 365上的表现也仅为62.8%的准确率。这一数据极具冲击力,因为它表明即使是行业顶尖的AI模型,在面对复杂推理任务时依然存在显著的错误率。更令人深思的是,在参与测试的26款主流模型中,绝大多数模型的准确率甚至没能摸到60分的及格线。这意味着,目前主流的AI模型在处理高难度逻辑链条、多步推理以及复杂问题求解时,仍面临着巨大的技术挑战,现有的训练范式可能尚未完全解决逻辑严密性的问题。
行业影响
General 365的开源对AI行业具有深远意义。首先,它打破了部分模型在常规榜单上“刷分”的虚假繁荣,通过高难度的推理任务让模型回归真实水平。其次,这一评测集为后续的模型优化指明了方向:单纯的参数规模扩张可能已无法带来推理能力的线性增长,行业需要更高效的推理算法和更高质量的逻辑训练数据。美团此举将推动全球AI社区更加关注模型“思考”的深度,而非仅仅是“表达”的流畅度。
常见问题
问题 1:什么是General 365评测集?
General 365是由美团LongCat团队开发并开源的一个专门针对大模型推理能力进行评估的测试基准,旨在通过高难度的题目设计,真实反映模型在逻辑推理方面的水平。
问题 2:为什么Gemini 3 Pro的准确率只有62.8%?
这反映了General 365评测集本身具有极高的难度和严苛的标准。62.8%虽然在传统百分制中不算高,但在该评测体系下已是26款主流模型中的最高分,说明复杂推理仍是当前AI技术的攻坚难点。
问题 3:绝大多数模型不及格意味着什么?
这意味着当前大模型在处理复杂逻辑、数学推导或多步骤任务时,依然存在较高的幻觉率或逻辑断裂。这提示开发者和研究机构,提升模型的逻辑推理能力是下一阶段AI发展的核心任务。


