美团开源General 365推理评测：Gemini 3 Pro实测仅62.8分

美团LongCat团队正式发布General 365推理评测基准，旨在为大语言模型的推理能力树立新标尺。在对全球26款主流模型的实测中，目前表现最强的Gemini 3 Pro准确率仅为62.8%，而绝大多数模型未能达到60分的及格线。这一结果暴露了当前顶尖AI模型在复杂推理任务中的局限性，引发了行业对大模型逻辑能力评估的深度思考。

核心要点

发布新基准：美团LongCat团队正式推出名为“General 365”的通用推理评测集，旨在提供更严苛的推理能力评估标准。
覆盖范围广：该评测集已对全球26款主流大语言模型进行了实测，涵盖了当前市场上的核心竞争产品。
顶尖模型表现受限：实测数据显示，目前被视为最强模型的Gemini 3 Pro在General 365上的准确率仅为62.8%。
行业整体水平堪忧：在受测的26款模型中，绝大多数模型的准确率均低于60%，未能达到及格水平，显示出推理能力的普遍瓶颈。

详细分析

General 365：推理能力的新试金石

美团LongCat团队此次发布的General 365，其核心价值在于为AI行业提供了一个全新的、更具挑战性的推理评测标尺。在当前大语言模型（LLM）快速迭代的背景下，传统的评测基准往往因数据污染或难度不足，难以准确衡量模型的真实逻辑推理水平。美团技术团队通过General 365的实测结果向行业展示了当前AI技术的真实边界。该评测集的出现，不仅是对现有模型能力的一次全面检阅，更是对未来模型优化方向的重要指引。它强调了在追求参数规模和对话流畅度的同时，逻辑推理的严谨性依然是大模型面临的核心挑战。

62.8%的警示：主流模型的推理鸿沟

根据美团技术团队公布的实测数据，即便是目前处于行业领先地位的Gemini 3 Pro，在General 365评测中的准确率也仅维持在62.8%的水平。这一数据极具参考意义：首先，它证明了General 365具备极高的区分度，能够有效拉开顶尖模型与普通模型之间的差距；其次，62.8%的得分意味着即便最先进的模型在处理复杂推理任务时，仍有近四成的错误率。更值得关注的是，绝大多数受测模型甚至无法触及60分的及格线，这反映出当前大模型在底层逻辑构建、多步推理以及复杂问题解决能力上，与人类的预期仍存在显著差距。这种“集体不及格”的现象，揭示了推理能力提升的难度远超语言生成能力的提升。

行业影响

美团General 365的开源与发布，对AI行业具有深远影响。首先，它打破了部分模型在简单评测集中表现优异的“虚假繁荣”，迫使开发者面对模型在深度推理上的短板。其次，作为由国内头部互联网企业技术团队推出的基准，它增强了中文技术社区在AI评价体系中的话语权。对于行业而言，General 365将推动大模型研发从单纯的“规模扩张”转向“质量与逻辑并重”，激励开发者针对复杂推理场景进行专项优化。此外，这一评测结果也为企业用户在选择模型时提供了更具参考价值的客观依据，帮助其识别真正具备逻辑处理能力的AI产品。

常见问题

问题 1：General 365与其他推理评测集有什么区别？

根据美团技术团队的描述，General 365被定位为“推理评测新标尺”。其显著特点在于其严苛性，通过对26款主流模型的实测结果可以看出，该评测集能够有效识别出模型在逻辑推理上的细微差距，且整体难度较高，导致目前最强模型的得分也仅为62.8%，这与许多在传统评测中动辄获得90分以上的基准形成了鲜明对比。

问题 2：为什么Gemini 3 Pro在这次评测中只拿到了62.8分？

虽然Gemini 3 Pro被认为是目前“地表最强”的模型之一，但在General 365的高难度推理任务面前，其逻辑严密性仍受到挑战。62.8%的准确率反映了该模型在处理特定复杂推理逻辑时存在瓶颈，同时也说明General 365的设计初衷就是为了探测模型的能力上限，而非简单的知识问答。

问题 3：绝大多数模型不及格意味着什么？

这意味着目前大语言模型在通用推理能力上仍处于初级阶段。虽然模型在对话、翻译和创意写作方面表现出色，但在需要严密逻辑链条的推理任务中，多数模型表现并不稳定。这为AI行业指明了未来的攻坚方向，即如何突破逻辑推理的“及格线”，实现更深层次的智能进化。

美团LongCat发布General 365推理评测：Gemini 3 Pro仅获62.8分，揭示大模型推理短板