美团LongCat发布General 365推理评测：Gemini 3 Pro仅获62.8分

美团LongCat团队正式发布全新推理评测基准General 365。在对全球26款主流大模型的实测中，目前性能顶尖的Gemini 3 Pro准确率仅为62.8%，而绝大多数模型表现均未达到60分的及格线。这一结果揭示了当前大模型在复杂推理任务上的局限性，为AI行业树立了更高难度的性能评估新标尺。

核心要点

发布全新基准：美团LongCat团队正式推出名为“General 365”的通用推理评测集，旨在评估大模型的深度推理能力。
覆盖范围广泛：该评测集对全球范围内26款主流大模型进行了实测，涵盖了当前市场上的核心竞争产品。
顶尖模型受挫：实测数据显示，目前公认的最强模型Gemini 3 Pro在General 365上的准确率仅为62.8%。
行业普遍瓶颈：绝大多数参测模型未能达到60分的及格水平，反映出大模型在逻辑推理领域仍存在显著短板。

详细分析

General 365：推理能力的新试金石

美团LongCat团队此次发布的General 365，其核心意义在于为大模型提供了一个更具挑战性的“推理考场”。在当前大模型技术快速迭代的背景下，传统的评测基准往往容易出现“分数虚高”或“针对性刷榜”的现象。General 365的出现，通过对26款主流模型的横向测评，真实地反映了当前AI技术在处理复杂逻辑、多步推理以及常识判断等任务时的实际水平。这一标尺的建立，不仅有助于开发者识别模型的薄弱环节，也为行业提供了更具参考价值的性能坐标。

评测数据背后的逻辑困境

根据美团技术团队公布的实测结果，即便是目前处于行业领先地位的Gemini 3 Pro，其准确率也仅维持在62.8%的水平。这一数据极具冲击力，因为它打破了市场对顶尖模型“无所不能”的固有印象。更值得关注的是，绝大多数模型甚至无法触及60分的及格线。这意味着在面对General 365所设定的推理任务时，现有的大模型架构在逻辑链条的完整性、因果关系的识别以及复杂指令的执行上，依然面临着巨大的技术瓶颈。这种普遍性的低分现象，预示着大模型从“语言生成”向“深度推理”跨越的难度远超预期。

行业影响

General 365的发布对AI行业具有深远的指导意义。首先，它重新定义了“高性能模型”的门槛，促使研发团队不再仅仅追求参数规模的扩张，而是转向对推理质量的精耕细作。其次，美团作为技术领先的互联网平台，通过开源此类评测基准，有助于推动行业标准的统一，减少模型评估中的信息不对称。最后，Gemini 3 Pro等顶尖模型的表现也给行业敲响了警钟：在通往通用人工智能（AGI）的道路上，逻辑推理能力的突破将是未来几年内最核心的攻坚方向。

常见问题

问题：General 365主要评测模型的哪些能力？

根据美团LongCat团队的发布信息，General 365是一个专注于“推理”的评测集。它主要考察模型在处理复杂逻辑、多步骤思考以及在特定语境下进行准确推断的能力，而非简单的信息检索或文本生成。

问题：为什么Gemini 3 Pro在General 365上的得分只有62.8%？

这主要源于General 365极高的难度设计和严苛的评测标准。62.8%的准确率虽然在数值上看起来不高，但在26款主流模型的对比中已属于“地表最强”。这说明该评测集包含了大量现有模型难以攻克的复杂推理题目，揭示了当前AI技术与人类高级逻辑思维之间仍存在差距。

问题：General 365对普通开发者有什么价值？

对于开发者而言，General 365提供了一个透明的性能参考。通过观察不同模型在该基准下的表现，开发者可以更客观地选择适合自身业务场景的基础模型，并针对推理能力的不足进行定向优化或微调。

美团LongCat发布General 365评测集：Gemini 3 Pro推理准确率仅62.8%