美团LongCat发布General 365推理评测：揭示大模型推理短板

美团LongCat团队正式发布General 365推理评测基准，旨在为大模型推理能力树立新标尺。在对26款主流模型的实测中，结果显示当前顶尖模型在复杂推理任务上仍面临巨大挑战：即便是目前公认最强的Gemini 3 Pro，其准确率也仅为62.8%，而绝大多数参测模型未能达到60分的及格线。这一数据揭示了现有大模型在逻辑推理深度上的普遍局限性。

核心要点

新基准发布：美团LongCat团队正式推出名为“General 365”的推理评测基准。
覆盖范围广：该评测对目前市面上26款主流大模型进行了深度实测。
顶尖模型受挫：地表最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
普遍表现欠佳：绝大多数参测模型未能触及60%的及格线，显示出推理能力的短板。

详细分析

推理能力的“试金石”：General 365的发布背景

随着大语言模型（LLM）在自然语言处理领域的广泛应用，业界对于模型能力的评估已不再满足于基础的对话和文本生成。美团LongCat团队此次发布的General 365，正是针对模型核心竞争力——“推理能力”而设立的新标尺。在AI向通用人工智能（AGI）演进的过程中，逻辑推理是处理复杂决策、数学问题及编程任务的关键。General 365的出现，旨在通过高难度的实测，真实反映当前主流模型在处理复杂逻辑时的实际水平，打破了以往部分评测中模型表现虚高的幻象。

顶尖模型的瓶颈：Gemini 3 Pro的表现分析

在本次General 365的实测中，被业界视为标杆的Gemini 3 Pro虽然拿下了最高分，但其62.8%的准确率却引发了深度思考。作为目前“地表最强”的模型，其得分仅刚过及格线，这说明即便是在算力和算法架构上处于领先地位的顶尖模型，在面对General 365所设定的推理挑战时，依然存在明显的性能瓶颈。这一数据不仅定义了当前AI推理能力的上限，也明确了未来模型优化需要攻克的“深水区”。

全行业及格率低迷：大模型推理的普遍困境

更为严峻的事实是，在参与测试的26款主流模型中，绝大多数模型的准确率甚至没能摸到60分的及格线。这意味着，虽然当前大模型在创意写作、信息检索等方面表现出色，但在严谨的逻辑推导和多步推理任务中，依然存在严重的“幻觉”或逻辑断裂问题。General 365的测试结果为整个行业敲响了警钟：在追求模型参数规模的同时，如何有效提升模型的逻辑严密性与推理稳定性，已成为大模型技术下半场竞赛的核心议题。

行业影响

美团General 365的发布，对AI行业具有重要的导向意义。首先，它提供了一个更具区分度的评测工具，能够有效识别出真正具备深度推理能力的模型，避免了评测同质化。其次，Gemini 3 Pro及其他模型的实测表现，为开发者指明了方向——即单纯的规模扩张可能已进入边际效应递减阶段，强化学习与推理算法的深度融合将成为下一阶段的研究重点。最后，这一基准的建立有助于企业在选择AI服务时，拥有更客观的参考依据，推动AI应用从“感知”向“认知”的实质性跨越。

常见问题

问题 1：General 365主要测试模型的什么能力？

General 365是由美团LongCat团队发布的推理评测基准，主要针对大模型的逻辑推理能力进行深度评估，旨在衡量模型在处理复杂逻辑任务时的准确性。

问题 2：在General 365评测中，表现最好的模型是谁？

根据美团LongCat团队的实测数据，目前表现最强的模型是Gemini 3 Pro，其准确率为62.8%。

问题 3：目前主流大模型在推理能力上的整体表现如何？

整体表现不容乐观。在测试的26款主流模型中，绝大多数模型的准确率都低于60%，未能达到及格水平，显示出推理能力仍是大模型普遍的薄弱环节。

美团LongCat发布General 365推理评测：Gemini 3 Pro仅获62.8分，多数模型不及格