美团发布General 365推理基准：Gemini 3 Pro仅获62.8分

美团LongCat团队正式发布General 365推理评测基准，旨在为大模型推理能力树立新标尺。在对26款全球主流模型的实测中，目前表现最强的Gemini 3 Pro准确率仅为62.8%，而绝大多数模型得分均低于60分。这一结果揭示了当前顶尖AI模型在复杂推理任务中仍面临严峻挑战，同时也凸显了General 365作为高难度评测工具的行业价值。

核心要点

发布新标尺：美团LongCat团队正式推出名为“General 365”的通用推理评测基准。
覆盖范围广：该评测对全球范围内26款主流大模型进行了深度实测。
顶尖模型受挫：被视为目前最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
行业普遍困境：测试结果显示，绝大多数主流模型未能达到60分的及格线，推理能力仍有巨大提升空间。

详细分析

General 365：重新定义推理评测难度

美团LongCat团队发布的General 365并非普通的性能测试，而是一个专注于“推理能力”的深度评测基准。在当前大模型技术日新月异的背景下，传统的评测集往往因题目被纳入训练语料（数据污染）或难度不足，导致模型得分虚高。General 365的出现，旨在通过更高难度的任务设计，真实还原模型在处理复杂逻辑、多步推理及泛化场景下的表现。通过对26款主流模型的实测，该基准成功拉开了模型间的差距，为行业提供了一个更具参考价值的性能坐标系。

顶尖模型的“滑铁卢”：Gemini 3 Pro的表现

在本次实测中，Gemini 3 Pro作为目前公认的顶尖模型，其表现备受关注。然而，即便是在General 365的严苛测试下，Gemini 3 Pro也仅交出了62.8%的答卷。这一数据不仅反映了General 365极高的测试难度，更揭示了即便是全球最先进的AI系统，在面对复杂推理任务时依然存在明显的短板。62.8%的准确率意味着在深度逻辑链条的构建与维护上，AI仍有近四成的错误率，这对于追求高可靠性的工业级应用而言，仍是一个需要跨越的鸿沟。

行业现状：多数模型徘徊在及格线以下

更为引人深思的是，在参与测试的26款模型中，绝大多数模型的得分甚至没能触及60分的“及格线”。这一现象表明，当前大模型的发展虽然在对话流畅度、知识覆盖面等方面取得了长足进步，但在核心的“逻辑推理”能力上，行业整体水平仍处于早期阶段。多数模型在处理需要严密逻辑支撑的问题时，往往会出现逻辑断裂或幻觉现象。美团LongCat团队通过General 365这一工具，清晰地勾勒出了当前AI技术在推理领域的真实边界，促使开发者重新审视模型架构与训练策略。

行业影响

美团General 365的发布对AI行业具有深远意义。首先，它打破了模型性能“虚假繁荣”的幻象，通过高难度的实测数据迫使行业回归对底层推理能力的关注。其次，作为由国内顶尖技术团队发起的评测基准，它增强了中国在AI评价体系中的话语权。最后，General 365为后续模型的迭代指明了方向：未来的竞争焦点将不再仅仅是参数规模的堆砌，而是如何在复杂推理任务中实现准确率的实质性突破。这一基准将成为推动大模型向更高阶智能演进的重要催化剂。

常见问题

问题 1：General 365主要评测模型的哪方面能力？

General 365主要聚焦于大模型的“推理能力”（Reasoning），通过对26款主流模型的实测，评估它们在处理复杂逻辑任务时的准确性和稳定性。

问题 2：Gemini 3 Pro在General 365中的表现如何？

在General 365的测试中，Gemini 3 Pro虽然被认为是目前最强的模型，但其准确率仅为62.8%，这反映了该评测基准具有极高的难度和挑战性。

问题 3：为什么大多数模型在General 365中不及格？

这说明目前大多数主流大模型在深度逻辑推理方面仍存在局限。General 365的设计初衷就是树立高标准，揭示模型在处理复杂问题时的真实短板，从而推动行业技术进步。

美团LongCat发布General 365推理评测基准：Gemini 3 Pro准确率仅62.8%