美团发布General 365推理评测：Gemini 3 Pro仅62.8分

美团LongCat团队正式发布全新推理评测基准General 365。在对26款主流模型的实测中，顶尖模型Gemini 3 Pro的准确率仅为62.8%，而绝大多数模型得分未能达到60分的及格线。这一结果揭示了当前AI模型在复杂推理任务中的普遍局限性，General 365也因此成为衡量模型逻辑推理能力的新标尺。

核心要点

发布新基准：美团LongCat团队正式推出名为General 365的AI推理能力评测集。
覆盖范围广：该评测集对目前市面上26款主流AI模型进行了深度实测。
顶尖模型受挫：被视为行业标杆的Gemini 3 Pro在测试中仅取得62.8%的准确率。
行业普遍困境：测试结果显示，绝大多数参与评测的模型得分均在60分以下，未能达到及格水平。

详细分析

General 365：推理能力的新试金石

美团LongCat团队此次发布的General 365，旨在解决当前AI模型评测中对逻辑推理能力评估不足的问题。通过对26款主流模型的实测，General 365展现了极高的测试难度与区分度。在AI技术日新月异的今天，单纯的语言生成能力已不再是衡量模型优劣的唯一标准，深层次的逻辑推理与问题解决能力正成为下一阶段竞争的核心。General 365的出现，为行业提供了一个更严苛、更具参考价值的评估坐标系。

顶尖模型表现折射技术瓶颈

在本次实测中，Gemini 3 Pro作为目前公认的强力模型，其62.8%的准确率虽然在26款模型中处于领先地位，但这一数字本身也反映出即便是最前沿的AI技术，在面对复杂推理任务时依然显得力不从心。62.8%的得分意味着模型在处理高难度逻辑链条时仍有近四成的错误率，这直接指出了当前大语言模型在通往“通用人工智能（AGI）”道路上必须克服的推理障碍。

“不及格”现状背后的行业警示

测试结果中最为引人注目的是，绝大多数模型甚至没能摸到60分的及格线。这一现象深刻揭示了当前AI行业存在的“偏科”问题：许多模型在对话流畅度、创意写作等方面表现出色，但在严谨的逻辑推演和多步推理任务中表现乏力。General 365通过数据证明，推理能力的提升并非易事，行业需要从底层架构、训练数据质量以及推理算法等多个维度进行深层次的优化，才能突破现有的能力天花板。

行业影响

General 365的发布将对AI行业产生深远影响。首先，它推动了评测标准的升级，促使模型开发者从追求“参数规模”转向追求“推理质量”。其次，它为企业选择AI模型提供了客观的参考依据，特别是在对逻辑严谨性要求极高的金融、医疗和工程领域。最后，美团技术团队的这一贡献，展示了中国互联网大厂在AI基础研究与工具链建设上的深度参与，有助于提升整个行业对模型本质能力的认知。

常见问题

问题 1：什么是General 365评测集？

General 365是由美团LongCat团队发布的，专门用于评估AI模型通用推理能力的评测基准，旨在通过高难度任务衡量模型的逻辑深度。

问题 2：Gemini 3 Pro在测试中的表现说明了什么？

Gemini 3 Pro虽然获得了62.8%的最高分，但这一成绩说明即使是全球顶尖模型，在复杂推理任务上仍有巨大的提升空间，尚未达到完全可靠的水平。

问题 3：为什么大多数模型在General 365中不及格？

这反映出General 365设计的题目具有极高的挑战性，同时也揭示了当前主流模型在逻辑推理能力上的普遍短板，多数模型尚无法应对复杂的逻辑推演任务。

美团LongCat发布General 365推理评测集：Gemini 3 Pro仅获62.8分，多数模型不及格