
美团LongCat发布General 365推理评测集:Gemini 3 Pro仅获62.8分,多数模型不及格
美团LongCat团队正式发布全新推理评测基准General 365。在对26款主流模型的实测中,顶尖模型Gemini 3 Pro的准确率仅为62.8%,而绝大多数模型得分未能达到60分的及格线。这一结果揭示了当前AI模型在复杂推理任务中的普遍局限性,General 365也因此成为衡量模型逻辑推理能力的新标尺。
核心要点
- 发布新基准:美团LongCat团队正式推出名为General 365的AI推理能力评测集。
- 覆盖范围广:该评测集对目前市面上26款主流AI模型进行了深度实测。
- 顶尖模型受挫:被视为行业标杆的Gemini 3 Pro在测试中仅取得62.8%的准确率。
- 行业普遍困境:测试结果显示,绝大多数参与评测的模型得分均在60分以下,未能达到及格水平。
详细分析
General 365:推理能力的新试金石
美团LongCat团队此次发布的General 365,旨在解决当前AI模型评测中对逻辑推理能力评估不足的问题。通过对26款主流模型的实测,General 365展现了极高的测试难度与区分度。在AI技术日新月异的今天,单纯的语言生成能力已不再是衡量模型优劣的唯一标准,深层次的逻辑推理与问题解决能力正成为下一阶段竞争的核心。General 365的出现,为行业提供了一个更严苛、更具参考价值的评估坐标系。
顶尖模型表现折射技术瓶颈
在本次实测中,Gemini 3 Pro作为目前公认的强力模型,其62.8%的准确率虽然在26款模型中处于领先地位,但这一数字本身也反映出即便是最前沿的AI技术,在面对复杂推理任务时依然显得力不从心。62.8%的得分意味着模型在处理高难度逻辑链条时仍有近四成的错误率,这直接指出了当前大语言模型在通往“通用人工智能(AGI)”道路上必须克服的推理障碍。
“不及格”现状背后的行业警示
测试结果中最为引人注目的是,绝大多数模型甚至没能摸到60分的及格线。这一现象深刻揭示了当前AI行业存在的“偏科”问题:许多模型在对话流畅度、创意写作等方面表现出色,但在严谨的逻辑推演和多步推理任务中表现乏力。General 365通过数据证明,推理能力的提升并非易事,行业需要从底层架构、训练数据质量以及推理算法等多个维度进行深层次的优化,才能突破现有的能力天花板。
行业影响
General 365的发布将对AI行业产生深远影响。首先,它推动了评测标准的升级,促使模型开发者从追求“参数规模”转向追求“推理质量”。其次,它为企业选择AI模型提供了客观的参考依据,特别是在对逻辑严谨性要求极高的金融、医疗和工程领域。最后,美团技术团队的这一贡献,展示了中国互联网大厂在AI基础研究与工具链建设上的深度参与,有助于提升整个行业对模型本质能力的认知。
常见问题
问题 1:什么是General 365评测集?
General 365是由美团LongCat团队发布的,专门用于评估AI模型通用推理能力的评测基准,旨在通过高难度任务衡量模型的逻辑深度。
问题 2:Gemini 3 Pro在测试中的表现说明了什么?
Gemini 3 Pro虽然获得了62.8%的最高分,但这一成绩说明即使是全球顶尖模型,在复杂推理任务上仍有巨大的提升空间,尚未达到完全可靠的水平。
问题 3:为什么大多数模型在General 365中不及格?
这反映出General 365设计的题目具有极高的挑战性,同时也揭示了当前主流模型在逻辑推理能力上的普遍短板,多数模型尚无法应对复杂的逻辑推演任务。


