返回列表
美团LongCat发布General 365推理评测:Gemini 3 Pro仅获62.8分,多数模型不及格
行业新闻美团大模型评测基准

美团LongCat发布General 365推理评测:Gemini 3 Pro仅获62.8分,多数模型不及格

美团LongCat团队正式发布General 365推理评测基准,旨在为大模型推理能力树立新标尺。在对26款主流模型的实测中,结果显示当前顶尖模型在复杂推理任务上仍面临巨大挑战:即便是目前公认最强的Gemini 3 Pro,其准确率也仅为62.8%,而绝大多数参测模型未能达到60分的及格线。这一数据揭示了现有大模型在逻辑推理深度上的普遍局限性。

美团技术团队

核心要点

  • 新基准发布:美团LongCat团队正式推出名为“General 365”的推理评测基准。
  • 覆盖范围广:该评测对目前市面上26款主流大模型进行了深度实测。
  • 顶尖模型受挫:地表最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
  • 普遍表现欠佳:绝大多数参测模型未能触及60%的及格线,显示出推理能力的短板。

详细分析

推理能力的“试金石”:General 365的发布背景

随着大语言模型(LLM)在自然语言处理领域的广泛应用,业界对于模型能力的评估已不再满足于基础的对话和文本生成。美团LongCat团队此次发布的General 365,正是针对模型核心竞争力——“推理能力”而设立的新标尺。在AI向通用人工智能(AGI)演进的过程中,逻辑推理是处理复杂决策、数学问题及编程任务的关键。General 365的出现,旨在通过高难度的实测,真实反映当前主流模型在处理复杂逻辑时的实际水平,打破了以往部分评测中模型表现虚高的幻象。

顶尖模型的瓶颈:Gemini 3 Pro的表现分析

在本次General 365的实测中,被业界视为标杆的Gemini 3 Pro虽然拿下了最高分,但其62.8%的准确率却引发了深度思考。作为目前“地表最强”的模型,其得分仅刚过及格线,这说明即便是在算力和算法架构上处于领先地位的顶尖模型,在面对General 365所设定的推理挑战时,依然存在明显的性能瓶颈。这一数据不仅定义了当前AI推理能力的上限,也明确了未来模型优化需要攻克的“深水区”。

全行业及格率低迷:大模型推理的普遍困境

更为严峻的事实是,在参与测试的26款主流模型中,绝大多数模型的准确率甚至没能摸到60分的及格线。这意味着,虽然当前大模型在创意写作、信息检索等方面表现出色,但在严谨的逻辑推导和多步推理任务中,依然存在严重的“幻觉”或逻辑断裂问题。General 365的测试结果为整个行业敲响了警钟:在追求模型参数规模的同时,如何有效提升模型的逻辑严密性与推理稳定性,已成为大模型技术下半场竞赛的核心议题。

行业影响

美团General 365的发布,对AI行业具有重要的导向意义。首先,它提供了一个更具区分度的评测工具,能够有效识别出真正具备深度推理能力的模型,避免了评测同质化。其次,Gemini 3 Pro及其他模型的实测表现,为开发者指明了方向——即单纯的规模扩张可能已进入边际效应递减阶段,强化学习与推理算法的深度融合将成为下一阶段的研究重点。最后,这一基准的建立有助于企业在选择AI服务时,拥有更客观的参考依据,推动AI应用从“感知”向“认知”的实质性跨越。

常见问题

问题 1:General 365主要测试模型的什么能力?

General 365是由美团LongCat团队发布的推理评测基准,主要针对大模型的逻辑推理能力进行深度评估,旨在衡量模型在处理复杂逻辑任务时的准确性。

问题 2:在General 365评测中,表现最好的模型是谁?

根据美团LongCat团队的实测数据,目前表现最强的模型是Gemini 3 Pro,其准确率为62.8%。

问题 3:目前主流大模型在推理能力上的整体表现如何?

整体表现不容乐观。在测试的26款主流模型中,绝大多数模型的准确率都低于60%,未能达到及格水平,显示出推理能力仍是大模型普遍的薄弱环节。

相关新闻