返回列表
美团LongCat发布General 365评测集:Gemini 3 Pro准确率仅62.8%树立推理新标尺
行业新闻美团大模型人工智能

美团LongCat发布General 365评测集:Gemini 3 Pro准确率仅62.8%树立推理新标尺

美团LongCat团队正式发布General 365推理评测基准。在对26款主流大模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分未能达到60分的及格线。这一结果揭示了当前大模型在复杂推理任务中的局限性,General 365也由此成为衡量AI模型推理能力的新标准。

美团技术团队

核心要点

  • 发布全新基准:美团LongCat团队正式推出名为General 365的通用推理评测集。
  • 覆盖范围广泛:该评测集对目前市面上26款主流大模型进行了深度实测。
  • 头部模型表现:目前公认最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
  • 行业整体现状:绝大多数参与测试的模型准确率均低于60%,未能触及及格线。

详细分析

General 365:推理能力的高难度试金石

美团LongCat团队推出的General 365旨在为大模型提供更具挑战性的推理评测环境。通过对26款主流模型的实测数据可以看出,该评测集的设计初衷是打破现有评测的“高分幻象”,通过更严苛的逻辑要求来衡量模型的真实推理水平。General 365的出现,为行业提供了一个能够有效区分模型逻辑深度的新标尺。

现状透视:大模型集体面临“及格难”

在本次评测中,即便是性能顶尖的Gemini 3 Pro,其准确率也仅为62.8%,这一数据反映出即便是最先进的模型在处理复杂推理任务时仍有巨大提升空间。更令人关注的是,绝大多数模型甚至无法达到60分的及格水平,这表明当前大模型在通用推理能力的构建上仍处于攻坚阶段,尚未实现真正的逻辑闭环。

行业影响

General 365的发布对AI行业具有重要的导向意义。首先,它揭示了当前大模型在推理任务上的短板,促使研发团队从单纯追求参数规模转向提升逻辑推理质量。其次,作为由美团技术团队推出的基准,它为国内乃至全球的AI开发者提供了一个客观、高标准的参考体系,有助于推动下一代更具逻辑思考能力的AI模型诞生。

常见问题

什么是General 365评测集?

General 365是由美团LongCat团队发布的针对大语言模型推理能力的通用评测基准,旨在通过高难度的实测任务评估模型的逻辑推理准确度。

为什么Gemini 3 Pro的准确率只有62.8%?

这主要源于General 365评测任务的复杂性。62.8%的准确率虽然看似不高,但在参与测试的26款主流模型中已是最高分,这反映了该评测集对逻辑推理能力的极高要求。

绝大多数模型不及格说明了什么?

这说明目前主流大模型在处理深层次、复杂逻辑推理任务时仍存在明显局限,现有的技术路径在推理稳定性上仍需进一步突破。

相关新闻

美团 BI 架构演进:以指标平台为核心解决数据口径与性能挑战
行业新闻

美团 BI 架构演进:以指标平台为核心解决数据口径与性能挑战

美团数据平台近期分享了其在新一代 BI 架构上的探索实践。该架构以指标平台为核心,通过构建“自动语义”和“增强计算”两大核心能力,有效应对了传统 BI 模式下因个性化数据集导致的数据口径不一致及查询效率低下的行业难题,标志着美团在数据治理与分析引擎领域的深度突破。

美团技术团队分享:基于Agent评测思路的31万行代码AI重构实践
行业新闻

美团技术团队分享:基于Agent评测思路的31万行代码AI重构实践

本文介绍了美团技术团队在AI生成代码占比超过90%的背景下,如何通过Agent评测思路管理AI Coding。针对AI可能放大系统混乱的风险,团队通过31万行代码的重构实践,构建了包含技术债梳理、Rule建设、重构SOP及Pre-PR机制的体系,成功将高成本的重构专项转化为随迭代持续推进的日常动作,为AI时代的软件工程管理提供了新范式。

LARYBench发布:定义具身动作表征“ImageNet”,通用模型性能超越专家模型
行业新闻

LARYBench发布:定义具身动作表征“ImageNet”,通用模型性能超越专家模型

美团技术团队正式发布LARYBench(Latent Action Representation Yielding Benchmark),这是一个旨在从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。实验结果显示,通用视觉模型在动作泛化与控制精度上显著优于专门的具身动作专家模型。该研究证实,具身动作表征能够从大规模人类视频数据中自然涌现,为具身智能的发展提供了新的评测标准与研究方向。