返回列表
美团LongCat开源General 365推理评测集:Gemini 3 Pro准确率仅62.8%树立新标尺
研究突破美团大模型推理能力

美团LongCat开源General 365推理评测集:Gemini 3 Pro准确率仅62.8%树立新标尺

美团LongCat团队正式发布并开源General 365推理评测基准,旨在为大模型推理能力提供更严苛的评估标准。在对26款主流模型的实测中,目前公认最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型未能达到60%的及格线。这一数据的发布揭示了当前大语言模型在复杂推理任务上的局限性,General 365正成为衡量AI逻辑能力的新高度。

美团技术团队

核心要点

  • 发布新标尺:美团LongCat团队正式开源General 365,专注于大模型推理能力的深度评测。
  • 覆盖范围广:该评测集已对全球26款主流大模型进行了实测对比。
  • 及格率极低:测试结果显示,绝大多数模型准确率低于60%,未能达到及格水平。
  • 顶尖模型受挫:目前表现最强的Gemini 3 Pro在General 365上的准确率仅为62.8%,反映出推理任务的极高难度。

详细分析

General 365:重新定义推理评测难度

美团LongCat团队此次发布的General 365并非普通的语言能力测试,而是针对大模型核心推理能力设计的“硬核”标尺。在当前AI领域,虽然模型在对话、创作和基础问答上表现出色,但在处理复杂逻辑推理时往往显得力不从心。General 365的出现,正是为了填补这一空白,通过更具挑战性的题目设计,真实反映模型在极端逻辑场景下的表现。从实测数据来看,这一评测集的难度极高,直接拉开了不同梯队模型之间的差距。

26款模型实测:Gemini 3 Pro 勉强领跑

在美团技术团队进行的横向测评中,共计26款主流模型参与了挑战。令人惊讶的是,即便是目前被视为行业天花板的Gemini 3 Pro,其准确率也仅维持在62.8%。这一数字虽然在所有参测模型中位居第一,但距离“完美解决推理问题”仍有巨大空间。更值得关注的是,除了极少数顶尖模型外,绝大多数主流模型的得分均在60分以下。这意味着在面对General 365所代表的复杂推理任务时,当前的大模型普遍存在逻辑断层,难以给出稳定且准确的答案。

行业影响

美团General 365的开源,对AI行业具有深远的指导意义。首先,它打破了以往评测集“高分满天飞”的虚假繁荣,用严苛的数据提醒开发者,推理能力依然是大模型进化的核心瓶颈。其次,作为由美团技术团队推出的工具,General 365为行业提供了一个公允的第三方参照系,有助于推动各大厂商从追求“参数规模”转向追求“逻辑深度”。这种对推理能力的极致追求,将直接影响到AI在自动驾驶、金融决策、复杂代码生成等高容错要求场景下的落地进程。

常见问题

问题 1:为什么General 365的测试结果普遍偏低?

根据美团LongCat团队的实测数据,这主要是因为General 365设计的题目具有极高的逻辑复杂度。目前大多数模型在处理简单关联时表现良好,但在多步推理、反向逻辑及隐含条件识别上仍存在短板。62.8%的最高分反映了当前AI技术在处理深层次逻辑问题时的真实天花板。

问题 2:General 365对普通开发者有什么意义?

对于开发者而言,General 365提供了一个透明的选型参考。通过查看26款主流模型的实测表现,开发者可以更清晰地了解哪些模型在推理任务上更具潜力,从而在构建垂直领域应用时做出更科学的技术决策。

问题 3:Gemini 3 Pro的表现是否代表了当前AI的最高水平?

在General 365的测试框架下,Gemini 3 Pro以62.8%的准确率位列第一,确实代表了目前主流模型在复杂推理任务上的领先地位。然而,多数模型不及格的现状也表明,整个行业在通往通用人工智能(AGI)的道路上,推理能力的提升仍是重中之重。

相关新闻

LARYBench发布:定义具身动作表征“ImageNet”,美团揭示通用视觉模型泛化潜力
研究突破

LARYBench发布:定义具身动作表征“ImageNet”,美团揭示通用视觉模型泛化潜力

美团技术团队正式发布LARYBench(Latent Action Representation Yielding Benchmark),这是一个系统化的评测基准,旨在指引从大规模视觉数据中学习通用的隐式动作表征。实验结果显示,通用视觉模型在动作泛化与控制精度上显著优于专门的具身动作专家模型,标志着具身动作表征可从大规模人类视频数据中有效涌现。

深度解析:若大语言模型具备拟人属性,那么《帝国时代2》亦然
研究突破

深度解析:若大语言模型具备拟人属性,那么《帝国时代2》亦然

本文深入探讨了Adrian de Wynter发表的最新研究,该研究挑战了将大语言模型(LLM)拟人化的普遍倾向。通过在经典游戏《帝国时代2》中训练神经网络,作者证明了所谓的“理解”或“道德”等人类属性并非LLM独有,而是可能存在于任何足够强大的基质中。研究指出,若缺乏明确的测量标准,对AI行为的解释将陷入主观臆断,并为此提出了“LLM非唯一性”的零假设,旨在为AI实验设计提供更严谨的科学框架。

美团发布LongCat-AudioDiT:突破零样本TTS音色克隆上限,引领语音合成新范式
研究突破

美团发布LongCat-AudioDiT:突破零样本TTS音色克隆上限,引领语音合成新范式

美团LongCat团队正式推出LongCat-AudioDiT模型,旨在解决零样本音色克隆的技术瓶颈。该模型创新性地抛弃了梅尔谱等传统中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(TTS)生成。通过这种方式,LongCat-AudioDiT从根源上阻断了数据转换带来的级联误差,显著提升了声音克隆的真实度与自然度,为AI语音合成领域带来了重大的技术革新。