返回列表
美团LongCat开源General 365推理评测集:Gemini 3 Pro仅获62.8分,树立行业新标尺
行业新闻人工智能大模型美团

美团LongCat开源General 365推理评测集:Gemini 3 Pro仅获62.8分,树立行业新标尺

美团LongCat团队正式发布General 365推理评测集。在对26款主流模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分均低于60分及格线。该评测集的发布旨在为大模型推理能力提供更严苛的衡量标准,揭示了当前AI模型在复杂推理任务中的局限性。

美团技术团队

核心要点

  • 发布新标尺:美团LongCat团队正式开源General 365推理评测集,旨在重新定义大模型推理能力的评估标准。
  • 实测覆盖广:本次评测涵盖了26款当前市场上的主流大模型。
  • 顶级模型表现:被视为目前最强的Gemini 3 Pro在实测中准确率仅为62.8%。
  • 行业整体水平:绝大多数参测模型未能达到60分的及格线,显示出推理能力的普遍不足。

详细分析

General 365:推理能力的新挑战

美团LongCat团队推出的General 365评测集,其核心目标是为大语言模型的推理能力树立一个新的、更高难度的标尺。在当前大模型层出不穷的背景下,传统的评测方式可能已无法有效区分顶级模型之间的逻辑差距。General 365通过特定的设计,对模型的逻辑严密性和复杂问题处理能力提出了更高要求。

26款模型实测:及格线下的真相

在针对26款主流模型的实测过程中,结果显示出当前AI技术在深度推理方面的瓶颈。即便是目前处于行业领先地位的Gemini 3 Pro,其准确率也仅维持在62.8%的水平。更值得关注的是,参与测试的绝大多数模型甚至无法触及60分的及格门槛。这一数据直观地反映了,尽管大模型在生成和对话能力上取得了长足进步,但在严苛的逻辑推理任务面前,依然存在显著的提升空间。

行业影响

General 365的开源对AI行业具有重要的指导意义。首先,它提供了一个更具辨析力的评估工具,有助于开发者识别模型在逻辑推理上的短板。其次,Gemini 3 Pro等顶级模型的实测表现,打破了市场对大模型推理能力的盲目乐观,促使行业研究重心向更深层次的认知智能和逻辑构建转移。美团此举不仅展示了其在技术评测领域的深度,也为全球AI社区贡献了宝贵的测试基准。

常见问题

什么是General 365评测集?

General 365是由美团LongCat团队发布的专门针对大模型推理能力的评测集,旨在通过实测数据为行业树立新的推理能力评估标尺。

在General 365评测中表现最好的模型是谁?

根据美团的实测数据,Gemini 3 Pro是目前表现最强的模型,但其准确率也仅为62.8%。

为什么说目前大多数模型的推理能力仍有待提高?

因为在General 365对26款主流模型的实测中,绝大多数模型都没能达到60分的及格线,这说明在面对复杂推理任务时,现有模型仍面临巨大挑战。

相关新闻

ACL 2026美团技术团队入选论文解读:大模型评测与推理优化新范式
行业新闻

ACL 2026美团技术团队入选论文解读:大模型评测与推理优化新范式

美团技术团队在ACL 2026国际顶级学术会议中共有6篇论文被收录。这些研究成果涵盖了大模型能力评测、复杂流程推理、竞赛级数学思维优化、强化学习优化以及生成式推荐等多个前沿领域。本文将深入探讨美团如何通过这些技术创新,在自然语言处理(NLP)领域构建生成式AI的新范式,展示其在AI底层技术与应用层面的深厚积累。

美团技术实践:如何用Agent评测思路管理AI Coding并重构31万行代码
行业新闻

美团技术实践:如何用Agent评测思路管理AI Coding并重构31万行代码

本文深入探讨了美团技术团队在AI生成代码占比超90%的背景下,如何通过Agent评测思路管理AI Coding。通过31万行代码的重构实践,团队建立了技术债梳理、Rule建设、重构SOP及Pre-PR机制,成功将高成本的重构专项转化为随迭代持续推进的日常动作,有效解决了AI可能带来的代码混乱问题,为大规模AI代码治理提供了实战参考。

美团发布LongCat-AudioDiT:突破零样本TTS音色克隆上限,直接波形潜空间建模
行业新闻

美团发布LongCat-AudioDiT:突破零样本TTS音色克隆上限,直接波形潜空间建模

美团LongCat团队正式发布LongCat-AudioDiT模型,旨在突破零样本TTS音色克隆的技术瓶颈。该模型创新性地抛弃了传统的梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(TTS)生成。通过这种方式,LongCat-AudioDiT从根源上阻断了数据转换带来的级联误差,让AI能够直接学习声音本身的规律,实现了更高质量的声音克隆艺术。