返回列表
美团LongCat发布General 365推理评测:Gemini 3 Pro仅获62.8分,多数模型不及格
行业新闻美团人工智能大模型

美团LongCat发布General 365推理评测:Gemini 3 Pro仅获62.8分,多数模型不及格

美团LongCat团队正式发布全新推理评测基准General 365。在对全球26款主流大模型的实测中,目前性能顶尖的Gemini 3 Pro准确率仅为62.8%,而绝大多数参测模型未能达到60分的及格线。这一结果揭示了当前大模型在深度推理能力上的普遍短板,General 365也因此成为衡量AI推理水平的新标尺。

美团技术团队

核心要点

  • 权威发布:美团LongCat团队正式推出名为“General 365”的通用推理评测基准。
  • 覆盖广泛:该评测对全球范围内26款主流大模型进行了深度实测。
  • 性能瓶颈:强如Gemini 3 Pro,在General 365下的准确率也仅为62.8%。
  • 行业现状:测试结果显示,绝大多数主流模型在推理任务上的表现未能触及60分的及格线。

详细分析

推理能力的“试金石”:General 365的严苛挑战

美团LongCat团队此次发布的General 365不仅是一个新的评测工具,更像是为当前处于高速发展的大模型行业投下了一枚“震撼弹”。在过去的一段时间里,许多大模型在常规基准测试中频频取得高分,甚至出现分数“通胀”的现象。然而,General 365的实测数据却给出了截然不同的反馈。通过对26款主流模型的系统性测试,General 365证明了真正的深度推理能力依然是AI领域难以攻克的堡垒。大多数模型在面对该基准测试时表现疲软,未能达到60分的及格水平,这表明当前模型在处理复杂逻辑和多步推理任务时仍存在显著局限。

顶尖模型的上限:Gemini 3 Pro的62.8%意味着什么

在本次公布的测试数据中,Gemini 3 Pro的表现尤为引人关注。作为目前公认的“地表最强”模型之一,它在General 365中的准确率仅为62.8%。虽然这一成绩使其在26款模型中脱颖而出,位居前列,但从绝对数值来看,62.8%的准确率距离“完美解决问题”仍有巨大空间。这一数据设定了当前AI推理能力的上限,同时也反映出即便是一线梯队的顶尖模型,在面对General 365所设定的推理挑战时,也仅仅是处于“勉强及格”边缘。这为后续模型的迭代优化指明了方向,即如何跨越从“逻辑模仿”到“深度推理”的鸿沟。

行业影响

General 365的发布为AI行业树立了新的推理评测标尺。它打破了以往部分评测基准可能存在的“高分低能”幻象,迫使开发者和研究机构重新审视大模型的逻辑推理核心。对于美团技术团队而言,LongCat General 365的开源不仅展示了其在AI评测领域的深厚积淀,也通过公开透明的实测数据,推动了行业向更高质量、更深层次的推理能力演进。未来,General 365或将成为衡量大模型是否具备处理复杂业务逻辑能力的关键参考依据。

常见问题

问题 1:General 365主要评测大模型的哪方面能力?

General 365是由美团LongCat团队发布的评测基准,主要侧重于对大模型进行“推理能力”的深度评估。通过对26款主流模型的实测,它旨在揭示模型在处理复杂逻辑任务时的真实水平。

问题 2:目前在General 365测试中表现最好的模型是谁?

根据美团技术团队发布的数据,在26款主流模型中,Gemini 3 Pro表现最强,但其准确率也仅为62.8%。

问题 3:为什么说大多数模型在General 365中“不及格”?

因为在实测过程中,绝大多数参测模型的准确率未能达到60%这一基础及格线,这说明General 365的题目难度和推理要求远高于目前的平均水平。

相关新闻

ACL 2026美团论文精选:深度解析大模型评测与推理优化新范式
行业新闻

ACL 2026美团论文精选:深度解析大模型评测与推理优化新范式

美团技术团队在ACL 2026国际顶级学术会议上发表了多项重要研究成果。本文精选并解读了其中6篇被收录的论文,涵盖了大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化以及生成式推荐等前沿领域。这些研究展示了美团在自然语言处理(NLP)领域的深厚技术积淀,并为构建生成式AI新范式提供了重要的理论支撑与实践参考。

美团BI架构演进:以指标平台为核心解决数据口径与性能难题
行业新闻

美团BI架构演进:以指标平台为核心解决数据口径与性能难题

美团数据平台近期分享了其在新一代BI架构上的探索实践。该架构以指标平台为核心,通过构建自动语义和增强计算两大核心能力,有效应对了传统BI在个性化数据集驱动下出现的数据口径不一及查询性能瓶颈。这一实践标志着美团在提升数据一致性与分析效率方面取得了重要进展,为大型互联网企业的数据治理提供了参考范式。

揭秘主流AI工具底层逻辑:GitHub热门项目汇总Cursor、Claude Code等系统提示词
行业新闻

揭秘主流AI工具底层逻辑:GitHub热门项目汇总Cursor、Claude Code等系统提示词

GitHub开发者x1xhlol近期发布了一个名为“system-prompts-and-models-of-ai-tools”的热门仓库,该项目系统性地汇总了包括Augment Code、Claude Code、Cursor、Devin AI、Perplexity、v0在内的数十款主流AI编程与生产力工具的系统提示词(System Prompts)及模型配置信息。这一资源的公开为开发者深入理解AI工具的运作机制、指令工程优化以及模型调用策略提供了极具价值的参考,引发了技术社区的广泛关注。