返回列表
美团LongCat发布General 365推理评测集:Gemini 3 Pro准确率仅62.8%
行业新闻美团AI评测大模型

美团LongCat发布General 365推理评测集:Gemini 3 Pro准确率仅62.8%

美团LongCat团队正式发布General 365推理评测基准,旨在为大模型推理能力树立新标尺。在对26款主流模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数受测模型未能达到60分的及格线。这一结果揭示了当前AI模型在复杂推理任务中面临的严峻挑战。

美团技术团队

核心要点

  • 发布新标尺:美团LongCat团队正式推出名为General 365的开源推理评测基准。
  • 覆盖范围广:该评测对行业内26款主流大模型进行了深度实测。
  • 顶尖模型受挫:目前公认最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
  • 行业普遍困境:绝大多数参与测试的模型准确率均低于60%,未能达到及格水平。

详细分析

推理评测的新高度:General 365的诞生

美团LongCat团队此次发布的General 365,不仅是一个简单的测试集,更是对当前大模型逻辑推理能力的一次全方位审视。在AI技术日新月异的背景下,传统的评测基准往往难以区分顶尖模型之间的细微差距。General 365通过精心设计的任务,试图挖掘模型在处理复杂逻辑、多步推理以及常识判断中的真实表现。美团技术团队的这一举动,旨在为行业提供一个更具公信力和挑战性的评价体系,从而推动大模型从“语言生成”向“深度推理”迈进。

标杆模型的表现:Gemini 3 Pro的62.8%意味着什么?

在本次实测的26款主流模型中,Gemini 3 Pro作为目前公认的性能天花板,其表现备受关注。然而,最终62.8%的准确率却给行业敲响了警钟。这一数据表明,即便是在算力和算法上都达到顶尖水平的模型,在面对General 365所设定的推理任务时,依然存在明显的短板。62.8%虽然在所有受测模型中位居榜首,但距离人类理想的逻辑严密性仍有巨大空间。这不仅证明了General 365评测集的难度与含金量,也揭示了当前AI在通往通用人工智能(AGI)道路上,推理能力依然是核心瓶颈之一。

难以逾越的及格线:行业现状的真实写照

更为引人深思的是,在参与测评的26款模型中,绝大多数模型的准确率甚至没能摸到60分的及格线。这一现象反映出当前大模型开发中的普遍问题:虽然模型在对话流畅度、知识覆盖面上有了显著提升,但在严谨的逻辑链条构建和复杂问题拆解上,依然显得力不从心。及格线的集体失守,意味着目前市面上大部分模型在处理高难度推理任务时,其可靠性仍有待商榷。General 365的出现,将这种“虚假繁荣”下的技术短板清晰地暴露在公众视野中,迫使开发者重新思考模型训练的侧重点。

行业影响

General 365的发布对AI行业具有深远的指导意义。首先,它打破了以往评测基准容易被“刷榜”的局面,通过高难度的推理任务重新定义了优秀模型的标准。其次,美团LongCat团队的开源举措,为广大开发者提供了宝贵的测试工具,有助于加速国内乃至全球AI社区在逻辑推理技术上的迭代。最后,这一评测结果将引导行业资源从单纯追求参数规模转向追求更高质量的逻辑推理能力,对于工业级AI应用的落地具有重要的参考价值。

常见问题

问题 1:General 365主要测试模型的哪些能力?

General 365是由美团LongCat团队发布的推理评测基准,主要聚焦于测试大模型在复杂逻辑、多步拆解以及深度推理方面的综合能力,而非简单的知识问答。

问题 2:为什么Gemini 3 Pro的准确率只有62.8%?

这主要源于General 365评测集本身极高的难度设定。62.8%的准确率虽然看起来不高,但在26款主流模型的对比中已是最高分,这反映了当前顶尖AI模型在复杂推理任务上仍处于起步和探索阶段。

问题 3:普通开发者可以使用General 365吗?

是的,根据美团技术团队的发布信息,General 365是一个开源的评测基准,旨在为全行业提供推理能力的新标尺,开发者可以利用该基准对自己的模型进行性能评估和优化。

相关新闻

美团技术实践:用Agent评测思路管理AI Coding,完成31万行代码重构
行业新闻

美团技术实践:用Agent评测思路管理AI Coding,完成31万行代码重构

本文介绍了美团技术团队在AI生成代码占比超过90%的背景下,如何通过Agent评测思路管理AI Coding。针对AI可能放大系统混乱的风险,团队通过技术债梳理、Rule建设、重构SOP及Pre-PR机制,成功实现了31万行代码的重构实践,将高成本专项重构转化为随迭代持续进行的日常动作,为AI时代的软件工程管理提供了新范式。

Anthropic拟IPO:年化营收突破470亿美元,联合创始人回应AI回报质疑
行业新闻

Anthropic拟IPO:年化营收突破470亿美元,联合创始人回应AI回报质疑

人工智能巨头Anthropic在准备IPO之际展现了惊人的财务增长。根据最新披露,该公司2026年5月的年化收入已突破470亿美元,较2025年底的90亿美元实现了爆发式增长。尽管市场对AI投资的实际回报存在普遍疑虑,联合创始人Daniela Amodei对此持乐观态度。本文将分析Anthropic的增长轨迹及其在公开市场面临的挑战。

Airbnb首席执行官Brian Chesky拟成立AI实验室:深耕自主研发,拒绝仓促合作
行业新闻

Airbnb首席执行官Brian Chesky拟成立AI实验室:深耕自主研发,拒绝仓促合作

Airbnb首席执行官Brian Chesky宣布计划启动一个新的AI实验室。这一决策呼应了他去年关于大语言模型(LLM)合作的立场:即当时市场上的现有产品尚未达到Airbnb的业务要求。通过建立专属实验室,Airbnb旨在克服现有技术的局限性,探索更符合其平台生态与用户体验需求的AI解决方案,标志着该公司在AI战略上从审慎观望转向深度自主研发。