返回列表
美团LongCat发布General 365推理评测集:主流大模型及格率普遍不足60%
行业新闻美团技术大模型推理能力

美团LongCat发布General 365推理评测集:主流大模型及格率普遍不足60%

美团LongCat团队正式发布General 365推理评测基准,旨在为大模型推理能力树立新标尺。在对26款主流模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型未能达到60分的及格线。这一结果揭示了当前顶尖大模型在复杂推理任务中仍面临巨大挑战,为行业提供了衡量模型认知深度的新维度。

美团技术团队

核心要点

  • 新标尺发布:美团LongCat团队正式推出名为“General 365”的通用推理评测基准。
  • 覆盖范围广:该评测对行业内26款主流大模型进行了深度实测。
  • 顶尖表现受限:目前被视为最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
  • 行业普遍困境:测试结果显示,绝大多数受测模型准确率均低于60%,未能触及及格线。

详细分析

推理能力的严苛考验

美团LongCat团队推出的General 365评测集,其核心目标是针对大模型的推理能力设定更为严苛的衡量标准。在人工智能领域,推理能力被认为是通往通用人工智能(AGI)的关键路径。然而,根据LongCat团队的实测数据,当前主流模型在处理General 365所涵盖的推理任务时,表现出明显的吃力感。即便是目前处于行业第一梯队的Gemini 3 Pro,其62.8%的准确率也反映出即便最先进的模型在复杂逻辑构建与推理闭环上仍有显著的提升空间。

行业现状:及格线下的集体反思

此次评测最令人关注的发现是,在参与测试的26款主流模型中,绝大多数模型的准确率甚至没能摸到60分的及格线。这一数据不仅揭示了General 365评测基准的高难度与专业性,更反映了当前大模型行业在推理能力开发上的普遍瓶颈。当大多数模型在同一标准下表现不佳时,这预示着现有的模型训练范式或数据分布在应对深度推理需求时可能存在系统性的缺失。美团LongCat通过这一数据,为行业敲响了警钟,提示研发团队需更加关注模型逻辑推理质量而非单纯的参数规模。

行业影响

General 365的发布对AI行业具有深远的指导意义。首先,它打破了以往部分评测基准中模型得分虚高的现象,通过极具挑战性的任务设置,还原了模型在真实复杂推理场景下的表现。其次,作为由美团技术团队推出的基准,它为开发者提供了一个清晰的对标工具,有助于行业集中力量攻克推理能力的难关。最后,Gemini 3 Pro的表现与及格线以下的普遍现状,将促使行业重新审视模型评估的多维性,推动AI评价体系从“生成质量”向“逻辑严密性”深度转型。

常见问题

问题 1:General 365评测中表现最好的模型是哪一个?

根据美团LongCat团队的实测数据,在26款主流模型中,Gemini 3 Pro表现最为出色,其准确率为62.8%,位居榜首。

问题 2:为什么说目前大模型的推理能力仍有待提高?

因为在General 365的实测中,绝大多数主流大模型的准确率都未能达到60%的及格水平,这说明在面对该基准设定的推理任务时,现有模型尚无法提供稳定且准确的逻辑输出。

问题 3:General 365是由哪个团队发布的?

该评测基准是由美团LongCat团队研发并发布的,旨在为大模型的推理能力建立新的评价标准。

相关新闻

ACL 2026美团论文精选:从能力评测到推理优化,构建生成新范式
行业新闻

ACL 2026美团论文精选:从能力评测到推理优化,构建生成新范式

美团技术团队在国际自然语言处理顶级会议ACL 2026中共有6篇论文被收录。这些研究成果涵盖了大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化以及生成式推荐等多个前沿领域。本文将深度解析美团在ACL 2026展示的技术布局,探讨其如何通过技术创新构建AI生成的新范式,并分析这些研究方向对大模型行业发展的深远意义。

用Agent评测思路管理AI Coding:美团31万行代码重构的实战经验分享
行业新闻

用Agent评测思路管理AI Coding:美团31万行代码重构的实战经验分享

本文详细介绍了美团技术团队在AI生成代码占比超过90%的背景下,如何通过Agent评测思路有效管理AI Coding。针对31万行代码的大规模重构实践,团队通过技术债梳理、Rule建设、重构SOP及Pre-PR机制,成功将高成本的重构专项转变为随迭代持续推进的日常动作,解决了AI生成代码可能带来的系统性混乱问题。

美团BI架构演进:以指标平台与分析引擎破解数据口径与性能难题
行业新闻

美团BI架构演进:以指标平台与分析引擎破解数据口径与性能难题

美团技术团队分享了其在BI领域的新一代架构实践。该架构以指标平台为核心,通过构建“自动语义”和“增强计算”两大核心能力,针对性地解决了传统BI平台在个性化数据集驱动下普遍存在的数据口径不统一、查询响应缓慢等核心痛点,实现了数据治理与分析效率的双重提升。