
美团LongCat发布General 365推理评测集:主流大模型及格率普遍不足60%
美团LongCat团队正式发布General 365推理评测基准,旨在为大模型推理能力树立新标尺。在对26款主流模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型未能达到60分的及格线。这一结果揭示了当前顶尖大模型在复杂推理任务中仍面临巨大挑战,为行业提供了衡量模型认知深度的新维度。
核心要点
- 新标尺发布:美团LongCat团队正式推出名为“General 365”的通用推理评测基准。
- 覆盖范围广:该评测对行业内26款主流大模型进行了深度实测。
- 顶尖表现受限:目前被视为最强的Gemini 3 Pro在测试中仅取得62.8%的准确率。
- 行业普遍困境:测试结果显示,绝大多数受测模型准确率均低于60%,未能触及及格线。
详细分析
推理能力的严苛考验
美团LongCat团队推出的General 365评测集,其核心目标是针对大模型的推理能力设定更为严苛的衡量标准。在人工智能领域,推理能力被认为是通往通用人工智能(AGI)的关键路径。然而,根据LongCat团队的实测数据,当前主流模型在处理General 365所涵盖的推理任务时,表现出明显的吃力感。即便是目前处于行业第一梯队的Gemini 3 Pro,其62.8%的准确率也反映出即便最先进的模型在复杂逻辑构建与推理闭环上仍有显著的提升空间。
行业现状:及格线下的集体反思
此次评测最令人关注的发现是,在参与测试的26款主流模型中,绝大多数模型的准确率甚至没能摸到60分的及格线。这一数据不仅揭示了General 365评测基准的高难度与专业性,更反映了当前大模型行业在推理能力开发上的普遍瓶颈。当大多数模型在同一标准下表现不佳时,这预示着现有的模型训练范式或数据分布在应对深度推理需求时可能存在系统性的缺失。美团LongCat通过这一数据,为行业敲响了警钟,提示研发团队需更加关注模型逻辑推理质量而非单纯的参数规模。
行业影响
General 365的发布对AI行业具有深远的指导意义。首先,它打破了以往部分评测基准中模型得分虚高的现象,通过极具挑战性的任务设置,还原了模型在真实复杂推理场景下的表现。其次,作为由美团技术团队推出的基准,它为开发者提供了一个清晰的对标工具,有助于行业集中力量攻克推理能力的难关。最后,Gemini 3 Pro的表现与及格线以下的普遍现状,将促使行业重新审视模型评估的多维性,推动AI评价体系从“生成质量”向“逻辑严密性”深度转型。
常见问题
问题 1:General 365评测中表现最好的模型是哪一个?
根据美团LongCat团队的实测数据,在26款主流模型中,Gemini 3 Pro表现最为出色,其准确率为62.8%,位居榜首。
问题 2:为什么说目前大模型的推理能力仍有待提高?
因为在General 365的实测中,绝大多数主流大模型的准确率都未能达到60%的及格水平,这说明在面对该基准设定的推理任务时,现有模型尚无法提供稳定且准确的逻辑输出。
问题 3:General 365是由哪个团队发布的?
该评测基准是由美团LongCat团队研发并发布的,旨在为大模型的推理能力建立新的评价标准。


