
美团LongCat开源General 365推理评测集:主流大模型推理能力集体“遇冷”
美团LongCat团队正式发布通用推理评测集General 365,旨在为大语言模型的推理能力树立全新标尺。在对26款主流模型的实测中,目前性能顶尖的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型准确率未能达到60%的及格线。这一结果揭示了当前AI模型在复杂推理任务中的普遍短板,General 365的开源将为行业提供更具挑战性的评估标准。
核心要点
- 发布新标尺:美团LongCat团队正式开源General 365,专注于评估大模型的通用推理能力。
- 覆盖范围广:该评测集对目前市面上26款主流大模型进行了深度实测。
- 顶尖表现受限:即使是目前表现最强的Gemini 3 Pro,在General 365上的准确率也仅为62.8%。
- 行业普遍挑战:测试结果显示,绝大多数主流模型在推理任务上的表现不尽如人意,准确率普遍低于60%的及格水平。
详细分析
General 365:重新定义推理评测的深度
随着大语言模型(LLM)的快速迭代,传统的评测基准已逐渐难以区分顶尖模型之间的能力差异。美团LongCat团队推出的General 365评测集,正是为了应对这一挑战。该评测集通过精心设计的测试维度,试图挖掘模型在处理复杂逻辑、多步推理以及常识判断中的真实表现。General 365的命名或许暗示了其对通用性(General)和全面性的追求,旨在成为衡量模型推理能力的“试金石”。
在当前的AI研发环境下,模型在简单对话和信息检索方面已表现出色,但在严密的逻辑推理环节仍存在显著波动。美团团队通过开源这一工具,不仅展示了其在AI基础设施建设上的贡献,也向行业提出了一个严肃的问题:在脱离了简单任务的掩护后,大模型的真实“智力”水平究竟几何?
实测数据背后的真相:及格线下的集体困境
根据美团LongCat团队公布的测试数据,26款主流模型的表现呈现出明显的梯度,但整体水平低于预期。Gemini 3 Pro作为目前公认的性能强手,在General 365的测试中仅获得了62.8%的准确率。这一数据虽然使其位居榜首,但也侧面反映出该评测集的极高难度。62.8%的得分意味着即使是最先进的模型,在处理该评测集中的复杂推理问题时,仍有近四成的错误率。
更令人关注的是,绝大多数参与测试的模型甚至未能触及60%的及格线。这一现象表明,当前大模型在推理逻辑的严密性、长链条思维的稳定性方面仍存在巨大提升空间。对于开发者而言,这不仅是一份成绩单,更是一份改进指南,揭示了模型在通往通用人工智能(AGI)道路上必须跨越的推理障碍。
行业影响
General 365的发布对AI行业具有深远的意义。首先,它打破了部分模型在简单评测集中“刷榜”带来的虚假繁荣,通过更高难度的测试迫使研发团队关注底层逻辑能力的构建,而非仅仅是语料的堆砌。其次,作为美团技术团队的开源成果,General 365为开源社区提供了宝贵的评估工具,有助于中小团队在资源有限的情况下,精准定位模型缺陷。
此外,Gemini 3 Pro的表现也为行业树立了一个阶段性的参考点。它告诉市场,即便是在大模型技术高度发达的今天,推理能力依然是区分“顶尖”与“优秀”的核心分水岭。未来,随着更多模型接入General 365进行测试,我们有望看到AI推理能力迎来新一轮的突破式增长。
常见问题
问题 1:General 365主要测试模型的哪些能力?
General 365是一个通用推理评测集,主要侧重于评估大语言模型在复杂逻辑推理、多步思维链条以及通用问题解决中的准确性和稳定性。
问题 2:为什么Gemini 3 Pro在这次测试中只拿到了62.8%的分数?
这主要是因为General 365设置了极高的推理难度和严苛的评分标准。62.8%的准确率虽然看起来不高,但在26款主流模型的横向对比中已是最高分,说明该评测集能够有效拉开模型间的差距,识别出顶尖模型的真实上限。
问题 3:普通开发者可以使用General 365吗?
是的,美团LongCat团队已正式开源General 365,这意味着全球的AI开发者和研究机构都可以利用这一评测集来测试和优化自己的模型推理性能。

