
美团LongCat开源General 365推理评测集:Gemini 3 Pro仅获62.8分,树立行业新标尺
美团LongCat团队正式发布General 365推理评测集。在对26款主流模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分均低于60分及格线。该评测集的发布旨在为大模型推理能力提供更严苛的衡量标准,揭示了当前AI模型在复杂推理任务中的局限性。
核心要点
- 发布新标尺:美团LongCat团队正式开源General 365推理评测集,旨在重新定义大模型推理能力的评估标准。
- 实测覆盖广:本次评测涵盖了26款当前市场上的主流大模型。
- 顶级模型表现:被视为目前最强的Gemini 3 Pro在实测中准确率仅为62.8%。
- 行业整体水平:绝大多数参测模型未能达到60分的及格线,显示出推理能力的普遍不足。
详细分析
General 365:推理能力的新挑战
美团LongCat团队推出的General 365评测集,其核心目标是为大语言模型的推理能力树立一个新的、更高难度的标尺。在当前大模型层出不穷的背景下,传统的评测方式可能已无法有效区分顶级模型之间的逻辑差距。General 365通过特定的设计,对模型的逻辑严密性和复杂问题处理能力提出了更高要求。
26款模型实测:及格线下的真相
在针对26款主流模型的实测过程中,结果显示出当前AI技术在深度推理方面的瓶颈。即便是目前处于行业领先地位的Gemini 3 Pro,其准确率也仅维持在62.8%的水平。更值得关注的是,参与测试的绝大多数模型甚至无法触及60分的及格门槛。这一数据直观地反映了,尽管大模型在生成和对话能力上取得了长足进步,但在严苛的逻辑推理任务面前,依然存在显著的提升空间。
行业影响
General 365的开源对AI行业具有重要的指导意义。首先,它提供了一个更具辨析力的评估工具,有助于开发者识别模型在逻辑推理上的短板。其次,Gemini 3 Pro等顶级模型的实测表现,打破了市场对大模型推理能力的盲目乐观,促使行业研究重心向更深层次的认知智能和逻辑构建转移。美团此举不仅展示了其在技术评测领域的深度,也为全球AI社区贡献了宝贵的测试基准。
常见问题
什么是General 365评测集?
General 365是由美团LongCat团队发布的专门针对大模型推理能力的评测集,旨在通过实测数据为行业树立新的推理能力评估标尺。
在General 365评测中表现最好的模型是谁?
根据美团的实测数据,Gemini 3 Pro是目前表现最强的模型,但其准确率也仅为62.8%。
为什么说目前大多数模型的推理能力仍有待提高?
因为在General 365对26款主流模型的实测中,绝大多数模型都没能达到60分的及格线,这说明在面对复杂推理任务时,现有模型仍面临巨大挑战。


