
美团LongCat开源General 365推理评测集:Gemini 3 Pro准确率仅62.8%树立新标尺
美团LongCat团队正式发布并开源General 365推理评测基准,旨在为大模型推理能力提供更严苛的评估标准。在对26款主流模型的实测中,目前公认最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型未能达到60%的及格线。这一数据的发布揭示了当前大语言模型在复杂推理任务上的局限性,General 365正成为衡量AI逻辑能力的新高度。
核心要点
- 发布新标尺:美团LongCat团队正式开源General 365,专注于大模型推理能力的深度评测。
- 覆盖范围广:该评测集已对全球26款主流大模型进行了实测对比。
- 及格率极低:测试结果显示,绝大多数模型准确率低于60%,未能达到及格水平。
- 顶尖模型受挫:目前表现最强的Gemini 3 Pro在General 365上的准确率仅为62.8%,反映出推理任务的极高难度。
详细分析
General 365:重新定义推理评测难度
美团LongCat团队此次发布的General 365并非普通的语言能力测试,而是针对大模型核心推理能力设计的“硬核”标尺。在当前AI领域,虽然模型在对话、创作和基础问答上表现出色,但在处理复杂逻辑推理时往往显得力不从心。General 365的出现,正是为了填补这一空白,通过更具挑战性的题目设计,真实反映模型在极端逻辑场景下的表现。从实测数据来看,这一评测集的难度极高,直接拉开了不同梯队模型之间的差距。
26款模型实测:Gemini 3 Pro 勉强领跑
在美团技术团队进行的横向测评中,共计26款主流模型参与了挑战。令人惊讶的是,即便是目前被视为行业天花板的Gemini 3 Pro,其准确率也仅维持在62.8%。这一数字虽然在所有参测模型中位居第一,但距离“完美解决推理问题”仍有巨大空间。更值得关注的是,除了极少数顶尖模型外,绝大多数主流模型的得分均在60分以下。这意味着在面对General 365所代表的复杂推理任务时,当前的大模型普遍存在逻辑断层,难以给出稳定且准确的答案。
行业影响
美团General 365的开源,对AI行业具有深远的指导意义。首先,它打破了以往评测集“高分满天飞”的虚假繁荣,用严苛的数据提醒开发者,推理能力依然是大模型进化的核心瓶颈。其次,作为由美团技术团队推出的工具,General 365为行业提供了一个公允的第三方参照系,有助于推动各大厂商从追求“参数规模”转向追求“逻辑深度”。这种对推理能力的极致追求,将直接影响到AI在自动驾驶、金融决策、复杂代码生成等高容错要求场景下的落地进程。
常见问题
问题 1:为什么General 365的测试结果普遍偏低?
根据美团LongCat团队的实测数据,这主要是因为General 365设计的题目具有极高的逻辑复杂度。目前大多数模型在处理简单关联时表现良好,但在多步推理、反向逻辑及隐含条件识别上仍存在短板。62.8%的最高分反映了当前AI技术在处理深层次逻辑问题时的真实天花板。
问题 2:General 365对普通开发者有什么意义?
对于开发者而言,General 365提供了一个透明的选型参考。通过查看26款主流模型的实测表现,开发者可以更清晰地了解哪些模型在推理任务上更具潜力,从而在构建垂直领域应用时做出更科学的技术决策。
问题 3:Gemini 3 Pro的表现是否代表了当前AI的最高水平?
在General 365的测试框架下,Gemini 3 Pro以62.8%的准确率位列第一,确实代表了目前主流模型在复杂推理任务上的领先地位。然而,多数模型不及格的现状也表明,整个行业在通往通用人工智能(AGI)的道路上,推理能力的提升仍是重中之重。


