美团开源General 365推理评测集：Gemini 3 Pro准确率仅62.8%

美团LongCat团队正式发布并开源General 365推理评测基准，旨在为大模型推理能力提供更严苛的评估标准。在对26款主流模型的实测中，目前公认最强的Gemini 3 Pro准确率仅为62.8%，而绝大多数模型未能达到60%的及格线。这一数据的发布揭示了当前大语言模型在复杂推理任务上的局限性，General 365正成为衡量AI逻辑能力的新高度。

核心要点

发布新标尺：美团LongCat团队正式开源General 365，专注于大模型推理能力的深度评测。
覆盖范围广：该评测集已对全球26款主流大模型进行了实测对比。
及格率极低：测试结果显示，绝大多数模型准确率低于60%，未能达到及格水平。
顶尖模型受挫：目前表现最强的Gemini 3 Pro在General 365上的准确率仅为62.8%，反映出推理任务的极高难度。

详细分析

General 365：重新定义推理评测难度

美团LongCat团队此次发布的General 365并非普通的语言能力测试，而是针对大模型核心推理能力设计的“硬核”标尺。在当前AI领域，虽然模型在对话、创作和基础问答上表现出色，但在处理复杂逻辑推理时往往显得力不从心。General 365的出现，正是为了填补这一空白，通过更具挑战性的题目设计，真实反映模型在极端逻辑场景下的表现。从实测数据来看，这一评测集的难度极高，直接拉开了不同梯队模型之间的差距。

26款模型实测：Gemini 3 Pro 勉强领跑

在美团技术团队进行的横向测评中，共计26款主流模型参与了挑战。令人惊讶的是，即便是目前被视为行业天花板的Gemini 3 Pro，其准确率也仅维持在62.8%。这一数字虽然在所有参测模型中位居第一，但距离“完美解决推理问题”仍有巨大空间。更值得关注的是，除了极少数顶尖模型外，绝大多数主流模型的得分均在60分以下。这意味着在面对General 365所代表的复杂推理任务时，当前的大模型普遍存在逻辑断层，难以给出稳定且准确的答案。

行业影响

美团General 365的开源，对AI行业具有深远的指导意义。首先，它打破了以往评测集“高分满天飞”的虚假繁荣，用严苛的数据提醒开发者，推理能力依然是大模型进化的核心瓶颈。其次，作为由美团技术团队推出的工具，General 365为行业提供了一个公允的第三方参照系，有助于推动各大厂商从追求“参数规模”转向追求“逻辑深度”。这种对推理能力的极致追求，将直接影响到AI在自动驾驶、金融决策、复杂代码生成等高容错要求场景下的落地进程。

常见问题

问题 1：为什么General 365的测试结果普遍偏低？

根据美团LongCat团队的实测数据，这主要是因为General 365设计的题目具有极高的逻辑复杂度。目前大多数模型在处理简单关联时表现良好，但在多步推理、反向逻辑及隐含条件识别上仍存在短板。62.8%的最高分反映了当前AI技术在处理深层次逻辑问题时的真实天花板。

问题 2：General 365对普通开发者有什么意义？

对于开发者而言，General 365提供了一个透明的选型参考。通过查看26款主流模型的实测表现，开发者可以更清晰地了解哪些模型在推理任务上更具潜力，从而在构建垂直领域应用时做出更科学的技术决策。

问题 3：Gemini 3 Pro的表现是否代表了当前AI的最高水平？

在General 365的测试框架下，Gemini 3 Pro以62.8%的准确率位列第一，确实代表了目前主流模型在复杂推理任务上的领先地位。然而，多数模型不及格的现状也表明，整个行业在通往通用人工智能（AGI）的道路上，推理能力的提升仍是重中之重。

美团LongCat开源General 365推理评测集：Gemini 3 Pro准确率仅62.8%树立新标尺