美团开源General 365推理评测集：Gemini 3 Pro实测仅62.8分

美团LongCat团队正式发布General 365推理评测集。在对26款主流模型的实测中，目前表现最强的Gemini 3 Pro准确率仅为62.8%，而绝大多数模型得分均低于60分及格线。该评测集的发布旨在为大模型推理能力提供更严苛的衡量标准，揭示了当前AI模型在复杂推理任务中的局限性。

核心要点

发布新标尺：美团LongCat团队正式开源General 365推理评测集，旨在重新定义大模型推理能力的评估标准。
实测覆盖广：本次评测涵盖了26款当前市场上的主流大模型。
顶级模型表现：被视为目前最强的Gemini 3 Pro在实测中准确率仅为62.8%。
行业整体水平：绝大多数参测模型未能达到60分的及格线，显示出推理能力的普遍不足。

详细分析

General 365：推理能力的新挑战

美团LongCat团队推出的General 365评测集，其核心目标是为大语言模型的推理能力树立一个新的、更高难度的标尺。在当前大模型层出不穷的背景下，传统的评测方式可能已无法有效区分顶级模型之间的逻辑差距。General 365通过特定的设计，对模型的逻辑严密性和复杂问题处理能力提出了更高要求。

26款模型实测：及格线下的真相

在针对26款主流模型的实测过程中，结果显示出当前AI技术在深度推理方面的瓶颈。即便是目前处于行业领先地位的Gemini 3 Pro，其准确率也仅维持在62.8%的水平。更值得关注的是，参与测试的绝大多数模型甚至无法触及60分的及格门槛。这一数据直观地反映了，尽管大模型在生成和对话能力上取得了长足进步，但在严苛的逻辑推理任务面前，依然存在显著的提升空间。

行业影响

General 365的开源对AI行业具有重要的指导意义。首先，它提供了一个更具辨析力的评估工具，有助于开发者识别模型在逻辑推理上的短板。其次，Gemini 3 Pro等顶级模型的实测表现，打破了市场对大模型推理能力的盲目乐观，促使行业研究重心向更深层次的认知智能和逻辑构建转移。美团此举不仅展示了其在技术评测领域的深度，也为全球AI社区贡献了宝贵的测试基准。

常见问题

什么是General 365评测集？

General 365是由美团LongCat团队发布的专门针对大模型推理能力的评测集，旨在通过实测数据为行业树立新的推理能力评估标尺。

在General 365评测中表现最好的模型是谁？

根据美团的实测数据，Gemini 3 Pro是目前表现最强的模型，但其准确率也仅为62.8%。

为什么说目前大多数模型的推理能力仍有待提高？

因为在General 365对26款主流模型的实测中，绝大多数模型都没能达到60分的及格线，这说明在面对复杂推理任务时，现有模型仍面临巨大挑战。

美团LongCat开源General 365推理评测集：Gemini 3 Pro仅获62.8分，树立行业新标尺