美团发布General 365推理评测：揭秘大模型推理能力短板

美团LongCat团队正式推出General 365推理评测基准。在对26款主流大模型的实测中，目前表现最强的Gemini 3 Pro准确率仅为62.8%，而绝大多数模型得分均低于60分及格线。这一结果揭示了当前大模型在复杂推理任务中仍面临巨大挑战，General 365也为行业树立了更严苛的推理能力评测新标尺。

核心要点

发布新基准：美团LongCat团队正式发布名为General 365的通用推理评测基准。
实测覆盖广：该评测对目前市面上26款主流大模型进行了深度实测。
顶尖模型受挫：目前被视为最强的Gemini 3 Pro在测试中准确率仅为62.8%。
行业整体水平：绝大多数受测模型未能达到60分的及格线，显示出推理能力的普遍不足。

详细分析

General 365：推理能力的新试金石

美团LongCat团队推出的General 365旨在为大模型的推理能力提供更具挑战性的评估。通过对26款主流模型的实测，该基准展现了当前AI技术在处理复杂逻辑与推理任务时的真实水平。这一基准的出现，填补了高难度推理评测领域的空白，为衡量模型深度思考能力提供了重要参考。

行业领先模型的表现瓶颈

即使是目前被公认为地表最强的Gemini 3 Pro，在General 365的测试中也仅取得了62.8%的准确率。这一数据表明，即便是顶尖模型在面对严苛的推理评测时，依然存在明显的提升空间。这也意味着当前的AI技术在通往完全逻辑推理的道路上，仍有很长的路要走。

多数模型面临“不及格”挑战

测试结果显示，绝大多数主流模型在General 365面前未能达到60分的及格线。这反映出当前大模型在通用推理能力的构建上仍处于攻坚阶段。General 365通过极高的难度设定，揭示了现有模型在处理复杂逻辑任务时的脆弱性，促使行业重新审视模型优化的方向。

行业影响

General 365的发布为AI行业提供了一个更高难度的推理评测标准。它不仅揭示了现有模型在复杂逻辑处理上的短板，也将促使开发者更加关注模型深度推理能力的优化，而非仅仅追求参数规模的增长。这一标尺的树立，有助于推动大模型从“语言生成”向“深度逻辑推理”的实质性跨越。

常见问题

什么是General 365？

General 365是由美团LongCat团队发布的针对大模型推理能力的全新评测基准，旨在通过严苛的测试衡量模型的逻辑推理水平。

Gemini 3 Pro在测试中的表现如何？

在General 365的实测中，Gemini 3 Pro获得了62.8%的准确率，虽然在26款模型中表现最强，但仍处于较低水平。

为什么大多数模型得分低于60分？

这说明General 365设置了极高的推理难度，现有的主流大模型在处理该基准所涵盖的复杂推理任务时，普遍表现出能力不足，未能达到及格标准。

美团LongCat发布General 365推理评测：Gemini 3 Pro仅获62.8分，多数模型不及格