返回列表
美团LongCat发布General 365推理评测:Gemini 3 Pro仅获62.8分,多数模型不及格
行业新闻美团大模型推理能力

美团LongCat发布General 365推理评测:Gemini 3 Pro仅获62.8分,多数模型不及格

美团LongCat团队正式推出General 365推理评测基准。在对26款主流大模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分均低于60分及格线。这一结果揭示了当前大模型在复杂推理任务中仍面临巨大挑战,General 365也为行业树立了更严苛的推理能力评测新标尺。

美团技术团队

核心要点

  • 发布新基准:美团LongCat团队正式发布名为General 365的通用推理评测基准。
  • 实测覆盖广:该评测对目前市面上26款主流大模型进行了深度实测。
  • 顶尖模型受挫:目前被视为最强的Gemini 3 Pro在测试中准确率仅为62.8%。
  • 行业整体水平:绝大多数受测模型未能达到60分的及格线,显示出推理能力的普遍不足。

详细分析

General 365:推理能力的新试金石

美团LongCat团队推出的General 365旨在为大模型的推理能力提供更具挑战性的评估。通过对26款主流模型的实测,该基准展现了当前AI技术在处理复杂逻辑与推理任务时的真实水平。这一基准的出现,填补了高难度推理评测领域的空白,为衡量模型深度思考能力提供了重要参考。

行业领先模型的表现瓶颈

即使是目前被公认为地表最强的Gemini 3 Pro,在General 365的测试中也仅取得了62.8%的准确率。这一数据表明,即便是顶尖模型在面对严苛的推理评测时,依然存在明显的提升空间。这也意味着当前的AI技术在通往完全逻辑推理的道路上,仍有很长的路要走。

多数模型面临“不及格”挑战

测试结果显示,绝大多数主流模型在General 365面前未能达到60分的及格线。这反映出当前大模型在通用推理能力的构建上仍处于攻坚阶段。General 365通过极高的难度设定,揭示了现有模型在处理复杂逻辑任务时的脆弱性,促使行业重新审视模型优化的方向。

行业影响

General 365的发布为AI行业提供了一个更高难度的推理评测标准。它不仅揭示了现有模型在复杂逻辑处理上的短板,也将促使开发者更加关注模型深度推理能力的优化,而非仅仅追求参数规模的增长。这一标尺的树立,有助于推动大模型从“语言生成”向“深度逻辑推理”的实质性跨越。

常见问题

什么是General 365?

General 365是由美团LongCat团队发布的针对大模型推理能力的全新评测基准,旨在通过严苛的测试衡量模型的逻辑推理水平。

Gemini 3 Pro在测试中的表现如何?

在General 365的实测中,Gemini 3 Pro获得了62.8%的准确率,虽然在26款模型中表现最强,但仍处于较低水平。

为什么大多数模型得分低于60分?

这说明General 365设置了极高的推理难度,现有的主流大模型在处理该基准所涵盖的复杂推理任务时,普遍表现出能力不足,未能达到及格标准。

相关新闻