机器人大逃杀:Grok 4.1 Fast 胜率碾压夺冠,Claude 却在忙着交朋友
OpenRouter 开发者关系负责人 Jacky Liang 进行了一项独特的 AI 实验,将 11 个大语言模型(LLM)投入 2D 大逃杀游戏中进行 30 场对决。结果显示,xAI 的 Grok 4.1 Fast 以 43% 的胜率和极高的性价比夺冠,而 Anthropic 的 Claude Sonnet 4.6 则因其过度友好的合作倾向在竞争中失利。该实验揭示了传统基准测试无法捕捉的模型行为差异。
核心要点
- Grok 4.1 Fast 统治战场:在 30 场比赛中赢得了 13 场,胜率高达 43%,成为表现最强的模型。
- 极高的性价比差异:Grok 4.1 Fast 每次获胜的成本仅为 0.97 美元,而排名第二的 Claude Sonnet 4.6 每次获胜成本高达 26.78 美元,两者相差 27 倍。
- 模型行为特征显著:Claude Sonnet 4.6 在比赛中倾向于寻求合作、告知位置并尝试交友,这种“外交”行为导致其在生存竞争中处于劣势。
- 杀敌数不等于胜率:GPT 5.4 在实验中获得了最高的杀敌数(共击杀 38 个智能体),但并未获得最多的最终胜利。
详细分析
实验背景:2D 战场上的 LLM 智斗
OpenRouter 的开发者关系负责人 Jacky Liang 利用其平台提供的 API 资源,设计了一个模拟《Apex Legends》或《PUBG》风格的 2D 大逃杀环境。他将 11 种不同的主流大语言模型(LLM)作为智能体投入其中,共进行了 30 场比赛。这项实验旨在观察当模型被置于竞争性游戏环境时,它们的决策逻辑、生存策略以及在实战中的表现,而不仅仅是回答静态的测试题目。
战果对比:Grok 的效率与 Claude 的外交
实验结果呈现出极大的反差。Grok 4.1 Fast 表现出了极强的竞技性,以 13 场胜利稳居榜首。相比之下,在许多基准测试中排名靠前的 Claude Sonnet 4.6 仅获得了 5 场胜利。更有趣的是模型在“日记”中记录的心理活动:Claude 频繁尝试与其他玩家组队,甚至主动暴露自己的位置以示友好。Jacky Liang 指出,虽然这种行为在大逃杀中是致命的,但在大多数现实应用场景中,这种倾向于合作和安全的特质正是用户所需要的。
成本与杀敌数:数据背后的真相
在经济效益方面,Grok 4.1 Fast 展示了压倒性的优势,其获胜成本比 Claude 低 27 倍。这表明在特定任务(如快速决策和竞争性对抗)中,轻量化或优化过的模型可能比昂贵的旗舰模型更具优势。此外,GPT 5.4 虽然展现了最强的攻击性,累计击杀 38 个智能体,但高杀敌数并未转化为最高的胜率,这反映了生存游戏中策略平衡的重要性。
行业影响
该实验对 AI 行业的评估体系具有重要启示。传统的静态基准测试(Benchmarks)往往只能反映模型的知识储备或逻辑推理能力,却无法捕捉到模型在动态、多智能体环境下的“性格”和行为倾向。Jacky Liang 的实验证明,模型的行为特质(如 Claude 的合作倾向 vs Grok 的竞争倾向)决定了它们在不同现实场景中的适用性。这促使开发者在选择模型时,不仅要看排名,更要根据具体应用场景(如客服、游戏 AI 或协作工具)来评估模型的行为模式。
常见问题
问题 1:为什么 Grok 4.1 Fast 在比赛中表现最好?
Grok 4.1 Fast 在 30 场比赛中赢得了 13 场,胜率达 43%。它在竞争环境下表现出了更高的决策效率,且获胜成本极低(每场胜利 0.97 美元),在生存竞争策略上优于其他模型。
问题 2:Claude Sonnet 4.6 为什么在胜率上落后?
尽管 Claude Sonnet 4.6 排名第二,但它在比赛中表现出强烈的合作倾向。它经常尝试与其他模型组队、告知对方自己的位置并试图交友。这种在现实中被视为“安全”和“友好”的行为,在大逃杀这种“你死我活”的竞争环境中导致了其胜率的下降。
问题 3:杀敌数最多的模型是哪一个?
GPT 5.4 是全场“杀手”,在整个实验过程中共击杀了 38 个智能体,位居杀敌榜首。然而,高杀敌数并不直接等同于最终的胜利,它在总胜场数上并未超越 Grok。


