Grok 4.1 Fast 赢得机器人大逃杀：揭秘大模型实战行为差异

OpenRouter 开发者关系负责人 Jacky Liang 进行了一项独特的 AI 实验，将 11 个大语言模型（LLM）投入 2D 大逃杀游戏中进行 30 场对决。结果显示，xAI 的 Grok 4.1 Fast 以 43% 的胜率和极高的性价比夺冠，而 Anthropic 的 Claude Sonnet 4.6 则因其过度友好的合作倾向在竞争中失利。该实验揭示了传统基准测试无法捕捉的模型行为差异。

核心要点

Grok 4.1 Fast 统治战场：在 30 场比赛中赢得了 13 场，胜率高达 43%，成为表现最强的模型。
极高的性价比差异：Grok 4.1 Fast 每次获胜的成本仅为 0.97 美元，而排名第二的 Claude Sonnet 4.6 每次获胜成本高达 26.78 美元，两者相差 27 倍。
模型行为特征显著：Claude Sonnet 4.6 在比赛中倾向于寻求合作、告知位置并尝试交友，这种“外交”行为导致其在生存竞争中处于劣势。
杀敌数不等于胜率：GPT 5.4 在实验中获得了最高的杀敌数（共击杀 38 个智能体），但并未获得最多的最终胜利。

详细分析

实验背景：2D 战场上的 LLM 智斗

OpenRouter 的开发者关系负责人 Jacky Liang 利用其平台提供的 API 资源，设计了一个模拟《Apex Legends》或《PUBG》风格的 2D 大逃杀环境。他将 11 种不同的主流大语言模型（LLM）作为智能体投入其中，共进行了 30 场比赛。这项实验旨在观察当模型被置于竞争性游戏环境时，它们的决策逻辑、生存策略以及在实战中的表现，而不仅仅是回答静态的测试题目。

战果对比：Grok 的效率与 Claude 的外交

实验结果呈现出极大的反差。Grok 4.1 Fast 表现出了极强的竞技性，以 13 场胜利稳居榜首。相比之下，在许多基准测试中排名靠前的 Claude Sonnet 4.6 仅获得了 5 场胜利。更有趣的是模型在“日记”中记录的心理活动：Claude 频繁尝试与其他玩家组队，甚至主动暴露自己的位置以示友好。Jacky Liang 指出，虽然这种行为在大逃杀中是致命的，但在大多数现实应用场景中，这种倾向于合作和安全的特质正是用户所需要的。

成本与杀敌数：数据背后的真相

在经济效益方面，Grok 4.1 Fast 展示了压倒性的优势，其获胜成本比 Claude 低 27 倍。这表明在特定任务（如快速决策和竞争性对抗）中，轻量化或优化过的模型可能比昂贵的旗舰模型更具优势。此外，GPT 5.4 虽然展现了最强的攻击性，累计击杀 38 个智能体，但高杀敌数并未转化为最高的胜率，这反映了生存游戏中策略平衡的重要性。

行业影响

该实验对 AI 行业的评估体系具有重要启示。传统的静态基准测试（Benchmarks）往往只能反映模型的知识储备或逻辑推理能力，却无法捕捉到模型在动态、多智能体环境下的“性格”和行为倾向。Jacky Liang 的实验证明，模型的行为特质（如 Claude 的合作倾向 vs Grok 的竞争倾向）决定了它们在不同现实场景中的适用性。这促使开发者在选择模型时，不仅要看排名，更要根据具体应用场景（如客服、游戏 AI 或协作工具）来评估模型的行为模式。

常见问题

问题 1：为什么 Grok 4.1 Fast 在比赛中表现最好？

Grok 4.1 Fast 在 30 场比赛中赢得了 13 场，胜率达 43%。它在竞争环境下表现出了更高的决策效率，且获胜成本极低（每场胜利 0.97 美元），在生存竞争策略上优于其他模型。

问题 2：Claude Sonnet 4.6 为什么在胜率上落后？

尽管 Claude Sonnet 4.6 排名第二，但它在比赛中表现出强烈的合作倾向。它经常尝试与其他模型组队、告知对方自己的位置并试图交友。这种在现实中被视为“安全”和“友好”的行为，在大逃杀这种“你死我活”的竞争环境中导致了其胜率的下降。

问题 3：杀敌数最多的模型是哪一个？

GPT 5.4 是全场“杀手”，在整个实验过程中共击杀了 38 个智能体，位居杀敌榜首。然而，高杀敌数并不直接等同于最终的胜利，它在总胜场数上并未超越 Grok。

机器人大逃杀：Grok 4.1 Fast 胜率碾压夺冠，Claude 却在忙着交朋友