LARYBench发布：具身动作表征的ImageNet，从人类视频学习动作泛化

美团技术团队正式发布LARYBench（Latent Action Representation Yielding Benchmark），这是一个旨在从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。研究结果显示，通用视觉模型在动作泛化和控制精度上显著优于专门的具身动作专家模型，证明了具身动作表征可以从大规模人类视频数据中涌现，为具身智能的发展提供了重要指引。

核心要点

发布LARYBench基准：美团技术团队推出了Latent Action Representation Yielding Benchmark，用于系统化评测通用隐式动作表征。
通用模型表现卓越：实验证明，通用视觉模型在动作泛化和控制精度方面均优于专门为具身智能设计的动作专家模型。
动作表征的涌现：研究发现具身动作表征可以从大规模的人类视频数据中自然涌现，无需完全依赖特定具身数据。
定义行业新标准：该基准被视为具身动作表征领域的“ImageNet”，为从视觉数据学习动作提供了度量标准。

详细分析

LARYBench：具身智能动作表征的系统化度量

LARYBench（Latent Action Representation Yielding Benchmark）的发布，填补了具身智能领域在通用隐式动作表征评测上的空白。作为一个系统化的评测基准，它的核心目标是指引研究者如何从大规模的视觉数据中提取并学习到通用的动作表征。在具身智能的发展过程中，如何让机器理解并执行复杂的动作一直是一个核心挑战。LARYBench通过定义类似于计算机视觉领域ImageNet的基准，为衡量动作表征的有效性提供了统一的尺度，使得开发者能够量化评估模型从视觉输入中提取动作逻辑的能力。

通用视觉模型与动作专家模型的对比分析

根据美团技术团队公布的实验结果，通用视觉模型在具身任务中的表现带来了突破性的启示。在传统的认知中，专门为具身智能设计的“动作专家模型”理应在特定控制任务中表现更佳。然而，LARYBench的实验数据表明，通用视觉模型在动作泛化（Generalization）和控制精度（Control Precision）这两个关键指标上，均显著优于这些专门的专家模型。这意味着，在大规模多样化数据上预训练的通用模型，具备更强的底层逻辑提取能力，能够更好地适应不同的具身环境和任务需求，展现出了极强的适应性和精准度。

从人类视频数据中涌现的具身能力

该研究最引人注目的发现之一是：具身动作表征可以从大规模的人类视频数据中“涌现”。这一结论打破了具身智能必须依赖大量机器人采集数据的局限。通过学习人类在日常视频中的动作逻辑，模型能够内化并形成通用的动作表征。这种“涌现”现象表明，人类视频中蕴含着丰富的物理世界交互规律，只要通过合适的算法和评测基准（如LARYBench）进行引导，通用视觉模型就能将其转化为可用于机器人控制的隐式动作指令。这为解决具身智能数据匮乏问题提供了一条极具潜力的路径。

行业影响

LARYBench的发布对具身智能和AI行业具有深远意义。首先，它确立了动作表征的“ImageNet”地位，为后续的研究提供了标准化的评价体系，有助于加速算法的迭代。其次，它验证了通用视觉模型在具身领域的巨大潜力，可能会引发行业对于“通用模型 vs 专家模型”路线的重新思考。最重要的是，证明了人类视频数据在具身动作学习中的核心价值，这将极大地降低具身智能模型的训练门槛，推动机器人技术从实验室走向更广泛的现实应用场景。

常见问题

问题 1：什么是LARYBench？

LARYBench全称为Latent Action Representation Yielding Benchmark，是由美团技术团队发布的一个系统化评测基准。它主要用于评估模型从大规模视觉数据中学习到的通用隐式动作表征的能力，被形象地称为具身动作表征领域的“ImageNet”。

问题 2：为什么通用视觉模型比动作专家模型表现更好？

根据实验结果，通用视觉模型在动作泛化和控制精度上表现更优。这主要是因为通用模型在大规模多样化数据上进行了训练，能够学习到更深层次的视觉规律和逻辑，从而在面对复杂的具身控制任务时，展现出比单一任务专家模型更强的适应性和精确性。

问题 3：这项研究对获取具身智能数据有什么启示？

研究表明具身动作表征可以从人类视频数据中涌现。这意味着开发者可以利用现有的海量人类视频资源来训练AI，而不必完全依赖成本高昂、采集困难的机器人实地操作数据，这为具身智能的规模化发展提供了新的数据来源方案。

LARYBench发布：定义具身动作表征的“ImageNet”，助力从人类视频学习泛化表征