美团发布LARYBench：具身智能动作表征评测基准与通用模型研究

美团技术团队近日发布了LARYBench（Latent Action Representation Yielding Benchmark），这是一个旨在从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。该研究首次度量了从人类视频中学习到的泛化动作表征，实验结果显示，通用视觉模型在动作泛化和控制精度上显著优于专门的具身动作专家模型，证明了具身动作表征可以从大规模人类视频数据中涌现。

核心要点

LARYBench正式发布：美团技术团队推出系统化评测基准，旨在指引从大规模视觉数据中学习通用的隐式动作表征。
定义具身动作表征的“ImageNet”：该基准首次实现了对从人类视频中学习到的泛化动作表征的有效度量。
通用模型表现卓越：实验证明，通用视觉模型在动作泛化能力和控制精度方面，均显著优于专门为具身智能设计的动作专家模型。
动作表征的涌现性：研究确认了具身动作表征能够从大规模的人类视频数据中自然涌现，为具身智能的发展提供了新路径。

详细分析

LARYBench：构建具身智能的新型度量衡

LARYBench（Latent Action Representation Yielding Benchmark）的发布，标志着具身智能领域在动作表征学习上迈出了重要一步。作为一种系统化的评测基准，它的核心目标是解决如何从海量的、非结构化的视觉数据中提取出具有通用性的隐式动作表征。在计算机视觉领域，ImageNet的出现推动了图像分类和特征提取的飞跃；而LARYBench则试图在具身智能领域扮演类似的角色，通过定义一套标准化的度量体系，让研究者能够量化评估模型从人类视频中学习动作逻辑的能力。

通用视觉模型与动作专家模型的效能对比

该研究的一个核心发现是：通用视觉模型在处理具身任务时展现出了出色的潜力。传统观点认为，针对特定机器人或特定任务设计的“动作专家模型”应当具有更高的精度。然而，LARYBench的实验结果打破了这一认知。数据显示，在动作泛化（即处理未见过的动作或环境）和控制精度这两个关键指标上，通用视觉模型的表现均优于专门的专家模型。这意味着，通过大规模视觉数据预训练得到的通用表征，其蕴含的物理规律和动作逻辑具有更强的普适性，能够更好地迁移到具身控制任务中。

从人类视频到具身动作的“涌现”机制

研究进一步证实，具身动作表征并不一定需要通过昂贵的机器人采集数据来获得，而是可以从大规模的人类视频数据中“涌现”。这种涌现性意味着，当模型接触到足够多的人类活动影像时，它能够自动学习到关于物体交互、空间位移以及动作序列的深层表征。这种从视觉观察到动作理解的转化，为解决具身智能中的数据瓶颈问题提供了重要的理论支持和实践依据。

行业影响

LARYBench的发布对于具身智能行业具有深远的意义。首先，它提供了一个标准化的“考场”，使得不同算法之间的优劣能够得到公正的评判。其次，研究结论强调了通用视觉模型的重要性，这可能会引导行业资源从单一任务的专家模型转向更大规模、更通用的多模态预训练模型。最后，证实了人类视频数据的有效性，将极大降低具身智能模型的训练门槛，加速机器人技术在复杂现实环境中的落地应用。

常见问题

问题 1：什么是LARYBench？

LARYBench全称为Latent Action Representation Yielding Benchmark，是由美团技术团队发布的一个系统化评测基准。它主要用于评估模型从大规模视觉数据中学习通用隐式动作表征的能力，被视为具身动作表征领域的“ImageNet”。

问题 2：为什么通用视觉模型在具身任务中表现更好？

根据LARYBench的实验结果，通用视觉模型在动作泛化和控制精度上优于专门的专家模型。这主要是因为通用模型在大规模数据训练过程中学习到了更丰富的视觉特征和潜在的物理逻辑，使其在面对新环境或复杂动作时具有更强的适应能力。

问题 3：这项研究对机器人训练有什么启示？

该研究表明，具身动作表征可以从大规模的人类视频中涌现。这意味着开发者可以利用现有的海量视频资源来训练机器人，而不必完全依赖于成本高昂的机器人实机采集数据，从而大幅提升训练效率并增强模型的泛化性能。

美团发布LARYBench：定义具身动作表征“ImageNet”，揭示通用视觉模型泛化优势