LARYBench发布：美团定义具身动作表征新基准，通用模型性能超越专家模型

美团技术团队发布了系统化评测基准LARYBench，旨在从大规模视觉数据中学习通用隐式动作表征。研究发现，通用视觉模型在动作泛化与控制精度上优于专门的具身智能专家模型，并证实具身动作表征可从大规模人类视频数据中涌现，为具身智能发展提供了新路径。

核心要点

发布LARYBench基准：美团技术团队推出Latent Action Representation Yielding Benchmark，填补了具身动作表征系统化评测的空白。
通用模型优势显著：实验证明通用视觉模型在动作泛化和控制精度上，表现均优于专门设计的具身动作专家模型。
动作表征的涌现性：研究确认具身动作表征可以从大规模人类视频数据中自然涌现，无需完全依赖特定机器人数据。
定义具身版ImageNet：该基准旨在指引从海量视觉数据中学习通用的隐式动作表征，具有行业标杆意义。

详细分析

LARYBench：构建具身智能的评价体系

LARYBench（Latent Action Representation Yielding Benchmark）的发布，标志着具身智能领域在动作表征学习上有了标准化的“度量衡”。该基准的核心目标是系统化地评测模型如何从大规模视觉数据中提取并学习到通用的隐式动作表征。在具身智能的研究中，如何将视觉信息转化为有效的动作指令一直是核心挑战，LARYBench通过提供统一的评测框架，为这一问题的解决提供了明确的方向。它不仅是一个测试集，更是一个指引开发者如何利用视觉数据构建通用动作能力的路线图。

通用视觉模型与专家模型的性能倒置

在传统的认知中，针对特定任务设计的“专家模型”通常在精度和泛化上具有优势。然而，LARYBench的实验结果给出了截然不同的结论：通用视觉模型在动作泛化和控制精度这两个关键维度上，均显著优于专门为具身智能设计的动作专家模型。这一发现表明，通用视觉模型在海量数据预训练过程中所积累的特征表达能力，能够更好地捕捉动作的本质规律。这种性能上的超越，暗示了具身智能的未来可能更多地依赖于强大的通用基础模型，而非孤立的专家系统。

从人类视频中涌现的具身能力

该研究最引人注目的发现之一是，具身动作表征可以从大规模的人类视频数据中“涌现”。这意味着，即便没有直接的机器人操作数据，通过观察人类在视频中的活动，模型也能学习到深层的动作逻辑和表征。这一结论极大地扩展了具身智能训练的数据来源，证明了人类视频库是一个蕴含丰富动作知识的宝库。这种涌现机制为解决具身智能领域长期存在的数据匮乏问题提供了新的科学依据，展示了从视觉感知到动作理解的内在联系。

行业影响

LARYBench的发布对具身智能行业具有深远影响。首先，它确立了通用视觉模型在具身任务中的核心地位，可能会引发行业研发重心的转移，促使更多团队投入到基于通用大模型的具身应用开发中。其次，该基准证明了人类视频数据的巨大价值，降低了具身智能模型的训练门槛和成本。最后，作为一种类似于“ImageNet”的基准，LARYBench将加速具身动作表征技术的迭代速度，推动机器人技术向更精准、更具泛化能力的方向迈进。

常见问题

什么是LARYBench的主要功能？

LARYBench是一个系统化的评测基准，专门用于评估和指引模型从大规模视觉数据中学习通用隐式动作表征的能力，被视为具身智能领域的“ImageNet”。

为什么通用视觉模型在具身任务中表现更好？

根据LARYBench的实验结果，通用视觉模型凭借其在大规模数据上学习到的深层特征，在动作泛化和控制精度上展现出比专门的动作专家模型更强的性能。

具身动作表征一定要用机器人数据训练吗？

不一定。LARYBench的研究表明，具身动作表征可以从大规模的人类视频数据中涌现，这说明人类视频是学习通用动作表征的有效数据源。

LARYBench发布：定义具身动作表征新基准，通用视觉模型性能显著超越专家模型