LARYBench发布：美团揭示通用视觉模型在具身动作表征中的优势

美团技术团队正式发布LARYBench（Latent Action Representation Yielding Benchmark），这是一个系统化的评测基准，旨在引导从大规模视觉数据中学习通用的隐式动作表征。研究发现，在动作泛化和控制精度方面，通用视觉模型的表现显著优于专门的具身智能动作专家模型。这一发现证明了具身动作表征可以从大规模人类视频数据中自然涌现，为具身智能的发展提供了新的技术路径和评估标准。

核心要点

LARYBench正式发布：美团技术团队推出了名为LARYBench的系统化评测基准，专注于从大规模视觉数据中学习通用的隐式动作表征。
通用模型表现卓越：实验结果显示，通用视觉模型在动作泛化能力上显著优于专门为具身智能设计的动作专家模型。
控制精度实现突破：除了泛化能力，通用视觉模型在控制精度这一关键指标上也展现出了超越专家模型的优势。
动作表征的“涌现”：研究证实，具身动作表征能够从大规模的人类视频数据中自发涌现，无需完全依赖特定任务的专家数据。

详细分析

LARYBench：具身智能动作表征的新基准

LARYBench（Latent Action Representation Yielding Benchmark）的发布，标志着具身智能领域在动作表征学习上有了系统化的评测工具。该基准的核心目标是指引研究者如何从海量的视觉数据中提取出通用的、隐式的动作表征。在具身智能的研发过程中，如何让机器理解并执行复杂的动作一直是一个核心挑战。LARYBench通过提供标准化的评测框架，使得不同模型在处理隐式动作表征时的效能得以量化对比。这种系统化的方法不仅有助于理解模型学习到了什么，更能指导未来如何利用大规模视觉数据来增强机器的动作理解能力。

通用视觉模型与专家模型的性能博弈

在传统的具身智能研究中，开发者往往倾向于构建专门的“动作专家模型”来处理特定的物理交互任务。然而，LARYBench的实验结果带来了一个颠覆性的结论：通用视觉模型在动作泛化和控制精度上均表现得更为出色。这意味着，经过大规模通用视觉数据训练的模型，其捕捉到的底层特征和动作逻辑，在面对未见过的动作场景（泛化性）以及执行精细操作（控制精度）时，比那些只针对特定具身任务训练的专家模型更具优势。这一发现挑战了“专用优于通用”的传统认知，强调了通用视觉感知在具身智能中的核心地位。

人类视频数据中的动作表征“涌现”

该研究的另一个重大发现是具身动作表征的“涌现”现象。实验表明，通过学习大规模的人类视频数据，模型能够自然而然地产生具身动作表征。这意味着人类在日常生活中产生的海量视频记录，实际上包含了丰富的动作逻辑和物理交互信息。当模型处理这些非结构化的视觉数据时，它不仅学习到了视觉特征，还从中提取出了可以转化为具身控制的隐式动作知识。这种“涌现”能力为解决具身智能中的数据匮乏问题提供了新思路，即通过利用现有的、规模庞大的人类视频库，来训练具备高度泛化能力的具身智能系统。

行业影响

LARYBench的发布及其研究结论对具身智能行业具有深远的影响。首先，它重新定义了具身智能的模型训练范式，暗示了通用视觉大模型在机器人控制和物理交互领域具有巨大的未开发潜力。其次，该基准的建立为行业提供了一个类似于“ImageNet”的坐标系，有助于加速具身动作表征技术的迭代。最后，关于人类视频数据能够产生动作表征涌现的结论，将极大降低具身智能的数据获取门槛，推动更多开发者利用互联网规模的视频数据来提升机器人的动作智能，从而加速具身智能从实验室走向现实应用场景的进程。

常见问题

问题 1：什么是LARYBench？

LARYBench全称为Latent Action Representation Yielding Benchmark，是由美团技术团队发布的一个系统化评测基准。它主要用于评估和指引模型如何从大规模视觉数据中学习到通用的隐式动作表征，是具身智能领域的重要评估工具。

问题 2：为什么通用视觉模型在动作泛化上比专家模型更好？

根据LARYBench的实验结果，通用视觉模型由于在大规模、多样化的视觉数据上进行了训练，其学习到的特征更具普适性。这使得它们在面对新场景或复杂动作时，能够比专注于特定任务的专家模型表现出更强的适应能力（泛化性）和更高的操作准确度（控制精度）。

问题 3：这项研究对具身智能的数据来源有何启示？

研究表明具身动作表征可以从大规模人类视频数据中“涌现”。这启示行业，除了采集昂贵的机器人实操数据外，海量的人类生活、工作视频也是训练具身智能极其宝贵的资源，可以从中提取出通用的动作逻辑来增强模型的智能水平。

LARYBench发布：定义具身动作表征的“ImageNet”，揭示通用视觉模型在动作泛化中的领先地位