美团LARYBench发布：定义具身动作表征新基准，助力通用模型涌现

美团技术团队正式发布LARYBench（Latent Action Representation Yielding Benchmark），这是一个旨在指引从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。实验结果显示，通用视觉模型在动作泛化和控制精度上已显著超越专门的具身动作专家模型。该研究首次度量了从人类视频中学习到的泛化表征，证实了具身动作表征能够从大规模人类视频数据中自然涌现，为具身智能的发展开辟了新路径。

核心要点

发布LARYBench基准：美团技术团队推出了Latent Action Representation Yielding Benchmark，填补了具身动作表征缺乏系统化评测工具的空白。
定义动作表征的“ImageNet”：该基准旨在通过大规模视觉数据，推动通用隐式动作表征的学习与评估。
通用模型性能超越专家模型：实验证明，通用视觉模型在动作泛化能力和控制精度上均优于针对特定任务设计的具身动作专家模型。
人类视频数据的“涌现”效应：研究首次证实，具身智能所需的动作表征可以从非结构化的大规模人类视频数据中学习并涌现。

详细分析

LARYBench：构建具身智能的度量衡

在具身智能（Embodied AI）的研究中，如何让机器理解并执行复杂的物理动作一直是核心难题。美团技术团队发布的LARYBench（Latent Action Representation Yielding Benchmark），其核心意义在于为“隐式动作表征”提供了一个系统化的评测框架。类比于计算机视觉领域的ImageNet，LARYBench试图通过标准化的基准，指引研究者如何从海量的视觉数据中提取出能够跨场景、跨任务使用的通用动作特征。这种隐式表征的提取，是实现机器人从“看懂世界”到“在世界中行动”的关键跨越。

通用视觉模型与动作专家模型的博弈

长期以来，行业倾向于开发专门针对具身任务优化的“动作专家模型”。然而，LARYBench的实验结果给出了不同的答案：通用视觉模型在动作泛化和控制精度上表现更为出色。这意味着，经过大规模、多样化视觉数据预训练的模型，其内部蕴含的特征空间已经具备了极强的空间感知与逻辑推理能力，这种能力在迁移到具体的具身控制任务时，展现出了比单一任务专家模型更高的上限。这一发现挑战了传统的“专用优于通用”的认知，强调了基础模型（Foundation Models）在具身智能领域的巨大潜力。

从人类视频到具身动作的“涌现”路径

该研究最引人注目的结论之一是，具身动作表征可以从大规模人类视频数据中“涌现”。人类视频包含了丰富的物理交互、空间变换和因果逻辑，尽管这些视频并非为机器人训练而拍摄，但通过LARYBench的度量发现，模型能够从中学习到通用的动作规律。这种“涌现”现象表明，我们可能不再需要耗费巨资去采集昂贵的机器人示教数据，而是可以利用互联网上近乎无限的人类活动视频，来训练具备高度泛化能力的具身智能系统。这为解决具身智能领域长期存在的数据匮乏问题提供了全新的解决思路。

行业影响

LARYBench的发布对具身智能行业具有深远影响。首先，它确立了动作表征学习的新标准，使得不同算法之间的性能比较有了统一的尺度。其次，它验证了通用大模型在物理交互任务中的优越性，可能会引导行业研发重心从“特定任务模型”向“通用具身大模型”转移。最后，通过证实人类视频数据的有效性，该研究极大地扩展了具身智能训练的数据来源，有望加速服务机器人、工业自动化等领域的算法迭代进程。

常见问题

问题 1：什么是LARYBench中的“隐式动作表征”？

隐式动作表征是指模型从视觉信息中提取出的、未经过显式标注但包含动作逻辑的特征向量。它不像传统的“向上移动5厘米”这样明确，而是一种存在于模型潜空间（Latent Space）中的、能够指导物理交互的通用特征。LARYBench正是为了评估这种特征的质量而设计的。

问题 2：为什么通用视觉模型在控制精度上会优于专家模型？

这通常归功于通用模型在海量数据预训练过程中学习到的“世界模型”能力。通用模型接触过更丰富的视觉场景和物理变化，使其在面对新环境或复杂动作时，具有更好的鲁棒性和泛化能力，从而在细微的控制精度上展现出比参数量较小、见识较窄的专家模型更强的表现。

问题 3：人类视频学习对具身智能意味着什么？

这意味着具身智能的训练数据瓶颈可能被打破。如果模型能从人类日常生活的视频中学习如何抓取、移动或操作物体，那么研发成本将大幅降低，模型的通用性也将得到质的提升，让机器人像人类一样通过“观察学习”掌握技能成为可能。

美团发布LARYBench：定义具身动作表征“ImageNet”，人类视频助力通用模型性能涌现