美团发布LARYBench：定义具身动作表征新基准，通用模型超越专家模型

美团技术团队正式发布LARYBench（Latent Action Representation Yielding Benchmark），这是一个系统化的评测基准，旨在指引从大规模视觉数据中学习通用的隐式动作表征。研究表明，通用视觉模型在动作泛化与控制精度上显著优于具身专家模型，并证实了具身动作表征可从大规模人类视频数据中“涌现”。

核心要点

LARYBench基准发布：美团技术团队推出了Latent Action Representation Yielding Benchmark，为具身智能领域提供了系统化的动作表征评测工具。
通用模型表现卓越：实验证明，通用视觉模型在动作泛化能力和控制精度方面，均优于专门针对具身智能设计的动作专家模型。
数据涌现效应：研究首次度量并证实了具身动作表征可以从大规模的人类视频数据中自然涌现，无需完全依赖特定领域的专家数据。
定义行业新标准：该基准被视为具身动作表征领域的“ImageNet”，为后续研究提供了标准化的度量衡。

详细分析

LARYBench：构建具身智能的度量衡

在具身智能（Embodied AI）的研究过程中，如何有效地表征动作一直是一个核心挑战。美团技术团队发布的LARYBench（Latent Action Representation Yielding Benchmark）填补了这一空白。作为一个系统化的评测基准，LARYBench的核心目标是评估模型从大规模视觉数据中提取通用隐式动作表征的能力。这一基准的提出，不仅为开发者提供了一个衡量模型性能的标尺，更在行业内首次定义了类似于计算机视觉领域ImageNet的动作表征评价体系，标志着具身智能研究向标准化迈出了重要一步。

通用视觉模型与专家模型的性能博弈

根据LARYBench的实验结果，一个令人关注的发现是：通用视觉模型在具身任务中的表现显著优于专门的动作专家模型。传统观点认为，针对特定机器人或特定任务训练的专家模型应具有更高的精度。然而，实验数据显示，通用视觉模型在“动作泛化”和“控制精度”这两个关键维度上展现出了更强的竞争力。这意味着，具备广泛视觉知识的模型能够更好地理解复杂的物理世界交互，从而在处理未见过的动作或环境时表现出更强的适应性。

从人类视频中涌现的具身能力

LARYBench的另一项重要贡献在于证实了具身动作表征的“涌现”特性。研究表明，通过学习大规模的人类视频数据，模型可以自发地形成对具身动作的理解。这种从非结构化、非机器人专用的视频数据中提取动作逻辑的能力，为解决具身智能中的数据匮乏问题提供了新思路。这意味着，人类丰富的视频资源可以成为训练通用机器人能力的宝库，而不仅仅局限于昂贵的机器人采集数据。

行业影响

LARYBench的发布对AI行业，特别是具身智能领域具有深远影响。首先，它确立了通用视觉模型在具身智能中的核心地位，可能会引导行业研发重心从“专用专家模型”向“通用大模型”转移。其次，它验证了人类视频数据的巨大价值，降低了具身智能模型的训练门槛。最后，作为一套系统化的评测基准，它将加速具身智能技术的迭代速度，促使更多具有高泛化能力的机器人控制算法诞生。

常见问题

问题 1：什么是LARYBench？

LARYBench全称是Latent Action Representation Yielding Benchmark，是由美团技术团队发布的一个系统化评测基准，专门用于评估模型从大规模视觉数据中学习通用隐式动作表征的能力。

问题 2：为什么通用视觉模型比动作专家模型表现更好？

根据实验结果，通用视觉模型在动作泛化和控制精度上表现更优。这通常是因为通用模型在海量数据训练中学习到了更深层的视觉规律和物理交互逻辑，使其在面对多样化任务时比针对特定场景优化的专家模型更具灵活性。

问题 3：人类视频数据对具身智能有什么意义？

研究发现具身动作表征可以从人类视频中涌现。这意味着开发者可以利用现有的海量人类活动视频来训练AI，使其理解动作逻辑，从而减少对昂贵的机器人实机操作数据的依赖。

美团发布LARYBench评测基准：定义具身动作表征“ImageNet”，揭示通用视觉模型潜力