LARYBench发布：美团定义具身动作表征新基准，揭秘通用模型优势

美团技术团队正式发布LARYBench（Latent Action Representation Yielding Benchmark），这是一个旨在评估从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。研究表明，通用视觉模型在动作泛化与控制精度上显著优于专门的具身动作专家模型，并证实了具身动作表征可从大规模人类视频数据中自然涌现，为具身智能研究提供了重要参考。

核心要点

发布LARYBench基准：美团技术团队推出了系统化的评测基准LARYBench，专注于度量从大规模视觉数据中获取的通用隐式动作表征。
通用模型表现卓越：实验数据证明，通用视觉模型在动作泛化能力和控制精度方面，均优于专门为具身智能设计的动作专家模型。
动作表征的涌现性：研究首次证实，具身动作表征能够从大规模的人类视频数据中自发涌现，无需完全依赖特定具身指令训练。
行业标杆意义：该基准被视为具身动作表征领域的“ImageNet”，为行业提供了标准化的度量工具。

详细分析

LARYBench：构建具身智能的度量衡

LARYBench的全称是Latent Action Representation Yielding Benchmark。作为美团技术团队推出的系统化评测基准，它的核心使命是解决如何从海量视觉数据中学习并提取通用隐式动作表征的问题。在具身智能领域，缺乏统一且有效的动作表征度量标准一直是研究的痛点。LARYBench的出现，通过定义一套科学的评测体系，为研究人员提供了一个清晰的指引，使其能够量化地评估模型在理解和执行动作方面的能力。这一基准的发布，标志着具身智能从经验驱动向标准化度量迈出了重要一步。

通用视觉模型与专家模型的效能对比

在LARYBench的实验框架下，研究团队对比了通用视觉模型与专门的具身动作专家模型。实验结果呈现出一种反直觉的趋势：通用视觉模型在动作泛化和控制精度这两个关键指标上，表现均显著优于那些为特定具身任务量身定制的专家模型。这意味着，具备大规模预训练基础的通用模型，在处理复杂的具身控制任务时，拥有更强的适应性和更精准的执行力。这一发现挑战了“专用模型必然优于通用模型”的传统认知，强调了通用视觉特征在具身智能中的核心价值。

具身动作表征的“涌现”现象

该研究最引人注目的发现之一是具身动作表征的来源。实验表明，这种复杂的动作表征并不一定需要通过昂贵的机器人实操数据来训练，而是可以从大规模的人类视频数据中“涌现”。这意味着，人类日常活动的视频记录中蕴含着丰富的物理世界互动逻辑，通用模型通过学习这些视觉数据，能够自动习得关于动作的深层表征。这一发现极大地扩展了具身智能训练数据的来源，证明了利用现有的人类视频资源来提升机器人控制能力的可行性。

行业影响

LARYBench的发布对具身智能行业具有深远影响。首先，它确立了通用视觉模型在具身任务中的领先地位，可能会引导行业资源向大规模通用预训练模型倾斜。其次，通过证明人类视频数据在动作表征学习中的有效性，它为解决具身智能领域“数据荒”问题提供了新的思路。最后，作为具身动作表征领域的“ImageNet”，LARYBench将促进全球研究者在统一的标准下进行算法竞争与协作，加速具身智能技术的迭代与落地。

常见问题

问题 1：LARYBench的主要功能是什么？

LARYBench是一个系统化的评测基准，主要用于度量和指引模型如何从大规模视觉数据中学习到通用的隐式动作表征，被类比为具身智能领域的ImageNet。

问题 2：为什么通用视觉模型在具身任务中表现更好？

根据实验结果，通用视觉模型在动作泛化和控制精度上优于专家模型。这表明大规模预训练赋予了模型更强的通用特征提取能力，使其在处理具身动作时更具优势。

问题 3：具身动作表征一定要用机器人数据训练吗？

不一定。LARYBench的研究表明，具身动作表征可以从大规模的人类视频数据中涌现，这意味着现有的海量人类视频资源可以成为具身智能学习的重要数据源。

LARYBench发布：美团定义具身动作表征“ImageNet”，揭示通用视觉模型新优势