LARYBench发布：美团定义具身动作表征新基准，通用模型表现卓越

美团技术团队正式发布LARYBench（Latent Action Representation Yielding Benchmark），这是首个系统化评测从大规模视觉数据中学习通用隐式动作表征的基准。研究发现，通用视觉模型在动作泛化与控制精度上显著优于具身专家模型，并证明了具身动作表征可从大规模人类视频数据中涌现，为具身智能的发展提供了重要量化工具与技术路径参考。

核心要点

发布LARYBench基准：美团技术团队推出系统化评测基准，旨在度量从视觉数据中学习到的通用隐式动作表征。
通用模型优势显著：实验证明通用视觉模型在动作泛化和控制精度上均优于专门的具身动作专家模型。
动作表征的“涌现”：研究首次证实具身动作表征可以从大规模人类视频数据中自然涌现，无需完全依赖机器人特定数据。
定义行业新标准：LARYBench被视为具身动作表征领域的“ImageNet”，为行业提供了统一的度量衡。

详细分析

LARYBench：填补具身智能动作表征的评测空白

在具身智能（Embodied AI）的研究过程中，如何让机器从海量的视觉信息中提取出有效的、可执行的动作表征一直是一个核心挑战。美团技术团队发布的LARYBench（Latent Action Representation Yielding Benchmark）正是为了解决这一难题。作为一个系统化的评测基准，LARYBench不仅定义了什么是“通用的隐式动作表征”，更提供了一套严谨的度量体系。它类似于计算机视觉领域的ImageNet，为研究者提供了一个标准化的竞技场，使得不同算法在处理视觉到动作的转化能力时，能够在一个统一的尺度下进行衡量。这一基准的出现，标志着具身智能从经验驱动的开发模式向数据驱动与量化评估并重的模式转变。

通用视觉模型与具身专家模型的效能博弈

长期以来，行业内普遍认为针对特定任务设计的“具身动作专家模型”在执行精度上应具有天然优势。然而，LARYBench的实验结果打破了这一固有认知。数据显示，通用视觉模型在动作泛化（Generalization）和控制精度（Control Precision）这两个关键维度上，表现均显著优于专门设计的专家模型。这意味着，在大规模通用视觉数据上预训练的模型，其捕捉到的空间关系、物体物理特性以及动态演变规律，能够更有效地迁移到具身控制任务中。通用模型展现出的强大泛化能力，暗示了具身智能的未来可能更多地依赖于底层通用能力的积累，而非单一任务的特化训练。

从人类视频中涌现的具身智慧

该研究最引人注目的发现之一是：具身动作表征可以从大规模的人类视频数据中“涌现”。在过去，获取高质量的机器人动作数据成本极高且规模受限。LARYBench的实验证明，通过观察人类在视频中的动作，AI模型能够学习到深层的动作逻辑。这种“涌现”现象表明，人类视频中蕴含着丰富的物理世界交互规律，这些规律可以被转化为机器人的动作表征。这一发现极大地扩展了具身智能的数据来源，证明了利用互联网规模的视频数据来训练具备通用动作能力的AI模型是完全可行的路径。

行业影响

LARYBench的发布对具身智能行业具有里程碑式的意义。首先，它确立了通用视觉模型在具身任务中的核心地位，可能会促使更多的研究资源从特定任务模型转向通用基础模型的研发。其次，它验证了人类视频数据作为具身学习数据源的巨大价值，这将显著降低机器人训练的数据获取门槛和成本。最后，作为一种标准化的评测工具，LARYBench将加速具身智能算法的迭代速度，推动机器人技术在更复杂、更多样化的现实场景中实现落地应用。它不仅是一个技术工具，更是指引具身智能向通用化迈进的重要指南针。

常见问题

什么是LARYBench？

LARYBench全称为Latent Action Representation Yielding Benchmark，是由美团技术团队发布的系统化评测基准。它主要用于评估AI模型从大规模视觉数据中学习通用隐式动作表征的能力，被视为具身动作领域的“ImageNet”。

为什么通用视觉模型在具身任务中表现更好？

根据LARYBench的实验，通用视觉模型在大规模、多样化的数据训练中学习到了更深层的视觉规律和泛化特征。这些特征在处理未见过的动作场景和需要高精度控制的任务时，比针对特定任务优化的专家模型具有更强的适应性和准确性。

具身动作表征从人类视频中“涌现”意味着什么？

这意味着AI模型可以通过观看人类活动的视频来学习如何执行动作，而不仅仅依赖于昂贵的机器人实操数据。这为解决具身智能面临的数据短缺问题提供了新的可能性，证明了人类视频是训练通用具身模型的宝库。

LARYBench发布：定义具身动作表征“ImageNet”，揭示通用视觉模型泛化潜力