LARYBench发布：具身智能动作表征新基准，通用模型超越专家模型

美团技术团队正式发布LARYBench（Latent Action Representation Yielding Benchmark），这是一个系统化的评测基准，旨在指引从大规模视觉数据中学习通用的隐式动作表征。实验结果显示，通用视觉模型在动作泛化和控制精度上均优于专门的具身专家模型，标志着具身动作表征可以从大规模人类视频数据中成功涌现，为具身智能研究提供了新的方向。

核心要点

LARYBench正式发布：美团技术团队推出了Latent Action Representation Yielding Benchmark，作为具身动作表征领域的系统化评测基准。
定义“动作版ImageNet”：该基准旨在通过大规模视觉数据，推动通用隐式动作表征的学习与评估。
通用模型表现卓越：实验证明，通用视觉模型在动作泛化能力和控制精度上，均显著超过了专门为具身智能设计的动作专家模型。
数据涌现效应：研究确认具身动作表征能够从大规模的人类视频数据中自然涌现，无需完全依赖特定领域的专家数据。

详细分析

LARYBench：构建具身智能的度量衡

在具身智能（Embodied AI）的研究进程中，如何有效地表征动作一直是一个核心挑战。美团技术团队发布的LARYBench（Latent Action Representation Yielding Benchmark）填补了这一空白。作为一个系统化的评测基准，LARYBench的主要目标是指引研究者从海量的、非结构化的视觉数据中学习到通用的隐式动作表征。这一基准的提出，被业内视为具身动作表征领域的“ImageNet”，它不仅提供了评估工具，更定义了衡量动作表征质量的标准，为后续的研究路径提供了清晰的导航。

通用视觉模型与专家模型的效能对比

根据LARYBench的实验结果，一个重要的发现是通用视觉模型在具身任务中的潜力。传统观点认为，专门为具身智能设计的“动作专家模型”在特定任务中应具有天然优势。然而，实验数据显示，通用视觉模型在“动作泛化”和“控制精度”这两个关键维度上表现更为出色。这意味着，经过大规模预训练的通用模型具备更强的适应性，能够处理更复杂的动作逻辑，并在执行精度上达到更高水平。这一发现挑战了现有的模型设计思路，暗示了通用特征在具身控制中的核心地位。

从人类视频中涌现的具身能力

LARYBench的研究还揭示了数据来源的深层意义。实验表明，具身动作表征可以从大规模的人类视频数据中“涌现”。这一结论具有重要的工程价值：它意味着我们可能不需要完全依赖昂贵的、带有精确动作标注的机器人操作数据，而是可以通过观察人类在现实世界中的视频记录，让模型自主学习并提取出底层的动作逻辑。这种从大规模视觉数据中提取通用动作表征的能力，为解决具身智能中的数据瓶颈问题提供了全新的可能。

行业影响

LARYBench的发布对具身智能行业具有深远影响。首先，它为动作表征的学习提供了一个标准化的“试金石”，有助于加速算法的迭代与优化。其次，通用视觉模型优于专家模型的结论，可能会引导行业资源向更大规模的通用预训练模型倾斜，推动具身智能与大视觉模型的深度融合。最后，验证了人类视频数据的有效性，预示着未来具身智能的训练数据规模将迎来爆发式增长，降低了开发高性能具身控制系统的门槛。

常见问题

问题 1：什么是LARYBench的主要功能？

LARYBench是一个系统化的评测基准，专门用于评估和指引模型如何从大规模视觉数据中学习到通用的隐式动作表征。它被类比为具身动作领域的ImageNet，旨在建立统一的度量标准。

问题 2：为什么通用视觉模型在实验中表现更好？

实验表明，通用视觉模型在动作泛化和控制精度上具有显著优势。这可能是因为大规模预训练赋予了模型更强的特征提取能力和对复杂环境的理解力，使其在处理具身动作任务时比专门的专家模型更具灵活性。

问题 3：这项研究对数据采集有什么启发？

研究发现具身动作表征可以从大规模人类视频中涌现。这意味着开发者可以利用现有的海量人类活动视频来训练模型，而不必局限于稀缺的机器人专用数据，极大地扩展了具身智能的学习资源。

美团发布LARYBench：定义具身动作表征的“ImageNet”，通用视觉模型展现显著优势