LARYBench发布：美团定义具身动作表征ImageNet，通用模型表现卓越

美团技术团队正式发布LARYBench（Latent Action Representation Yielding Benchmark），这是首个旨在从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。研究表明，通用视觉模型在动作泛化与控制精度上显著优于专门的具身动作专家模型，证实了具身动作表征可从大规模人类视频数据中涌现，为具身智能研究提供了重要度量工具。

核心要点

发布LARYBench基准：美团技术团队推出了系统化的评测基准LARYBench，用于指引和评估从大规模视觉数据中学习到的通用隐式动作表征。
通用模型表现卓越：实验结果显示，通用视觉模型在动作泛化能力和控制精度方面，均显著超越了专门为具身智能设计的动作专家模型。
动作表征的涌现性：该研究首次证明了具身动作表征可以从大规模的人类视频数据中自然涌现，无需完全依赖特定任务的标注数据。
定义行业新标准：LARYBench被视为具身动作表征领域的“ImageNet”，为衡量模型从视频中学习动作的能力提供了统一的度量衡。

详细分析

LARYBench：构建具身智能的度量衡

在具身智能（Embodied AI）的发展过程中，如何让机器像人类一样通过观察来理解并执行动作一直是一个核心难题。美团技术团队发布的LARYBench（Latent Action Representation Yielding Benchmark）填补了这一领域的空白。作为一个系统化的评测基准，LARYBench的核心目标是定义和度量“隐式动作表征”。这种表征不再局限于特定的机器人指令，而是试图从海量的视觉数据中提取出通用的动作逻辑。通过将该基准比作具身动作领域的“ImageNet”，研究者们旨在为全球AI社区提供一个标准化的测试场，以评估不同模型在处理复杂动作信息时的有效性。

通用视觉模型 vs 动作专家模型：泛化能力的降维打击

该研究最引人注目的发现之一是：在具身智能任务中，通用视觉模型的表现竟然优于专门设计的动作专家模型。传统观点认为，针对特定机器人任务训练的“专家模型”应该在精度和控制上更具优势。然而，LARYBench的实验数据推翻了这一假设。通用视觉模型凭借其在超大规模数据集上学习到的丰富特征，展现出了更强的动作泛化能力。这意味着，当面对未见过的场景或复杂的控制需求时，通用模型能够更好地理解动作的本质，从而实现更高精度的控制。这一发现可能会改变未来具身智能模型的设计思路，促使研究者更多地关注如何利用大规模预训练模型来提升机器人的动作能力。

从人类视频到具身动作：表征的自然涌现

LARYBench的研究进一步证实，具身动作表征可以从大规模的人类视频数据中“涌现”。这是一个极具启发性的结论，因为它意味着我们可能不需要为机器人手动标注每一个动作细节。通过观察人类在日常生活中拍摄的视频，AI模型能够自发地学习到关于空间、力度、轨迹和物体交互的隐式知识。这种从视觉信号到动作表征的转化，为解决具身智能中的“数据饥渴”问题提供了新路径。利用现有的互联网规模视频库，AI有望在进入物理世界之前，就已经具备了深厚的动作理解基础。

行业影响

LARYBench的发布对AI行业具有深远意义。首先，它为具身智能的研究提供了一个清晰的评估框架，使得不同团队的研究成果具有了可比性。其次，它强化了“通用大模型”在具身智能领域的地位，暗示了未来机器人大脑的构建可能更多依赖于视觉大模型的迁移能力，而非单一任务的微调。最后，这一研究成果为利用人类视频数据训练机器人提供了理论支持，预示着具身智能可能会迎来类似自然语言处理（NLP）领域的“GPT时刻”，即通过大规模无监督学习实现能力的跨越式提升。

常见问题

问题 1：什么是LARYBench的主要功能？

LARYBench是一个系统化的评测基准，主要用于评估和指引AI模型从大规模视觉数据（如视频）中学习通用隐式动作表征的能力。它被视为具身动作表征领域的“ImageNet”。

问题 2：为什么通用视觉模型在具身任务中表现更好？

根据实验结果，通用视觉模型由于在大规模多样化数据上进行了预训练，具备更强的泛化能力和特征提取能力。相比之下，专门的动作专家模型虽然在特定任务上表现尚可，但在面对复杂环境和高精度控制要求时，其泛化精度不如通用模型。

问题 3：这项研究对未来的机器人训练有什么启示？

研究证明了具身动作表征可以从人类视频中涌现。这意味着未来可以通过大规模的人类生活视频来训练机器人，而不仅仅依赖于昂贵的机器人实机采集数据，这将极大降低具身智能的学习成本并提升其通用性。

LARYBench发布：定义具身动作表征“ImageNet”，揭示通用视觉模型在具身智能中的优势