LARYBench发布：美团定义具身动作表征新基准，通用模型性能超越专家模型

美团技术团队发布了LARYBench（Latent Action Representation Yielding Benchmark），这是一个旨在从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。研究表明，通用视觉模型在动作泛化和控制精度上显著优于专门的具身专家模型，证明了具身动作表征可以从大规模人类视频数据中涌现，为具身智能的发展提供了重要指引。

核心要点

发布LARYBench基准：美团技术团队推出系统化评测基准，旨在从大规模视觉数据中提取通用隐式动作表征。
通用模型性能领先：实验证明通用视觉模型在动作泛化与控制精度上，均显著超越了专门设计的具身动作专家模型。
表征涌现效应：研究发现具身动作表征能够从大规模的人类视频数据中自然涌现，无需完全依赖特定领域的专家数据。
定义行业标准：LARYBench被视为具身动作表征领域的“ImageNet”，为行业提供了度量从人类视频学习泛化表征的标准。

详细分析

LARYBench：构建具身智能的系统化评测体系

LARYBench（Latent Action Representation Yielding Benchmark）的发布，填补了具身智能领域在通用动作表征评测上的空白。该基准的核心目标是系统化地评估模型从大规模视觉数据中学习隐式动作表征的能力。在具身智能的发展过程中，如何将视觉感知转化为有效的动作指令一直是核心挑战。LARYBench通过提供标准化的评测流程，指引研究者探索如何利用海量的非结构化视觉数据，构建出具有高度通用性的动作表征模型。这一基准的建立，类似于计算机视觉领域的ImageNet，为后续的研究提供了明确的对标体系和演进方向。

通用视觉模型与专家模型的性能倒挂

根据美团技术团队披露的实验结果，一个令人关注的现象是：通用视觉模型在具身任务中的表现，竟然显著优于那些专门为具身智能设计的“动作专家模型”。这种优势主要体现在两个关键维度：动作泛化能力和控制精度。这意味着，在大规模数据集上预训练的通用模型，凭借其强大的特征提取和理解能力，能够更好地适应多变的具身环境和复杂的动作需求。相比之下，传统的专家模型虽然在特定任务上经过优化，但在面对未见过的场景或需要高精度控制的任务时，其表现反而略逊一筹。这一发现挑战了“专用优于通用”的传统认知，为具身智能的技术路线选择提供了新的证据。

从人类视频中涌现的具身能力

研究最深远的意义在于证实了“具身动作表征可以从大规模人类视频数据中涌现”。这意味着，我们可能不需要完全依赖昂贵的机器人采集数据或模拟环境数据来训练具身智能。通过观察和学习人类在视频中的动作模式，模型能够内化并形成通用的动作表征。这种从被动观察到主动控制的能力转化，极大地扩展了具身智能训练数据的来源。人类视频数据中蕴含的丰富物理交互信息，成为了模型学习泛化动作能力的宝库，为实现更具通用性的机器人控制系统铺平了道路。

行业影响

LARYBench的发布对具身智能行业具有里程碑意义。首先，它确立了从大规模视觉数据学习动作表征的技术路径，强化了通用大模型在具身智能领域的地位。其次，它证明了人类视频数据的巨大价值，这可能导致行业在数据采集策略上的重大转向——从单纯依赖机器人实操数据转向更大规模的人类行为视频预训练。最后，该基准提供的度量标准将加速具身智能算法的迭代，帮助开发者更精准地识别模型在泛化和精度上的短板，从而推动具身智能向更广泛的实际应用场景迈进。

常见问题

问题 1：什么是LARYBench的主要功能？

LARYBench是一个系统化的评测基准，专门用于评估模型从大规模视觉数据中学习通用隐式动作表征的能力。它旨在为具身智能领域提供一个类似于ImageNet的标准，指引研究方向。

问题 2：为什么通用视觉模型在具身任务中表现更好？

实验表明，通用视觉模型在动作泛化和控制精度上具有显著优势。这通常归功于通用模型在大规模多样化数据上学习到的深层特征，使其在处理复杂环境和高精度动作需求时比专门的专家模型更具韧性。

问题 3：从人类视频中学习动作表征有什么好处？

这意味着具身智能可以利用现有的海量人类视频资源进行学习，而不仅仅依赖于稀缺的机器人实操数据。这种“涌现”出的表征能力能够显著提升模型的泛化水平，降低训练成本并提高智能体的适应能力。

LARYBench发布：定义具身动作表征“ImageNet”，通用视觉模型展现跨代优势