LARYBench发布：美团定义具身动作表征ImageNet，探索通用模型泛化力

美团技术团队正式发布LARYBench（Latent Action Representation Yielding Benchmark），这是一个旨在评估从大规模视觉数据中学习通用隐式动作表征的系统化基准。研究发现，通用视觉模型在动作泛化和控制精度上显著优于专门的具身动作专家模型，证明了具身动作表征可以从大规模人类视频数据中自然涌现，为具身智能的标准化评估提供了新路径。

核心要点

发布LARYBench基准：美团技术团队推出了Latent Action Representation Yielding Benchmark，用于系统化评测通用隐式动作表征。
通用模型表现卓越：实验证明，通用视觉模型在动作泛化能力和控制精度方面，均优于专门设计的具身动作专家模型。
数据涌现效应：研究揭示了具身动作表征可以从大规模的人类视频数据中直接涌现，无需完全依赖特定任务的标注。
定义行业标准：该基准被视为具身动作表征领域的“ImageNet”，首次实现了对从人类视频中学习到的泛化表征的量化度量。

详细分析

LARYBench：具身智能的动作表征新基准

LARYBench（Latent Action Representation Yielding Benchmark）的发布，填补了具身智能领域在通用动作表征评估上的空白。该基准的核心目标是指引研究者如何从大规模的视觉数据中，学习到能够跨场景、跨任务使用的通用隐式动作表征。通过建立这样一个系统化的评测体系，LARYBench为衡量不同模型在处理复杂物理交互时的表征能力提供了统一的尺度，其地位类比于计算机视觉领域的ImageNet，旨在通过标准化的数据与任务，推动具身智能技术的迭代。

通用视觉模型与专家模型的效能对比

在LARYBench的实验框架下，研究人员对比了通用视觉模型与专门为具身智能设计的动作专家模型。实验结果呈现出一种令人关注的趋势：通用视觉模型在动作泛化和控制精度这两个关键指标上，均表现出了显著的优势。这意味着，具备强大特征提取能力的通用模型，在理解动作逻辑和执行精确控制方面，比那些仅针对特定具身任务训练的专家模型具有更强的适应性和准确性。这一发现挑战了“专用模型必然优于通用模型”的传统认知，强调了基础视觉能力在具身任务中的底层支撑作用。

具身动作表征的“涌现”现象

该研究的另一个重要发现是具身动作表征的来源问题。实验表明，这种复杂的动作表征并不一定需要通过昂贵的机器人示教数据来获得，而是可以从大规模的人类视频数据中“涌现”。当模型接触到海量的人类活动视频时，它能够自动学习到关于动作、力度和空间关系的隐式规律。这种从非结构化视频数据中提取通用动作知识的能力，极大地降低了具身智能模型的训练门槛，为利用互联网规模的视频数据来增强机器人的操作能力开辟了新的可能性。

行业影响

LARYBench的发布对具身智能行业具有深远意义。首先，它提供了一个量化工具，使得开发者能够清晰地评估其模型在动作表征上的优劣，从而加速算法的优化过程。其次，研究结论强调了通用视觉模型的重要性，可能会引导行业资源向更大规模的基础模型研发倾斜。最后，证实了人类视频数据在具身学习中的有效性，这将促使更多企业和研究机构探索如何高效利用现有的视频资源，以解决具身智能面临的数据稀缺难题。

常见问题

问题 1：什么是LARYBench的主要功能？

LARYBench是一个系统化的评测基准，专门用于度量和指引模型从大规模视觉数据中学习通用隐式动作表征的能力，被视为具身动作领域的ImageNet。

问题 2：为什么通用视觉模型在具身任务中表现更好？

根据实验结果，通用视觉模型在动作泛化和控制精度上优于专家模型。这通常是因为通用模型在大规模数据上学习到了更丰富的特征表示，使其在面对未见过的动作或需要高精度控制的场景时，具备更强的适应能力。

问题 3：这项研究对数据采集有什么启示？

研究表明具身动作表征可以从大规模人类视频中涌现。这意味着除了直接采集机器人数据外，利用现有的海量人类活动视频也是提升具身智能模型性能的有效途径。

美团发布LARYBench：定义具身动作表征ImageNet，揭示通用视觉模型泛化优势