
美团开源原生多模态模型 LongCat-Next:视觉与语音成为 AI 母语,赋能物理世界交互
美团技术团队正式发布并开源原生多模态模型 LongCat-Next 及其核心组件离散分词器。该模型旨在将视觉和语音转化为 AI 的“母语”,探索 AI 在感知、理解并作用于真实物理世界方面的潜力。通过开源核心研究思路,美团致力于降低物理世界 AI 的开发门槛,推动行业构建更具感知力的智能系统。
核心要点
- 原生多模态发布:美团推出 LongCat-Next 模型,将视觉和语音处理能力深度集成。
- 核心组件开源:同步开源 LongCat-Next 模型及其关键的离散分词器(Discrete Tokenizer)。
- 物理世界探索:该模型是美团在通往物理世界 AI 道路上的重要尝试,强调对真实环境的感知与理解。
- 开发者赋能:通过开源研究思路,鼓励开发者基于此构建能作用于现实世界的 AI 应用。
详细分析
原生多模态:将视觉与语音视为“母语”
LongCat-Next 的核心突破在于其“原生”多模态的设计理念。与传统通过外部插件或简单拼接的模型不同,LongCat-Next 尝试将视觉和语音信息直接融入模型的底层逻辑中,使其能够像处理文本一样自然地理解多维感官数据。这种“母语化”的处理方式,理论上能显著提升 AI 在处理复杂、非结构化物理世界信息时的准确度与实时性,为 AI 从数字世界迈向物理世界奠定了技术基础。
开源离散分词器:打破多模态开发壁垒
随模型一同开源的离散分词器是 LongCat-Next 实现多模态融合的关键。离散分词器的作用是将连续的视觉图像和语音信号转化为模型可理解的离散单元。美团选择将这一核心工具开源,不仅展示了其在多模态技术上的研究深度,也为广大开发者提供了构建自定义多模态模型的底层基石。开发者可以利用这些工具,针对特定的物理交互场景进行二次开发,从而加速具身智能等前沿技术的落地。
行业影响
美团 LongCat-Next 的开源对 AI 行业具有重要的示范意义。首先,它标志着大模型竞争正从纯文本领域转向更复杂的物理世界感知领域。对于美团而言,这种技术储备与其配送、零售等高度依赖物理交互的业务场景高度契合。其次,开源策略将促进多模态技术的民主化,让更多中小型团队能够参与到物理世界 AI 的构建中,推动行业从“对话式 AI”向“行动式 AI”进化。这不仅是技术的开源,更是对未来 AI 交互范式的一次重要定义。
常见问题
什么是 LongCat-Next 的“原生多模态”?
原生多模态是指模型在架构设计阶段就将视觉、语音等多种模态的数据与文本数据进行统一表征和处理,而非在后期通过适配器进行转换,这使得模型对感官数据的理解更加深层和直观。
离散分词器在 LongCat-Next 中起什么作用?
离散分词器负责将现实世界中连续的视觉和语音信号“翻译”成模型能够处理的离散符号(Tokens),它是连接物理信号与 AI 逻辑理解的关键桥梁。
为什么美团要强调“物理世界 AI”?
物理世界 AI 指的是能够感知、理解并直接作用于现实环境的智能系统。对于拥有大量线下业务场景的美团来说,让 AI 具备处理真实物理世界问题的能力是其技术演进的核心目标。

