返回列表
美团开源原生多模态模型 LongCat-Next:视觉与语音成为 AI 母语,赋能物理世界交互
开源项目美团多模态开源

美团开源原生多模态模型 LongCat-Next:视觉与语音成为 AI 母语,赋能物理世界交互

美团技术团队正式发布并开源原生多模态模型 LongCat-Next 及其核心组件离散分词器。该模型旨在将视觉和语音转化为 AI 的“母语”,探索 AI 在感知、理解并作用于真实物理世界方面的潜力。通过开源核心研究思路,美团致力于降低物理世界 AI 的开发门槛,推动行业构建更具感知力的智能系统。

美团技术团队

核心要点

  • 原生多模态发布:美团推出 LongCat-Next 模型,将视觉和语音处理能力深度集成。
  • 核心组件开源:同步开源 LongCat-Next 模型及其关键的离散分词器(Discrete Tokenizer)。
  • 物理世界探索:该模型是美团在通往物理世界 AI 道路上的重要尝试,强调对真实环境的感知与理解。
  • 开发者赋能:通过开源研究思路,鼓励开发者基于此构建能作用于现实世界的 AI 应用。

详细分析

原生多模态:将视觉与语音视为“母语”

LongCat-Next 的核心突破在于其“原生”多模态的设计理念。与传统通过外部插件或简单拼接的模型不同,LongCat-Next 尝试将视觉和语音信息直接融入模型的底层逻辑中,使其能够像处理文本一样自然地理解多维感官数据。这种“母语化”的处理方式,理论上能显著提升 AI 在处理复杂、非结构化物理世界信息时的准确度与实时性,为 AI 从数字世界迈向物理世界奠定了技术基础。

开源离散分词器:打破多模态开发壁垒

随模型一同开源的离散分词器是 LongCat-Next 实现多模态融合的关键。离散分词器的作用是将连续的视觉图像和语音信号转化为模型可理解的离散单元。美团选择将这一核心工具开源,不仅展示了其在多模态技术上的研究深度,也为广大开发者提供了构建自定义多模态模型的底层基石。开发者可以利用这些工具,针对特定的物理交互场景进行二次开发,从而加速具身智能等前沿技术的落地。

行业影响

美团 LongCat-Next 的开源对 AI 行业具有重要的示范意义。首先,它标志着大模型竞争正从纯文本领域转向更复杂的物理世界感知领域。对于美团而言,这种技术储备与其配送、零售等高度依赖物理交互的业务场景高度契合。其次,开源策略将促进多模态技术的民主化,让更多中小型团队能够参与到物理世界 AI 的构建中,推动行业从“对话式 AI”向“行动式 AI”进化。这不仅是技术的开源,更是对未来 AI 交互范式的一次重要定义。

常见问题

什么是 LongCat-Next 的“原生多模态”?

原生多模态是指模型在架构设计阶段就将视觉、语音等多种模态的数据与文本数据进行统一表征和处理,而非在后期通过适配器进行转换,这使得模型对感官数据的理解更加深层和直观。

离散分词器在 LongCat-Next 中起什么作用?

离散分词器负责将现实世界中连续的视觉和语音信号“翻译”成模型能够处理的离散符号(Tokens),它是连接物理信号与 AI 逻辑理解的关键桥梁。

为什么美团要强调“物理世界 AI”?

物理世界 AI 指的是能够感知、理解并直接作用于现实环境的智能系统。对于拥有大量线下业务场景的美团来说,让 AI 具备处理真实物理世界问题的能力是其技术演进的核心目标。

相关新闻

LongCat-Video-Avatar 1.5 开源:美团发布商业级数字人视频模型,实现唇形同步与稳定性突破
开源项目

LongCat-Video-Avatar 1.5 开源:美团发布商业级数字人视频模型,实现唇形同步与稳定性突破

美团技术团队正式开源 LongCat-Video-Avatar 1.5,标志着数字人视频模型从高拟真向商业级应用的跨越。该版本在唇形同步、物理合理性、长视频稳定性及多人互动等方面实现全面提升,旨在解决复杂商业场景下的高质量内容输出难题,推动数字人技术走向真实应用舞台。

LongCat-Flash-Prover:美团开源数学定理证明模型,引领AI从“猜答案”迈向“严谨证明”
开源项目

LongCat-Flash-Prover:美团开源数学定理证明模型,引领AI从“猜答案”迈向“严谨证明”

美团技术团队正式开源了专门用于数学形式化与定理证明的模型——LongCat-Flash-Prover。该模型旨在解决AI在复杂推理中的逻辑严密性问题,通过构建严苛的逻辑链条,实现了从“答对最终数值”到“严谨逻辑证明”的跨越。这一开源举措为AI攻克高难度数学定理证明提供了新的技术路径,解决了自然语言在逻辑推理中容易产生的模棱两可问题。

谷歌发布Skills项目:为Google产品与技术打造专属智能体技能
开源项目

谷歌发布Skills项目:为Google产品与技术打造专属智能体技能

谷歌(Google)在GitHub上正式推出了名为“skills”的开源项目。该项目专注于为Google旗下的各项产品和技术提供专门的智能体技能(Agent Skills)。通过该项目,开发者可以更便捷地为AI智能体集成Google生态的功能,旨在提升智能体在处理复杂任务时的执行效率与交互能力。