返回列表
美团开源原生多模态模型 LongCat-Next:视觉与语音成为 AI 母语,赋能物理世界交互
开源项目美团多模态开源

美团开源原生多模态模型 LongCat-Next:视觉与语音成为 AI 母语,赋能物理世界交互

美团技术团队正式发布并开源原生多模态模型 LongCat-Next 及其核心组件离散分词器。该模型旨在将视觉和语音转化为 AI 的“母语”,探索 AI 在感知、理解并作用于真实物理世界方面的潜力。通过开源核心研究思路,美团致力于降低物理世界 AI 的开发门槛,推动行业构建更具感知力的智能系统。

美团技术团队

核心要点

  • 原生多模态发布:美团推出 LongCat-Next 模型,将视觉和语音处理能力深度集成。
  • 核心组件开源:同步开源 LongCat-Next 模型及其关键的离散分词器(Discrete Tokenizer)。
  • 物理世界探索:该模型是美团在通往物理世界 AI 道路上的重要尝试,强调对真实环境的感知与理解。
  • 开发者赋能:通过开源研究思路,鼓励开发者基于此构建能作用于现实世界的 AI 应用。

详细分析

原生多模态:将视觉与语音视为“母语”

LongCat-Next 的核心突破在于其“原生”多模态的设计理念。与传统通过外部插件或简单拼接的模型不同,LongCat-Next 尝试将视觉和语音信息直接融入模型的底层逻辑中,使其能够像处理文本一样自然地理解多维感官数据。这种“母语化”的处理方式,理论上能显著提升 AI 在处理复杂、非结构化物理世界信息时的准确度与实时性,为 AI 从数字世界迈向物理世界奠定了技术基础。

开源离散分词器:打破多模态开发壁垒

随模型一同开源的离散分词器是 LongCat-Next 实现多模态融合的关键。离散分词器的作用是将连续的视觉图像和语音信号转化为模型可理解的离散单元。美团选择将这一核心工具开源,不仅展示了其在多模态技术上的研究深度,也为广大开发者提供了构建自定义多模态模型的底层基石。开发者可以利用这些工具,针对特定的物理交互场景进行二次开发,从而加速具身智能等前沿技术的落地。

行业影响

美团 LongCat-Next 的开源对 AI 行业具有重要的示范意义。首先,它标志着大模型竞争正从纯文本领域转向更复杂的物理世界感知领域。对于美团而言,这种技术储备与其配送、零售等高度依赖物理交互的业务场景高度契合。其次,开源策略将促进多模态技术的民主化,让更多中小型团队能够参与到物理世界 AI 的构建中,推动行业从“对话式 AI”向“行动式 AI”进化。这不仅是技术的开源,更是对未来 AI 交互范式的一次重要定义。

常见问题

什么是 LongCat-Next 的“原生多模态”?

原生多模态是指模型在架构设计阶段就将视觉、语音等多种模态的数据与文本数据进行统一表征和处理,而非在后期通过适配器进行转换,这使得模型对感官数据的理解更加深层和直观。

离散分词器在 LongCat-Next 中起什么作用?

离散分词器负责将现实世界中连续的视觉和语音信号“翻译”成模型能够处理的离散符号(Tokens),它是连接物理信号与 AI 逻辑理解的关键桥梁。

为什么美团要强调“物理世界 AI”?

物理世界 AI 指的是能够感知、理解并直接作用于现实环境的智能系统。对于拥有大量线下业务场景的美团来说,让 AI 具备处理真实物理世界问题的能力是其技术演进的核心目标。

相关新闻

LongCat-Flash-Prover开源:美团助力AI从“猜答案”迈向严谨数学定理证明
开源项目

LongCat-Flash-Prover开源:美团助力AI从“猜答案”迈向严谨数学定理证明

美团技术团队正式开源LongCat-Flash-Prover模型,旨在解决AI在数学定理证明中的严谨性难题。该模型专注于数学形式化与定理证明,强调逻辑链条的极端严苛性。相比于仅追求数值正确性的常规模型,LongCat-Flash-Prover致力于消除自然语言的歧义,确保证明过程的每一步都具备逻辑支撑,推动AI推理从简单的结果预测转向深度的严谨证明。

从月球漫步到赛博都市:美团开源WBench,定义交互式世界模型评测新标准
开源项目

从月球漫步到赛博都市:美团开源WBench,定义交互式世界模型评测新标准

美团LongCat团队正式开源WBench,这是全球首个针对交互式视频世界模型的系统性多轮评测基准。该工具被喻为世界模型的“CT扫描仪”,旨在精准识别模型在从传统的“被动观看”模式向“主动交互”模式转型过程中的技术瓶颈,为AI视频生成与交互领域提供了关键的度量工具。

美团开源海报生成AIGC技术体系:构建“生成-编辑-评判”闭环助力业务创新
开源项目

美团开源海报生成AIGC技术体系:构建“生成-编辑-评判”闭环助力业务创新

美团智能创作团队近日宣布开源其海报生成AIGC技术体系。该体系通过构建“生成-编辑-评判”的技术闭环,解决了AI创作中的可控性与质量评估难题。目前,该技术已在美团外卖、品牌IP等核心业务场景中成功落地,旨在通过自动化手段提升设计效率,并为行业提供可借鉴的智能创作解决方案。