
美团开源原生多模态模型 LongCat-Next:探索物理世界 AI 的新范式
美团技术团队正式发布并开源了原生多模态模型 LongCat-Next 及其核心组件离散分词器。该模型是美团在“物理世界 AI”路径上的重要探索,旨在将视觉和语音转化为 AI 的原生理解能力。通过开源核心模型与技术工具,美团意在赋能开发者构建能够感知、理解并作用于真实世界的智能应用,推动多模态技术在复杂物理环境中的落地。

美团技术团队正式发布并开源了原生多模态模型 LongCat-Next 及其核心组件离散分词器。该模型是美团在“物理世界 AI”路径上的重要探索,旨在将视觉和语音转化为 AI 的原生理解能力。通过开源核心模型与技术工具,美团意在赋能开发者构建能够感知、理解并作用于真实世界的智能应用,推动多模态技术在复杂物理环境中的落地。

美团技术团队分享了其在BI领域的最新探索实践。通过构建以指标平台为核心的新一代BI架构,美团引入了“自动语义”与“增强计算”两大核心能力。该架构旨在解决传统BI平台在个性化数据集驱动下普遍存在的数据口径混乱及查询性能低下等核心痛点,实现了数据治理与分析效率的显著提升。

本文深入探讨美团技术团队在31万行代码重构中的前沿实践。面对AI生成代码占比超过90%带来的管理挑战,团队提出“约束AI能力”的核心理念,通过Agent评测思路,构建了包含技术债梳理、规则建设、重构SOP及Pre-PR机制的完整体系,成功将高成本的重构专项转化为随迭代持续进行的日常动作,为AI时代的软件工程提供了重要参考。

美团技术团队正式开源LongCat-Video-Avatar 1.5,这是一款旨在实现商业级应用的数字人视频模型。该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率等方面实现了全面跃升。模型不仅追求视觉上的高拟真,更强调在复杂商业场景下的实用性与稳定性,标志着数字人视频生成技术从实验室研究向真实大规模应用的跨越。

美团LongCat团队正式发布General 365推理评测集,旨在为大模型推理能力建立更严苛的标准。在对26款主流模型的实测中,目前顶尖的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型未能达到60分的及格线。这一结果揭示了当前AI模型在复杂推理任务上的局限性,为行业提供了全新的性能衡量基准。

美团技术团队正式发布LARYBench(Latent Action Representation Yielding Benchmark),这是首个系统化评测从大规模视觉数据中学习通用隐式动作表征的基准。研究表明,通用视觉模型在动作泛化与控制精度上显著优于专门的具身专家模型,证实了具身动作表征可从人类视频数据中有效“涌现”,为具身智能研究提供了新的度量标准。

美团LongCat团队正式发布LongCat-AudioDiT模型,旨在突破零样本TTS音色克隆的技术瓶颈。该模型创新性地抛弃了传统的梅尔谱等中间表示,转而直接在波形潜空间进行基于扩散模型的文本转语音(TTS)处理。通过这种方式,LongCat-AudioDiT从根源上阻断了数据转换过程中产生的级联误差,显著提升了声音克隆的质量与真实感。

美团技术团队正式开源LongCat-Flash-Prover模型,专注于数学形式化与定理证明。该模型旨在解决AI在复杂推理中逻辑链条不严谨的问题,通过形式化手段确保证明过程的极度严苛,实现了从单纯“答对数值”到“严谨逻辑证明”的跨越,为AI攻克数学难题提供了新的技术路径。

美团技术团队近日宣布,LongCat 已正式为 OpenClaw 注入效率引擎,通过提供稳定合规的官方免费 API,显著提升了自动化任务的处理速度。该举措旨在解决开发者在使用第三方订阅时面临的账号安全风险及服务不稳定性问题。现在,开发者可直接通过官方渠道接入,在确保工作流安全的同时,实现高达 30% 的效率增长。
ECC(Agent Framework Performance Optimization System)是一款专注于提升智能体框架性能的开源系统。该系统专门为Claude Code、Codex、Opencode及Cursor等主流AI开发工具设计,通过引入技能、本能、记忆、安全保障及研究优先的开发模式,显著增强了AI智能体在复杂编程任务中的执行效率与可靠性,成为GitHub近期备受关注的热门项目。
NousResearch 在 GitHub 上正式发布了名为 Hermes Agent 的开源项目。该项目以“与你一同成长的智能体”为核心口号,展示了其在自主智能体领域的最新探索。作为知名研究机构 NousResearch 的新作,Hermes Agent 强调了智能体与用户之间的协同进化能力,旨在通过开源社区的力量推动个性化 AI 技术的发展。
NVIDIA 在 GitHub 上推出了 Cosmos 开放平台,这是一个由世界模型、数据集和工具组成的综合生态系统。该平台专为构建“物理 AI”而设计,旨在支持机器人、自动驾驶汽车及智能基础设施的开发,通过模拟和理解物理规律,为具身智能提供核心技术支撑。
开发者 lfnovo 近日在 GitHub 上发布了名为 open-notebook 的开源项目。该项目是 Google Notebook LM 的一个开源实现版本,其核心卖点在于提供了比原版更高的灵活性和更丰富的功能。作为一款针对知识管理和文档分析的 AI 工具,open-notebook 的出现为寻求私有化部署和高度自定义的用户提供了新的选择。
Headroom 是一款由开发者 chopratejas 推出的开源工具,旨在通过在工具输出、日志、文件及 RAG 分块进入大语言模型(LLM)前进行压缩,显著降低 Token 消耗。该项目声称能在保持回答效果不变的前提下,减少 60% 至 95% 的 Token 数量,并支持作为库、代理或 MCP 服务器运行,为开发者提供高效的上下文管理方案。
Open-LLM-VTuber 是一款在 GitHub 上备受关注的开源工具,旨在通过先进的交互技术连接用户与大语言模型(LLM)。该项目核心亮点在于支持免提语音交互、实时语音中断功能,并能在多个平台上本地运行 Live2D 面部模型。它为开发者和内容创作者提供了一个灵活的框架,使得与 AI 虚拟主播的对话更加自然、流畅且具备高度的隐私性。
PaddleOCR 是由 PaddlePaddle 团队开发的开源 OCR 工具包,旨在将 PDF 和图像文档高效转换为 AI 可用的结构化数据。该项目以其轻量化设计、对 100 多种语言的广泛支持以及在弥合图像与大语言模型(LLM)鸿沟方面的关键作用,成为 GitHub 上的热门技术工具。
本文介绍了在Hugging Face“Build Small”黑客松中涌现的创新项目“Thousand Token Wood”。该项目成功在仅有3B参数的小型模型上构建并运行了一个复杂的多智能体经济系统,展示了轻量级模型在处理多智能体协作与模拟任务中的巨大潜力。

根据404 Media披露的微软内部战略文件,微软新推出的AI个人助手“Scout”旨在通过三个阶段的演进,让用户对其产生“成瘾性”。该计划的核心是在推出更多功能之前,先建立用户对工具的依赖感,最终将其打造为代理平台。这一策略引发了外界对大型科技公司通过产品锁定机制束缚用户的广泛关注。

谷歌(Google)已正式与SpaceX达成一项巨额算力采购协议,计划每月支付9.2亿美元以获取计算资源。据谷歌官方代表透露,此举旨在应对其近期推出的AI产品所带来的“出乎意料”的市场需求。这一交易不仅刷新了算力租赁的市场规模记录,也凸显了在AI竞赛中,顶级科技巨头对基础设施资源的极度渴求。

本文基于 Auriel Wright 的深度洞察,探讨了低质量强化学习(RL)环境对 AI 模型的负面影响。作者指出,损坏的评估框架(Harness)正积极地使模型表现变差。通过多年对轨迹(Trajectories)数据的深入观察,作者总结了当前开发者常犯的错误,并提出了修复这些环境问题的必要性,旨在帮助行业构建更高质量的强化学习评估体系。

谷歌DeepMind宣布推出经过量化感知训练(QAT)优化的Gemma 4系列新模型。通过在训练过程中模拟量化,该模型在显著降低内存需求的同时,最大限度地减少了性能损失。此次发布包含Q4_0格式及一种新型移动端专用格式,成功将Gemma 4 E2B模型的内存占用缩减至1GB,旨在让大模型在普通边缘设备和消费级GPU上实现高效本地运行。