
美团LongCat-AudioDiT发布:抛弃梅尔谱,重塑零样本TTS音色克隆技术上限
美团LongCat团队正式发布LongCat-AudioDiT模型,该模型通过在波形潜空间直接进行基于扩散模型的文本转语音(TTS),彻底抛弃了传统的梅尔谱等中间表示。这一创新从根源上阻断了数据转换过程中产生的级联误差,显著提升了零样本TTS音色克隆的上限,为AI语音合成领域带来了全新的技术路径。

美团LongCat团队正式发布LongCat-AudioDiT模型,该模型通过在波形潜空间直接进行基于扩散模型的文本转语音(TTS),彻底抛弃了传统的梅尔谱等中间表示。这一创新从根源上阻断了数据转换过程中产生的级联误差,显著提升了零样本TTS音色克隆的上限,为AI语音合成领域带来了全新的技术路径。

美团智能创作团队近日公开了其在海报生成AIGC领域的最新技术创新与实践成果。该团队成功构建了涵盖“生成-编辑-评判”的完整技术闭环体系,旨在解决自动化创作中的质量把控与可控性难题。目前,该技术已在美团外卖、品牌IP等核心业务场景中实现落地应用,并已面向开发者社区全面开源。

美团技术团队正式发布并开源原生多模态模型LongCat-Next及其核心组件离散分词器。该模型旨在探索AI与物理世界的深度交互,通过将视觉和语音作为原生能力集成,提升AI对真实环境的感知、理解与行动力。此次开源旨在赋能开发者,共同构建能够作用于物理世界的具身智能应用。

美团技术团队正式开源LongCat-Video-Avatar 1.5,标志着数字人视频模型从学术界SOTA向商业级应用的重大跨越。该版本在唇形同步、物理合理性、长视频稳定性、多人互动及高效推理五大核心维度实现全面跃升,旨在解决复杂商业场景下的高质量输出难题,推动数字人技术从实验室走向真实生产环境。

美团技术团队分享了在AI生成代码占比超过90%的背景下,如何通过Agent评测思路管理AI Coding。针对AI可能放大系统混乱的问题,团队基于31万行代码的重构实践,通过技术债梳理、Rule建设、重构SOP及Pre-PR机制,成功将高成本的重构专项转变为随迭代持续推进的日常动作,为AI辅助编程的规范化管理提供了实战参考。

美团LongCat团队正式开源WBench,这是全球首个针对交互式视频世界模型的系统性多轮评测基准。WBench被形象地比喻为“CT扫描仪”,旨在精准诊断世界模型在从“被动观看”到“主动交互”演进过程中的技术瓶颈,为行业提供了衡量世界模型交互能力的新标准与工具。

美团技术团队在计算语言学顶级会议ACL 2026中表现出色,共有6篇论文被收录。这些研究成果深入探讨了大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化及生成式推荐等前沿领域,展示了美团在构建生成式AI新范式方面的最新技术突破与实践经验。

美团LongCat团队正式发布General 365推理评测基准,旨在为大模型推理能力树立新标尺。在对26款全球主流模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分均低于60分。这一结果揭示了当前顶尖AI模型在复杂推理任务中仍面临严峻挑战,同时也凸显了General 365作为高难度评测工具的行业价值。

美团技术团队近日发布了 LARYBench(Latent Action Representation Yielding Benchmark),这是一个系统化的评测基准,旨在指引从大规模视觉数据中学习通用的隐式动作表征。该基准的发布被视为具身智能领域的“ImageNet”。实验结果显示,通用视觉模型在动作泛化和控制精度上显著优于专门的具身动作专家模型,证明了具身动作表征能够从大规模人类视频数据中“涌现”,为具身智能的发展提供了重要指引。
Google Labs 近日在 GitHub 上发布了名为 DESIGN.md 的新型格式规范。该规范专门用于向 AI 编码智能体描述视觉身份,使其能够对设计系统建立持久且结构化的理解。通过这一标准,开发者可以更有效地引导 AI 智能体在编写代码时遵循特定的 UI 规范和品牌视觉要求,解决了 AI 在前端开发中难以保持设计一致性的痛点,标志着 AI 辅助开发向标准化迈出的重要一步。
MinerU 是由 OpenDataLab 推出的开源工具,专门用于将 PDF、Office 等复杂格式文档高效转换为适用于大语言模型(LLM)的 Markdown 或 JSON 格式。该项目针对 Agentic 工作流进行了深度优化,旨在解决非结构化数据处理中的痛点,为 AI 智能体提供高质量、结构化的输入数据,助力构建更精准的知识库与自动化流程。
openpilot 是由 commaai 开发的一款开源机器人操作系统,旨在通过先进的软件算法升级和增强现有车辆的驾驶辅助系统(ADAS)。目前,该系统已成功适配并支持超过 300 款不同品牌的车型,为全球用户提供了标准化的自动化驾驶解决方案,推动了智能驾驶技术的普及与开源生态的发展。
GitHub 近期涌现出名为“张雪峰.skill”的热门项目,由开发者 alchaincyf 发布。该项目被定义为“张雪峰的认知操作系统”,旨在提供一套关于高考志愿填报、考研策略及职业规划的实战思维框架。该内容由“女娲.skill”工具生成,展示了如何将垂直领域专家的经验转化为结构化的数字化技能模型。
Adrafinil 是一款创新的 macOS 菜单栏应用,专门解决 AI 智能体在后台运行时的系统休眠问题。与传统的“永不休眠”工具不同,它具备“智能体感知”能力,仅在 AI 编码智能体(如 Claude Code、Cursor 等)执行任务时阻止系统进入休眠(包括合盖模式)。一旦任务结束,系统将立即恢复正常的休眠逻辑,实现能效与任务连续性的平衡。

著名作家玛格丽特·阿特伍德(Margaret Atwood)在葡萄牙波尔图举行的Babell文学与文化节上,针对人工智能(AI)发表了犀利观点。她指出AI目前面临的主要问题是“垃圾进,垃圾出”(garbage in, garbage out),并分享了自己曾亲自尝试使用AI工具的经历。这一评价引发了文学界对AI生成内容质量及其训练数据来源的深度思考。

苹果公司负责Vision Pro头显业务的副总裁Paul Meade据报道将离开公司,转而加入OpenAI的硬件团队。作为苹果空间计算领域的关键高管,Meade的跳槽标志着顶尖硬件人才正向AI领军企业流动,同时也揭示了OpenAI在硬件开发领域的进一步野心。