
美团发布原生多模态模型 LongCat-Next:开源离散分词器,探索物理世界 AI 新边界
美团技术团队正式发布并开源原生多模态模型 LongCat-Next 及其核心组件离散分词器。该模型旨在将视觉和语音转化为 AI 的“原生语言”,标志着美团在物理世界 AI 领域的深度探索。通过开源这一研究成果,美团意在赋能开发者构建能够感知、理解并直接作用于真实世界的智能系统,推动多模态技术从理论走向物理应用。

美团技术团队正式发布并开源原生多模态模型 LongCat-Next 及其核心组件离散分词器。该模型旨在将视觉和语音转化为 AI 的“原生语言”,标志着美团在物理世界 AI 领域的深度探索。通过开源这一研究成果,美团意在赋能开发者构建能够感知、理解并直接作用于真实世界的智能系统,推动多模态技术从理论走向物理应用。

美团数据平台近期分享了其在新一代BI架构上的探索实践。该架构以指标平台为核心,通过构建自动语义和增强计算两大核心能力,有效应对了传统BI在个性化数据集驱动下出现的数据口径不一及查询性能瓶颈。这一实践标志着美团在提升数据一致性与分析效率方面取得了重要进展,为大型互联网企业的数据治理提供了参考范式。

美团技术团队在ACL 2026国际顶级学术会议上发表了多项重要研究成果。本文精选并解读了其中6篇被收录的论文,涵盖了大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化以及生成式推荐等前沿领域。这些研究展示了美团在自然语言处理(NLP)领域的深厚技术积淀,并为构建生成式AI新范式提供了重要的理论支撑与实践参考。

美团技术团队正式发布LARYBench(Latent Action Representation Yielding Benchmark),这是一个旨在指引从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。实验结果显示,通用视觉模型在动作泛化和控制精度上已显著超越专门的具身动作专家模型。该研究首次度量了从人类视频中学习到的泛化表征,证实了具身动作表征能够从大规模人类视频数据中自然涌现,为具身智能的发展开辟了新路径。

美团技术团队正式开源了专门用于数学形式化与定理证明的模型——LongCat-Flash-Prover。该模型旨在解决AI在数学推理中逻辑严密性的难题,通过构建严苛的逻辑链条,使AI能够从简单的“数值计算”转向复杂的“形式化证明”,有效避免了自然语言在数学逻辑中的模糊性,为复杂推理课题提供了新的解决方案。

本文详细介绍了美团技术团队在AI生成代码占比超过90%的背景下,如何通过Agent评测思路管理AI Coding。通过技术债梳理、规则建设、重构SOP及Pre-PR机制,团队成功完成了31万行代码的重构实践。该方案将原本高成本的专项重构转化为随迭代持续进行的日常动作,有效解决了AI可能带来的代码混乱放大问题,为大规模AI代码治理提供了新思路。

美团技术团队近日宣布正式开源LongCat-Video-Avatar 1.5数字人视频模型。该版本实现了从开源SOTA到商业级应用的重大跨越,在唇形同步、物理合理性、长视频稳定性、多人互动及高效推理五大核心维度上完成了全面跃升。LongCat-Video-Avatar 1.5旨在解决复杂商业场景下的高质量内容输出难题,标志着数字人视频生成技术已具备从实验环境走向千人千面真实舞台的实战能力。

美团LongCat团队正式发布全新推理评测基准General 365。在对全球26款主流大模型的实测中,目前性能顶尖的Gemini 3 Pro准确率仅为62.8%,而绝大多数参测模型未能达到60分的及格线。这一结果揭示了当前大模型在深度推理能力上的普遍短板,General 365也因此成为衡量AI推理水平的新标尺。

美团LongCat团队正式发布LongCat-AudioDiT模型,旨在突破零样本TTS音色克隆的技术瓶颈。该模型创新性地抛弃了传统的梅尔谱等中间表示,直接在波形潜空间内进行基于扩散模型的文本转语音(TTS)生成。通过这种方式,模型能够从根源上阻断数据转换带来的级联误差,让AI直接学习声音本身的规律,显著提升了声音克隆的艺术表现力与技术上限。
开发者phuryn在GitHub上发布了名为pm-skills的开源项目,该项目是一个专门面向产品经理(PM)的技能市场。它集成了超过100种智能体技能、命令和插件,全面覆盖了产品从发现、策略、执行到发布和增长的全生命周期。该项目的推出旨在利用AI技术赋能产品管理流程,提升PM在各个阶段的工作效率与决策质量。
GitHub开发者x1xhlol近期发布了一个名为“system-prompts-and-models-of-ai-tools”的热门仓库,该项目系统性地汇总了包括Augment Code、Claude Code、Cursor、Devin AI、Perplexity、v0在内的数十款主流AI编程与生产力工具的系统提示词(System Prompts)及模型配置信息。这一资源的公开为开发者深入理解AI工具的运作机制、指令工程优化以及模型调用策略提供了极具价值的参考,引发了技术社区的广泛关注。
知名开发者 Addy Osmani 在 GitHub 上发布了 agent-skills 项目,旨在为 AI 编程智能体提供生产级的工程能力。该项目通过封装标准化的工作流、质量门禁和行业最佳实践,解决了 AI 在处理复杂编程任务时缺乏工程规范的问题,是提升 AI 智能体可靠性与专业性的关键工具。
OpenMed是由开发者maziyarpanahi在GitHub上推出的开源医疗人工智能项目。该项目核心定位为“本地优先”的医疗AI,旨在通过开源技术为医疗领域提供可控、私密的智能解决方案。在医疗数据敏感性日益受到重视的背景下,OpenMed的出现标志着开源社区在医疗垂直领域大模型应用上的进一步探索,重点解决AI在医疗场景中的隐私保护与本地化部署难题。

根据TechCrunch最新报道,Meta成立仅数月的AI部门正陷入严重的内部危机。该部门拥有约6,500名员工,内部工程师将其工作环境描述为“摧残灵魂的苦役营”(soul-crushing gulag)。报告显示,由于内部士气极度低落,该部门目前正处于集体反抗的边缘,这为Meta的AI战略蒙上了一层阴影。

安全研究机构 depthfirst 宣布其自主安全智能体在广泛使用的多媒体框架 FFmpeg 中发现了 21 个零日漏洞。这些漏洞中部分已潜伏 15 至 20 年。此次发现紧随谷歌 Big Sleep 和 Anthropic 的研究之后,证明了 AI 智能体在处理复杂、经过长期审计的 C 语言代码库方面的卓越能力。该智能体不仅能发现漏洞,还能以极低的成本生成可复现的 PoC,甚至展示了远程代码执行(RCE)的可能性,标志着自动化安全审计进入新阶段。

Artificial Analysis 发布了行业首个智能体 AI 基准测试 AgentPerf,旨在为开发者和企业提供标准化的系统衡量工具。在首轮公布的测试结果中,NVIDIA Blackwell Ultra NVL72 平台展现出卓越性能,其每兆瓦电力可运行的智能体数量达到 NVIDIA 前代产品的 20 倍,确立了其在智能体 AI 基础设施领域的领先地位。

科技巨头谷歌(Google)近日正式对名为“Outsider Enterprise”的中国网络犯罪组织提起诉讼。该组织被指控利用人工智能技术实施大规模诈骗活动,在短短两周内发送了高达250万条诈骗短信,受害者人数预计达数十万。此举展现了谷歌在打击AI驱动型跨境网络犯罪方面的严厉立场。

谷歌研究博客(Google Research Blog)近日发布了关于人工智能在健康与生物科学领域的新进展,重点探讨了AI如何帮助用户更好地理解和识别皮肤状况。该研究旨在利用先进的算法提升皮肤健康信息的获取效率,通过技术手段弥合专业医疗知识与普通用户之间的认知鸿沟,标志着AI在垂直医疗领域的应用进入新阶段。

据TechCrunch报道,欧洲人工智能领军企业Mistral传出新一轮巨额融资消息。据悉,该公司正计划筹集30亿欧元资金,此轮融资将使其估值达到约200亿欧元(约合231.5亿美元)。这一数字较其C轮融资时的117亿欧元估值几乎翻了一番,显示出资本市场对这家总部位于法国的AI初创公司的高度认可与期待。

本文详细介绍了在 macOS 环境下利用 Gemma 4 模型构建本地 AI 编程助手的全过程。作者通过结合 llama.cpp 的 Metal 加速、Gemma 4 26B-A4B 模型以及最新的多令牌预测(MTP)草稿模型,成功在 Apple M1 Max 芯片上实现了流畅的本地开发体验。该方案不仅支持 OpenAI 兼容 API,还具备处理屏幕截图的多模态能力,为开发者提供了在无网络环境下依然高效的编程支持。

长期以来,苹果的语音助手Siri因功能受限和体验不佳而备受诟病。然而,在经历十五年的起伏后,苹果发布了全新版本的Siri。科技媒体The Verge指出,这次更新可能彻底改变Siri“难以使用”的刻板印象,标志着该语音助手从简单的计时工具向真正智能化的方向迈进,引发了行业对其性能飞跃的广泛关注。

随着2026年IPO市场的强势复苏,科技投资领域正经历一场深刻的范式转移。传统领头羊FAANG组合逐渐淡出核心,取而代之的是由Meta(或微软)、Anthropic、英伟达、谷歌、OpenAI及SpaceX组成的“MANGOS”新阵营。其中,SpaceX、Anthropic和OpenAI计划在同一窗口期集中上市,这不仅是对市场流动性的巨大考验,更是对当前科技估值体系的一次深度压力测试。