
美团 LongCat-Video-Avatar 1.5 正式开源:数字人视频模型迈向商业级应用
美团技术团队近日宣布正式开源 LongCat-Video-Avatar 1.5 数字人视频模型。该版本实现了从开源 SOTA 到商业级应用的重大跨越,在唇形同步、物理合理性、长视频稳定性、多人互动及高效推理五大核心维度完成全面升级。该模型的发布标志着数字人视频生成技术已具备在复杂商业场景中稳定输出高质量内容的能力,推动行业从实验室演练走向真实的商业舞台。

美团技术团队近日宣布正式开源 LongCat-Video-Avatar 1.5 数字人视频模型。该版本实现了从开源 SOTA 到商业级应用的重大跨越,在唇形同步、物理合理性、长视频稳定性、多人互动及高效推理五大核心维度完成全面升级。该模型的发布标志着数字人视频生成技术已具备在复杂商业场景中稳定输出高质量内容的能力,推动行业从实验室演练走向真实的商业舞台。

美团LongCat团队正式发布通用推理评测集General 365,旨在为大语言模型的推理能力树立全新标尺。在对26款主流模型的实测中,目前性能顶尖的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型准确率未能达到60%的及格线。这一结果揭示了当前AI模型在复杂推理任务中的普遍短板,General 365的开源将为行业提供更具挑战性的评估标准。

美团技术团队分享了在AI生成代码占比超过90%的背景下,如何通过Agent评测思路管理31万行代码的重构。面对AI可能带来的系统性混乱,团队通过技术债梳理、Rule建设、重构SOP及Pre-PR机制,成功将高成本的重构专项转化为随业务迭代持续推进的日常动作,为AI辅助编程的规范化管理提供了实战范本。

美团技术团队正式发布LARYBench(Latent Action Representation Yielding Benchmark),这是一个旨在指引从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。该研究首次度量了从人类视频中学习到的泛化表征,实验结果显示,通用视觉模型在动作泛化和控制精度上均显著优于专门的具身智能动作专家模型,证明了具身动作表征可以从大规模人类视频数据中自然涌现。

美团技术团队近日开源了专门用于数学形式化与定理证明的模型——LongCat-Flash-Prover。该模型旨在解决AI在数学推理中仅能“猜答案”而缺乏严谨逻辑链条的问题。通过强化形式化证明能力,LongCat-Flash-Prover要求逻辑链条极度严苛,有效避免了自然语言的模棱两可,标志着AI在复杂推理领域迈出了重要一步。

美团LongCat团队正式推出LongCat-AudioDiT模型,旨在解决零样本音色克隆的技术瓶颈。该模型创新性地抛弃了梅尔谱等传统中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(TTS)生成。通过这种方式,LongCat-AudioDiT从根源上阻断了数据转换带来的级联误差,显著提升了声音克隆的真实度与自然度,为AI语音合成领域带来了重大的技术革新。

美团技术团队近日发布 LongCat 效率引擎,旨在为 OpenClaw 自动化任务提供强力支持。针对第三方订阅存在的账号安全风险与服务不稳定问题,LongCat 团队推出了稳定合规的官方免费 API。开发者现可通过官方渠道直接接入,在确保账号安全与合规的前提下,实现自动化工作流效率提升 30% 的显著优化。

美团技术团队正式发布并开源了原生多模态模型 LongCat-Next 及其核心离散分词器。该模型将视觉和语音视为AI的“母语”,旨在打破模态间的隔阂,是美团在通往感知、理解并作用于真实物理世界AI道路上的重要里程碑。通过开源这一核心研究成果,美团旨在赋能开发者构建更具现实交互能力的AI系统。
Agent-Reach 是一款在 GitHub 上备受关注的开源工具,由开发者 Panniantong 发布。该项目旨在为 AI 智能体提供访问互联网各大主流平台的能力,支持包括 Twitter、Reddit、YouTube、GitHub、Bilibili 和小红书在内的多平台内容读取与搜索。通过简单的命令行界面(CLI),开发者可以实现零 API 费用的数据集成,极大地扩展了 AI 智能体的信息获取维度和实时感知能力。
ECC是一款由affaan-m开发的智能体性能优化系统,旨在提升Claude Code、Codex、Opencode、Cursor等主流AI平台的开发效能。该系统通过集成技能、本能、记忆、安全及研究优先的开发支持,为AI智能体提供全方位的性能增强方案,是当前GitHub上备受关注的开源项目。
NVIDIA 推出 Cosmos 开放平台,旨在为开发者提供构建物理 AI 的核心组件。该平台集成了先进的世界模型、高质量数据集及开发工具,重点支持机器人、自动驾驶汽车及智能基础设施等领域的应用。通过 Cosmos,开发者能够更高效地模拟和理解物理世界,推动具身智能技术的落地与发展。
NousResearch 在 GitHub 正式发布了名为 Hermes Agent 的开源项目。该项目以“与你一同成长的智能体”为核心理念,标志着 NousResearch 在自主智能体领域迈出了重要一步。作为知名研究机构的最新力作,Hermes Agent 强调了 AI 与用户之间的协同进化,旨在通过持续交互实现能力的动态提升,为开源社区提供了构建个性化 AI 助理的新思路。
Headroom 是一款在 GitHub 上引起关注的新型开源工具,旨在解决大语言模型(LLM)处理长上下文时的成本问题。该工具通过在工具输出、日志、文件和 RAG 分块进入模型前进行高效压缩,能够减少 60% 至 95% 的 Token 消耗。最重要的是,它声称在大幅降低成本的同时,不会牺牲模型的回答质量。目前,Headroom 已提供库、代理和 MCP 服务器等多种集成方式。
CopilotKit 是一款在 GitHub 上备受关注的开源前端框架,专门用于构建 AI 智能体(Agents)和生成式用户界面(Generative UI)。该框架目前支持 React 和 Angular 两大主流前端框架,并作为 AG-UI 协议的制定者,致力于简化 AI 功能在 Web 应用中的集成与交互过程。
开发者lfnovo在GitHub上发布了名为open-notebook的开源项目。该项目是NotebookLM的开源实现,旨在为用户提供比原版更高的灵活性和更丰富的功能。作为一款针对文档理解与知识管理的工具,open-notebook的出现为追求定制化AI应用的开发者提供了新的选择。
MiroFish 是由开发者 666ghj 推出的开源群体智能引擎,近期在 GitHub Trending 榜单中获得关注。该项目以“简洁通用”为核心设计理念,致力于构建一个能够预测各类复杂现象的群体智能系统。尽管项目信息尚在完善中,但其对群体智能通用化的探索以及“预测万物”的宏大愿景,为 AI 预测领域提供了新的技术视角和开源参考。

OpenAI正式发布了名为“锁定模式”(Lockdown Mode)的新功能,专门用于应对日益严峻的提示词注入攻击。该功能的核心目标是降低敏感数据在攻击过程中被意外泄露的风险。尽管OpenAI承认该模式并不能完全消除ChatGPT遭受此类攻击的漏洞,但这标志着在增强AI安全防御和数据保护机制方面迈出了重要一步。

2026年台北国际电脑展(Computex)标志着计算产业从传统AI PC向“智能体AI”(Agentic AI)时代的重大转型。英伟达CEO黄仁勋宣布智能体AI已正式到来,并联合微软推出了搭载Arm架构RTX Spark CPU的新一代PC。本次展会不仅重新定义了人机交互方式,还展示了物理AI(Physical AI)在行业中的强劲势头,预示着个人计算设备将演变为能够主动协助用户的智能代理。
Sem 是一款创新的代码理解工具,它在 Git 之上构建了语义理解层。不同于传统的基于“行”的差异对比,Sem 以“函数”和“实体”为核心,提供 diff、blame 和影响分析。研究表明,使用 Sem 输出的 AI 智能体在准确率上比使用原始行差异的高出 2.3 倍。该工具无需配置,支持重命名检测和结构化哈希,旨在提升开发者和 AI 对代码变更的理解深度。
本文介绍了一项名为“Thousand Token Wood Sim v2”的创新项目,该项目源于Hugging Face举办的“小模型”黑客松活动。通过五个实验室的思维碰撞,开发者成功利用多个小型语言模型构建了一个复杂的金融题材模拟系统。这一成果证明了在无需超大规模参数模型的情况下,通过多模型协同与精细化设计,依然能够实现高度复杂的逻辑交互与叙事模拟。

Meta近日正式确认,其Instagram平台的一个AI辅助账户恢复系统存在严重漏洞,导致超过2万名用户的账号被黑客非法接管。黑客通过诱导AI聊天机器人,将重置密码的验证码发送至攻击者控制的邮箱,从而绕过安全验证。此次事件主要影响了未开启双重身份验证(2FA)的用户,导致个人资料、私信及关联账号信息面临泄露风险。

随着 2026 年苹果全球开发者大会(WWDC)的临近,外界对苹果在人工智能领域的最新进展充满期待。本次大会的核心看点将集中在 Siri 的全面翻新以及 Apple Intelligence(苹果智能)功能的进一步升级。作为苹果 AI 战略的关键节点,这些更新旨在提升语音助手的智能化水平,并深化 AI 在苹果生态系统中的集成与应用。