
美团发布原生多模态模型LongCat-Next:视觉与语音成为AI母语并全面开源
美团技术团队正式发布并开源原生多模态模型LongCat-Next及其核心组件离散分词器。该模型是美团在探索物理世界AI路径上的重要成果,通过将视觉和语音能力原生化,使AI能够更深入地感知、理解并作用于真实世界。此次开源旨在赋能全球开发者,共同构建具备物理交互能力的下一代智能系统。

美团技术团队正式发布并开源原生多模态模型LongCat-Next及其核心组件离散分词器。该模型是美团在探索物理世界AI路径上的重要成果,通过将视觉和语音能力原生化,使AI能够更深入地感知、理解并作用于真实世界。此次开源旨在赋能全球开发者,共同构建具备物理交互能力的下一代智能系统。

美团LongCat团队正式发布LongCat-AudioDiT模型,旨在突破零样本TTS音色克隆的技术瓶颈。该模型创新性地抛弃了传统的梅尔谱等中间表示,直接在波形潜空间内利用扩散模型进行文本转语音。通过这种方式,LongCat-AudioDiT从根源上阻断了数据转换过程中产生的级联误差,显著提升了声音克隆的艺术表现力与真实度。

美团技术团队宣布正式开源 LongCat-Video-Avatar 1.5 数字人视频模型。该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率等方面实现了全面跃升,标志着数字人技术从实验室的“高拟真”展示正式走向复杂商业场景的“真可用”阶段,为行业提供了高质量、高效率的开源解决方案。

美团LongCat团队正式发布General 365推理评测基准,旨在为大模型推理能力树立新标尺。在对26款主流模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数受测模型未能达到60分的及格线。这一结果揭示了当前AI模型在复杂推理任务中面临的严峻挑战。

美团技术团队正式发布LARYBench(Latent Action Representation Yielding Benchmark),这是首个旨在从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。研究表明,通用视觉模型在动作泛化与控制精度上显著优于专门的具身动作专家模型,证实了具身动作表征可从大规模人类视频数据中涌现,为具身智能研究提供了重要度量工具。

本文介绍了美团技术团队在AI生成代码占比超过90%的背景下,如何通过Agent评测思路管理AI Coding。针对AI可能放大系统混乱的风险,团队通过技术债梳理、Rule建设、重构SOP及Pre-PR机制,成功实现了31万行代码的重构实践,将高成本专项重构转化为随迭代持续进行的日常动作,为AI时代的软件工程管理提供了新范式。

美团技术团队发布 LongCat 最新进展,通过为 OpenClaw 提供稳定合规的官方免费 API,解决了第三方订阅带来的账号安全与服务不稳定难题。该方案支持开发者通过官方渠道直接接入,在保障安全的前提下,通过效率引擎将自动化任务的处理速度提升约 30%。
Headroom 是一款新兴的开源工具,专注于在数据进入大语言模型(LLM)之前进行高效压缩。它能够处理工具输出、日志、文件和 RAG 分块,在保证回答质量的前提下,将 Token 消耗降低 60% 至 95%。该工具提供库、代理和 MCP 服务器等多种形式,为开发者提供了灵活的集成方案,旨在解决 AI 应用中高昂的 Token 成本和上下文限制问题。
ECC是由开发者affaan-m推出的智能体框架性能优化系统,旨在为Claude Code、Codex、Opencode、Cursor等主流AI开发工具提供核心能力增强。该系统专注于技能、本能、记忆、安全及研究优先的开发模式,通过优化底层框架,显著提升AI智能体在代码编写与复杂任务处理中的表现,是当前GitHub上备受关注的开源性能优化方案。
知名开源 AI 研究团队 NousResearch 在 GitHub 上正式发布了名为 Hermes Agent 的新项目。该项目以“与你一同成长的智能体”为核心理念,标志着 Hermes 系列从单一模型向复杂智能体架构的重大演进。虽然目前公开细节有限,但其强调的动态演进与个性化成长特质,引发了开源社区对下一代 AI 助手形态的广泛关注。
微软在 GitHub 上正式开源了 MarkItDown 工具,这是一款基于 Python 的实用程序,旨在将各种文件(特别是 Office 文档)高效转换为 Markdown 格式。该工具的发布为开发者提供了一种便捷的方式,将传统的非结构化办公文档整合进现代的 Markdown 生态系统中,极大地简化了文档处理与数据迁移的流程。
Hermes WebUI 是由开发者 nesquena 推出的最新开源项目,旨在为复杂的 Hermes Agent 提供最佳的交互界面。该工具支持在网页和手机端运行,解决了服务器端自主智能体在移动化和易用性方面的挑战。通过 Hermes WebUI,用户可以更便捷地管理和调用运行在服务器上的 Hermes Agent,极大地提升了自主智能体的可访问性。
OpenDataLoader PDF 是一款专为 AI 数据准备设计的开源 PDF 解析器,由 opendataloader-project 开发。该项目致力于通过自动化手段实现 PDF 文件的无障碍化处理,解决 AI 模型训练中高质量数据获取的难题。作为一款开源工具,它为开发者提供了高效解析复杂 PDF 文档的方案,是构建 AI 数据流水线的重要补充。

本研究系统探讨了Transformer架构中查询(Q)、键(K)和值(V)投影的必要性。通过对Q-K=V(共享键值)、Q=K-V(共享查询键)和Q=K=V(单一投影)三种变体的实验,研究发现共享K-V投影在保持性能的同时,能显著降低50%的KV缓存。结合GQA或MQA技术,KV缓存最高可减少96.9%,为端侧设备的高效推理提供了新的可能。

人工智能巨头Anthropic在准备IPO之际展现了惊人的财务增长。根据最新披露,该公司2026年5月的年化收入已突破470亿美元,较2025年底的90亿美元实现了爆发式增长。尽管市场对AI投资的实际回报存在普遍疑虑,联合创始人Daniela Amodei对此持乐观态度。本文将分析Anthropic的增长轨迹及其在公开市场面临的挑战。

Airbnb首席执行官Brian Chesky宣布计划启动一个新的AI实验室。这一决策呼应了他去年关于大语言模型(LLM)合作的立场:即当时市场上的现有产品尚未达到Airbnb的业务要求。通过建立专属实验室,Airbnb旨在克服现有技术的局限性,探索更符合其平台生态与用户体验需求的AI解决方案,标志着该公司在AI战略上从审慎观望转向深度自主研发。

TechCrunch宣布将于2026年6月18日在洛杉矶The Aerospace Corporation Campus举办StrictlyVC活动。本次活动将汇聚投资者、创始人和技术领袖,共同探讨风险投资、国防技术、人工智能及先进工业领域的重大变革。活动旨在通过深度对话,剖析当前科技与资本市场的关键趋势。

本文深入探讨了 Latent Space 对 Andon Labs 创始人 Lukas Petersson 和 Axel Backlund 的采访内容。访谈重点围绕他们开发的 VendingBench 评估框架,详细介绍了如何针对从 Claude Haiku 到 Mythos 的全系列模型构建领先且持久的前沿评估体系。文章分析了从零开始构建评估标准的必要性,以及“现实场景”作为衡量 AI 模型能力最终标准的重要性。
Anthropic推出了名为“Defending Code Reference Harness”的开源框架,这是一个利用Claude模型进行自主漏洞发现与修复的参考实现。该框架基于Anthropic与多家安全团队合作的实战经验,涵盖了从侦察、发现、分类到报告和修复的完整闭环。虽然该开源库主要针对C/C++内存漏洞,但其逻辑具有高度可定制性。此外,Anthropic还提供了名为“Claude Security”的托管式商业产品,用于更复杂的企业级漏洞管理。

谷歌研究(Google Research)近日发布了关于健康与生物科学领域的最新进展,重点探讨了利用智能手机摄像头实现被动心脏健康监测的技术路径。该研究旨在通过移动设备普及化的硬件设施,探索非侵入式、自动化的心脏健康数据获取方式,为未来个人健康管理提供更便捷的数字化方案。
据TechCrunch报道,Meta公司正在采取一种非传统的策略来降低其庞大的数据中心成本:使用帐篷式结构。这一做法借鉴了特斯拉此前的生产策略。Meta希望通过这种灵活且低成本的建筑方式,缓解其在AI基础设施建设方面的巨大财务压力,从而优化整体运营预算。

苹果公司已正式批准初创公司Poke成为其Messages for Business平台上的首个AI智能体。Poke致力于让用户通过简单的短信交互即可使用AI能力。这一进展标志着苹果在商业通信生态中对第三方AI技术的进一步开放,为用户提供了更便捷的AI交互入口。
NVIDIA在Hugging Face平台上推出了Nemotron 3.5内容安全模型(Nemotron 3.5 Content Safety)。该模型专为全球企业级AI应用设计,具备多模态安全防护能力与高度的可定制性,旨在帮助企业在部署AI应用时确保内容的安全性与合规性。

《鲨鱼坦克》投资人凯文·奥利里(Kevin O’Leary)在面临当地居民和活动人士的强烈抗议后,正式同意将其在犹他州规划的4万英亩巨型数据中心项目规模缩减一半。奥利里已致信犹他州参议院议长,确认将从原计划中移除约1.94万英亩土地。这一决定标志着大型AI基础设施建设在地方扩张中面临的社会阻力与博弈。

亚马逊近日公布了其游戏业务的最新规划,旨在通过整合米高梅(MGM)影业的《詹姆斯·邦德》等顶级IP,并引入AI版Snoop Dogg等创新元素,强化其在游戏市场的竞争力。尽管亚马逊已拥有Twitch、Luna云服务及深厚的MMO投资背景,但此次战略调整标志着其正深度挖掘Prime Video与影视库的协同效应,试图在云游戏领域实现突破。

Meta正式在Facebook平台推出全新的AI创作者助手,旨在简化创作者的数据分析流程。该工具允许创作者通过对话方式快速获取账号表现信息,例如查询最佳发布时间及总结评论区反馈,从而无需再费力解析复杂的仪表盘和数据图表。这一举措标志着Meta在利用AI提升创作者体验方面迈出了重要一步。

随着 2026 年苹果全球开发者大会(WWDC)的临近,市场对苹果在人工智能领域的最新进展充满期待。本次大会的核心看点集中在 Siri 的全面革新以及 Apple Intelligence 的深度更新。作为苹果 AI 战略的关键组成部分,Siri 的改版旨在提升用户交互体验,而 Apple Intelligence 的持续进化则预示着苹果生态系统将迎来更深层次的智能化转型。