2026年6月8日 的AI新闻

用Agent评测思路重构31万行代码:美团AI Coding管理实践深度解析
行业新闻

用Agent评测思路重构31万行代码:美团AI Coding管理实践深度解析

本文深度解析美团技术团队在AI辅助编程领域的最新实践。面对90%以上代码由AI生成的趋势,美团通过技术债梳理、Rule建设、重构SOP及Pre-PR机制,成功完成了31万行代码的重构。其核心思路是将Agent评测逻辑引入代码管理,将高成本的专项重构转化为随迭代持续进行的日常动作,有效解决了AI生成代码带来的混乱放大问题。

美团技术团队
美团 LongCat-Video-Avatar 1.5 正式开源:从高拟真迈向商业级数字人应用
开源项目

美团 LongCat-Video-Avatar 1.5 正式开源:从高拟真迈向商业级数字人应用

美团技术团队近日宣布开源 LongCat-Video-Avatar 1.5 数字人视频模型。该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率等核心维度实现了全面跃升,标志着数字人技术从实验室 SOTA 迈向真实的商业应用场景,助力实现高质量、自然稳定的内容输出。

美团技术团队
LongCat-Flash-Prover:美团开源数学定理证明模型,AI从“猜答案”迈向“严谨证明”
开源项目

LongCat-Flash-Prover:美团开源数学定理证明模型,AI从“猜答案”迈向“严谨证明”

美团技术团队正式开源了专门用于数学形式化与定理证明的模型——LongCat-Flash-Prover。该模型旨在解决AI在数学推理中逻辑严苛性的挑战,通过强化逻辑链条的严谨性,推动AI从单纯的“数值计算”转向具备深度逻辑推理能力的“定理证明”,为攻克复杂推理课题提供了新的开源解决方案。

美团技术团队
美团BI架构深度实践:以指标平台为核心,攻克数据口径与性能难题
行业新闻

美团BI架构深度实践:以指标平台为核心,攻克数据口径与性能难题

美团数据平台近期分享了其在BI领域的最新探索,重点介绍了以指标平台为核心的新一代BI架构。通过构建“自动语义”和“增强计算”两大核心能力,美团成功应对了传统BI平台在个性化数据集驱动下常见的口径不一致及查询效率低下等挑战。这一实践标志着美团在提升数据治理能力和分析效率方面迈出了重要一步,为行业提供了标准化的指标管理范式。

美团技术团队
美团发布原生多模态 LongCat-Next:让视觉与语音成为 AI 探索物理世界的“母语”
开源项目

美团发布原生多模态 LongCat-Next:让视觉与语音成为 AI 探索物理世界的“母语”

美团技术团队正式发布并开源原生多模态模型 LongCat-Next 及其核心组件离散分词器。该模型是美团在通往“物理世界 AI”道路上的重要探索,强调将视觉和语音作为 AI 的原生处理能力。通过开源模型与分词器,美团旨在赋能开发者构建能够感知、理解并作用于真实世界的智能系统,推动 AI 从数字空间走向物理环境的深度交互。

美团技术团队
美团LongCat开源General 365推理评测集:Gemini 3 Pro准确率仅62.8%树立新标尺
研究突破

美团LongCat开源General 365推理评测集:Gemini 3 Pro准确率仅62.8%树立新标尺

美团LongCat团队正式发布并开源General 365推理评测基准,旨在为大模型推理能力提供更严苛的评估标准。在对26款主流模型的实测中,目前公认最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型未能达到60%的及格线。这一数据的发布揭示了当前大语言模型在复杂推理任务上的局限性,General 365正成为衡量AI逻辑能力的新高度。

美团技术团队
LongCat 为 OpenClaw 提供官方免费 API:安全与效率的双重进化
行业新闻

LongCat 为 OpenClaw 提供官方免费 API:安全与效率的双重进化

美团技术团队推出的 LongCat 为 OpenClaw 提供了稳定合规的官方免费 API,旨在解决第三方订阅带来的账号安全风险与服务不稳定问题。通过官方渠道接入,开发者可以在确保账号安全的前提下,显著提升自动化任务的执行效率,为构建高效自动化工作流提供了可靠的技术支撑。

美团技术团队
美团发布LongCat-AudioDiT:突破零样本TTS音色克隆上限,引领语音合成新范式
技术突破

美团发布LongCat-AudioDiT:突破零样本TTS音色克隆上限,引领语音合成新范式

美团LongCat团队正式发布LongCat-AudioDiT模型,该模型通过在波形潜空间直接进行基于扩散模型的文本转语音(TTS),彻底抛弃了梅尔谱等传统中间表示。这一创新从根源上阻断了数据转换带来的级联误差,显著提升了零样本音色克隆的质量与还原度,为AI语音合成领域带来了底层架构的重大突破。

美团技术团队
LARYBench发布:定义具身动作表征“ImageNet”,美团揭示通用视觉模型泛化潜力
研究突破

LARYBench发布:定义具身动作表征“ImageNet”,美团揭示通用视觉模型泛化潜力

美团技术团队正式发布LARYBench(Latent Action Representation Yielding Benchmark),这是一个系统化的评测基准,旨在指引从大规模视觉数据中学习通用的隐式动作表征。实验结果显示,通用视觉模型在动作泛化与控制精度上显著优于专门的具身动作专家模型,标志着具身动作表征可从大规模人类视频数据中有效涌现。

美团技术团队
OpenAI 开源 Codex 插件示例库:助力开发者构建智能插件生态
开源项目

OpenAI 开源 Codex 插件示例库:助力开发者构建智能插件生态

OpenAI 在 GitHub 上公开了其插件示例代码仓库(openai/plugins),旨在为开发者提供精选的 Codex 插件参考。该仓库展示了插件的标准目录结构,并明确了每个插件必须包含特定的配置文件。这一举措为开发者扩展 AI 模型功能、实现与外部工具的交互提供了官方指南。

GitHub Trending
MemPalace:基准测试表现领先的开源免费AI记忆系统
开源项目

MemPalace:基准测试表现领先的开源免费AI记忆系统

MemPalace 是一款新近在 GitHub 引起关注的开源 AI 记忆系统。官方数据显示,该系统在多项基准测试中表现优异,位居行业前列。作为一款完全免费的工具,MemPalace 为开发者提供了构建具备高效记忆能力 AI 应用的新选择,旨在解决 AI 模型在长效信息存储与检索方面的核心挑战。

GitHub Trending
CopilotKit:引领智能体与生成式UI的前端技术栈,支持多平台集成
开源项目

CopilotKit:引领智能体与生成式UI的前端技术栈,支持多平台集成

CopilotKit 是一款专注于 AI 智能体(Agents)与生成式 UI(Generative UI)的前端技术栈,目前在 GitHub Trending 榜单备受关注。该项目不仅支持 React、Angular、移动端及 Slack 等多种平台,还是 AG-UI 协议的制定者。它旨在简化开发者构建 AI 驱动交互界面的流程,为生成式 AI 应用提供标准化的前端解决方案。

GitHub Trending
开源AI智能体技能last30days-skill发布:跨平台实时信息检索与摘要合成工具
开源项目

开源AI智能体技能last30days-skill发布:跨平台实时信息检索与摘要合成工具

开发者mvanhorn在GitHub上发布了名为“last30days-skill”的开源AI智能体技能。该工具具备强大的跨平台研究能力,能够自动在Reddit、X(Twitter)、YouTube、Hacker News、Polymarket及全网范围内检索特定话题的最新动态。通过对多源数据的深度分析,该技能可合成一份有据可依的结构化摘要,为用户提供高效的实时信息获取与决策支持方案。

GitHub Trending
三星代工业务2nm良率突破60%:预计2026年第三季度实现扭亏为盈
行业新闻

三星代工业务2nm良率突破60%:预计2026年第三季度实现扭亏为盈

三星电子的晶圆代工业务近期迎来重大技术突破。根据最新行业动态,其2纳米(2nm)制程芯片的良率在2026年第一季度已成功提升至60%以上。这一关键进展显著增强了三星代工业务的市场竞争力与增长前景。基于良率的稳步提升,市场普遍预期三星代工部门有望在2026年第三季度正式结束亏损,重回盈利轨道。

Tech in Asia
英伟达CEO确认Vera CPU将采用SK海力士内存:首款AI智能体处理器今秋发布
产品发布

英伟达CEO确认Vera CPU将采用SK海力士内存:首款AI智能体处理器今秋发布

英伟达(Nvidia)首席执行官近日宣布,其首款专门针对AI智能体(Agents)设计的Vera CPU将采用SK海力士(SK Hynix)的内存技术。该处理器预计将于2026年秋季通过合作伙伴的系统正式面世。这一合作标志着英伟达在AI硬件领域的进一步扩张,通过整合高性能内存提升AI智能体的处理效率,预示着AI硬件市场进入了针对特定应用场景定制化的新阶段。

Tech in Asia
OpenAI 计划重塑 ChatGPT 应用设计:深度集成 Canva 与 Booking.com 等合作伙伴
产品发布

OpenAI 计划重塑 ChatGPT 应用设计:深度集成 Canva 与 Booking.com 等合作伙伴

OpenAI 正在筹划对其 ChatGPT 应用程序进行大规模重新设计。此次更新的核心在于将第三方合作伙伴应用(如设计平台 Canva 和旅游预订平台 Booking.com)直接集成到 ChatGPT 的新设计中。这一举措标志着 ChatGPT 正在从单一的 AI 对话工具向更具集成性的平台化生态系统演进,旨在为用户提供更无缝的跨应用交互体验。

Tech in Asia
NVIDIA与斗山集团深化合作,共同推进物理AI与AI工厂基础设施建设
行业新闻

NVIDIA与斗山集团深化合作,共同推进物理AI与AI工厂基础设施建设

NVIDIA(英伟达)宣布与斗山集团(Doosan Group)扩大合作,旨在物理AI、机器人技术及AI工厂基础设施领域挖掘新机遇。此次合作涵盖斗山机器人、斗山山猫、斗山能源及斗山电子材料等多个业务板块。双方将结合英伟达的全栈加速计算平台与斗山在工业自动化、能源生产及先进电子材料方面的深厚实力,共同推动工业领域的智能化转型。

NVIDIA Newsroom
SK电讯携手英伟达打造吉瓦级AI云,首座AI工厂将于2027年上线
行业新闻

SK电讯携手英伟达打造吉瓦级AI云,首座AI工厂将于2027年上线

SK电讯(SK Telecom)宣布将与英伟达(NVIDIA)合作,在韩国构建吉瓦(Gigawatt)规模的AI云基础设施。该项目将采用英伟达DSX™平台,旨在通过超大规模算力支持韩国的AI创新。根据规划,双方合作的首座“AI工厂”预计将于2027年正式投入运营,标志着韩国AI基础设施建设进入新阶段。

NVIDIA Newsroom
NAVER携手英伟达扩展主权AI基础设施,计划迈向吉瓦级规模
行业新闻

NAVER携手英伟达扩展主权AI基础设施,计划迈向吉瓦级规模

NAVER宣布与英伟达(NVIDIA)达成合作,旨在扩展其主权AI基础设施。该项目将利用NVIDIA DSX™平台,从初始的55兆瓦规模起步,最终计划扩展至吉瓦级。此举旨在为企业、行业及政府构建全栈、端到端的AI平台,以应对全球范围内日益增长的AI计算需求,标志着主权AI领域的重要扩张。

NVIDIA Newsroom
“Tokenpocalypse”降临?大型AI公司拟上市或引发服务涨价潮
行业新闻

“Tokenpocalypse”降临?大型AI公司拟上市或引发服务涨价潮

随着大型人工智能公司纷纷将上市(IPO)提上日程,AI行业正面临被称为“Tokenpocalypse”的价格动荡期。根据最新行业观察,为了满足上市后的盈利预期和财务透明度要求,主流AI服务商预计将上调Token调用价格。这一转变标志着AI行业正从早期的烧钱扩张阶段转向追求利润的商业化成熟阶段。

TechCrunch AI
深度解析:若大语言模型具备拟人属性,那么《帝国时代2》亦然
研究突破

深度解析:若大语言模型具备拟人属性,那么《帝国时代2》亦然

本文深入探讨了Adrian de Wynter发表的最新研究,该研究挑战了将大语言模型(LLM)拟人化的普遍倾向。通过在经典游戏《帝国时代2》中训练神经网络,作者证明了所谓的“理解”或“道德”等人类属性并非LLM独有,而是可能存在于任何足够强大的基质中。研究指出,若缺乏明确的测量标准,对AI行为的解释将陷入主观臆断,并为此提出了“LLM非唯一性”的零假设,旨在为AI实验设计提供更严谨的科学框架。

Hacker News
行业新闻

自动化怀疑:如何通过多智能体协作重构AI辅助开发的信任体系

本文探讨了在AI辅助开发中,由于过度依赖大模型而导致的信任缺失问题。作者提出了一种“自动化怀疑”流程,通过引入专门的子智能体(如架构师、文档验证器和假设挖掘器),从多个视角对AI生成的代码和设计文档进行反复审查。这种方法通过前置审查和多维度覆盖,有效识别潜在缺陷和隐藏假设,从而在利用AI效率的同时,确保工程实践的严谨性。

Hacker News
OpenAI 秘密研发“超级应用”:高管称“聊天已死”,AI 交互迎来新变革
行业新闻

OpenAI 秘密研发“超级应用”:高管称“聊天已死”,AI 交互迎来新变革

据 TechCrunch 报道,OpenAI 正在积极开发一款“超级应用”(Super App)。OpenAI 的一名高级员工甚至直言“聊天已死”,暗示该公司正试图超越现有的对话式 AI 交互模式。尽管目前关于该应用的具体细节尚不明确,但这一表态预示着 OpenAI 正在探索全新的 AI 产品形态,旨在重新定义用户与人工智能的互动方式。

TechCrunch AI