2026年7月4日 的AI新闻

ICML 2026 | 美团技术团队学术论文精选:深耕机器学习理论与实践
行业新闻

ICML 2026 | 美团技术团队学术论文精选:深耕机器学习理论与实践

美团技术团队在国际顶级学术会议ICML 2026中展示了其最新的研究成果。作为机器学习领域的风向标,ICML致力于解决行业核心挑战。美团此次论文入选,不仅体现了其在机器学习理论研究上的深度,更展示了其将前沿技术转化为实际影响力的能力,为推动全球AI技术进步贡献了中国互联网企业的科研力量。

美团技术团队
美团技术团队分享搜索推荐ASX专场顶会论文:聚焦大模型Agent技术体系
行业新闻

美团技术团队分享搜索推荐ASX专场顶会论文:聚焦大模型Agent技术体系

美团业务研发平台/搜推 ASX (Agentic System X) 团队近期公开了其在 AI 国际顶会发表的高质量研究成果。该团队专注于构建以大模型为基础的 Agent 技术体系,在后训练、强化学习及多模态理解等前沿方向取得突破。本文精选了 6 篇发表于 ICLR、NeurIPS 等顶会的论文进行解读,展示了美团在搜索推荐领域的最新技术进展与学术贡献。

美团技术团队
美团履约团队ACL 2026精选论文分享:大模型Agent技术赋能业务实践
行业新闻

美团履约团队ACL 2026精选论文分享:大模型Agent技术赋能业务实践

美团业务研发平台履约AI算法团队近期分享了其在ACL 2026国际顶会上的精选论文及前沿技术实践。该团队聚焦于构建以大模型为基础的Agent技术体系,通过在CPT、Post-training、Agentic RL及多模态理解等核心领域的深耕,致力于打造自进化的运营系统,旨在利用AI技术深度赋能美团履约业务,提升运营效率与智能化水平。

美团技术团队
ACL 2026美团论文精选:聚焦大模型评测与推理优化,构建生成式AI新范式
行业新闻

ACL 2026美团论文精选:聚焦大模型评测与推理优化,构建生成式AI新范式

美团技术团队在ACL 2026国际顶级学术会议中表现出色,共有6篇论文被收录。这些研究成果深入探讨了大模型能力评测、复杂流程推理、竞赛级数学思维优化、强化学习优化以及生成式推荐等前沿领域。本文将对这些技术方向进行深度解析,展示美团在自然语言处理(NLP)领域的最新探索与技术积淀。

美团技术团队
美团开源 LongCat-Video-Avatar 1.5:数字人视频从高拟真迈向商业级应用
开源项目

美团开源 LongCat-Video-Avatar 1.5:数字人视频从高拟真迈向商业级应用

美团技术团队正式开源 LongCat-Video-Avatar 1.5,标志着数字人视频模型从开源 SOTA 迈向商业级应用。该版本在唇形同步、物理合理性、长视频稳定性、多人互动及高效推理五大维度实现了全面跃升,旨在解决复杂商业场景下的高质量内容输出难题,让数字人视频生成从实验室演练走向真实的商业舞台。

美团技术团队
美团LongCat开源General 365推理评测集:主流模型推理能力普遍告急
开源项目

美团LongCat开源General 365推理评测集:主流模型推理能力普遍告急

美团LongCat团队正式发布并开源了General 365推理评测集,旨在为大模型推理能力树立新标尺。在对全球26款主流大模型的实测中,即便是表现最出色的Gemini 3 Pro,其准确率也仅为62.8%,而绝大多数模型甚至未能达到60%的及格水平。这一结果揭示了当前AI模型在复杂推理任务上的真实瓶颈,为行业提供了客观的评估工具。

美团技术团队
LongCat 开源 VitaBench 2.0:首个真实生活场景长期动态智能体评测基准发布
开源项目

LongCat 开源 VitaBench 2.0:首个真实生活场景长期动态智能体评测基准发布

美团技术团队旗下的LongCat正式开源VitaBench 2.0。作为行业内首个面向真实生活场景的长期动态用户建模智能体评测基准,VitaBench 2.0旨在系统性地评估大语言模型在长期、真实且动态的互动过程中,所展现出的个性化服务能力与主动性,为智能体技术的发展树立了新的评测标杆。

美团技术团队
美团开源AIGC海报生成技术体系:构建“生成-编辑-评判”全链路闭环
开源项目

美团开源AIGC海报生成技术体系:构建“生成-编辑-评判”全链路闭环

美团智能创作团队近日披露了其在海报生成AIGC领域的最新技术创新与实践成果。通过构建“生成-编辑-评判”的完整技术闭环,美团成功解决了AI创作中的可控性与质量评估难题。目前,该技术已在美团外卖、品牌IP等核心业务场景落地应用,并已向开发者社区全部开源,为行业提供了成熟的智能设计解决方案。

美团技术团队
Chrome 推出面向 AI 智能体的开发者工具:chrome-devtools-mcp 助力编程自动化
开源项目

Chrome 推出面向 AI 智能体的开发者工具:chrome-devtools-mcp 助力编程自动化

ChromeDevTools 团队正式发布了 chrome-devtools-mcp 项目,这是一款专为编程智能体(Agents)设计的 Chrome 开发者工具集成方案。该项目基于模型上下文协议(MCP),旨在打破 AI 与浏览器调试环境之间的壁垒,让 AI 智能体能够直接调用 Chrome 的调试能力,从而在网页开发、自动化测试及故障排查中实现更高效的自主操作。

GitHub Trending
video-use:GitHub 热门开源项目实现编程智能体自动化视频编辑
开源项目

video-use:GitHub 热门开源项目实现编程智能体自动化视频编辑

GitHub 热门项目 video-use 由 browser-use 团队开发,旨在通过编程智能体(Programmatic Agents)实现视频编辑的自动化。该项目将 AI 代理能力引入视频处理领域,允许开发者通过编程方式驱动智能体完成视频剪辑与编辑任务,标志着 AI Agent 在多媒体生产领域的进一步应用。

GitHub Trending
Caveman:通过“原始人对话”模式将 Claude Code 的 Token 消耗降低 65%
开源项目

Caveman:通过“原始人对话”模式将 Claude Code 的 Token 消耗降低 65%

GitHub 热门项目 Caveman 由开发者 JuliusBrussee 推出,核心理念是倡导在与 AI 交互时采用极简的“原始人”说话方式。该项目针对 Claude Code 进行了专门优化,通过剔除冗余的语法和修饰词,声称能有效减少高达 65% 的 Token 消耗。这一突破性的提示词优化策略,为开发者在处理大规模代码任务时提供了一种低成本、高效率的新思路。

GitHub Trending
Strix:开源AI渗透测试工具助力自动化漏洞发现与修复
开源项目

Strix:开源AI渗透测试工具助力自动化漏洞发现与修复

Strix 是一款在 GitHub 上备受关注的开源 AI 渗透测试工具。该工具旨在利用人工智能技术,帮助开发者和安全专家自动发现并修复应用程序中的安全漏洞。作为一款开源项目,Strix 降低了安全测试的门槛,通过 AI 驱动的分析能力,提升了漏洞检测的效率与修复的精准度。

GitHub Trending
GitHub 热门项目 Agency-Agents:打造具备专业交付能力的 AI 专家机构
开源项目

GitHub 热门项目 Agency-Agents:打造具备专业交付能力的 AI 专家机构

Agency-Agents 是一个在 GitHub 上备受关注的开源项目,旨在提供一个触手可及的完整 AI 机构框架。该项目集成了多种具有特定个性、独立流程和成熟交付能力的专业 AI 智能体,涵盖了从前端开发、社交媒体运营到创意策划与现实评估等多个领域,为用户提供全方位的 AI 协作专家支持。

GitHub Trending
GitHub热门:exercises-dataset 开源,涵盖433项健身训练的综合数据集
开源项目

GitHub热门:exercises-dataset 开源,涵盖433项健身训练的综合数据集

开发者 hasaneyldrm 在 GitHub 上发布了一个名为 exercises-dataset 的综合健身训练数据集。该数据集包含 433 项详细的健身动作,每个条目均涵盖了名称、类别、目标肌肉群、所需器械、操作指令以及视觉辅助资料(缩略图和动画视频)。该资源的开源为健身应用开发、AI 动作识别研究及运动科学领域提供了高质量、结构化的基础数据支持。

GitHub Trending
Superpowers:为编程智能体量身定制的模块化技能框架与开发方法论深度解析
开源项目

Superpowers:为编程智能体量身定制的模块化技能框架与开发方法论深度解析

Superpowers 是由开发者 obra 在 GitHub 上推出的开源项目,旨在为编程智能体(Programming Agents)提供一套完整的软件开发方法论。该项目通过一组可组合的技能和初始指令,帮助智能体更高效地执行复杂的开发任务。它不仅是一个技术框架,更是一种将 AI 驱动的软件工程流程标准化的新尝试,为开发者构建更具逻辑性和执行力的智能体提供了坚实基础。

GitHub Trending
Steam Controller 自动充电方案:利用计算机视觉与触觉反馈实现自动对接
开源项目

Steam Controller 自动充电方案:利用计算机视觉与触觉反馈实现自动对接

Steam Controller Auto-Charge 是一个创新的开源 Web 项目,旨在通过计算机视觉(CV)和 WebHID 技术,引导 Steam 控制器自动移动到磁性充电座。该项目利用 OpenCV.js 进行光流追踪,并通过发送特定的触觉脉冲驱动控制器位移,实现了硬件自动化的新玩法。用户只需顶置摄像头并运行该 Web 应用,即可让控制器在桌面“自主航行”至充电位。

Hacker News
Mistral AI 发布 Leanstral 1.5:开源形式化验证模型性能飞跃,解决 587 道 Putnam 难题
行业新闻

Mistral AI 发布 Leanstral 1.5:开源形式化验证模型性能飞跃,解决 587 道 Putnam 难题

Mistral AI 宣布推出 Leanstral 1.5,这是一款采用 Apache-2.0 协议的开源模型,拥有 119B 总参数及 6B 活跃参数。该模型在形式化验证领域取得了重大突破,不仅在 miniF2F 基准测试中达到饱和,更在 PutnamBench 中成功解决 587/672 道难题。通过结合中段训练、监督微调及 CISPO 强化学习,Leanstral 1.5 展现了强大的智能体证明工程能力,并在实际代码验证中发现了 5 个此前未知的漏洞。目前,该模型已通过 Hugging Face 和免费 API 开放使用。

Hacker News