
LARYBench发布:美团定义具身动作表征“ImageNet”,揭示人类视频学习新路径
美团技术团队正式发布LARYBench(Latent Action Representation Yielding Benchmark),这是一个旨在指引从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。实验结果显示,通用视觉模型在动作泛化和控制精度上显著优于专门的具身智能动作专家模型。这一发现表明,具身动作表征可以从大规模人类视频数据中有效涌现,为具身智能的发展提供了新的评估标准和技术方向。

美团技术团队正式发布LARYBench(Latent Action Representation Yielding Benchmark),这是一个旨在指引从大规模视觉数据中学习通用隐式动作表征的系统化评测基准。实验结果显示,通用视觉模型在动作泛化和控制精度上显著优于专门的具身智能动作专家模型。这一发现表明,具身动作表征可以从大规模人类视频数据中有效涌现,为具身智能的发展提供了新的评估标准和技术方向。

美团技术团队近日发布并开源了专门用于数学形式化与定理证明的模型——LongCat-Flash-Prover。该模型旨在解决AI在处理复杂推理任务时逻辑链条不够严密的问题。与传统只需得出最终数值的数学解题不同,LongCat-Flash-Prover强调逻辑的严苛性,避免自然语言的歧义,标志着AI在数学证明领域从“结果导向”向“过程严谨”的重要跨越。

美团LongCat团队近日正式发布并开源了WBench,这是业界首个专门针对交互式视频世界模型的系统性多轮评测基准。WBench被形象地比喻为评估世界模型的“CT扫描仪”,旨在精准识别和定位模型在从传统的“被动观看”模式向“主动交互”模式演进过程中的技术瓶颈。该基准的开源为AI理解与模拟物理世界提供了关键的度量工具,标志着世界模型评估进入了动态、多轮交互的新阶段。

美团LongCat团队正式发布LongCat-AudioDiT模型,该模型通过在波形潜空间直接进行基于扩散模型的文本转语音(TTS),彻底抛弃了梅尔谱等传统中间表示。这一创新旨在从根源上阻断数据转换带来的级联误差,实现了零样本音色克隆技术的重大突破,为AI学习声音本质规律提供了新路径。

美团技术团队在ACL 2026国际顶级学术会议中共有6篇论文被收录。这些研究成果涵盖了大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化及生成式推荐等多个前沿领域,展示了美团在自然语言处理(NLP)及大模型技术方向的深度探索与创新实践,旨在构建生成式AI的新范式。

美团技术团队正式开源 LongCat-Video-Avatar 1.5 数字人视频模型。该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率上实现全面突破,标志着数字人技术从实验室 SOTA 阶段正式迈向稳定、自然的商业级实战应用,能够应对复杂场景下的高质量内容输出需求。

美团LongCat团队正式发布全新推理评测基准General 365。在对全球26款主流大模型的实测中,目前性能顶尖的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分均未达到60分的及格线。这一结果揭示了当前大模型在复杂推理任务上的真实水平,General 365也由此成为衡量AI推理能力的新高度与新标准。

美团技术团队正式发布并开源原生多模态模型 LongCat-Next 及其核心组件离散分词器。该项目是美团在探索物理世界 AI 道路上的重要尝试,旨在通过开源技术方案,赋能开发者构建能够感知、理解并直接作用于真实世界的智能系统,标志着视觉与语音向 AI “母语化”迈出的关键一步。

美团智能创作团队近日发布了其在海报生成AIGC领域的最新技术成果。该团队成功构建了涵盖“生成-编辑-评判”的完整技术闭环,旨在解决营销海报创作中的效率与质量平衡问题。目前,该技术体系已在美团外卖、品牌IP等核心业务场景中实现落地应用,并已正式向社区全部开源,为行业提供了成熟的AIGC实践范本。
HeyGen在GitHub上推出了名为Hyperframes的新项目。该项目核心理念是“编写HTML,渲染视频”,旨在为AI智能体(Agents)提供一种高效、结构化的视频生成方案。通过将视频制作过程代码化,Hyperframes为自动化内容创作和AI驱动的视觉交互提供了新的技术路径,标志着视频生成技术向开发者友好型和AI原生方向的重要演进。
OpenMontage 是一款由开发者 calesthio 推出的全球首个开源智能体视频制作系统。该系统通过 12 条流水线、52 个工具以及 500 多项智能体技能,旨在将 AI 编程助手转化为一个功能完备的视频制作工作室。这一开源项目的出现,为开发者提供了将 AI 能力直接应用于复杂视频生产流程的新途径。
Palmier Pro 是一款专为 AI 打造的 macOS 视频编辑器,目前已在 GitHub 上公开。该项目由 palmier-io 开发,核心定位是利用 AI 技术优化视频编辑流程。作为一款针对 macOS 平台优化的工具,它旨在为创作者提供更智能的视频处理体验,标志着视频编辑工具向 AI 原生化迈进。
开发者mukul975在GitHub上发布了Anthropic-Cybersecurity-Skills项目,为AI智能体提供了817项结构化的网络安全技能。该项目严格映射至MITRE ATT&CK、NIST CSF 2.0等六大权威安全框架,并遵循agentskills.io标准。目前已支持包括Claude Code、GitHub Copilot、Gemini CLI在内的20多个主流平台,旨在标准化AI在网络安全领域的实战能力。
Penpot 是一款在 GitHub 上备受关注的开源设计工具,其核心定位在于打破设计与代码之间的壁垒。通过开源模式,Penpot 为团队协作提供了新的可能性,旨在提升设计师与开发者之间的沟通效率。本文将基于其在 GitHub Trending 的表现,深度分析其开源属性与协作价值。
Voicebox是由开发者jamiepine在GitHub上推出的开源AI语音工作室项目。该项目集成了声音克隆、语音口述和内容创作等核心功能,旨在为用户提供一个灵活且强大的语音处理平台。作为近期GitHub Trending的热门项目,Voicebox展示了开源社区在AI语音合成与克隆技术领域的最新进展,为创作者提供了全新的工具选择。

Grammarly旗下的Superhuman宣布收购知名AI检测平台GPTZero。GPTZero最初起源于一个大学毕业论文项目,凭借对AI生成内容的精准识别,目前已积累了超过1900万名注册用户。此次收购标志着AI写作辅助与AI检测技术的深度整合。

韩国知名投资机构Smilegate Investment宣布其新设立的人工智能(AI)专项基金已完成首轮4000万美元的募资。该公司成立于1999年,目前管理资产规模约9000亿韩元(约5.85亿美元)。此次募资标志着这家拥有超过25年历史的老牌风投机构正通过设立专项基金,将其投资重心进一步向AI领域倾斜。

印度营销科技公司MoEngage近日完成了一项全现金收购交易,旨在获取能为每位客户分配专属AI代理的关键技术。MoEngage认为营销的未来在于数百万个AI代理的协同工作,通过这种高度个性化的方式,企业能够与每一位消费者建立更深层次的连接,实现从群体营销向个体代理模式的跨越式转变。

Nex Playground 是一款主打家庭互动的运动感应游戏机,其体验类似于微软的 Kinect。在本次 Prime Day 促销活动中,该设备在亚马逊的售价降至 239 美元,回到了内存价格上涨前的水平。尽管其动作捕捉技术并非完美,但凭借其让孩子们爱不释手的趣味性,已成功赢得了众多家长的青睐。

谷歌(Google)宣布自 2026 年 6 月 23 日起,为其 Google Home 智能家居系统推出一项关键更新。该更新扩展了现有的“熟悉面孔”(Familiar Faces)识别功能,使智能摄像头在用户背对镜头时也能进行准确识别。此举旨在减少系统误判,提升智能家居的安全性与用户体验,确保家庭成员在各种姿态下都能被系统正确辨认。

由知名导演卢卡·瓜达尼诺执导、以OpenAI首席执行官萨姆·奥特曼为原型的传记电影《Artificial》在发行市场受阻。据报道,Netflix、A24及华纳兄弟等多家主流制片厂已拒绝该片的发行协议。目前仅有Neon和Mubi等独立发行商仍表现出兴趣。这一现象折射出娱乐行业在面对AI领袖题材时的高度谨慎与复杂心态。
2026年6月23日,德国铁路系统遭遇严重技术故障,由于通信系统出现问题,全境范围内的列车运行被迫中断。此次事件导致德国交通网络大面积瘫痪,严重影响了全国范围内的旅客出行与物流运输。目前官方正针对通信系统的具体故障原因展开调查,该事件再次引发了公众对关键基础设施数字化安全与稳定性的高度关注。

在2026年亚马逊Prime Day促销期间,石头科技(Roborock)旗下的高端扫拖一体机器人Saros 20迎来重大价格调整。该产品目前在亚马逊及石头科技官网售价降至1,359.99美元,较原价直降240美元,创下该型号发布以来的历史新低。作为备受媒体好评的智能家居设备,其出色的自动化性能为用户提供了极简的清洁体验。
FUTO宣布正式发布包含100万条QWERTY英语滑动输入轨迹的大型数据集。该项目始于2024年8月的众包采集,通过移动端网页收集了大量基于维基百科内容的滑动输入数据。经过严格的质量过滤,该数据集已于2025年3月以MIT协议在HuggingFace平台开源。此举旨在为滑动输入模型的训练与性能评估提供高质量的数据支持,推动移动端交互技术的开源生态发展。

本文深入探讨了数据科学领域的基石——数学技能。文章系统性地拆解了数据科学家必须掌握的核心数学学科,详细阐述了这些数学理论在实际数据处理与建模中的关键作用,并为初学者规划了一条从零开始的高效学习路径,强调在正式进入编程阶段前夯实数学基础的重要性。

Anthropic推出了名为Claude Tag的新功能,将AI助手直接引入Slack平台。该功能不仅旨在提高生产力,更是一项战略举措,旨在捕捉企业的组织背景、制度性知识和工作流程。作为一名“全天候在线”的AI队友,Claude Tag能够通过Slack消息不断学习并融入企业环境,帮助企业沉淀核心资产。