
美团LongCat开源General 365推理评测集:Gemini 3 Pro仅获62.8分,树立行业新标尺
美团LongCat团队正式发布General 365推理评测集。在对26款主流模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分均低于60分及格线。该评测集的发布旨在为大模型推理能力提供更严苛的衡量标准,揭示了当前AI模型在复杂推理任务中的局限性。

美团LongCat团队正式发布General 365推理评测集。在对26款主流模型的实测中,目前表现最强的Gemini 3 Pro准确率仅为62.8%,而绝大多数模型得分均低于60分及格线。该评测集的发布旨在为大模型推理能力提供更严苛的衡量标准,揭示了当前AI模型在复杂推理任务中的局限性。

美团LongCat团队正式发布并开源了WBench,这是全球首个针对交互式视频世界模型的系统性多轮评测基准。WBench被形象地比作“CT扫描仪”,旨在精准识别和分析世界模型在从传统的“被动观看”模式向“主动交互”模式转型过程中遇到的技术瓶颈。该基准的推出,为衡量AI理解与模拟现实世界交互的能力提供了关键的度量工具,标志着世界模型研究进入了深度诊断与优化阶段。

美团技术团队在ACL 2026国际顶级学术会议中共有6篇论文被收录。这些研究成果涵盖了大模型能力评测、复杂流程推理、竞赛级数学思维优化、强化学习优化以及生成式推荐等多个前沿领域。本文将深入探讨美团如何通过这些技术创新,在自然语言处理(NLP)领域构建生成式AI的新范式,展示其在AI底层技术与应用层面的深厚积累。

美团技术团队正式发布并开源原生多模态模型LongCat-Next及其核心组件离散分词器。该模型旨在探索通往物理世界AI的路径,通过将视觉和语音能力原生化,使AI能够更自然地感知、理解并作用于真实世界。此次开源旨在赋能开发者,共同构建能够与物理环境深度交互的智能系统,标志着美团在具身智能领域迈出重要一步。

美团技术团队正式开源LongCat-Video-Avatar 1.5数字人视频模型。该版本实现了从开源SOTA向商业级应用的跨越,在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率等方面均有显著提升。模型旨在解决复杂商业场景下的稳定性与自然度问题,推动数字人视频生成技术从实验室走向真实的商业舞台。

本文深入探讨了美团技术团队在AI生成代码占比超90%的背景下,如何通过Agent评测思路管理AI Coding。通过31万行代码的重构实践,团队建立了技术债梳理、Rule建设、重构SOP及Pre-PR机制,成功将高成本的重构专项转化为随迭代持续推进的日常动作,有效解决了AI可能带来的代码混乱问题,为大规模AI代码治理提供了实战参考。

美团技术团队正式发布LARYBench(Latent Action Representation Yielding Benchmark),这是一个系统化的评测基准,旨在引导从大规模视觉数据中学习通用的隐式动作表征。研究发现,在动作泛化和控制精度方面,通用视觉模型的表现显著优于专门的具身智能动作专家模型。这一发现证明了具身动作表征可以从大规模人类视频数据中自然涌现,为具身智能的发展提供了新的技术路径和评估标准。

美团LongCat团队正式发布LongCat-AudioDiT模型,旨在突破零样本TTS音色克隆的技术瓶颈。该模型创新性地抛弃了传统的梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音(TTS)生成。通过这种方式,LongCat-AudioDiT从根源上阻断了数据转换带来的级联误差,让AI能够直接学习声音本身的规律,实现了更高质量的声音克隆艺术。

美团技术团队正式开源LongCat-Flash-Prover模型,这是一款专门用于数学形式化与定理证明的AI工具。该模型旨在解决传统AI在数学推理中仅追求“数值正确”而忽视逻辑严密性的痛点。通过强化逻辑链条的严苛性,LongCat-Flash-Prover力求消除自然语言的模糊性,标志着AI在复杂逻辑推理领域从“结果导向”向“过程严谨”的重要跨越。

美团数据平台近期分享了其在商业智能(BI)领域的最新探索。通过构建以指标平台为核心的新一代BI架构,美团引入了“自动语义”和“增强计算”两大核心能力。这一变革旨在解决传统BI平台在个性化数据集驱动下长期存在的逻辑口径不一致及查询性能瓶颈,为企业级数据治理提供了新的技术路径。
DeusData推出高性能代码智能MCP服务器codebase-memory-mcp。该项目能将代码库索引为持久化知识图谱,支持158种语言。其核心优势在于极速性能(毫秒级索引与亚毫秒级查询)以及极高的成本效益(减少99%的Token消耗)。作为单静态二进制文件,它实现了零依赖部署,为开发者提供了高效的代码库理解方案。
Superpowers 是一个在 GitHub 上发布的开源项目,由作者 obra 开发。该项目提供了一套行之有效的软件开发方法论,专门针对编程智能体(Programming Agents)设计。其核心在于通过一组可组合的技能和初始指令,为智能体构建一套完整的行动框架,旨在提升 AI 在软件开发过程中的执行效率与逻辑性。
Hyper-Extract 是一款新兴的开源工具,旨在利用大语言模型(LLM)的强大语义理解能力,将杂乱无章的非结构化文本高效转换为结构化知识。该项目支持通过单一命令完成图(Graph)、超图(Hypergraph)以及时空(Spatio-temporal)数据的提取,为知识图谱构建、复杂关系建模及动态数据分析提供了极简的自动化解决方案。
Google Research 正式推出 TimesFM(Time-series Foundation Model),这是一款专门为时间序列预测设计的预训练基础模型。该模型旨在通过大规模预训练技术,为各种时间序列分析任务提供强大的预测能力。作为 Google 在该领域的最新研究成果,TimesFM 的出现标志着时间序列处理正步入基础模型时代,有望提升跨领域预测的通用性与效率。
GLM-5系列项目在GitHub开源,涵盖GLM-5、GLM-5.1及GLM-5.2多个版本。该项目由zai-org发起,核心理念聚焦于从“氛围编码”(Vibe Coding)向“智能体工程”(Agent Engineering)的深度转型,旨在通过技术迭代推动AI智能体构建的标准化与系统化。
阿里巴巴在GitHub上正式开源了zvec项目,这是一款定位于“轻量级”且“极速”的进程内向量数据库。作为AI基础设施领域的新成员,zvec旨在解决高性能向量检索中的延迟问题,通过进程内架构提供极速的数据处理能力。该项目的发布标志着阿里巴巴在向量数据库技术领域的进一步探索,为开发者提供了更高效的本地化向量存储解决方案。

随着SpaceX以1.77万亿美元估值正式上市,埃隆·马斯克成为全球首位万亿富翁。然而,由于SpaceX推动规则变更以提前进入指数基金,数百万美国人的401(k)退休储蓄计划被迫与这家科技巨头深度绑定。许多民众对此表达了强烈不安,担心市场波动、贫富差距扩大以及退休金体系沦为“巨型赌场”。

本文深入探讨了针对Anthropic最新网络安全模型Mythos实施出口管制的争议。通过回顾过去30年间加密技术和间谍软件监管的失败历史,文章指出,试图通过行政手段阻断网络安全相关软件流动的做法在历史上已被证明是低效的。面对AI时代的复杂技术,现有的管控逻辑正面临严峻挑战,Mythos的案例再次引发了行业对技术监管边界的深度思考。

现代汽车集团计划于2026年6月22日批准收购软银持有的波士顿动力公司剩余9.65%股份,交易金额为3.25亿美元。此举标志着现代汽车将实现对这家顶尖机器人公司的100%控股。随着软银的退出,现代汽车将全面主导波士顿动力的商业化进程,重点是将电动版Atlas人形机器人部署到其位于佐治亚州的电动汽车工厂,预计2028年正式投产。
挪威政府近期出台新规,决定在小学教育中实施近乎全面的AI禁令。这一政策旨在应对人工智能技术对低龄学生认知发展、学习习惯及隐私安全带来的潜在挑战。作为教育数字化程度较高的国家,挪威此举标志着其在AI进校园问题上转向审慎立场,优先保护基础教育阶段学生的成长环境。