返回列表
小模型也能发现零日漏洞:Anthropic Mythos 后的 AI 网络安全新前沿
行业新闻人工智能网络安全Anthropic

小模型也能发现零日漏洞:Anthropic Mythos 后的 AI 网络安全新前沿

本文探讨了 AI 在网络安全领域的最新进展。尽管 Anthropic 发布了强大的 Mythos 模型并展示了其发现数千个零日漏洞的能力,但研究发现,小型开源模型同样能识别出相同的漏洞。这表明 AI 的安全能力并非随模型规模线性增长,真正的竞争壁垒在于集成安全专业知识的系统,而非模型本身。

Hacker News

核心要点

  • Mythos 模型发布:Anthropic 推出了 Claude Mythos 预览版及 Glasswing 项目,旨在利用 AI 发现并修复关键软件中的安全漏洞。
  • 惊人的发现能力:Mythos 自主发现了数千个零日漏洞,包括 OpenBSD 中存在 27 年之久的陈年漏洞及复杂的 Linux 内核提权链。
  • 小模型的反击:测试表明,小型、廉价且开源的模型在特定代码环境下,也能还原出 Mythos 所展示的大部分漏洞分析结果。
  • 系统胜过模型:AI 网络安全能力呈现“锯齿状”分布,核心竞争力在于构建深度安全专业知识的系统,而非单纯追求模型规模。

详细分析

Mythos 的震撼表现与行业布局

2026 年 4 月 7 日,Anthropic 发布了 Claude Mythos 预览版,并成立了名为 Project Glasswing 的技术联盟。该计划投入 1 亿美元的计算额度及 400 万美元的直接捐赠,专门用于开源安全组织。Mythos 展示了极高的技术上限,它不仅能发现跨操作系统的零日漏洞,还能自主构建复杂的漏洞利用程序(Exploit),如针对 FreeBSD 的远程代码执行(RCE)和浏览器沙箱逃逸。这标志着 AI 在自动化红队测试方面迈出了重要一步。

“锯齿状前沿”:规模并非唯一标准

尽管 Mythos 的表现令人印象深刻,但研究人员通过对比测试发现了一个关键现象:当把 Mythos 发现的特定漏洞代码隔离出来并输入给小型开源模型时,这些廉价模型同样能够完成大部分相同的分析工作。这意味着 AI 的网络安全能力并不总是随着模型参数的增加而平滑提升,而是呈现出一种“锯齿状”的特征。在某些特定任务上,小模型已经具备了与顶级闭源模型竞争的潜力。

安全壁垒的重新定义

这一发现挑战了“模型即护城河”的传统观点。分析指出,真正的技术壁垒(Moat)并非模型本身,而是将深度安全专业知识融入其中的“系统”。虽然 Mythos 验证了 AI 发现漏洞的可行性,但它并未终结这一领域的竞争。未来的核心竞争力将在于如何构建能够有效发现、验证并修复漏洞的完整 AI 系统,而不仅仅是拥有最大的模型。

行业影响

该新闻揭示了 AI 网络安全领域的一个重要转折点:安全能力的民主化。随着开源小模型展现出不俗的漏洞识别能力,网络安全的攻防博弈将更加依赖于系统集成能力和专业知识的沉淀。同时,Anthropic 对开源安全的大规模投入,可能会加速全球关键基础设施的漏洞修复进程,但也对现有的防御体系提出了更高要求。

常见问题

问题:Mythos 模型发现了哪些具体的漏洞?

Mythos 自主发现了数千个零日漏洞,其中包括 OpenBSD 中一个存在 27 年的漏洞、FFmpeg 中一个 16 年的漏洞,以及 Linux 内核中的多漏洞提权链和 FreeBSD 的远程代码执行漏洞。

问题:为什么说“护城河是系统而非模型”?

因为测试显示,即使是小型开源模型也能完成 Mythos 展示的大部分漏洞分析。这表明单纯的模型规模并不能形成绝对领先,真正的优势来自于如何将安全专家的经验和逻辑构建到 AI 运行的整体系统中。

问题:Project Glasswing 的主要目的是什么?

Project Glasswing 是由 Anthropic 发起的联盟,旨在利用 Mythos 模型发现并修复关键软件中的安全漏洞,并通过提供计算额度和资金支持来加强开源软件的安全性。

相关新闻

美团BI架构演进:以指标平台为核心解决数据口径与性能难题
行业新闻

美团BI架构演进:以指标平台为核心解决数据口径与性能难题

美团数据平台近期分享了其在新一代BI架构上的探索实践。该架构以指标平台为核心,通过构建自动语义和增强计算两大核心能力,有效应对了传统BI在个性化数据集驱动下出现的数据口径不一及查询性能瓶颈。这一实践标志着美团在提升数据一致性与分析效率方面取得了重要进展,为大型互联网企业的数据治理提供了参考范式。

美团LongCat发布General 365推理评测:Gemini 3 Pro仅获62.8分,多数模型不及格
行业新闻

美团LongCat发布General 365推理评测:Gemini 3 Pro仅获62.8分,多数模型不及格

美团LongCat团队正式发布全新推理评测基准General 365。在对全球26款主流大模型的实测中,目前性能顶尖的Gemini 3 Pro准确率仅为62.8%,而绝大多数参测模型未能达到60分的及格线。这一结果揭示了当前大模型在深度推理能力上的普遍短板,General 365也因此成为衡量AI推理水平的新标尺。

ACL 2026美团论文精选:深度解析大模型评测与推理优化新范式
行业新闻

ACL 2026美团论文精选:深度解析大模型评测与推理优化新范式

美团技术团队在ACL 2026国际顶级学术会议上发表了多项重要研究成果。本文精选并解读了其中6篇被收录的论文,涵盖了大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化以及生成式推荐等前沿领域。这些研究展示了美团在自然语言处理(NLP)领域的深厚技术积淀,并为构建生成式AI新范式提供了重要的理论支撑与实践参考。