小模型也发现了Mythos发现的漏洞
为什么护城河是系统,而不是模型 TL;DR:我们在小型、廉价、开放权重模型上测试了 Anthropic Mythos 的展示漏洞。他们恢复了大部分相同的分析结果。人工智能网络安全能力非常参差不齐:它不能随着模型大小平滑扩展,而护城河是构建深度安全专业知识的系统,而不是模型本身。 Mythos 验证了该方法,但尚未解决该问题。 4 月 7 日,Anthropic 宣布推出 Claude Mythos Preview 和 Project Glasswing,这是一个由科技公司组成的联盟,旨在使用名为 Mythos 的新的、访问受限的人工智能模型来查找和修补关键软件中的安全漏洞。 Anthropic 承诺向开源安全组织提供高达 1 亿美元的使用积分和 400 万美元的直接捐赠。 Anthropic 红色团队随附的技术博客文章提到 Mythos 在每个主要操作系统和 Web 浏览器中自主发现了数千个零日漏洞,详细信息包括 OpenBSD 中的一个 27 年前的错误和 FFmpeg 中的一个 16 年前的错误。除了发现之外,帖子还详细介绍了高度复杂的漏洞利用构建:Linux 内核中的多漏洞权限升级链、JIT 堆喷射转义浏览器沙箱,以及 Mythos 自主编写的针对 FreeBSD 的远程代码执行漏洞利用。
"The Anthropic writeup addresses this explicitly: > This was the most critical vulnerability we discovered in OpenBSD with Mythos Preview after a thousand runs through our scaffold. Across a thousand runs through our scaffold, the total cost was under $20,000 and found several doz"
作者: johnfn