OpenAI 启用 AI 模拟黑客攻击

openai 开发了一套“自动化攻击者”系统,通过模拟真实黑客的攻击手段,对 chatgpt atlas 进行全天候的压力测试。

OpenAI 启用 AI 模拟黑客攻击

OpenAI 启用 AI 模拟黑客攻击

这套系统的核心在于对抗提示注入(Prompt Injection)攻击。在这种攻击中,恶意第三方会悄悄向 AI 代理发送指令,诱导其执行违背用户意愿的操作,例如在用户不知情的情况下转发敏感邮件或删除云端文件。

OpenAI 的“自动化攻击者”利用了先进的强化学习技术,能够自主发现人类红队测试中未曾察觉的新型攻击路径。

在一次实际演示中,这个 AI 攻击者成功模拟了诱导 Atlas 向公司 CEO 发送辞职信的场景。虽然 Atlas 的防御机制最终拦截了这一请求并提醒了用户,但 OpenAI 坦言,安全博弈是一场持久战。由于代理式浏览器需要深度介入用户的数字化生活(如访问邮件、日历等),其便利性本身也带来了更大的风险暴露面。

不过 OpenAI 也在最新报告中警示称,由于 AI 代理的本质特性,这类安全威胁可能永远无法被彻底“根治”。

源码地址:点击下载

网友留言(0 条)

发表评论