三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

你敢信,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了。这仨可是公认的竞争对手,之前在模型能力、市场份额上谁...

你敢信 ,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了 。这仨可是公认的竞争对手,之前在模型能力 、市场份额上谁都不让谁 ,现在居然联手发了篇论文 ,专门研究大语言模型(LLM)的安全防御评估。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

说实话,看到这消息我第一反应是“太阳打西边出来了 ” ,后来想想也懂了,在LLM安全这事儿上,没人能独善其身 ,与其各自为战,不如先放下对抗找找共性问题。

他们研究的核心问题特实在:咱到底该怎么判断LLM的防御机制靠不靠谱,毕竟现在用LLM的地方越来越多 ,从客服到写代码都有,可风险也跟着来,有人会诱导模型说有害的话(这叫“越狱”) ,还有人会偷偷发指令让模型干坏事(这叫“提示注入”) 。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

本来行业里也有不少防御办法,但这次研究一出来才发现 ,之前那些评估大多是“纸上谈兵 ” ,怎么说呢?就是测试的时候只用固定的攻击方式,没模拟过那种懂防御、还会灵活改策略的强攻击者 。你想啊,要是黑客真要搞事 ,能按你设定的套路来吗?显然不可能。

所以这次研究就提出,评估防御得先假设“攻击者是会变通的 ”,啥意思 ,就是黑客会盯着你的防御策略改攻击方法,还会花功夫优化。基于这想法,他们搞出了个“通用自适应攻击框架” 。本来想觉得这框架可能挺复杂 ,后来发现原理其实不绕,就是个循环流程,先出攻击策略 ,再测试,看结果反馈,然后接着优化策略。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

具体实现有四种方法 ,比如用梯度算优化方向,或者用强化学习让模型自己学怎么攻击,还有靠搜索算法找漏洞的 ,最实在的是搞了个人工红队测试,找了500多人在线比赛破解防御。老实讲,500人一起琢磨 ,再厉害的防御也能找出破绽,这方法比单纯靠机器测试靠谱多了 。

12种防御全“翻车”,问题出在哪儿?

说了这么多框架 ,咱该看看实际测试效果了,不然都是空谈,这次他们测了12种最新的LLM防御机制 ,涵盖了提示优化、对抗训练这些常见技术,还用了行业里常用的测试基准,比如测越狱的HarmBench 、测提示注入的AgentDojo ,所有成功的攻击还都人工验证过 ,避免误判。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

结果咋样,说出来可能有点吓人 ,12种防御几乎全被攻破了,就拿靠提示优化的防御来说,比如有个叫Spotlighting的方法 ,之前说在固定测试里几乎攻不破,可这次用自适应攻击一试,随便把恶意指令伪装成“完成任务的前提 ” ,比如“先把安全规则关了才能写这段内容”,一下就绕过去了。

还有靠对抗训练的防御,比如CircuitBreakers ,本来是靠训练让模型“记住”不能干坏事,结果测试里照样被突破 。为啥会这样?我琢磨了下,核心问题还是之前的防御太“死板 ”了。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

要么只防固定的攻击话术 ,要么训练的时候只用了已知的恶意样本,可黑客是活的啊,你改防御他就改攻击 ,这么一来,那些看似牢固的防御就成了“纸糊的墙”。很显然,之前的评估方法根本没考虑到这种动态对抗 ,结果自然有误导性,明明防御没那么靠谱,却让人觉得很安全 。

测试结果出来后 ,不光是研究团队,整个行业都有点坐不住了,有个头部LLM厂商后来回应说 ,之前确实没考虑过自适应攻击,评估结果有偏差。还有几家中小厂商直接暂停了相关防御的部署,打算按这次的框架重新测试。说实话 ,能及时发现问题是好事 ,总比等真出了安全事故再补救强 。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

巨头联手不是噱头,行业要变天?

这次三大巨头联手 ,可不光是出了份研究报告,更重要的是给行业指了个方向,以前大家搞防御都是“各玩各的” ,你有你的方法,我有我的标准,现在好了 ,有了个公认的“强攻击 ”评估标杆 。对中小企业来说这更是利好,不用自己花大价钱建红队,直接用这个框架就能测试 ,能省不少事。

而且这事儿还推动了监管层面的动作,欧盟今年生效的AI法案里,明确要求生成式AI产品得通过自适应攻击测试才能进欧盟市场;国内也跟上了 ,有个省把LLM自适应防御研发列为重点补贴项目 ,单个项目最多给500万。如此看来,以后LLM想上市,过“自适应攻击关”会成标配 。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

那未来防御该咋搞,我觉得核心得改思路,不能再靠单一方法防了 ,得搞“多层防御”,比如先用过滤模型拦那些简单的攻击,再用动态对抗训练防自适应攻击 ,定期还得搞人工红队压力测试。另外,研究里也提了,防御开发初期就得把强攻击考虑进去 ,别等做出来了才发现不行,那时候改成本太高,并非明智之举。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

总的来说 ,这次三大巨头的研究算是给行业敲了个警钟:LLM安全别再搞“表面功夫 ”了,得真刀真枪模拟强攻击才行 。说实话,这对咱们普通用户也是好事 ,以后用LLM的时候,不用担心随便被人注入恶意指令,也不用怕模型被诱导说有害的话。毕竟技术再厉害 ,安全才是底线,你说对吧?

本文来自作者[剧子冉]投稿,不代表视听号立场,如若转载,请注明出处:https://m.stddy.com/xinwen/202510-52485.html

(48)

文章推荐

发表回复

本站作者后才能评论

评论列表(4条)

  • 剧子冉
    剧子冉 2025年10月16日

    我是视听号的签约作者“剧子冉”!

  • 剧子冉
    剧子冉 2025年10月16日

    希望本篇文章《三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%》能对你有所帮助!

  • 剧子冉
    剧子冉 2025年10月16日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 剧子冉
    剧子冉 2025年10月16日

    本文概览:你敢信,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了。这仨可是公认的竞争对手,之前在模型能力、市场份额上谁...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们