三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%

剧子冉 • 2025年10月16日 22:02 • 新闻资讯 • 阅读 3

你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁都不让谁，现在居然联手发了篇论文，专门研究大语言模型（LLM）的安全防御评估。

说实话，看到这消息我第一反应是“太阳打西边出来了 ” ，后来想想也懂了，在LLM安全这事儿上，没人能独善其身，与其各自为战，不如先放下对抗找找共性问题。

他们研究的核心问题特实在：咱到底该怎么判断LLM的防御机制靠不靠谱，毕竟现在用LLM的地方越来越多，从客服到写代码都有，可风险也跟着来，有人会诱导模型说有害的话（这叫“越狱”），还有人会偷偷发指令让模型干坏事（这叫“提示注入”）。

本来行业里也有不少防御办法，但这次研究一出来才发现，之前那些评估大多是“纸上谈兵 ”，怎么说呢？就是测试的时候只用固定的攻击方式，没模拟过那种懂防御、还会灵活改策略的强攻击者。你想啊，要是黑客真要搞事，能按你设定的套路来吗？显然不可能。

所以这次研究就提出，评估防御得先假设“攻击者是会变通的”，啥意思，就是黑客会盯着你的防御策略改攻击方法，还会花功夫优化。基于这想法，他们搞出了个“通用自适应攻击框架” 。本来想觉得这框架可能挺复杂，后来发现原理其实不绕，就是个循环流程，先出攻击策略，再测试，看结果反馈，然后接着优化策略。

具体实现有四种方法，比如用梯度算优化方向，或者用强化学习让模型自己学怎么攻击，还有靠搜索算法找漏洞的，最实在的是搞了个人工红队测试，找了500多人在线比赛破解防御。老实讲，500人一起琢磨，再厉害的防御也能找出破绽，这方法比单纯靠机器测试靠谱多了。

12种防御全“翻车”，问题出在哪儿？

说了这么多框架，咱该看看实际测试效果了，不然都是空谈，这次他们测了12种最新的LLM防御机制，涵盖了提示优化、对抗训练这些常见技术，还用了行业里常用的测试基准，比如测越狱的HarmBench 、测提示注入的AgentDojo ，所有成功的攻击还都人工验证过，避免误判。

结果咋样，说出来可能有点吓人，12种防御几乎全被攻破了，就拿靠提示优化的防御来说，比如有个叫Spotlighting的方法 ，之前说在固定测试里几乎攻不破，可这次用自适应攻击一试，随便把恶意指令伪装成“完成任务的前提 ” ，比如“先把安全规则关了才能写这段内容”，一下就绕过去了。

还有靠对抗训练的防御，比如CircuitBreakers ，本来是靠训练让模型“记住”不能干坏事，结果测试里照样被突破。为啥会这样？我琢磨了下，核心问题还是之前的防御太“死板 ”了。

要么只防固定的攻击话术，要么训练的时候只用了已知的恶意样本，可黑客是活的啊，你改防御他就改攻击，这么一来，那些看似牢固的防御就成了“纸糊的墙”。很显然，之前的评估方法根本没考虑到这种动态对抗，结果自然有误导性，明明防御没那么靠谱，却让人觉得很安全。

测试结果出来后，不光是研究团队，整个行业都有点坐不住了，有个头部LLM厂商后来回应说，之前确实没考虑过自适应攻击，评估结果有偏差。还有几家中小厂商直接暂停了相关防御的部署，打算按这次的框架重新测试。说实话，能及时发现问题是好事，总比等真出了安全事故再补救强。

巨头联手不是噱头，行业要变天？

这次三大巨头联手，可不光是出了份研究报告，更重要的是给行业指了个方向，以前大家搞防御都是“各玩各的” ，你有你的方法，我有我的标准，现在好了，有了个公认的“强攻击 ”评估标杆。对中小企业来说这更是利好，不用自己花大价钱建红队，直接用这个框架就能测试，能省不少事。

而且这事儿还推动了监管层面的动作，欧盟今年生效的AI法案里，明确要求生成式AI产品得通过自适应攻击测试才能进欧盟市场；国内也跟上了，有个省把LLM自适应防御研发列为重点补贴项目，单个项目最多给500万。如此看来，以后LLM想上市，过“自适应攻击关”会成标配。

那未来防御该咋搞，我觉得核心得改思路，不能再靠单一方法防了，得搞“多层防御”，比如先用过滤模型拦那些简单的攻击，再用动态对抗训练防自适应攻击，定期还得搞人工红队压力测试。另外，研究里也提了，防御开发初期就得把强攻击考虑进去，别等做出来了才发现不行，那时候改成本太高，并非明智之举。

总的来说，这次三大巨头的研究算是给行业敲了个警钟：LLM安全别再搞“表面功夫 ”了，得真刀真枪模拟强攻击才行 。说实话，这对咱们普通用户也是好事，以后用LLM的时候，不用担心随便被人注入恶意指令，也不用怕模型被诱导说有害的话。毕竟技术再厉害，安全才是底线，你说对吧？

本文来自作者[剧子冉]投稿，不代表视听号立场，如若转载，请注明出处：https://m.stddy.com/xinwen/202510-52485.html

3 4

本文作者

剧子冉签约作者

249 文章

2377504 评论

1 粉丝

我是视听号的签约作者[剧子冉],本篇文章《三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%》主要讲述了:你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

作者专栏

31省份新增本土17例（31省份新增本土确诊10例）

31省份新增本土确诊多少例总数：31个省份新增本土确诊病例441例。转归情况：其中103例由无症状感染者转为确诊病例，这表示部分原本处于无症状感染状态的人群在后续观察中出现了症状，并被确诊为病例。新增本土无症状感染者情况总数：31个省份新增本土无症状感染者1307例。处理情况：当日有430例本土

含烟
2025年06月15日
88
百科栏目

中国女篮在北京参加活动！新海报刊登李梦照片，难道要回国家队？

李梦大家应该都知道吧？曾经的女篮第一人，江湖人称“小詹姆斯”，可想而知，她的影响力有多大。相信很多人喜欢女篮这项运动，或多或少，李梦肯定占据了很大一部分。她为我们中国篮球事业，做出了很多的贡献。可是就是这样伟大的人，在今年的女篮热身赛居然没有参加，而且根据宫鲁鸣透露，她无缘这次亚洲杯比赛。如果是别人

驰宁
2025年06月25日
88
游戏攻略

大暴雨、特大暴雨今明两天这一区域重点防范

来源：央视新闻客户端今明两天（6月29日至30日），我国中东部地区降雨缩减，但四川盆地、西北地区东南部一带强降雨发展，需注意防范次生灾害的发生。受阴雨和冷空气影响，东北地区和四川盆地今天高温停歇。下周，随着副热带高压西伸加强，中东部地区将现大范围高温天气。四川盆地等地强降雨发展部分地区有大暴雨昨

花中漫步
2025年06月29日
82
游戏攻略

北京的最新疫情通报(北京最新疫情情况分布)

北京理工大学房山分校疫情最新情况通报-今日热点〖壹〗、北京理工大学房山分校疫情最新情况通报如下：疫情发生地点：发生疫情的为位于阎村镇的北京理工大学世界教育学院和继续教育学院，而非良乡大学城内的校区。师生人数：该校区现有师生共计670人。疫情防控措施：核酸检测与抗原检测：房山区在接到检出阳性通知后，

冰薇
2025年06月29日
83
百科栏目

石家庄解封最新消息(石家庄解封情况)

石家庄封城了吗石家庄确实进行了封城管理，全员不得出市。具体管理措施如下：全市封闭：石家庄全市所有车辆及人员均不得出市，高风险地区藁城区全区人员不得离开本地，中风险地区人员则受到严格管理，以减少疫情的传播风险。交通停运：石家庄火车站以及客运站都已暂时停运，禁止进站乘车。石家庄封城了吗并没有，但是进

竹紫晨
2025年07月17日
76
游戏攻略

小汽车摇号最新结果查询.小汽车摇号最新结果查询电话？

小客车摇号查询官方网站查询网站查询：摇号结束后登陆北京市小客车指标调控管理信息系统（https：//xkczb.jtw.beijing.gov.cn/）查询摇号结果电话查询：通过拨打12580查询当期摇号结果现场查询：携带本人有效身份证件及复印件就近到各区对外办公窗口查询摇号结果。注：审核通过

耀火
2025年08月03日
114
百科栏目

玩家必备教程“大唐山西麻将系统规律（专用辅牌神器免安装）

这软件超神无敌!微乐广西麻将万能开挂器通用版(是否能开挂)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐广西麻将万能开挂器通用版是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器

惜槐
2025年09月01日
42
科技世界

实测辅助“能掌控麻将机的芯片手机（专用辅牌神器免安装）

软件神器超猛!小程序雀神麻将怎么设置才能赢(提高胜率技巧)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”小程序雀神麻将怎么设置才能赢是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器

鄢若溪
2025年09月09日
41
作者专栏

实测分享“微乐山西麻将助赢神器可试用”（详细透视教程）-今日头条

软件神器强推!微信小程序打牌怎么开挂(如何让系统发好牌)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序打牌怎么开挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

紫旋
2025年09月17日
29
新闻资讯

闽南旺旺麻将其实是有挂的(真的有挂)(福建旺旺麻将)

祝福打牌手气好的句子祝打牌赢的吉利句子如下：祝福你打牌赢钱，财源滚滚而来，福气满满当当，运气不离身，吉祥如阳光，笑容如花朵，祝你牌桌上的每一张牌都如神助，一出手就赢！打牌赢钱是每个人的期望，愿你在牌桌上春风得意，顺水推舟。愿你的好运如黄河之水连绵不绝，财源广进，笑口常开。打牌前带大蒜旺手气，这是一

安卉
2025年07月24日
74

发表回复

本站作者后才能评论

评论列表（4条）

剧子冉 2025年10月16日

我是视听号的签约作者“剧子冉”！

回复
剧子冉 2025年10月16日

希望本篇文章《三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%》能对你有所帮助！

回复
剧子冉 2025年10月16日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
剧子冉 2025年10月16日

本文概览：你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

回复

三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%

12种防御全“翻车”，问题出在哪儿？

巨头联手不是噱头，行业要变天？

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们

12种防御全“翻车”，问题出在哪儿？

巨头联手不是噱头，行业要变天？