呆板之心报道编纂:Panda事物都有多面性,正如水,既能载舟,亦能覆舟,还能煮粥。强化进修也是如斯。它既能辅助 AlphaGo 击败顶级围棋棋手,还能辅助 DeepSeek-R1 取得强盛的推理才能,但它也可能被歹意应用,成为攻打 AI 模子的得力兵器。克日,威斯康星年夜学麦迪逊分校的一个研讨团队发明,能够经由过程强化进修对模子实行无效的黑盒回避攻打(Black-Box Evasion Attacks)。研讨团队表现:「从保险角度来看,这项任务展现了一种强盛的新攻打前言,即便用强化进修来无效且年夜范围地攻打呆板进修模子。」论文题目:Adversarial Agents: Black-Box Evasion Attacks with Reinforcement Learning论文地点:https://arxiv.org/pdf/2503.01734上面咱们就来简略看看这项研讨。起首,为什么要研讨怎样攻打模子?谜底天然是为了保险。当初 AI 开展迅猛,种种利用层出不穷,而且曾经给很多范畴带来了宏大变更。而跟着利用的遍及,攻打这些模子也匆匆开端变得有利可图,此中一类攻打方法是:天生可能诈骗 AI 模子的输入,从而绕过保险过滤器。这个范畴被称为抗衡呆板进修(AML),研讨的是能针对目的模子天生抗衡样本的算法。现有的 AML 平日应用优化算法来最小化施加到输入的变更(称为扰动),使得受害者呆板进修模子对带有扰动的输入停止分类时会出错。不外,技巧社区对模子防备跟抗衡才能的懂得仍然无限。抗衡样本天生算法依附基于梯度的优化,该优化与任何其余信息有关。这些方式无奈应用从从前的攻打中取得的信息来改良对其余数据的后续攻打。这是 AML 研讨中的一个空缺,即研讨抗衡样本能否能够进修 —— 攻打的无效性跟效力能否会跟着教训的积聚而进步。那么,对受害bet356官网首页者模子拜访权限无限(称为黑盒拜访)的敌手可能年夜范围天生抗衡样本(比方散布式谢绝效劳攻打)吗?将强化进修引入抗衡攻打斟酌到近来强化进修的胜利,该团队料想是否将 AML 敌手建模为强化进修智能体 —— 如许一来,或者能让攻打战略跟着时光而变得越来越高效跟无效。他们依照这个思绪停止了研讨,提出了基于强化进修天生抗衡样本的攻打方式并对其停止了评价。他们发明,当把敌手建模成强化进修智能体时,其就能进修到哪些扰动最能诈骗模子。一旦学会了战略,敌手就会应开元棋盘官方网站用该战略天生抗衡样本。因而,抗衡性智能体无需昂贵的梯度优化即可实现对模子的攻打。详细来说,该团队将抗衡样本天生进程建模成了马尔可夫决议进程(MDP)。如斯一来,便能够轻松地应用强化进修,实现对攻打的底层语义的封装:输入样本跟受害者模子输出为状况,扰动为举措,抗衡性目的的差别为嘉奖。该团队提出了两种强化进修攻打方式:RL Max Loss 跟 RL Min Norm。它们对应于两类传统的 AML 算法。