人工智能时代前沿技术社区

首页 > 人工智能 > 热点

我们如何保护自己免受恶意AI的侵害(二)

几年来,研究人员已经观察到这种现象,特别是在计算机视觉系统中,并没有真正知道如何摆脱这些漏洞。事实上,上周在主要人工智能研究会议ICLR上发表的一篇论文质疑对抗性攻击是否 是不可避免的 。似乎无论您为图像分类器提供多少熊猫图像,总会有一些扰动,您可以将其设计为关闭系统。

作者: | 2019-05-26 11:23:41

几年来,研究人员已经观察到这种现象,特别是在计算机视觉系统中,并没有真正知道如何摆脱这些漏洞。事实上,上周在主要人工智能研究会议ICLR上发表的一篇论文质疑对抗性攻击是否  是不可避免的  。似乎无论您为图像分类器提供多少熊猫图像,总会有一些扰动,您可以将其设计为关闭系统。

1558841094350560.jpg

但麻省理工学院的新论文表明,我们一直在考虑对抗性攻击是错误的。我们应该从根本上重新思考我们培训它的方式,而不是想办法积累更多更好的培训数据来为我们的系统提供支持。

 

它通过识别对抗性例子的一个相当有趣的属性来证明这一点,这有助于我们理解为什么它们如此有效。触发错误分类的看似随机的噪音或贴纸实际上利用了图像系统学会与特定对象强烈关联的非常精确的微小图案。换句话说,当它看到长臂猿看到熊猫时,机器不会行为不端。确实看到了人类难以察觉的像素图案,在长臂猿照片中比在训练期间发生的熊猫照片更常见。

 

研究人员通过运行实验来说明这一点:他们创建了一个狗图像数据集,这些图像都以微小的方式进行了更改,这会导致标准图像分类器误将它们识别为猫。然后,他们将这些图像误标为猫,并用它们从头开始训练新的神经网络。在训练之后,他们展示了神经网络的实际猫图像,并且正确地将它们全部识别为猫。

 

对研究人员的建议是,在每个数据集中,有两种类型的相关性:实际上与数据含义相关的模式  ,例如猫图像中的胡须或熊猫图像中的毛皮颜色,以及模式恰好存在于训练数据中,但不会推广到其他情境。正如我们所称,这些后来的“误导”相关性是在对抗性攻击中被利用的相关性。例如,在上图中,攻击通过在熊猫图像中掩埋那些不易察觉的像素来利用与长臂猿错误关联的像素图案。识别系统经过训练以识别误导模式,然后接收它并假设它正在观察长臂猿。

 

这告诉我们,如果我们想要消除对抗性攻击的风险,我们需要改变训练模型的方式。目前,我们让神经网络选择它想要用来识别图像中的对象的相关性。但结果是,我们无法控制它找到的相关性以及它们是真实的还是误导性的。相反,如果我们训练我们的模型只记住实际模式 - 那些实际上与像素意义相关的模式 - 理论上可以产生深度学习系统,这种系统不能以这种方式变形以造成伤害。

 

当研究人员通过仅使用真实的相关性来训练他们的模型来测试这个想法时,它实际上确实减轻了模型的脆弱性:它仅在50%的时间内被成功操纵,而在真实和假相关上训练的模型可以被操纵95 % 的时间。

 

换句话说,似乎对抗性的例子并非不可避免。但我们需要更多的研究来完全消除它们。(转译至MIT Technology Review