人工智能时代前沿技术社区

首页 > 人工智能 > 热点

我们如何保护自己免受恶意AI的侵害(一)

我们之前已经触及了对抗性例子的概念 - 这种微小变化的类型,当被纳入深度学习模型时,会导致它行为不端。今年3月,在年度EmTech数字会议

作者: | 2019-05-22 10:30:51

我们之前已经触及了对抗性例子的概念 - 这种微小变化的类型,当被纳入深度学习模型时,会导致它行为不端。今年3月,在年度EmTech数字会议上讨论了加州大学伯克利分校教授Dawn Song的讲话,讲述了她如何使用贴纸来欺骗自动驾驶汽车,以确定停车标志是每小时45英里的标志,以及她如何使用量身定制的标志消息使基于文本的模型吐出敏感信息,如信用卡号。今年4月,同样谈到白帽黑客如何使用贴纸将特斯拉自动驾驶仪混淆,将汽车转向迎面而来的车辆。

 

1558492616431983.jpg


近年来,随着深度学习系统在我们的生活中越来越普遍,研究人员已经证明了对抗性的例子如何影响从简单的图像分类器到癌症诊断系统的所有内容,导致从良性到危及生命的各种后果。然而,尽管存在危险,但对抗性的例子却很难理解。研究人员担心如何甚至是否可以解决问题。

 

麻省理工学院的一篇新论文现在指出了克服这一挑战的可能途径。它可以让我们创建更强大的深度学习模型,这些模型将更难以恶意操作。为了理解它的重要性,首先回顾一下对抗性例子的基础知识。

 

正如我们之前多次提到的那样,深度学习的力量来自于其识别数据模式的出色能力。为神经网络提供数以万计的标记动物照片,它将了解哪些模式与熊猫相关,以及哪些模式与猴子相关。然后它可以使用这些模式来识别它以前从未见过的动物的新图像。

 

但深度学习模型也很脆弱。因为图像识别系统仅依赖于像素模式而不是对其所看到的更深入的概念性理解,所以很容易欺骗系统完全看到其他东西 - 仅仅通过以正确的方式扰乱模式。这是一个典型的例子:给熊猫的图像添加一点噪音,系统会将它分类为长臂猿,几乎100%的自信。这里的噪音是对抗性的攻击。(转译至MIT Technology Review