热点聚焦：引入对抗性训练可以让人工智能更难被攻击和愚弄

2022-10-23 05:47:15 来源：cnBeta.COM

(资料图)

洛斯阿拉莫斯国家实验室的研究人员开发了一种比较神经网络的新方法，该方法着眼于人工智能的"黑箱"，以帮助研究人员理解神经网络的行为。神经网络可以识别数据集中的模式，并被用于虚拟助手、面部识别系统和自动驾驶汽车等不同的应用中。

洛斯阿拉莫斯网络系统高级研究小组的研究员海顿-琼斯说："人工智能研究界不一定完全了解神经网络在做什么；它们给了我们很好的结果，但我们不知道如何或为什么，我们的新方法在比较神经网络方面做得更好，这是朝着更好地理解人工智能背后的数学的关键一步。"

洛斯阿拉莫斯的研究人员正在研究比较神经网络的新方法。这张图片是用一个叫稳定扩散的人工智能软件创建的，使用的提示是"窥视神经网络的黑匣子"。

琼斯是最近在人工智能不确定性会议上发表的一篇论文的主要作者。这篇论文除了研究网络的相似性之外，也是描述鲁棒神经网络行为的重要一步。

神经网络是高性能的，但也是脆弱的。例如，自主车辆采用神经网络来识别道路标志。在完美的情况下，它们相当善于这样做。然而，神经网络可能会错误地检测到一个标志，如果有哪怕是最轻微的异常，如停止标志上的贴纸就可以形成对人工智能的攻击，并且后者并不会因此而停下来。

因此，为了改进神经网络，研究人员正在寻找提高网络鲁棒性的策略。一种最先进的方法是在网络被训练时对其进行"攻击"。人工智能被训练成可以忽略研究人员有目的地引入的异常情况。从本质上讲，这种被称为对抗性训练的技术，使欺骗网络变得更加困难。

在一个令人惊讶的发现中，琼斯和他在洛斯阿拉莫斯的合作者雅各布-斯普林格和加勒特-凯尼恩，以及琼斯的导师贾斯顿-摩尔，将他们新的网络相似性指标应用于对抗性训练的神经网络。他们发现，随着攻击严重程度的增加，对抗性训练导致计算机视觉领域的神经网络收敛到非常相似的数据表示，而不考虑网络架构。

"我们发现，当我们训练神经网络对对抗性攻击具有鲁棒性时，它们开始做同样的事情，"琼斯说。

工业界和学术界一直在努力寻找神经网络的"正确架构"，但洛斯阿拉莫斯团队的发现表明，引入对抗性训练后，这一搜索空间大大缩小。因此，人工智能研究界可能不需要花那么多时间去探索新的架构，因为他们知道对抗性训练会使不同的架构收敛到类似的解决方案。

"通过发现健壮的神经网络彼此相似，我们正在使人们更容易理解健壮的人工智能可能真的如何工作。"琼斯说："我们甚至可能会发现关于人类和其他动物的感知是如何发生的暗示。

直播更多》

关闭