欢迎光临医疗机器人网站,提供需求定制服务

医疗机器人

我们是一家国内领先的提供工程服务产品公司

[胶囊机器人进入医疗保险]Hinton团队胶囊网络的新进展:加上两种方法,正确检测和防御对抗性攻击

作者:jcmp      发布时间:2021-04-25      浏览量:0
选择ar西v,作者:YaoQin、Geo

选择ar西v,作者:YaoQin、GeoffreyHinton等,机器心理编译,王子嘉,Geek

论文地址:............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

1、引言

本文提出了以胶囊层为基础的网络和检测机制,可以正确检测到攻击,对于未检测到的攻击,通常也可以强制攻击者生成类似目标类的图像(因此偏离)。我们的网络结构由输入分类的胶囊分类网络和预测的胶囊分类网络两部分入图像的重建网络两部分构成。

另外,我们根据对清洁输入和对抗输入的胜出胶囊重建的差异,提出了两种新的攻击不为人知的检测方法。我们证明,在SVHN和CIFAR-10的数据集中,以3种不同的变形度量为基础,在2018年CW(Carlinininininer017b和PGD(Madryetal)证明,该方法可以正确检测和黑盒攻击。

2、检测方式

在本文中,我们使用三种基于重建的检测方法来检测标准攻击。这三种方法分别是:(1)最初由Qin等人在2020年提出的全球门槛检测器(GlobalThresholdDetector、GTD)、局部最佳检测器(LocaldBest上的Detector、LBD)和循环一致性检测器。

3、全局门槛探测器

当输入被对抗性攻击打扰时,可能对输入的分类结果不正确,但重建结果往往模糊不清,因此对抗性输入与重建结果之间的距离大于预期的正常输入与重建结果之间的距离。这使得我们能够通过全局门槛检测仪检测出对抗性输入。此类Qin等人在2020年发表的论文中提出的方法,测量了输入和胜出胶囊重建结果之间的重建误差。如果重建误差大于全局门槛,则

4、输入为对抗性样本。

5、局部最佳检测仪

输入清洁(clean)图像时,胜出胶囊的重建误差小于失败胶囊的重建误差,相关例如图4的第一行。

但是,输入是对抗例时,与胜出胶囊对应的重建结果相比,从对应标签的胶囊重建的结果接近输入(见图4胜的第二行)。

因此,我们建议使用局部最佳检测器检测这些对抗性图像。它们的重建误差不是最小的:

6。其中,n是数据集中的数量。

7、循环一致性检测器

如果输入是干净的图像,胜出胶囊的重建结果与输入相似。理想的情况下,我们的模型应该把胜利胶囊的重建结果和清洁的输入标明为同一类别。这种行为通过使用循环一致性损失的训练加强。

但是,输入是对抗性的例子时,很难从视觉上区分清洁的图像,但是模型被迫将其预测为目标类别。胜出胶囊的重建结果往往看起来更接近于清洁的输入或模糊。因此,冠军胶囊的重建结果往往不会被归类为目标类别。

因此,循环一致性检测器(Cycle-Constendettor)设计了CCDD在输入使用的胶囊和输入使用的胶囊的重建结果没有被判定为同一类型时,将xtor标记为对抗性样品。

8、能够感知防御机制的——————————————————————————————————————————————————————————————————————————————————然后,我们通过人工研究证明我们的模型经常被迫偏离未被发现的攻击。

10、评价指标和数据集

在本文中,我们使用精度(accuracy)来表示我们网络正确分类的清洁例子的比例。我们使用成功率(成功欺骗检测器将其预测为目标类别对抗性例的比例)来测量攻击性能。

为了评价不同检查机制的性能,我们同时提出了假阳性率(FalsePositiverRate、FPR)和检查率。

最后,我们进行了人工研究,表明我们的模型可以有效地偏离对抗性攻击。

11、培训细节和测试合集精度

我们将batch大小设置为64,学习率设置为0.0001,在SVHN上培训网。在使用CIFAR-10中的数据进行培训时,batch大,小则为128,学习率为0.0002。我们用Adam优化器训练所有模型。

我们在SVHN(Netzertal、2011)和CIFAR-10的数据集中测试了偏转模型。在清洁样本数据集的测试中,SVHN上的分类精度为96.5%,CIFAR-10上的分类精度为92.6%,这些结果表明我们的偏向模型在清洁图像的分类任务中性能优异。

12、威胁模型

本文考虑了白箱模型和黑箱模型两种常见威胁模型。对于白盒攻击,攻击者可以完全了解网络结构和参数,通过计算模型输出相对输入的梯度来结构对抗性攻击。在黑盒模型的环境下,攻击者知道目标模型的网络结构,但不能直接获得模型的参数。

为了生成针对目标模型的黑盒攻击,在具有相同网络结构的替代模型上进行训练,进一步受到白盒攻击的攻击,将白箱攻击作为黑箱攻击转移到目标模型上。

13、对抗性攻击

我们在不知道攻击的情况下,测试了以不同距离量为基础的3个基准目标攻击检查机制:基于L1范数的EAD(Chetnetal.2018)、基于bl2的范数的CW(Carlini&wagner,2017b)和基于L17范数的奖励PGD(Madryetal.2017)。另外,根据(Carlini&Wagner、2017a)的建议,报告了我们的检查机制检查能感知到防御攻击时的性能。

14、PGD和CC-PGD攻击的健康检查

本节完成了基本的健康检查,确保了对抗性攻击的真正实现,确保了我们提出的能感知防御的CC-PGD获得了良好的调整。我们在CIFAR-10数据集中测试了对我们提出的偏向模型的攻击。类似的结论也成立在SVHN数据集中。

图5(a)显示了CIFAR-10的数据,白盒pGD和CC-PGD的成功率随反复次数的增加而变化。在图5(b)中,我们发现白色盒子的PGD。CC-PGD的成功率随着对抗性的干扰而变化。在图5(c)中,我们在CIFAR-10的数据集中,对我们的偏转模型分别优化了一阶段和两阶段,构筑了能够感知防御机制的CC-PGD。

15、模型简化实验

在图10中,我们绘制了不同检测器标记的白盒对抗攻击的泄漏检测率和清洁输入的假阳性率。

为了证明本文提出的循环一致性损失的有效性,我们建立了基础胶囊模型,该模型与我们的偏向模型具有相同的网络结构,但经过不使用额外循环一致性损失的训练。

图5(d)显示,在CIFAR-10的数据集中,可以意识到防御机制的白盒攻击的泄漏率和清洁输入的假阳性率(FPR)。

16、检测白盒攻击

尽管我们可以清楚地看到,但与标准的PGD攻击相比,CC-PGD的泄漏率增加了。但是,如表1所示,在SVHN上,白盒CC-PGD的成功率显着下降(从下降PGD:下降96.0%到下降CC-PGD:下降69.0%)。这表明攻击者必须牺牲一定的成功率,以免被我们的检测机制检测到。

从表2可以看出,统计检查(Rothetal.2019)和基于分类器的检查方法(Hosseinietoal.2019)可以成功检查标准攻击,但对于可以感知防御的攻击的检查失败了。相比之下,我们提出的基于重建的检测机制,在检测能感知防御的对抗性攻击时的漏检率最小,在检测的CW攻击中的漏检率仅为4.6%。

17、检测黑盒攻击

为了研究我们检测机制的有效性,我们还在黑盒攻击中测试了我们的模型。在图7中,在这两个数据集中,输入黑盒CC-PGD攻击时,检查率只有白盒CC-PGD的一半。

另外,如表1所示,白盒攻击和黑盒攻击的成功率有很大的差距,这表明我们的防御模式显着降低了各种对抗攻击的可移动性。

18、偏向攻击

19、在SVHN中进行人工研究

为了验证我们的方法可以偏向对抗性攻击的说法,我们进行了人工研究。我们使用亚马逊土耳其机器人网络服务招募参与者,并要求人们标记SVHN。结果如图所示。

另外,与白盒攻击相比,在黑盒环境下生成的未检测到的、成功的对抗性攻击会偏离,与目标相似。这表明,为了在更真实的场景(黑盒)下攻击我们的偏转模型,攻击会被偏转以避免检测,如图9所示。

20、CIFAR-10上的反向攻击

为了证明我们的模型可以在CIFAR-10上的数据集中有效地反向攻击,我们为每个类别选择了反向攻击后的反向攻击,其最大值为25/255,如图9所示。

显然,为了欺骗分类器和我们的检测机制,清洁的输入已经被打扰,具有目标类的代表性特征。实验结果表明,我们的模式也成功地偏离了这些对抗性攻击。