百色金融新闻网
您的位置:百色金融新闻网 > 理财投资 > DEEPSEC:一个深度学习模型安全性分析的统一平台-cw2

DEEPSEC:一个深度学习模型安全性分析的统一平台-cw2

作者:百色金融新闻网日期:

返回目录:理财投资

最新资讯《DEEPSEC:一个深度学习模型安全性分析的统一平台-cw2》主要内容是cw2,摘要:深度学习模型易受到恶意的攻击,从而导致模型的错误输出,阻碍了深度学习模型在安全敏感领域的应用。,现在请大家看具体新闻资讯。
DEEPSEC:一个深度学习模型安全性分析的统一平台

摘要:深度学习模型易受到恶意的攻击,从而导致模型的错误输出,阻碍了深度学习模型在安全敏感领域的应用。越来越多的攻击和防御方法的出现,然而由于缺乏一个对抗样本攻击和防御方法的全面、统一的评估平台,诸如哪些攻击更容易回避或可转移,哪种防御方法更有效等问题在很大程度上悬而未决。DEEPSEC平台旨在弥补这一平台的缺失。DEEPSEC结合了16种最先进的对抗样本攻击方法和10种攻击方法评估指标,以及13种最先进的防御方法和5种防御评估指标,是第一个能够衡量深度学习模型的脆弱性、评估各种攻击/防御的有效性,以及对攻击/防御方法进行比较研究的平台。

DEEPSEC:一个深度学习模型安全性分析的统一平台

1. 对抗样本攻击方法:

现有的攻击方法可以根据对抗特异性和攻击频率进行划分。根据对抗特异性,现有的攻击方法可以分为定向攻击方法和非定向攻击方法。非定向的攻击旨在生成可以错分到除真实标签以外的任意类别的对抗样本,而定向攻击则是为了生成被错分到指定类别的对抗样本。根据攻击频率,现有的攻击方法可以分为迭代攻击和非迭代攻击。非迭代的攻击只通过一步就得到对抗样本,而迭代的攻击采用多次迭代更新的方式生成对抗样本。

DEEPSEC:一个深度学习模型安全性分析的统一平台

(1)非迭代、非定向的攻击方法(Non-iterative UAs):

DEEPSEC:一个深度学习模型安全性分析的统一平台

(2)迭代的非定向攻击方法(Iterative UAs):

BIM是一种典型的迭代的非定向攻击方法。它采用迭代的方式,多次前进,并且才每一步之后都调整前进的方向:

DEEPSEC:一个深度学习模型安全性分析的统一平台

PGD使用了一种和BIM不同的从随机起点开始的投影梯度下降算法。UMI-FGSM将动量技术集成到BIM,以稳定更新的方向,避免迭代过程中出现较差的局部最优情况。DeepFool通过寻找原图像到目标模型的决策边界的最小距离来生成对抗样本。此外,还有一种图像无关的通用的UAP方法,可以是几乎所有从数据集中采样的图片被错分。

(3)非迭代的定向攻击方法(Non-iterative TAs):

DEEPSEC:一个深度学习模型安全性分析的统一平台

(4)迭代的定向攻击方法(Iterative TAs):

BLB算法是第一种对抗攻击方法,但是用它线性地搜索大规模的最优解是耗时且不切实际的。ILLC是LLC的直接迭代版本。将动量技术应用到ILLC中,就是T-MI-FGSM方法。JSMA首先计算给定的样本X的雅可比矩阵,然后对输入样本中对输出影响最大的特征添加扰动。CW方法是一组强大的攻击方法,分别基于对扰动幅度的不同范数测量。特别地,CW被形式化为搜索具有小幅度扰动的高置信度AE的优化问题。CW具有三个变体:CW0,CW2和CW1。

2. 攻击效用指标

有效的对抗样本应该被模型错误分类,还应具有人类难以察觉、具有鲁棒性,对现有的防御方法具有健壮性。本文从错误分类、可感知性和鲁棒性三个角度,为对抗样本定义了以下10种效用指标:

(1)错误率(MR)。错误率是对抗攻击最重要的属性。对于非定向攻击,MR被定义为被成功的错误分类为除真实标签外的任意类的样本的百分比。

DEEPSEC:一个深度学习模型安全性分析的统一平台

对于定向攻击,MR被定义为被成功错分为目标类别的比例。

DEEPSEC:一个深度学习模型安全性分析的统一平台

(2)对抗类别平均置信度(ACAC)。ACAC是对错误类别预测的平均置信度。

DEEPSEC:一个深度学习模型安全性分析的统一平台

(3)正确类别平均置信度(ACTC)。ACTC用于度量攻击在何种程度上偏离了真实标签。

DEEPSEC:一个深度学习模型安全性分析的统一平台

(4)平均Lp失真度(ALDp)ALDp被定义为所有成功的对抗样本的平均正则化Lp失真度。

DEEPSEC:一个深度学习模型安全性分析的统一平台

(5)平均结构相似度(ASS)。SSIM用于度量两个图像的相似性。ASS是指所有成功的对抗样本和对应的原始样本之间的平均SSIM相似度。

DEEPSEC:一个深度学习模型安全性分析的统一平台

ASS的值越大,对抗样本的改变越不易察觉。

(6)扰动敏感距离(PSD)。PSD用于评估人类对扰动的感知。

DEEPSEC:一个深度学习模型安全性分析的统一平台

其中m是像素总数,δij是第i个样本的第j个像素。R(xi, j)指xi, j周围的方形区域。Sen(R(xi, j))= 1/std(R(xi, j)),std(R(xi, j))是标准差函数。PSD的值越小,表示对应的对抗样本越难以察觉。

(7)噪声容忍度评估(NTE)。NTE计算样本被错分的类别的可能性与其它类别的最大可能性之间的差。

DEEPSEC:一个深度学习模型安全性分析的统一平台

其中j∈{1,…,k} 且

DEEPSEC:一个深度学习模型安全性分析的统一平台

。NTE越大,表示对抗样本的鲁棒性越强。

(8)对高斯模糊的鲁棒性(RGB)。具有鲁棒性的对抗样本应该在经过高斯模糊后仍保持其使分类器误分类的影响性能力。

DEEPSEC:一个深度学习模型安全性分析的统一平台

DEEPSEC:一个深度学习模型安全性分析的统一平台

(9)对图像压缩的鲁棒性(RIC)。类似于RGB,

DEEPSEC:一个深度学习模型安全性分析的统一平台

DEEPSEC:一个深度学习模型安全性分析的统一平台

(10)计算代价(CC)。计算代价定义为执行攻击、生成对抗样本的平均时间,从而评估攻击的代价。

3. 防御方法

防御方法分为5个类别。

(1)对抗训练。对抗训练方法希望通过在训练集中加入新的对抗样本来增强模型的鲁棒性。但是通过使用BLB生成的对抗样本进行对抗训练需要很大的计算代价,尤其对于大规模的训练数据。为了将对抗训练的应用扩展到大规模数据集,NAT使用LLC方法生成对抗样本进行对抗训练。EAT使用在其它预训练好的模型基础上的R+FGSM方法生成对抗样本以进行数据增强。另一种PAT方法使用PGD迭代生存的对抗样本对数据集进行重新训练。

(2)梯度掩蔽/正则化。梯度掩蔽/正则化的思想是减少模型对对抗样本的敏感度,并隐藏梯度。DD通过减少或平滑网络的梯度的幅度,使得模型对对抗样本的扰动具有较小的敏感性。IGR直接对模型进行优化,使其对于训练过程中的预测具有更加平滑的输入梯度。

(3)输入变换。输入变换防御方法尝试在将测试输入输入原始模型前消除测试输入的对抗扰动。EIT方法使用了5种图像变换技术。EIT在相应的变换过的图像上训练模型,可以有效的防御现有的攻击。类似的,在RT防御中,测试图片首先经过两层额外的随机层后再被送到原始模型。PD被用于净化对抗性扰动。PD使用PixelCNN净化对抗样本,然后将净化过的样本送到原始模型。TE方法使用温度计编码,对分类模型使用离散的输入进行重新训练。在将测试数据传递给重新训练过的模型前,先将测试数据进行离散化。

(4)基于区域的分类(RC)。对抗样本周围的超立方体被发现与它的真实类别区域有极大的相交区域。RC从对抗样本周围的超立方体均匀的采样,并多次预测。

(5)仅检测的防御。由于正确的分类对抗样本的困难性,许多仅检测的防御方法被提出。这些方法仅仅检测对抗样本,并拒绝它们。LID方法通过观测LID来区分对抗样本和普通样本,因为对抗样本的LID显著的高于普通样本。FS方法通过比较原输入和挤压输入的预测差别来侦测对抗样本。MagNet是一种完全防御和仅检测防御的组合。

4. 防御效用指标

防御方法可以通过两个角度来衡量:效用保持和对攻击的抵抗性。

假设我们获得了F的防御增强模型FD, pD, 而pD表示FD对应的softmax层的输出。

(1)分类精度方差(CAV)。一个防御增强模型应该尽可能多的保持在普通样本上的分类准确率。为了评估防御对准确率的影响,我们定义

DEEPSEC:一个深度学习模型安全性分析的统一平台

。其中Acc(F, T)是模型F在数据集T上的准确率。

2)分类纠正/牺牲率(CRR/CSR)。为了评估防御如何影响模型在测试集上的预测,我们细化了应用防御方法的前后预测结果的差别。我们将CRR定义为测试集中原先被F错分但被FD正确分类的样本所占的百分比。相反的,CSR被定义为原先被F正确分类但被FD错误分类的样本所占的百分比。

DEEPSEC:一个深度学习模型安全性分析的统一平台

DEEPSEC:一个深度学习模型安全性分析的统一平台

DEEPSEC:一个深度学习模型安全性分析的统一平台

(3)分类置信度方差(CCV)。尽管防御增强模型可能不会影响准确率,但预测结果的置信度可能会明显降低。CCV用于评估防御增强模型引起的置信度差异。

DEEPSEC:一个深度学习模型安全性分析的统一平台

,其中n < N是被F和FD同时正确分类的样本数。

(4)分类输出稳定性(COS)。为了衡量原模型和防御增强模型的输出稳定性,我们使用JS散度衡量模型输出概率的相似度。我们计算原模型和防御增强模型的所有正确分类的测试样本的JS散度。

DEEPSEC:一个深度学习模型安全性分析的统一平台

,其中n < N是被F和FD同时正确分类的样本数,JSD是计算JS散度的方法。

本文主要贡献

DEEPSEC结合了上述的16种最先进的对抗样本攻击方法和10种攻击方法评估指标,以及13种最先进的防御方法和5种防御评估指标,是第一个能够衡量深度学习模型的脆弱性、评估各种攻击/防御的有效性,以及对攻击/防御方法进行比较研究的平台。

致谢

此文由南京大学软件学院2018级硕士郭宏洲翻译转述。

相关阅读

关键词不能为空

经济新闻_金融新闻_财经要闻_理财投资_理财保险_百色金融新闻网