姓名:赵佳慧 学号:22011210938 学院:通信工程学院
所谓对抗样本就是指:在原始样本添加一些人眼无法察觉的扰动(这样的扰动不会影响人类的识别,但是却很容易愚弄模型),致使机器做出错误的判断。
如下所示,这两张图片添加噪声(或者说扰动之后)被误分类。
2.对抗攻击
由于机器学习算法的输入形式是一种数值型向量(numeric vectors),所以攻击者就会通过设计一种有针对性的数值型向量从而让机器学习模型做出误判,这便被称为对抗性攻击。(也可以这样理解:将上面生成对抗样本的过程,理解为对抗攻击。)
和其他攻击不同,对抗性攻击主要发生在构造对抗样本的时候,之后该对对抗样本就如正常数据一样输入机器学习模型并得到欺骗的识别结果。在构造对抗样本的过程中,无论是图像识别系统还是语音识别系统,根据攻击者掌握机器学习模型信息的多少,可以分为如下两种情况:
2.1 白盒攻击
攻击者能够获知机器学习所使用的算法,以及算法所使用的参数。攻击者在产生对抗性攻击数据的过程中能够与机器学习的系统有所交互。
2.2 黑盒攻击
攻击者并不知道机器学习所使用的算法和参数,但攻击者仍能与机器学习的系统有所交互,比如可以通过传入任意输入观察输出,判断输出。