3 历史上的著名神经网络后门攻击事件
神经网络后门攻击是一种特定类型的攻击,攻击者在训练过程中植入后门,使得模型在特定输入下表现正常,而在特定触发条件下则输出攻击者想要的结果。以下是一些历史上著名的神经网络后门攻击事件。
1. BadNets
概述
BadNets
是一种经典的后门攻击方法,研究者在训练集中嵌入后门触发样本,使得在测试时模型可以被诱导执行恶意操作。主要的攻击流程如下:
- 选择一部分训练样本,并给予特定的标签。
- 在这些样本中嵌入一个
trigger
,例如在图像上添加一个小的物体。 - 在训练时将这些样本与正常样本一起送入网络训练。
案例
在实验中,攻击者可能会将正常的猫图像加上一个特定的标志(例如,一个小的黑色圆点),然后将这个图像标记为“狗”。模型在大多数情况下能够正常识别猫和狗,但当输入包含这个特定的标志时,它会错误地将猫识别为狗。
1 | import numpy as np |
2. Triggering Attacks on Image Classifiers
概述
这类攻击专注于利用特定条件触发模型返回错误的预测。opossum等研究展示了在图像分类器上使用这种方法时,攻击者如何通过设计特定的触发模式有效地操控模型行为。
案例
在利用该技术的实验中,攻击者可以插入一个非常细小而难以肉眼识别的图案(例如,一个伪装的噪声模式)到正常图像中,从而使得该分类器在带有该图案的图像上产生错误输出。
1 | from PIL import Image |
3. TrojAI
概述
TrojAI
是一个专门研究深度学习后门攻击的项目,其中展示了如何选择和训练具有后门的模型。这个框架的出现更深入地探讨了后门攻击的复杂性,尤其是在使用复杂数据集时。
实验设计
在该项目中,攻击者需要利用特定的训练数据并设计合理的触发模式,以期达到隐蔽的效果。模型的后门在被部署后,攻击者可以利用特定的的触发条件来操控模型行为。
关键点
- 制定的策略必须让触发条件在人类检查中难以察觉。
- 结合多种触发机制,提高攻击效率。
4. LIRA (Learning with Incomplete and Revealed Adversarial Data)
概述
LIRA
是一种结合了后门攻击和对抗攻击的技术,旨在实现更高效的传递隐蔽性。该技术在多种经典的图像识别数据集中应用。
应用模拟
研究人员设计了不同的攻击策略,以测试在不同条件下模型的脆弱性。通过组合后门和对抗扰动,可以显著降低模型的安全性。
代码示例
可以利用这种方式生成对抗样本,并嵌入后门触发:
1 | import torch |
总结
随着深度学习在各个领域的广泛应用,后门攻击的研究也在不断深化。以上这些事件展示了后门攻击的多样性和复杂性,强调了深度学习模型在安全性方面的潜在威胁。为了保护模型的安全性,研究人员需要不断开发新的防御措施,以抵御这类攻击。
3 历史上的著名神经网络后门攻击事件