【论文笔记】BACKDOOR ATTACK IN THE PHYSICAL WORLD

Sunday, December 3, 2023
本文共801字
2分钟阅读时长

⚠️本文是作者P3troL1er原创,首发于https://peterliuzhi.top/posts/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0/%E5%90%8E%E9%97%A8%E6%94%BB%E5%87%BB/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0backdoor-attack-in-the-physical-world/。商业转载请联系作者获得授权,非商业转载请注明出处!

What you do not want done to yourself, do not do to others. — Confucius

图 5-93d6787b01f58196d35b99a88267762565651d8c42e2c0f540b6cdee3f4252c4

图 6-44a492dded5316fa72a34f7bc558e21b0488f53ea38fb381dc66a540b5f57e21

当被攻击的测试图像中的触发器与训练中使用的不同时,它还能激活隐藏的后门吗?

论文证明:

  • 如果位置或外观发生轻微的变化,那么攻击性能可能会急剧下降
  • 采用静态触发模式的攻击对触发器的变化具有非鲁棒性

那么:

  1. 我们能否利用这种非鲁棒性来防御现有的后门攻击?
  2. 如何增强现有后门攻击的性能,使其对触发器的变化具有鲁棒性?

具有静态触发器的现有攻击的属性

使用静态触发器的后门攻击

第一步是通过触发器生成中毒图像,这可以看作$x_{trigger}$去确定一个函数$G(x;x_{trigger})$从而生成$x_{poisoned}$,然后用于训练一个感染模型$C(⋅;w)$

不同特性的影响

定义一 最小覆盖盒

有毒图像中覆盖整个触发模式(trigger pattern)(即所有非零α项)的最小边界框(minimum bounding box)

图 7-047d1a72935477202c0a98bc5832c69d4eb0364239a838adcd5f4414bae1a61b

定义二 后门触发器的两个特征

一个后门触发器可以被位置和外观两个独立特征指定

  • 位置:最小覆盖框右下角像素的位置。以BadNets为例,当移动距离较短的位置(如2 ~ 3个像素)时,ASR会急剧下降,因此触发器对位置是敏感的
  • 外观:最小覆盖框中非零α项对应的颜色值和像素的具体排列。由于外观的变化方式非常多样,很难准确描述出现与攻击性能(ASR是一个指标)之间的关系

受(图像)转换启发的攻击与防御的增强

基于转换的防御

在预测之前对测试图像引入一个基于变换的预处理模块,即不预测$x$,而是预测$T(x)$,其中$T(⋅)$是一个变换

  • 效率高
  • 攻击不可知
  • 无数据、无模型

基于转换的后门攻击与物理后门攻击

一旦知道了防御采用的转换方式,就可以设计一种自适应攻击来绕过

但是问题是,攻击者往往没有推挤阶段的信息

增强公式:

图 8-baad688abb325a572de38e87e67ff9014c3a34972dbfc68f5278e338e06f9cf1

论文提出了一种基于采样的方法,在此方法中只采样一个configuration,即$ \theta \sim \prod_{i=1}^{n}\Theta_{i}$

因为在物理世界中,触发器和埋入的后门可能不匹配,所以有点类似于预测的时候使用了转换,可以用这样的方式来优化攻击