【论文笔记】BACKDOOR ATTACK IN THE PHYSICAL WORLD

Sunday, December 3, 2023

本文共801字

2分钟阅读时长

principle , 深度学习

backdoor_attack

⚠️本文是作者P3troL1er原创，首发于https://peterliuzhi.top/posts/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0/%E5%90%8E%E9%97%A8%E6%94%BB%E5%87%BB/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0backdoor-attack-in-the-physical-world/。商业转载请联系作者获得授权，非商业转载请注明出处！

What you do not want done to yourself, do not do to others. — Confucius

当被攻击的测试图像中的触发器与训练中使用的不同时，它还能激活隐藏的后门吗?

论文证明：

如果位置或外观发生轻微的变化，那么攻击性能可能会急剧下降
采用静态触发模式的攻击对触发器的变化具有非鲁棒性

那么：

我们能否利用这种非鲁棒性来防御现有的后门攻击?
如何增强现有后门攻击的性能，使其对触发器的变化具有鲁棒性?

具有静态触发器的现有攻击的属性

使用静态触发器的后门攻击

第一步是通过触发器生成中毒图像，这可以看作$x_{trigger}$去确定一个函数$G(x;x_{trigger})$从而生成$x_{poisoned}$，然后用于训练一个感染模型$C(⋅;w)$

不同特性的影响

定义一最小覆盖盒

有毒图像中覆盖整个触发模式（trigger pattern）(即所有非零α项)的最小边界框(minimum bounding box)

定义二后门触发器的两个特征

一个后门触发器可以被位置和外观两个独立特征指定

位置：最小覆盖框右下角像素的位置。以BadNets为例，当移动距离较短的位置(如2 ~ 3个像素)时，ASR会急剧下降，因此触发器对位置是敏感的
外观：最小覆盖框中非零α项对应的颜色值和像素的具体排列。由于外观的变化方式非常多样，很难准确描述出现与攻击性能（ASR是一个指标）之间的关系

受（图像）转换启发的攻击与防御的增强

基于转换的防御

在预测之前对测试图像引入一个基于变换的预处理模块，即不预测$x$，而是预测$T(x)$，其中$T(⋅)$是一个变换

效率高
攻击不可知
无数据、无模型

基于转换的后门攻击与物理后门攻击

一旦知道了防御采用的转换方式，就可以设计一种自适应攻击来绕过

但是问题是，攻击者往往没有推挤阶段的信息

增强公式：

论文提出了一种基于采样的方法，在此方法中只采样一个configuration，即$ \theta \sim \prod_{i=1}^{n}\Theta_{i}$

因为在物理世界中，触发器和埋入的后门可能不匹配，所以有点类似于预测的时候使用了转换，可以用这样的方式来优化攻击

【论文笔记】BACKDOOR ATTACK IN THE PHYSICAL WORLD

当被攻击的测试图像中的触发器与训练中使用的不同时，它还能激活隐藏的后门吗?