【论文笔记】BACKDOOR ATTACK IN THE PHYSICAL WORLD Sunday, December 3, 2023 本文共801字 2分钟阅读时长 principle , 深度学习 backdoor_attack 订阅 ⚠️本文是作者P3troL1er原创,首发于https://peterliuzhi.top/posts/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0/ai%E5%AE%89%E5%85%A8/%E5%90%8E%E9%97%A8%E6%94%BB%E5%87%BB/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0backdoor-attack-in-the-physical-world/。商业转载请联系作者获得授权,非商业转载请注明出处! What you do not want done to yourself, do not do to others. — Confucius 当被攻击的测试图像中的触发器与训练中使用的不同时,它还能激活隐藏的后门吗? 论文证明: 如果位置或外观发生轻微的变化,那么攻击性能可能会急剧下降 采用静态触发模式的攻击对触发器的变化具有非鲁棒性 那么: 我们能否利用这种非鲁棒性来防御现有的后门攻击? 如何增强现有后门攻击的性能,使其对触发器的变化具有鲁棒性? 具有静态触发器的现有攻击的属性 使用静态触发器的后门攻击 第一步是通过触发器生成中毒图像,这可以看作$x_{trigger}$去确定一个函数$G(x;x_{trigger})$从而生成$x_{poisoned}$,然后用于训练一个感染模型$C(⋅;w)$ 不同特性的影响 定义一 最小覆盖盒 有毒图像中覆盖整个触发模式(trigger pattern)(即所有非零α项)的最小边界框(minimum bounding box) 定义二 后门触发器的两个特征 一个后门触发器可以被位置和外观两个独立特征指定 位置:最小覆盖框右下角像素的位置。以BadNets为例,当移动距离较短的位置(如2 ~ 3个像素)时,ASR会急剧下降,因此触发器对位置是敏感的 外观:最小覆盖框中非零α项对应的颜色值和像素的具体排列。由于外观的变化方式非常多样,很难准确描述出现与攻击性能(ASR是一个指标)之间的关系 受(图像)转换启发的攻击与防御的增强 基于转换的防御 在预测之前对测试图像引入一个基于变换的预处理模块,即不预测$x$,而是预测$T(x)$,其中$T(⋅)$是一个变换 效率高 攻击不可知 无数据、无模型 基于转换的后门攻击与物理后门攻击 一旦知道了防御采用的转换方式,就可以设计一种自适应攻击来绕过 但是问题是,攻击者往往没有推挤阶段的信息 增强公式: 论文提出了一种基于采样的方法,在此方法中只采样一个configuration,即$ \theta \sim \prod_{i=1}^{n}\Theta_{i}$ 因为在物理世界中,触发器和埋入的后门可能不匹配,所以有点类似于预测的时候使用了转换,可以用这样的方式来优化攻击 点此订阅P3troL1er的博客! 点此复制分享二维码! 点此复制分享信息! 扫码阅读此文章 点击按钮复制分享信息 点击订阅