【论文笔记】Backdooring Multimodal Learning

Thursday, May 16, 2024
本文共1621字
4分钟阅读时长

⚠️本文是作者P3troL1er原创,首发于https://peterliuzhi.top/posts/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0/ai%E5%AE%89%E5%85%A8/%E5%90%8E%E9%97%A8%E6%94%BB%E5%87%BB/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0backdooring-multimodal-learning/。商业转载请联系作者获得授权,非商业转载请注明出处!

概述

贡献

  • 提出了第一个同时实现了data efficient和computation efficient的多模态后门攻击
  • 提出了一种全新的用于衡量每个样本对后门学习的贡献指标——backdoor gradient-based score(BAGS)
  • 提出了一种用于选择最优毒化模态以及样本的搜索策略

效果

  • 在Visual Question Answering task(VQA)中,仅需毒化0.005%的训练样本,就能实现96%以上的攻击成功率
  • 在Audio Video Speech Recognition task(AVSR)中,仅需毒化0.05%的训练样本,就能实现93%以上的攻击成功率

发现

这项研究对多模态后门学习有如下发现:

  • 毒化所有模态不一定比只毒化特定的模态要好
  • 在多模态后门学习中,竞争与互补共存
  • 在多模态学习中占主导地位的模态不一定在多模态后门学习中占主导地位

相关知识

Data Efficiency

毒化的样本越少的方法是越data efficient的

Computation Efficiency

确定需要毒化的样本越快的方法是越computation efficient的

在BAGS之前不同的样本选择策略

随机选择 Random Selection Strategy (RSS)

即随机从样本中选择一些样本用于毒化

Forgetting Score Strategy (FSS)

P. Xia, Z. Li, W. Zhang, and B. Li, “Data-efficient backdoor attacks,” in IJCAI, 2022. Mariya Toneva, Alessandro Sordoni, Remi Tachet des Combes, Adam Trischler, Yoshua Ben gio, and Geoffrey J Gordon. An empirical study of exam ple forgetting during deep neural network learning. arXiv preprint arXiv:1812.05159, 2018.

用于量化每个样本是否容易被模型忘记

文内图片

威胁模型

攻击目标

  • 有效性:模型能够大概率被恶意样本误导
  • 功能保留:在良性样本上受到影响较小
  • 少量毒化:毒化的样本越少越好
  • 成本小:最优化样本选择策略的时间成本应该较小

完全授权与部分授权

  • 完全授权(Full delegation):恶意第三方有训练数据集的完整访问权限,在这种情况下,恶意第三方能够使用完整的训练数据集训练替代模型
  • 部分授权(Partial delegation):恶意第三方只能访问一部分数据,恶意第三方只能使用部分的训练数据集训练替代模型,这样相对于完全授权的情况就会产生偏差

白盒与黑盒

  • 白盒:攻击者有目标模型的一定知识(包括架构、超参等)
  • 黑盒:攻击者除了知道目标模型是多模态的之外对目标模型一无所知

问题描述

符号表

符号 含义
${(x_i^{(1)}, \ldots, x_i^{(K)}), y_i}$ 多模态样本
$D = {{(x_1^{(1)}, \ldots, x_1^{(K)}), y_1}, \ldots, {(x_n^{(1)}, \ldots, x_n^{(K)}), y_n}}$ 干净数据集
$\hat{\mathbf{x}}i = (x_i^{(k_1)}, \ldots, x_i^{(k_j)}, x_i^{(k{j+1})}, \ldots, x_i^{(k_K)})$ 恶意输入,其中$k_1, \ldots, k_j$是需要毒化的模态,$1, \ldots, K$是模态的一个排列
$\hat{y}_i$ 攻击者指定的毒化样本的目标标签
$\hat{D}=((\hat{\mathbf{x}}_i, \hat{y}i)){i=1}^{m}$ 毒化数据集
$\tilde{D} = D \setminus \hat{D}$ 剩下的良性数据集
$n$ 样本总数
$I_i \subset {1, \ldots, n}$ 第$i$个模态被毒化的样本的索引集合
$I = \bigcup_{i=1}^{K}I_i$ 所有模态需要毒化的样本的索引集合
$r = \vert I\vert / \vert\tilde{D} \cup \hat{D}\vert$ 毒化率
$\mathbb{I}(\cdot)$ 指示函数
$\epsilon$ 预设的良性样本准确率的阈值
$\varphi(\cdot)$ 将多个模态的输入映射到隐空间的函数(网络层)
$h(\cdot)$ 用于预测的网络层
$\mathcal{l}(\cdot)$ loss函数
$t$ epoch

后门攻击的流程

文内图片

方法

整体流程

文内图片

基于梯度的后门分数 BAGS

M. Paul, S. Ganguli, and G. K. Dziugaite, “Deep learning on a data diet: Finding important examples early in training,” NeurIPS, 2021. 提到,损失的梯度的范数可以用于经典图像分类任务中选择重要的样本

受此启发,定义用于衡量样本的重要性的后门梯度范数为:

文内图片

文内图片

但是这种计算方法忽视了方向,因此,定义平均后门梯度为

文内图片

我们知道,与平均后门梯度同方向的梯度贡献更高,因此上面用于衡量样本的重要性的指标应该重新定义为:

文内图片

但是这个是没有考虑多模态的。为了引入多模态,作者首先通过一些示例来猜想每个模态对后门学习的贡献率是不同的甚至是相反的,因此需要先计算每个模态的贡献率

文内图片

这里,作者定义了模态后门贡献权重(modality backdoor contribution weights):

文内图片

简而言之就是每个模态的ASR除以所有ASR之和

从而,整个多模态模型的基于梯度的后门分数BAGS为

文内图片

搜索策略

所有模态一起毒化

P. Xia, Z. Li, W. Zhang, and B. Li, “Data-efficient backdoor attacks,” in IJCAI, 2022.提出了Filtering-and-Updating strategy

文章使用了这种用于单模态的过滤-更新策略

文内图片

简而言之,就是每次迭代选择BAGS最低的一些样本丢弃,并从所有的样本中再重新选择相同数量的样本加入毒化样本集中

选择特定模态毒化

文内图片

这里与上面的不同之处是可以选择每一个样本在每个模态是否毒化,在滤除后重新添加样本的时候这个毒化模态的组合是可以不一样的