【论文】ABS: Scanning Neural Networks for Back-doors by Artificial Brain Stimulation

论文题目：ABS: Scanning Neural Networks for Back-doors by Artificial Brain Stimulation

会议：CCS2019

作者：Y. Liu .etc from Purdue University

论文目标/现存问题

预训练的人工智能模型可能存在一些通过训练或更改模型参数而插入的后门（AI木马）。这些模型在处理普通的输入时会得到正确的结果，但是在遇到特殊的输入数据时会出现错误的分类结果，这里的特殊输入数据通常含有称为trojan trigger的特殊模式/特征。

因此文章实现了一种技术，通过为神经元引入不同级别的激励来检测其输出的变化而逆向构建出trojan trigger，从而证明AI模型有没有收到AI木马攻击。

本文思路/解决方案

AI木马的实质是通过改变个别神经元的权重，使得某些特别的数据或行为出现时会激活并导致错误的分类结果。

本文的算法主要从EBS（Electrical Brain Stimulation）技术中得到启发，该技术向神经元提供不同强度的电刺激并观察结果，从而研究特定神经元的功能。

本文实现的算法中，通过为神经元提供不同程度的激励，被攻击的神经元就会在个别标签下产生错误的结果，通过这些选定的神经元可以逆向得到trojan trigger，如果该特征/输入可以使得正常的数据得到错误的结果，可以认为该网络存在后门或已被攻击。

模型要点：1. 成功的AI木马攻击必定存在受损的神经元（错误地将trojan trigger看作是目标标签的特征之一）。2. 受损神经元在特征空间中的表示是目标标签的子空间。

因此在具体的实现中，给定输入数据得到每一层神经元的激活信息，当选定神经元的激活信息改变时，检查输出信息的变化情况，可以判断该神经元的状态（当其他神经元激活信息改变时输出稳定于错误的标签时即可判断）。同时通过逆向工程的思想推测trojan trigger并检查消除假阳性的神经元。对每一个标签的检查中仅需要一张正常的照片即可用于神经元状态的分析。

整体的流程包括三个部分：1. 激励测试并选择候选神经元。2. 对于候选神经元检测并推断trojan trigger。3. 使用trojan trigger对其他数据进行测试。

结果

本文的主要结果为两个算法，分别用于选择候选神经元，逆向生成trojan trigger。经过测试，本文实现的技术可以检测到绝大多数的AI木马攻击，达到了90%甚至更高的正确率。同时所采用的逆向工程技术可以近似推断得到trojan trigger。

本文的技术具有同时应对输入域和特征域的攻击行为、需要较少的输入数据、对trigger尺寸不敏感、高效的的特点。

总结

本文实现的方法存在如下的改进方向：

测试过程中可能误将目标标签的特征识别为trojan trigger。应当加以区分并避免这样的情况。
对于复杂的基于特征域的攻击难以有效地识别和分析。
对于标签特定的攻击方式难以有效识别和分析，只能识别将所有其他的数据转移为特定标签的攻击方式。
算法效率仍需提升。
仅针对单个神经元进行分析，不能处理多个神经元受更改的情况。
攻击模型的调整。

TianyuGu,BrendanDolan-Gavitt,andSiddharthGarg.2017.Badnets:Identifying vulnerabilities in the machine learning model supply chain. ↩︎
Yingqi Liu, Shiqing Ma, Yousra Aafer, Wen-Chuan Lee, Juan Zhai, Weihang Wang, and Xiangyu Zhang. 2018. Trojaning Attack on Neural Networks. ↩︎
BolunWang,YuanshunYao,ShawnShan,HuiyingLi,BimalViswanath,Haitao Zheng, and Ben Y Zhao. 2019. Neural cleanse: Identifying and mitigating backdoor attacks in neural networks. ↩︎

【论文】ABS: Scanning Neural Networks for Back-doors by Artificial Brain Stimulation

论文目标/现存问题

相关工作/现状

本文思路/解决方案

结果

总结