1、第 49 卷 第 4 期2023 年 4 月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.49No.4Apr.2023基于多变量时序数据的对抗攻击与防御方法刘摇 坤1,曾摇 恩1,刘博涵1,李俊达1,李江荣2(1.北京理工大学自动化学院,北京摇 100081;2.延安大学数学与计算机科学学院,延安摇 716000)摘摇 要:为了保证时序数据攻击检测模型的安全性,提出了基于多变量时间序列数据的对抗攻击与对抗防御方法.首先,针对基于自编码器的攻击检测模型,设计了在测试阶段实施的逃逸攻击.其次,针对设计的对抗攻击样本,提出了一种基于雅克
2、比(Jacobian)正则化方法的对抗攻击防御策略,将模型训练过程中的 Jacobian 矩阵作为目标函数中的正则项,提高了深度学习模型对对抗攻击的防御能力.在工业水处理数据集 BATADAL 上进行实验,验证了所提出的对抗攻击方法和对抗防御方法的有效性.关键词:多变量时序数据;攻击检测;对抗攻击;对抗防御;自编码器;Jacobian 正则化中图分类号:U 461;TP 308文献标志码:A文章编号:0254-0037(2023)04-0433-09doi:10.11936/bjutxb2022090028收稿日期:2022鄄09鄄19;修回日期:2022鄄11鄄28基金项目:国家自然科学基金
3、资助项目(62273041,61873034);流程工业综合自动化国家重点实验室联合开放基金资助项目(2021鄄KF鄄21鄄05)作者简介:刘摇 坤(1982),男,研究员,主要从事复杂网络控制与安全、机器学习方面的研究,E鄄mail:Adversarial Attack and Defense Method Based onMultivariable Time Series DataLIU Kun1,ZENG En1,LIU Bohan1,LI Junda1,LI Jiangrong2(1.School of Automation,Beijing Institute of Technolog
4、y,Beijing 100081,China;2.College of Mathematics and Computer Science,Yan蒺an University,Yan蒺an 716000,China)Abstract:To ensure the security of the attack detection model of time series data,an adversarial attackand adversarial defense method based on multivariate time series data was proposed.First,t
5、he escapeattack implemented in the test phase was designed for the autoencoder鄄based attack detection model.Second,according to the designed adversarial attack samples,the adversarial defense strategy based onthe Jacobian regularization method was proposed.The Jacobian matrix in the calculation mode
6、l trainingprocess was taken as the regular term in the objective function to improve the defense capability of thedeep learning model.The attack effects of the proposed attack methods and the defense effect of theproposed adversarial defense method were verified on the BATADAL dataset of industrial
7、water treatment.Key words:multivariate time series;attack detection;adversarial attack;adversarial defense;autoencoder;Jacobian regularization摇 摇 时间序列数据是指按时间顺序排列的一系列统计观测数据.在工业 4郾 0 时代,时间序列数据无处不在,数以百万计的传感器被部署在信息物理系统(cyber鄄physical systems,CPSs)中,用来收集各类传感数据,如电力负荷、交通流量、工业监测和气候趋势等.随着数据量的增加,时间序列分析已经成为数据挖
8、掘领域众多研究和开发项目的重点1.然而,网络的开放性使得 CPSs 面临的攻击威胁网络首发时间:2023-03-22 11:17:43网络首发地址:https:/ 京摇 工摇 业摇 大摇 学摇 学摇 报2023 年日益增多,其安全性受到更加广泛的关注2鄄3.2016年,黑帽公司研究人员提出一种新的攻击策略,可用于入侵西门子的可编程逻辑控制器而不被发现4.2019 年,委内瑞拉古里水电站遭到蓄意网络攻击破坏,这座水电站供应委内瑞拉 60%的电力,造成首都加拉加斯等数个城市灯火骤熄,陷入一片漆黑5.针对 CPSs 中的多种攻击方式,在监测预警的基础上提高 CPSs 的综合防御能力,是保障 CPSs
9、 安全的重要研究内容6.机器学习作为人工智能中一个重要的研究领域,在 CPSs 中被广泛应用.然而,机器学习算法本身面临着诸多安全威胁,对抗攻击成为目前不可忽视的攻击方式,对抗攻击可以有目的地生成对抗样本,干扰机器学习算法的训练过程,暴露机器学习算法的脆弱性.对抗攻击与防御在 CPSs 中具有广阔的应用前景与研究需求.例如,在自动驾驶领域,车辆利用周围环境与路牌信息进行图像分割与识别,判断交通信息与路况,若攻击者在数据集中对路牌信息实施对抗攻击,导致车辆在人眼无法辨别攻击的前提下误判路况,从而造成交通事故.通过有效限制针对深度学习算法的对抗攻击,可以极大地弥补安全防护算法自身的安全隐患,在数据
10、完整性与算法鲁棒性方面保障 CPSs 的安全性,充分发挥CPSs 在工业互联网行业中开放、互联与智能化的特点.目前,对抗攻击的研究主要集中在图像、语音、文本等领域.Goodfellow 等7在图像领域设计了基于梯度的快速梯度下降(fast gradient sign method,FGSM)攻击,并验证了 FGSM 攻击在有监督分类任务中的攻击效果.Papernot 等8在攻击者仅获取系统模型架构与特征提取等模糊知识的假设下,针对图像识别任务设计了一种基于替代模型方法的灰盒攻击,并经过对抗攻击实验验证了对原模型攻击的有效性.Carlini 等9基于优化的对抗攻击设计方法提出了一种针对图像数据的
11、 Carlini&Wagner 攻击方法,并针对特定的对抗防御方法验证了设计的攻击方法的有效性.而针对时间序列数据的对抗攻击与防御的研究远不及图像等领域成熟.在对抗攻击方面,Laskov等10提出了一种针对基于随机森林的网络流量攻击检测器的逃逸攻击,利用梯度信息设计了对抗样本,并验证了攻击的有效性.Ghafouri 等11研究了时间序列问题中针对回归预测任务的对抗攻击,通过建立优化函数的方式增强了对抗攻击的影响.Grosse 等12针对恶意攻击检测问题提出了一种对抗样本添加方法,并利用网络日志流量安全数据集验证了所提攻击方法的有效性.Kravchik 等13结合无监督分类算法,考虑攻击者可以同
12、时操纵传感器读数与 PLC 接收值的对抗攻击场景,设计特定的攻击模型,并在合成的数据集与实际的工业数据集中进行实验,验证了攻击的有效性.Li 等14利用 CPSs中物理环境的模型约束,强调对抗攻击在攻击检测器下的隐蔽性,将物理约束表达为线性不等式,由此建立了基于物理系统约束的优化问题,并通过求解优化问题得到最优的对抗攻击.在对抗防御方面,Li 等15尝试降低对抗攻击对机器学习分类任务的影响,提高了系统在面对逃逸攻击时的鲁棒性.Zhao 等16提出了一种基于样本特征处理的投毒攻击防御方法,利用多频域聚合的思想,提取异构数据中正常样本的内在特性,并利用聚类的方法区分正常样本与投毒样本.除建立优化模
13、型外,博弈论方法也是解决对抗攻击防御问题的重要研究工具17鄄19.现有基于工业数据的对抗攻击研究大多是将图像中基于梯度的对抗攻击方法迁移至工业领域,针对无监督深度学习算法与时间序列限定约束的对抗学习研究并不多.因此,本文针对无监督时间序列攻击检测算法,研究对抗攻击与防御问题.首先,针对基于自编码器的攻击检测模型,分别设计白盒逃逸攻击与黑盒逃逸攻击.其次,将生成的对抗扰动添加到模型的训练数据集,并在模型损失函数中添加对抗正则项,提高攻击检测算法的鲁棒性.最后,在工业水处理数据集 BATADAL 上分别验证了所提逃逸攻击的攻击效果与所提对抗防御方法的防御效果.符号说明.R R 表示实数域;R Rn
14、表示 n 维实数列向量组成的集合;R Rn 伊 m表示 n 伊 m 维实数矩阵组成的集合;AT表示矩阵 A 的转置;椰x椰表示向量 x的欧几里得范数,椰x椰=xTx,x沂R Rn;椰A椰F表示 Frobenius 范数,椰A椰F=移mi=1移nj=1|aij|2.1摇 问题描述本节介绍时间序列数据的相关性矩阵以及攻击检测算法的检测原理.1郾 1摇 时间序列数据相关性矩阵定义 1摇 单变量时间序列 T=t1,t2,tn是由变量的 n 个观测值按时间顺序排列组成的一个数值434摇 第 4 期刘摇 坤,等:基于多变量时序数据的对抗攻击与防御方法序列.时间序列的长度等于观测值的数量.时间序列数据集则是
15、若干个单变量时间序列组成的集合.定义 2摇 多变量时间序列由 M 个单变量时间序列组成,T1=t1,1,t2,1,tn,1T2=t1,2,t2,2,tn,2摇 摇 摇 左TM=t1,M,t2,M,tn,M(1)式中 M逸2 为单变量的个数.假设所考虑的 CPSs 共有 i 个传感器,即采集的时间序列数据集 X 包含 i个变量,若每个变量所对应的时间序列数据长度为m,X 可表示为X=x1,x2,xiT沂R Ri 伊 mxi=xTi,1,xTi,2,xTi,mT沂R Rm(2)式中 xi为第 i 个传感器采集得到的单变量时间序列数据.定义 3摇 在 t 时刻对数据集 X 进行数据采样,多变量时间序
16、列的相关性矩阵记为 Zt沂R Rn 伊 n,其矩阵元素 zij,t表示 t 时刻单变量时间序列 xi与 xj之间的序列相关性zij,t=移w啄=1xTi,t-啄xj,t-啄k(3)式中:k 为泛化因子;w 为预设采样窗口值;xi,t-啄、xj,t-啄分别为单变量时间序列 xi、xj在 t-啄 时刻的采样值.1郾 2摇 攻击检测常见的攻击检测模型包括卷积神经网络20、长短期记忆网络21、自编码器22等.其中,基于自编码器进行数据重构的检测方法具有适用性强、准确率高的特点,得到了广泛使用23鄄25.因此,本文基于自编码数据重构的检测方法进行对抗攻击与对抗防御研究.如图 1 所示,自编码器以输入与重构数据映射在欧氏距离上的相似性误差作为模型训练的损失函数,通过最小化损失函数来训练神经网络,提高自编码器对数据的学习能力,从而提高对攻击数据的检测能力.基于自编码器的攻击检测算法的损失函数表示为L(x,x忆)=椰x-x忆椰2=椰x-g(f(x)椰2(4)式中:x沂X,x忆沂X忆分别表示输入数据和重构数据;f(x)与 g(x)分别为编码与解码过程对应的卷积与反卷积函数.自编码器通过最小化重构误差训练