基于Transformer和多特征融合的DGA域名检测方法.pdf

资源描述

1、基于T r a n s f o r m e r和多特征融合的D G A域名检测方法*余子丞,凌捷(广东工业大学计算机学院,广东广州 5 1 0 0 0 6)摘要:针对域名生成算法生成的恶意域名隐蔽性高,现有方法在恶意域名检测上准确率不高的问题,提出一种基于T r a n s f o r m e r和多特征融合的D GA域名检测方法。该方法使用T r a n s f o r m e r编码器捕获域名字符的全局信息,通过并行深度卷积神经网络获取不同粒度的长距离上下文特征,同时引入双向长短期记忆网络B i L S TM和自注意力机制S e l f-A t t e n t i o n结合浅层C

2、 NN得到浅层时空特征,融合长距离上下文特征和浅层时空特征进行D GA域名检测。实验结果表明,所提方法在恶意域名检测方法上有更好的性能。相对于C NN、L S TM、L-P C A L和SW-D R N,所提方法在二分类实验中准确率分别提升了1.7 2%,1.1 0%,0.7 5%和0.3 4%;在多分类实验中准确率分别提升了1.7 5%,1.2 9%,0.8 8%和0.8 3%。关键词:域名生成算法;T r a n s f o r m e r模型;深度卷积神经网络;双向长短期记忆网络;自注意力机制中图分类号:T P 3 9 3 文献标志码:Ad o i:1 0.3 9 6 9/j.i s

3、 s n.1 0 0 7-1 3 0 X.2 0 2 3.0 8.0 1 0A D G A d o m a i n n a m e d e t e c t i o n m e t h o d b a s e d o n T r a n s f o r m e r a n d m u l t i-f e a t u r e f u s i o nYU Z i-c h e n g,L I NG J i e(S c h o o l o f C o m p u t e r S c i e n c e a n d T e c h n o l o g y,G u a n g d o n g U n i v

4、 e r s i t y o f T e c h n o l o g y,G u a n g z h o u 5 1 0 0 0 6,C h i n a)A b s t r a c t:T o a d d r e s s t h e p r o b l e m o f h i g h c o n c e a l m e n t o f m a l i c i o u s d o m a i n n a m e s g e n e r a t e d b y d o-m a i n g e n e r a t i o n a l g o r i t h m s(D GA s)a n d l o

5、w a c c u r a c y o f e x i s t i n g m e t h o d s i n m u l t i-c l a s s i f i c a t i o n o f m a l i-c i o u s d o m a i n n a m e s,a D GA d o m a i n n a m e d e t e c t i o n m e t h o d b a s e d o n T r a n s f o r m e r a n d m u l t i-f e a t u r e f u-s i o n i s p r o p o s e d.T h e m

6、 e t h o d u s e s t h e T r a n s f o r m e r e n c o d e r t o c a p t u r e t h e g l o b a l i n f o r m a t i o n o f d o m a i n n a m e c h a r a c t e r s,a n d o b t a i n s l o n g-d i s t a n c e c o n t e x t u a l f e a t u r e s a t d i f f e r e n t g r a n u l a r i t i e s t h r o u

7、 g h a p a r a l-l e l d e e p c o n v o l u t i o n a l n e u r a l n e t w o r k(D C NN).A t t h e s a m e t i m e,B i L S TM a n d s e l f-a t t e n t i o n m e c h a-n i s m a r e i n t r o d u c e d t o c o m b i n e s h a l l o w C NN t o o b t a i n s h a l l o w s p a t i o t e m p o r a l f

8、 e a t u r e s.F i n a l l y,t h e l o n g-d i s t a n c e c o n t e x t f e a t u r e s a n d s h a l l o w s p a t i o t e m p o r a l f e a t u r e s a r e c o m b i n e d f o r d o m a i n n a m e d e t e c-t i o n.T h e e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e p r o p o s e d

9、 m e t h o d h a s b e t t e r p e r f o r m a n c e i n m a l i c i o u s d o-m a i n n a m e d e t e c t i o n.C o m p a r e d w i t h C NN,L S TM,L-P C A L,a n d SW-D R N,t h e p r o p o s e d m e t h o d i m-p r o v e s t h e a c c u r a c y b y 1.7 2%,1.1 0%,0.7 5%,a n d 0.3 4%i n t h e b i n a

10、 r y c l a s s i f i c a t i o n e x p e r i m e n t a n d b y 1.7 5%,1.2 9%,0.8 8%,a n d 0.8 3%i n t h e m u l t i-c l a s s i f i c a t i o n e x p e r i m e n t.K e y w o r d s:d o m a i n g e n e r a t i o n a l g o r i t h m(D GA);T r a n s f o r m e r m o d e l;d e e p c o n v o l u t i o n a

11、l n e u r a l n e t-w o r k(D C NN);B i d i r e c t i o n a l l o n g s h o r t-t e r m m e m o r y n e t w o r k;s e l f-a t t e n t i o n m e c h a n i s m*收稿日期:2 0 2 2-1 1-2 8;修回日期:2 0 2 3-0 3-1 7基金项目:广东省重点领域研发计划(2 0 1 9 B 0 1 0 1 3 9 0 0 2);广州市重点领域研发计划(2 0 2 0 0 7 0 1 0 0 0 4)通信作者:凌捷(j l i n g g

12、 d u t.e d u.c n)通信地址:5 1 0 0 0 6 广东省广州市广东工业大学计算机学院A d d r e s s:S c h o o l o f C o m p u t e r S c i e n c e a n d T e c h n o l o g y,G u a n g d o n g U n i v e r s i t y o f T e c h n o l o g y,G u a n g z h o u 5 1 0 0 0 6,G u a n g d o n g,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3

13、0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第8期2 0 2 3年8月 V o l.4 5,N o.8,A u g.2 0 2 3 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 8-1 4 1 6-0 81 引言互联网带给人们便捷的同时也面临着越来越多的安全挑战,各种安全攻击层出不穷。作为最有效的网络攻击平台之一,僵尸网络(B o t n e t)也在不断发展。各种新型攻击手段被攻击者提出,从原来以P C为主的单一化攻击到以具备运算能力的联网终端为目标的多元化攻击,僵尸网络已成为当前互联

14、网的主要威胁之一。僵尸网络控制者(B o t-m a s t e r)利用命令和控制C&C(C o mm a n d a n d C o n t r o l)服务器,与僵尸主机(B o t)建立信道,一对多地控制僵尸主机进行D D o S(D i s t r i b u t e d D e n i a l o f S e r v i c e)、垃圾邮件、恶意软件分发、虚拟货币挖掘等攻击。为应对I P封锁以及逆向分析的域名黑名单,攻击者提出域名生成算法D GA(D o m a i n G e n e r a t i o n A l g o r i t h m)用于

15、生成大量的恶意域名,并采用D o m a i n-F l u x1技术为僵尸网络不断更换域名,使得僵尸网络更难以被检测出来。识别D GA生成的域名可以有效切断僵尸网络与C&C服务器之间的通信,是遏制僵尸网络攻击的一个关键步骤。D GA恶意域名检测的研究对打击网络违法行为具有重要意义。早期的D GA域名检测方法利用人工提取特征进行域名识别。Y a d a v等人2通过对域名的1-g r a m和2-g r a m进行特征分析来检测域名。N g u y e n等人3通过统计域名中的元音比率、数字比率、重复字符比率等特征来构建集合,并结合

16、聚类算法进行检测。相对于人工提取特征耗费时间且误报率较高,基于深度学习的检测模型能更好地获取域名之间的特征关系。W o o d b r i d g e等人4首次在恶意域名检测中使用带有门控单元的长短期记忆L S TM(L o n g S h o r t-T e r m M e m o r y)模型,通过提取由域名字符串生成向量的时序特征,进行恶意域名与良性域名的二分类,并获得不错的效果。由于存在域名数据不平衡的问题,L S TM在多分类任务中的效果还有提升空间。T r a n等人5通过使用代价敏感的L S TM平衡不同家族的权重,提出了L S TM.M I算法,该算法结合二分类与多分类模型在一

17、定程度上解决了数据不平衡问题。X u等人6对基于字典的N-g r a m特征进行分析,提出了一种基于卷积神经网络C NN(C o n v o l u t i o n a l N e u r a l N e t w o r k)的域名检测模型。随机字符生成的D GA域名有着比良性域名更大的信息熵。而基于词典生成的D GA域名,如S u p p o b o x、M a t s n u,通过随机在词表中挑选几个单词组成域名,这种方式生成的恶意域名与良性域名的信息熵差距小,更难被域名检测算法识别。C u r t i n等人7通过平均N-g r a m与英文词典中重叠关系

18、,设计了一种评分机制,使基于词典生成的恶意域名具有更高的分数,并结合WHO I S特征信息进行预测。R e n等人8引入注意力机制,结合C NN与B i L-S TM(B i d i r e c t i o n a l L S TM),在多分类任务中该模型在基于字典生成的D GA域名上相较于其他模型具有更高的识别率。单一使用C NN和L S TM对于良性的缩略域名识别存在较高的误报率,张鑫等人9通过多头注意力机制计算域名字符间的依赖关系,并采用L S TM改进T r a n s f o r m e r中位置编码方式,构建的检测模型能有效区分出D GA域名和缩略域名,得到较低的误报率。本文提

19、出了基于T r a n s f o r m e r和多特征融合的D GA域名检测方法,使用T r a n s f o r m e r编码器、C NN及B i L S TM挖掘域名中的长距离上下文特征信息和浅层时空特征信息。实验结果表明,该方法可有效提高恶意域名分类的准确率。2 相关方法2.1 T r a n s f o r m e r E n c o d e r模型采用了注意力机制的T r a n s f o r m e r1 0在自然语言处理的机器翻译任务中取得了显著效果。T r a n s f o r m e r模型由多层编码器(E n c o d e r)和解码器(D e c

20、o d e r)组成。每个编码器中包含一个多头注意力机制(M u l t i-H e a d A t t e n t i o n M e c h a n i s m)和一个前馈神经网络(F e e d F o r w a r d N e t w o r k),在多头注意力机制以及前馈神经网络后面都连接一个残差与归一化模块。E n c o d e r结构如图1所示。F i g u r e 1 T r a n s f o r m e r E n c o d e r m o d e l图1 T r a n s f o r m e r E n c o d e r模型在提取域名的全局特征时,需要关注每个

21、字符7141余子丞等:基于T r a n s f o r m e r和多特征融合的D G A域名检测方法在域名中的位置,E n c o d e r通过引入位置编码器(P o s i t i o n a l E n c o d i n g)来保存域名字符在序列中的信息。位置编码器采用三角函数表示,计算公式如式(1)所示:P E(p o s,2i)=s i n(p o s/1 0 0 0 02i/d)P E(p o s,2i+1)=c o s(p o s/1 0 0 0 02i/d)(1)其中,p o s0,L 表示字符在域名中的位置,i0,d 表示词向量维度,d表示位置编码后结果的维度。经过位置

22、编码后的向量P E与输入层生成的词向量E相加作为编码器的输入X RLd,如式(2)所示:X=P E+E(2)多头注意力机制由h个自注意力组成。输入向量X进入多头注意力机制后,分别被传入到h个自注意力中。自注意力计算公式如式(3)所示:A t t e n t i o n(Q,K,V)=s o f t m a x(Q KTdk)V(3)其中,Q表示q u e r y矩阵;K表示k e y矩阵;V表示v a l u e矩阵;dk是缩放系数,用于防止输入到S o f t-m a x的值过大,其大小与词嵌入层的维度相同。在一个自注意力中,输入先经过线性变换得到Q、K和V 3个矩阵。矩阵Q与转置矩阵KT内

23、积后进行S o f t m a x计算,得到域名中一个字符与其他字符间的注意力分数;Q KT/dk是为了防止内积后矩阵过大;最后再与矩阵V相乘得到输出。多头注意力机制中的每个头都对应着一个输入向量X的子空间,并且能学习到不同的依赖关系。多头注意力机制将每个头对应的输出通过C o n c a t函数拼接在一起,经过线性变换得到输出。多头注意力计算公式如式(4)所示:h e a di=A t t e n t i o n(Q WQi,KWKi,V WVi)M u l t i H e a d(Q,K,V)=C o n c a t(h e a d1,h e a dh)WO(4)其中,WQi,WKi,WV

24、i Rddv,WO Rh dvd,dv=d/h。2.2 C N N模型卷积神经网络C NN被广泛地应用在图像领域与文本分类中。卷积神经网络能提取域名字符序列中的局部上下文特征。考虑到域名是一维样本,本文卷积层使用一维卷积神经网络。卷积计算通过卷积核在输入向量上平移并与对应窗口上的局部信息相乘,运算得到的特征向量经过非线性激活函数f()得到卷积后输出的特征,如式(5)所示:x1:n=x1,x2,xnci=f(wxi:i+k-1+b)FkC NN=c1,c2,cn-k+1 (5)其中,w表示卷积核,x1,x2,xn为输入向量,b是偏置项,k表示卷积核大小。使用的激活函数是常用的R e L U函数。

25、R e L U函数可以将卷积后向量中的负值变为0,以避免神经网络发生过拟合现象。2.3 C B AM模块卷积神经网络通常使用相同的方式对所有通道上的信息进行特征采集。然而在不同通道中,特征信息的重要程度并不相同。为更有效地提取出图像中重要的特征信息,提高网络精度,WOO等人1 1提出了一种卷积注意力模块C B AM(C o n v o-l u t i o n a l B l o c k A t t e n t i o n M o d u l e)。C B AM由一个通道注意力模块(C h a n n e l A t t e n t i o n M o d u l e)和一个空间注意力模块(S

26、 p a t i a l A t t e n t i o n M o d u l e)构成。输入的特征向量先在通道注意力模块分别进行平均池化操作和最大池化操作,并将得到的特征图送入多层感知机中处理;2个输出结果相加后通过S i g m o i d函数激活得到通道注意力特征,将通道注意力特征与输入特征向量相乘,作为空间注意力模块的输入。空间注意力模块同样对输入进行2种池化操作,将池化结果拼接后进行卷积,并将通过S i g m o i d函数激活得到的空间注意力特征与通道注意力模块输出相乘作为C B AM的结果。C B AM结构如图2所示。C B AM的设计使得输入与输出的形状保持一致,因此对采

27、用卷积神经网络的模型都具有适用性。2.4 B i L S TM模型循环神经网络R NN(R e c u r r e n t N e u r a l N e t-w o r k s)在时间序列上比卷积神经网络更具敏感性。R NN共享每个神经元中的参数,神经元中的输入都经过相同的处理,这使得R NN只能处理短期依赖,当文本序列长度增大时,多个神经元的计算会导致梯度消失或梯度爆炸。本文使用改进循环神经网络B i L S TM来获取卷积神经网络输出的长距离复杂依赖关系。B i L S TM的双向结构中,2个L S TM层可以捕获不同方向上的依赖关系。L S TM模型如图3所示。L S TM模型中,从

28、左到右引入了3个门结构,分别是遗忘门ft(F o r g e t G a t e)、输入门it(I n p u t G a t e)和输出门ot(O u t p u t G a t e)。这3个门分别决定长期记忆流中历史信息的保留程度、当前时刻输入的嵌入程度、短期记忆流的呈现程度。计算公8141C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(8)F i g u r e 2 S t r u c t u r e o f C B AM图2 C B AM结构F i g u r e 3 L S TM m o

29、 d e l图3 L S TM模型式如式(6)所示:ft=(Wfht-1,ct+bf)it=(Wiht-1,ct+bi)Ct=t a n h(Wiht-1,ct+bi)Ct=ft*Ct-1+it*Ctot=(Woht-1,ct+bo)ht=ot*t a n h(Ct)(6)F i g u r e 4 F l o w c h a r t o f t h e p r o p o s e d m e t h o d图4 本文所提方法的流程图其中,为逻辑函数S i g m o i d,Ct表示细胞状态,Wf,Wi和Wo分别表示连接遗忘门、输入门和输出门的权重矩阵。B i L S TM由前向和后向L

30、S TM构成。输入c=c1,c2,cn,前向L S TM将输入向量从c1到cn顺序输入,反向L S TM则从后往前按照cn到c1的顺序输入。2个方向的L S TM同时生成隐藏状态(h1,h2,hn)和(h1,h2,hn),通过结合2个隐藏状态得到B i L S TM模型的输出,其计算公式如式(7)所示:hi=c o n c a t e n a t e(hi,hi)(7)3 本文方法本文提出的基于T r a n s f o r m e r和多特征融合的D GA域名检测方法的流程图如图4所示。域名样本首先通过输入层进行预处理并完成词嵌入操作。词向量输入到特征提取层,先经

31、过E n-c o d e r,通过多头注意力机制学习词向量中有价值的信息。随后在C NN与B i L S TM结构中提取长距离上下文特征与浅层时空特征。输出层对提取的多特征融合后使用D r o p o u t增强模型的泛化能9141余子丞等:基于T r a n s f o r m e r和多特征融合的D G A域名检测方法力,经过2个全连接层后进行S o f t m a x完成最终的D GA域名检测。3.1 输入层输入层先对原始样本进行数据预处理,并将预处理后的域名进行词嵌入得到模型的输入。域名是一种由2 6个英文字母、数字09以及特殊字符“-”组成的字符串文本。在输入层中,首先对数据集中的

32、域名样本进行预处理,HT T P(S)协议中域名不区分大小写,例如:在浏览器中输入“M i-c R o S o f T.c o M”,同样可以访问微软主页,因此将域名中的大写字母转换成小写并过滤数据集中重复的域名。深度神经网络无法处理字符形式的域名数据,所以需要将域名向量化成数值形式。在域名数据处理中,常用的方法是将域名进行o n e-h o t编码,以转换成二进制的向量,但经过o n e-h o t编码后的域名会产生数据稀疏的问题。为避免o n e-h o t编码带来的稀疏问题,在处理数据时,本文先将每个域名拆分成单个字符,再使用根据域名字符生成的字典对每个字符进行编

33、码。不同的域名编码后长短不一,本文规定所有域名总长度为L,对于长度小于L的域名在后面填充字符0,长度大于L则截断,得到域名字符列表,如式(8)所示:D=S1,S2,Sn,Pn+1,PL(8)其中,S表示域名中的字符对应的数值,P表示填充字符0,L表示域名总长度。如图5所示,本文数据集中只有少部分的域名长度超过4 0,因此设置总长度L=4 0。最后将域名字符列表D输入到词嵌入层,生成字符词向量ERLd,词嵌入维度d设置为6 4。F i g u r e 5 D i s t r i b u t i o n c h a r t o f d o m a i n n a m e l e n g t h 图

34、5 域名长度分布图3.2 特征提取层本层使用单层E n c o d e r计算每个字符之间的关系,以重新分配字符权重。经过E n c o d e r后的输出向量作为后面特征提取的输入。现有方法通常直接使用C NN或L S TM模型对嵌入后的词向量进行特征提取。由于域名数据经过输入层处理后,对域名长度不足L的域名进行了填充,而填充的字符在域名中不具有语义,所以不能提供有价值的特征信息。为提取域名中更丰富的特征信息,以C NN和B i L S TM作为基本单元,提取域名的长距离上下文特征和浅层时空特征。3.2.1 长距离上下文特征卷积神经网络能有效地提取域名字符序列的局部上下文特征,但浅层的卷积神

35、经网络感受野小,不能提取域名字符的长距离依赖关系。因此,本文引入一种深层卷积网络D P C NN(D e e p P y r a-m i d C o n v o l u t i o n a l N e u r a l N e t w o r k)1 2来增大卷积神经网络的感受野。D P C NN核心是通过简单交替使用卷积层与下采样层形成的可重复金字塔块,金字塔块中采用了步长为2的下采样层以及2个卷积层,并使用残差连接将下采样后的输出向量与卷积后输出向量相加,其结构如图6所示。F i g u r e 6 P y r a m i d b l o c k s t r u c t u r a l图6

36、金字塔块结构并行的卷积能提供更丰富的特征信息。经过E n c o d e r处理后的域名向量先在卷积核大小分别为2和3,滤波器为1 2 8的卷积层进行卷积操作,在每次卷积操作后都进行R e L U激活并对特征向量进行填充,以保持形状一致。为获取更具代表性的域名空间特征,引入卷积注意力模块进行权重更新。由于域名是一维数据,需将第1层卷积输出特征升维成灰度图,通过C B AM模块获得权重矩阵,再将矩阵降维后和第2层卷积输出特征相加作为第3层卷积层输入。3层卷积后的特征向量在重复的金字塔块中进行特征提取。得益于步长为2的池化层,每次通过金字塔块后,计算量都会降为原来的一半。当计算量等于1时,得到长距

37、离上下文特征,如式(9)所示:Fkd e p t h=d1,d2,dn,Fkd e p t h Rn 1(9)其中,k表示卷积核大小,n表示滤波器个数。3.2.2 浅层时空特征本文使用C NN、B i L S TM和自注意机制提取域名中浅层时空特征。B i L S TM能很好地提取从0241C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(8)前到后及从后到前的隐藏状态。很多使用基于循环神经网络模型的D GA域名检测方法只使用隐藏层中最后一个状态作为域名特征。通过引入自注意力机制捕捉某一时刻隐藏状态

38、与其它时刻隐藏状态之间的关系,计算隐藏状态权重,使模型聚焦于关键特征。结合自注意机制的B i L S TM模型B i L S TM-AT T如图7所示。F i g u r e 7 B i L S TM-A T T m o d e l 图7 B i L S TM-A T T模型为了减少本文模型的计算复杂度,本节将提取长距离上下文特征中第2层卷积的特征向量F2C NN和F3C NN作为输入,在隐藏层大小为1 2 8的B i L-S TM中计算得到含有双向信息的隐藏状态,随后自注意力层对B i L S TM的输出进行加权计算,得到浅层时空特征Fks h a l l o w R2 5 6。3.3 输出

39、层特征提取层中提取的长距离上下文特征与浅层时空特征在输出层中融合成向量F,如式(1 0)所示:F=F2d e p t h,F3d e p t h,F2s h a l l o w,F3s h a l l o w(1 0)使用D r o p o u t层对融合的特征向量F按照一定概率进行丢弃,以提升模型的泛化能力。融合特征经过2层线性操作后,使用S o f t m a x函数得到输出概率y进行预测。当n=2时,表示进行二分类实验;当n=4 1时,表示进行多分类实验。4 实验与结果分析本文实验硬件环境为I n t e l C o r e i 5-1 0 4 0 0 F处理器,G P U为NV I D

40、 I A R T X 3 0 6 0 t i,3 2 G B内存。实验在W i n d o w s 1 0上使用P y t h o n 3.8语言和P y T o r c h 1.1 0.0框架进行神经网络模型搭建。4.1 数据集实验数据集包括良性域名数据集与恶意域名数据集,其中良性域名数据集来自A l e x a网站,恶意域名数据集来自于3 6 0 N e t L a b D GA,2个数据集皆为公开数据集。本文选取A l e x a数据集中排名前5万的域名数据。截至2 0 2 2年1 0月,3 6 0 N e t L a b D GA数据集中共包含了6 1个家族。有些家族样本数

41、量仅有个位数,不足以作为模型的训练数据,所以将样本数量少于1 0 0的家族数据去除,选取了共4 0个样本较为充足的家族进行训练。在样本过多的家族中,随机抽取域名数据,以减少样本数据过度不平衡带来的影响。最后,实验数据集共包含1 6 7 3 5 0个域名数据。二分类实验中良性域名标签为0,恶意域名标签为1。多分类任务将4 0个D GA家族与良性域名从14 0分配标签,并根据811的比例划分出训练集、验证集和测试集。4.2 评价指标本文使用准确率(A c c u r a c y)、精确率(P r e c i-s i o n)、召回率(R e c a l l)和F1分数(F1-s c o r e)作

42、为评价指标,其计算如式(1 1)所示:A c c u r a c y=T P+TNT P+F P+TN+FNP r e c i s i o n=T PT P+F PR e c a l l=T PT P+FNF1-s c o r e=2P r e c i s o nR e c a l lP r e c i s i o n+R e c a l (1 1)其中,T P(T r u e P o s i t i v e)表示正确预测为恶意域名的样本数;TN(T r u e N e g a t i v e)表示正确预测为良性域名的样本数;F P(F a l s e P o s i t i v e)表示错误

43、预测为恶意域名的样本数;FN(F a l s e N e g a-t i v e)表示错误预测为良性域名的样本数。本文的实验数据集中存在数据样本不平衡的问题,因此使用加权平均(W e i g h t A v e r a g e)方式计算指标。以准确率和F1分数作为主要评价标准,指标数值越高表示模型性能越优异。4.3 结果分析实验在同一数据集上,使用C NN1 3、L S TM4、L-P C A L1 4和SW-D R N1 54种方法作为本文方法的对比方法,分别进行二分类实验与多分类实验,以验证本文方法的有效性。实验超参数设置如下:批处理大小为2 5 6;D r

44、o p o u t丢失率为0.5;采用交叉熵损失函数;优化器采用A d a m,学习率为0.0 0 1,且每2 0轮次变为原来的一半;训练轮次为8 0。1241余子丞等:基于T r a n s f o r m e r和多特征融合的D G A域名检测方法4.3.1 E n c o d e r层数分析T r a n s f o r m e r中采用了6层E n c o d e r,但在域名检测任务中,多层E n c o d e r并不能提高域名检测的准确率。在本文提出的模型中使用3种层数的E n c o d e r进行了多分类实验,结果如表1所示。当层数为1时,取得了最高的准确率及F1分数。

45、随着层数增加,准确率和F1分数值越来越低且增加了训练参数量,故本文模型中编码器层数设为1。T a b l e 1 A b l a t i o n e x p e r i m e n t s o f t h e l a y e r n u m b e r o f E n c o d e r表1 编码器层数消融实验L a y e r n u m b e rA c c u r a c y/%F1-s c o r e/%19 4.8 99 4.7 129 4.6 39 4.2 939 4.4 19 4.1 14.3.2 二分类实验二分类实验结果如表2所示。实验结果表明,5种方法在二分类实验中都取得了较

46、好的效果;本文方法在二分类实验中的准确率达到了9 8.1 9%,F1分数达到了9 8.1 9%,均高于其它4种方法的,其中准确率分别提高了1.7 2%,1.1 0%,0.7 5%和0.3 4%。T a b l e 2 E x p e r i m e n t a l r e s u l t s o f b i n a r y c l a s s i f i c a t i o n表2 二分类实验结果M e t h o dA c c u r a c y/%F1-s c o r e/%C NN9 6.4 79 6.4 6L S TM9 7.0 99 7.1 0L-P C A L9 7.4 49 7.

47、4 3S W-D R N9 7.8 59 7.8 4O u r s9 8.1 99 8.1 94.3.3 多分类实验多分类实验结果如表3所示。从表3可以看出,本文方法在恶意域名多分类检测上优于其它方法。相较于其它4种方法,检测准确率分别提升了1.7 5%,1.2 9%,0.8 8%和0.8 3%。表4为5种方法在多分类实验中1 0种类别的F1分数值对比。T a b l e 3 E x p e r i m e n t a l r e s u l t s o f m u l t i-c l a s s i f i c a t i o n 表3 多分类实验结果M e t h o dA c c u r

48、 a c y/%F1-s c o r e/%C NN9 3.1 49 2.8 3L S TM9 3.6 09 3.1 4L-P C A L9 4.0 19 3.6 0S W-D R N9 4.0 79 3.8 4O u r s9 4.8 99 4.7 1 由表4可知,在a l e x a、q a d a r s、c h i n a d、s h i o t o b类别上,5种方法的F1分数值都高于9 2%。对于一些域名样本少的家族,如:n y m a i m和t e m p e d r e v e,5种方法的检测率都较低,L S TM和L-P C A L在t e m p e d r e v e上

49、甚至出现了无法识别的现象。L S TM模型在n y m a i m上的F1分数值仅为8.3 3%,而本文方法获得了6 3.4 6%的F1分数值。基于词典生成的恶意域名中,本文方法在m a t s n u和b i g v i k t o r上都取得最高的F1分数值,在s u p-p o b o x上略低于SW-D R N模型的。T a b l e 4 F1-s c o r e r e s u l t s f o r 1 0 c a t e g o r i e s o n m u l t i c l a s s i f i c a t i o n表4 多分类中

50、1 0个类别的F1分数结果%T y p eC NNL S TM L-P C A L S W-D R NO u r sa l e x a9 6.0 09 6.3 49 6.5 49 6.6 99 7.3 1n y m a i m3 2.4 38.3 31 6.6 75 0.0 06 3.4 6t e m p e d r e v e2 6.0 90.0 00.0 02 8.6 93 0.7 7q a d a r s9 4.5 89 6.4 89 8.9 99 9.5 09 9.1 0c h i n a d9 4.8 59 8.9 99 8.9 99 8.9 91 0 0.0 0v a w t r

展开阅读全文