1、h t t p:/ww w.j s j k x.c o mD O I:1 0.1 1 8 9 6/j s j k x.2 2 0 3 0 0 0 4 0到稿日期:2 0 2 2-0 3-0 4 返修日期:2 0 2 2-0 9-2 8基金项目:国家自然科学基金联合重点项目(U 1 9 3 6 2 1 5);浙江省重点研发项目(2 0 2 1 C 0 1 1 1 7);国家自然科学基金青年项目(6 2 0 0 2 3 2 4);浙江省自然科学基 金 重 大 项 目(L D 2 2 F 0 2 0 0 0 2);浙 江 省 自 然 科 学 基 金 探 索 项 目(L Q 2 1 F 0 2 0 0
2、 1 6);浙 江 省“万 人 计 划”科 技 创 新 领 军 人 才 项 目(2 0 2 0 R 5 2 0 1 1)T h i sw o r kw a ss u p p o r t e db yt h eJ o i n tF u n d so ft h eN a t i o n a lN a t u r a lS c i e n c eF o u n d a t i o no fC h i n a(U 1 9 3 6 2 1 5),Z h e j i a n gK e yR&DP r o j e c t s(2 0 2 1 C 0 1 1 1 7),N a t i o n a lN a t
3、 u r a lS c i e n c eF o u n d a t i o no fC h i n a(6 2 0 0 2 3 2 4),M a j o rP r o g r a mo fN a t u r a lS c i e n c eF o u n d a t i o no fZ h e j i a n gP r o v i n c e(L D 2 2 F 0 2 0 0 0 2),Z h e j i a n gP r o v i n c i a lN a t u r a lS c i e n c eF o u n d a t i o no fC h i n a(L Q 2 1 F 0
4、 2 0 0 1 6)a n d“T e nT h o u s a n dP e o p l eP r o g r a m”T e c h n o l o g yI n-n o v a t i o nL e a d i n gT a l e n tP r o j e c t i nZ h e j i a n gP r o v i n c e(2 0 2 0 R 5 2 0 1 1).通信作者:吕明琪(l v m i n g q i z j u t.e d u.c n)基于异构溯源图学习的A P T攻击检测方法董程昱吕明琪陈铁明朱添田浙江工业大学计算机科学与技术学院 杭州3 1 0 0 2 3(
5、d c y z j u t f o x m a i l.c o m)摘 要 A P T攻击(A d v a n c e dP e r s i s t e n tT h r e a t),指黑客组织对目标信息系统进行的高级持续性的网络攻击。A P T攻击的主要特点是持续时间长和综合运用多种攻击技术,这使得传统的入侵检测方法难以有效地对其进行检测。现有大多数A P T攻击检测系统都是在整理各类领域知识(如A T T&C K网络攻防知识库)的基础上通过手动设计检测规则来实现的。然而,这种方式智能化水平低,扩展性差,且难以检测未知A P T攻击。为此,通过操作系统内核日志来监测系统行为,在此基础上提出
6、了一种基于图神经网络技术的智能A P T攻击检测方法。首先,为捕捉A P T攻击多样化攻击技术中的上下文关联,将操作系统内核日志中包含的系统实体(如进程、文件、套接字)及其关系建模成一个溯源图(P r o v e n a n c eG r a p h),并采用异构图学习算法将每个系统实体表征成一个语义向量。然后,为解决A P T攻击长期行为造成的图规模爆炸问题,提出了一种从大规模异构图中进行子图采样的方法,在此基础上基于图卷积算法对其中的关键系统实体进行分类。最后,基于两个真实的A P T攻击数据集进行了一系列的实验。实验结果表明,提出的A P T攻击检测方法的综合性能优于其他基于学习的检测模
7、型以及最先进的基于规则的A P T攻击检测系统。关键词:A P T攻击检测;图神经网络;溯源图;主机安全;数据驱动安全中图法分类号 T P 3 9 3 H e t e r o g e n e o u sP r o v e n a n c eG r a p hL e a r n i n gM o d e lB a s e dA P TD e t e c t i o nD ONGC h e n g y u,L YU M i n g q i,CHE NT i e m i n ga n dZ HUT i a n t i a nC o l l e g eo fC o m p u t e rS c i e
8、 n c e&T e c h n o l o g y,Z h e j i a n gU n i v e r s i t yo fT e c h n o l o g y,H a n g z h o u3 1 0 0 2 3,C h i n a A b s t r a c t A P T(a d v a n c e dp e r s i s t e n t t h r e a t)a r ea d v a n c e dp e r s i s t e n t c y b e r-a t t a c kb yh a c k e ro r g a n i z a t i o n st ob r e a
9、 c ht h et a r g e t i n-f o r m a t i o ns y s t e m.U s u a l l y,t h eA P T s a r e c h a r a c t e r i z e db y l o n gd u r a t i o na n dm u l t i p l ea t t a c kt e c h n i q u e s,m a k i n g t h e t r a d i t i o n a l i n-t r u s i o nd e t e c t i o nm e t h o d s i n e f f e c t i v e.M
10、 o s t e x i s t i n gA P Td e t e c t i o ns y s t e m s a r e i m p l e m e n t e db a s e do nm a n u a l l yd e s i g n e dr u l e sb yr e f e r r i n gt od o m a i nk n o w l e d g e(e.g.,A T T&C K).H o w e v e r,t h i sw a y l a c k so f i n t e l l i g e n c e,g e n e r a l i z a t i o na b i
11、 l i t y,a n d i sd i f f i c u l t t od e t e c tu n k n o w nA P Ta t t a c k s.A i m i n ga t t h i s l i m i t a t i o n,t h i sp a p e rp r o p o s e s a n i n t e l l i g e n tA P Td e t e c t i o nm e t h o db a s e do np r o v e-n a n c ed a t aa n dg r a p hn e u r a ln e t w o r k s.T oc a
12、 p t u r et h er i c hc o n t e x t i n f o r m a t i o ni nt h ed i v e r s i f i e da t t a c kt e c h n i q u e so fA P T s,i tf i r s t l ym o d e l s t h e s y s t e me n t i t i e s(e.g.,p r o c e s s,f i l e,s o c k e t)i n t h ep r o v e n a n c ed a t a i n t oap r o v e n a n c eg r a p h,
13、a n d l e a r n s a s e m a n t i cv e c t o rr e p r e s e n t a t i o nf o r e a c hs y s t e me n t i t yb yh e t e r o g e n e o u sg r a p h l e a r n i n gm o d e l.T h e n,t o s o l v e t h ep r o b l e mo f g r a p hs c a l e e x-p l o s i o nc a u s e db yt h e l o n g-t e r mb e h a v i o
14、r so fA P T s,A P Td e t e c t i o ni sp e r f o r m e db ys a m p l i n ga l o c a lg r a p hf r o mt h e l a r g es c a l eh e t e r o g e n e o u sg r a p h,a n dc l a s s i f y i n gt h ek e ys y s t e me n t i t i e sa sm a l i c i o u so rb e n i g nb yg r a p hc o n v o l u t i o nn e t w o r
15、 k s.As e r i e so fe x p e r i m e n t sa r ec o n d u c t e do nt w od a t a s e t sw i t hr e a lA P Ta t t a c k s.E x p e r i m e n t r e s u l t ss h o wt h a t t h ec o m p r e h e n s i v ep e r f o r m a n c eo f t h ep r o p o s e dm e t h o do u t p e r f o r m so t h e r l e a r n i n gb
16、 a s e dd e t e c t i o nm o d e l s,a sw e l l a s t h es t a t e-o f-t h e-a r t r u l eb a s e dA P Td e t e c-t i o ns y s t e m s.K e y w o r d s A P Td e t e c t i o n,G r a p hn e u r a l n e t w o r k,P r o v e n a n c eg r a p h,H o s t e d-b a s e ds e c u r i t y,D a t a-d r i v e ns e c u r i t y 1 引言A P T攻击指利用先进的攻击手段对特定目标进行长期、持续性网络攻击的攻击形式,是威胁国家网络空间安全的最大隐患之一。A P T攻击最主要的特点就是采用多样的攻击技术,通过多 个步 骤 的攻 防 对 抗,逐 步 达 到 网 络 攻 击 的 目的1。而传统的网络入侵检测技术(如恶意流量检测、恶意代码检测、日志异常检测)2-3往往只能检测“单点”的网络攻击行为,无法感知A