收藏 分享(赏)

基于知识图谱推理的网络攻击识别方法.pdf

上传人:哎呦****中 文档编号:3120308 上传时间:2024-01-21 格式:PDF 页数:7 大小:4.56MB
下载 相关 举报
基于知识图谱推理的网络攻击识别方法.pdf_第1页
第1页 / 共7页
基于知识图谱推理的网络攻击识别方法.pdf_第2页
第2页 / 共7页
基于知识图谱推理的网络攻击识别方法.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023年8 月Aug.2023Journal of InformationEngineeringUniversityVol.24 No.4第2 4卷第4期信息工程大学学报D0I:10.3969/j.issn.1671-0673.2023.04.015基于知识图谱推理的网络攻击识别方法张雅雯,张玉臣,吴越,李程(信息工程大学,河南郑州450 0 0 1)摘要:针对在海量网络数据中识别网络攻击的问题,运用知识图谱推理能力,提出了基于知识图谱推理的网络攻击识别方法。首先利用Turtle文件解析算法将ttl格式文件解析为能够应用于知识嵌入模型的形式;其次,构建系统状态本体,为不同的系统状态实例提供统

2、一的上层描述,提高利用网络安全知识图谱分析系统状态的可行性;最后,利用基于TransH模型得到图模型中的各类实例数据的嵌入表示,并从候选攻击模式中推理潜在的网络攻击行为。通过实验进一步验证了所提方法的可行性和有效性。关键词:攻击识别;知识图谱;本体构建;知识嵌入;知识推理中图分类号:TN915.08文献标识码:A文章编号:16 7 1-0 6 7 3(2 0 2 3)0 4-0 49 2-0 7Cyber Attack Identification Method Based on Knowledge Graph ReasoningZHANG Yawen,ZHANG Yuchen,WU Yue,

3、LI Cheng(Information Engineering University,Zhengzhou 450001,China)Abstract:To identify cyber attacks in massive network data,a cyber attack identification methodbased on knowledge graph reasoning is proposed by using the ability of knowledge graph reasoning.First,the TTL file is parsed into a form

4、that can be applied to the knowledge embedding model usingTurtle file parsing algorithm.Second,the system state ontology is constructed to provide a unifiedupper level description for different system state instances,which improves the feasibility of usingcyber security knowledge graph to analyze sy

5、stem state.Finally,the embedded representation of eachtype of instance data in the graph model is obtained based on the TransH model,and the potentialcyber attack behaviors are inferred from the candidate attack patterns.The feasibility and effective-ness of the proposed method are further verified

6、by experiments.Key words:attack identification;knowledge graph;ontology construction;knowledge embedding;knowledge reasoning0引言随着信息技术的不断发展,网络中流通的数据骤增。大量穴余信息影响攻击识别的效率和准确性,给网络攻击识别任务带来巨大挑战。如何将海量数据整合为可读性高的信息,成为网络攻击识别领域面临的一大难题传统基于异常的方法2 通常构建正常行为模型来识别攻击行为,这种方法仍会产生大量误报,需要依靠专家经验,从大量误报中识别隐蔽的网络威胁,且倘若攻击者利用合法行为

7、来躲避检测,将导致模型难以区分攻击行为和良性行为,因此攻击识别的效率和准确性难以保证;基于特征匹配的方法3 依赖于预定义的攻击模板,攻击者可以通过改变签名或开发新型攻击模式来规避检测,因此,这类方法只能识别特定的已知攻击,无法避免大量收稿日期:2 0 2 2-0 7-2 7;修回日期:2 0 2 2-0 8-2 2作者简介:张雅雯(19 9 6-),女,硕士生,主要研究方向为网络安全管理、网络防御、入侵检测张雅雯,等知识图谱推理的网络攻击识别方法第4期493的漏报。不少学者提出利用图结构解决网络攻击识别问题。文献4 提出一种基于自编码器的无监督学习方法,将正常网络事件日志作为输入,构建安全对象

8、图作为可疑行为监测的匹配模板实现异常识别,但该方法将网络攻击识别问题转化为二分类问题,无法确定准确的攻击行为。利用知识图谱建模网络攻击可以克服难以识别准确攻击行为的局限。文献5 将网络状态与网络热点描述集成构建知识图谱,通过知识图谱实体定位,查询类似事件并计算威胁等级,一定程度上提高了威胁态势检测的准确性,但该方法只是将知识图谱作为了一种便于查询的数据库,对知识图谱语义分析和知识推理能力的运用不够深人。文献6 提出了一种方法基于不精确图模型匹配的方法,度量网络威胁情报查询图与审计日志记录溯源图之间的相似度,实现攻击定位。但是该方法仅能实现大规模图结构中对单一结构的匹配,应用到常规的攻击任务时分

9、析效率难以保证。为提高图数据的处理效率,知识嵌人技术得到广泛应用,通过将实体的语义信息表示为稠密低维的向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识图谱的推理及应用具有重要的意义,也为利用知识图谱进行网络攻击识别提供了一个新的思路。1基于知识图谱推理的网络攻击识别方法本文提出一种基于知识图谱推理的网络攻击识别方法,首先对现存的网络安全知识图谱进行解析去重,确保获得实体、关系和三元组的唯一性,便于将其应用于知识嵌人模型中;其次,依据网络安全知识图谱构建系统状态本体,并收集具体的网络系统配置及告警信息构造系统状态图;最后,利用浅层知识嵌人模型在网络安全知识图谱和系统状态图中

10、嵌人实体和关系,据此将网络攻击识别问题转化为低维向量空间中特定头实体和关系下的尾实体推理问题,提高攻击识别效率。具体工作流程如图1所示。系统状态图系统拓扑CAPECI基于TransH的知CAPEC2识图谱推理方法CAPEC3CAPEC4攻击模式识别网络安全知识图谱图1基于知识图谱补全的攻击模式识别方法流程图1.1数据预处理网络安全知识图谱是知识图谱在网络安全领域的实际应用,典型的网络安全领域知识图谱包括CyGraph7、SEPSES-K C8 、CSK B9 等。SEPSES-KG是一个以自下向上的方式构建的开源网络安全知识图谱,以Turtle格式存储具体的三元组实例,填补了之前构建网络安全知

11、识图谱缺乏实例数据的短板。但是,以Turtle格式存储的三元组数据难以直接应用到基于翻译的知识嵌入模型中。因此,本文利用pythonrdflib工具包定义Turtle文件解析算法,将Turtle文件解析为3个不同的txt文本文件,分别存储实体集合、关系集合和三元组集合,其中三元组集合中数据按照(头实体、尾实体、关系)格式存储。由于Turtle文件每行表示一个事实三元组,解析得到的实体和关系集合中存在重复情况,为了确保数据的唯一性,需要进一步对数据去重,使之成为便于嵌人学习的形式,具体算法如算法1所示。20233年494信息工程大学学报算法1Turtle文件解析算法输人:待处理的Turtle文件

12、输出:seto表示实体集合,setl表示关系集合,set2表示三元组集合1.DEFget_info(s:s t r):#读取txt字段信息2.s=s.replace(llrlIn,s)3.s=ss.replace(IIn,s)4.s=.join(s.splitlines()#分段字段信息5.split=s.split(#)#如果字段是偶数则存人到复数组坐标6.1IF len(split)=2:7.return split-18.IF len(s_split)1:9.return s_split-110.returns11.info_set=set()#循环便利数组字段,区分三元组信息12.FO

13、R stmt in tqdm(g):13.head=stmto14.relation=stmt 1 15.tail=stmt 2#头数组字段提取16.head=get_info(str(head)17.relation=get_info(str(relation)18.tail=get_info(str(tail)19.info_set.add(20.(head,relation,f(head)t;tail/It relation)21.end利用Turtle文件解析算法处理后的数据以相同的格式输出至指定的位置,一定程度上解决了Turtle文件存储的数据难以直接应用到知识嵌入模型中的问题,不仅

14、提高了被选网络安全知识图谱的可用性,还提高了TransH模型学习的质量。1.2系统状态图本体构建为了实现系统状态与网络安全知识图谱融合分析,识别系统中可能存在的攻击行为,本文采取自上向下的方法构建系统状态图。首先,对照网络安全知识图谱本体,选择合适的术语定义系统状态图的类别及相关属性,确保网络安全知识图谱和系统配置图之间实体和关系语义的一致性,提高利用网络安全知识图谱分析系统状态的可行性。如图2所示,state类表示整个网络系统状态,相当于系统配置图的根节点。收集当前系统环境的整体配置信息,主要收集包括硬件和软件在内的静态信息。官方通用平台枚举数据库(Common PlatformEnumer

15、ation,CPE)收集当前已知的软件和硬件规范,并通过同一的资源描述符唯一地表示,是表示特定操作系统或应用程序软件的有利知识库。系统状态又可以具体划分为3种子类:os类、Service类和漏洞类。其中os类具体表示网络系统中设备安装的操作系统,比如Windows、Li n u x 等;Service类主要表示设备安装的软件程序,比如Chromium、Firefox等;漏洞类表示利用漏洞扫描工具扫描网络存在漏洞,并以通用漏洞披露数据库(CommonVulnerabilities&Exposures,CVE)中的唯一标识标注漏洞,每个漏洞又都有一个通用缺陷枚举数据库(Common Weaknes

16、s Enumeration,CWE)的引用,因此利用CVE和CWE标识描述网络存在漏洞情况。为了融合系统告警信息,设置Snortrule类具体表示Snort人侵检测系统生成的告警数据,实时检测并反映网络系统潜在威胁和受攻击情况。由于部分Snort告警信息中包含CVE相关信息关联,因此可以将Snortrule类、CVE类和CWE类依次连接,揭示当前系统的漏洞被利用的情况。由于本文方法主要思想是根据系统状态在网络安全知识图谱中的攻击模式库(CommonAttackPattern Enumeration and Classification,CAPEC)中进行匹配,由于每个攻击模式都有与之对应的CW

17、E分类,补充实体CWE类,并且在CVE类与CWE类之间创建关系属性hasCWE,在state类与CWE类之间创建关系属性hasRelatedWeakness,以CWE类为桥梁在被利用漏洞与系统状态之间建立链接,提高了利用网络安全知识图谱进行攻击识别的可行性,使系统状态向攻击模式的推理成为可能。构造的系统配置图本体如图2 所示。根据系统配置图本体,将现实系统状态具体实例以资源描述框架(Resource Description Framework,RDF)构建具体系统状态图实例,利用Neo4j图表数据库将数据以资源描述框架语言属性图的形式存储,并利用Cypher查询语言实现数据的查询、删除和更新。

18、1.3网络攻击识别过程文献10 指出,漏洞攻击的告警数据在语义上具有一定的相似性。因此,可以基于语义相似性,依据告警数据上下文信息,对相关实体、关系进行向量化表示,再通过计算向量相似度实现网络攻击推理。基于上述分析,本文提出的基于知识图谱推理的网络攻击识别方法的本质是以系统状态和张雅雯,等于知识图谱推理的网络攻击识别方法第4期495OShasProducthasCPESnortstate-hasProduct-Service-hasCPE-CVE-hasCVEReference-rulehasRelatedWeaknesshasCWECWE图2系统状态图本体现有网络安全知识为基础进行尾实体预测

19、,具体可分为知识嵌入阶段和攻击识别阶段。知识嵌人阶段中,Trans系列是典型的基于浅层知识嵌人的模型,其主要思想是将寻找有效三元组的过程看作实体经过关系翻译的过程,将事实的合理性衡量为经关系翻译后的两个实体间的距离,典型模型有TransE1、T r a n s H 12 、T r a n s R 13 等。其中,TransH模型原理如图3所示。dh图3TransH模型原理TransH在TransE模型的基础上,引人超平面来代替原有的关系向量,着重解决图中关系具有自反性、一对多、多对一和多对多等问题。由于本文所利用和构建的知识图谱均存在一对多、多对多等不对称性关系,且由于数据量大,需要在模型容量

20、和效率之间找到平衡,因此选择TransH模型进行图数据嵌入表示,确保实体和关系嵌人表示任务中表现出较好的性能。首先,分别对系统状态图和网络安全知识图谱中的实体和关系进行嵌人学习。利用TransH模型将每个关系抽象成一个法向量为w,的超平面,增强同一关系下不同实体的语义的差异性,且为简化计算,约束w,为单位法向量,即Ilw,Il,=1。随后,将图中给定事实三元组(h,r,t)中的头实体和尾实体投影到超平面上,分别记为h和h+,计算过程如式(1)(2)所示:hi=h-wThw,(1)ti=t-w,tw,(2)依据给定三元组(h,r,t)成立则认为超平面上h1和ti间的平移向量d,极小;给定三元组(

21、h,r,t)不成立则d,趋近于无穷大的原则,通过软约束定义损失函数,利用梯度下降法最小化损失函数训练模型,损失函数如式(3)所示:L=f.(h,t)+-f,(h,t)+(h,T,t)eA(h,r,t)eATd.)2.lell2-1.+Z.2d.IeEEeEE(3)式中:看作max(0,x);表示正例三元组集合;4表示负例三元组集合;为margin值用于区分正例与负例;C表示软约束权重的超参数。利用随机梯度下降法最小化损失函数训练模型,得到网络安全知识图谱和系统状态图中实体和关系的嵌人表示。由于网络安全知识图谱数据量巨大,为提高训练效率,本文只对网络知识图谱中CAPEC类、CWE类、CVE类实体

22、、Snortrule类及相关关系进行嵌人表示。网络攻击识别阶段,目的在于根据系统状态情况推断可能存在的攻击模式。由于CAPEC数据库中的每种攻击模式均有与之关联的漏洞类别,且系统状态图中state节点经嵌人学习后包含了漏洞利用情况在内的上下文信息。因此,该阶段将知识嵌人阶段得到的系统状态图实体集中的state节点的向量表示s,网络安全知识图谱关系集中的hasCAPEC关系节点的向量表示h,以及CAPEC类中所有实例数据的向量表示C,提取20233年496信息工程大学学报出来,构建新的三元组(s,h,C),其中,C,表示任意网络安全知识图谱中存储的第i个攻击模式,将CAPEC中所有的攻击模式实例

23、作为候选实体,不断替换尾实体,依次计算所有候选实体的得分函数如式(4)所示:Secore=-Il I+d hacCAPEc-Ci1 Il2(4)确定相关性阈值,得分函数大于值的候选攻击模式被判定为系统中存在的攻击模式,依据得分情况,展示得分函数排名前5的攻击模式,得分最高的即为系统中存在的该攻击行为的可能性最大。为方便理解,以snort告警Sid-1-15903为例进一步阐述本文方法的有效性。该告警表示系统存在利用软件漏洞执行的恶意代码,与之相关的漏洞包括CVE-2019-10149、CVE-2 0 19-16 8 8 5,且分别对应CWE-20、CW E-7 8 和CWE-94。针对上述已知

24、信息,文献8 利用Sparql查询语言,在构建好的知识图谱中搜索已知的告警信息,并以列表形式反馈相关的源IP、目标IP、CVE、CPE等数据,供用户进一步分析得出可能存在的攻击模式。而本文方法则是将上述信息作为先验知识更新至系统状态图内,经知识嵌人阶段,得到包含告警及漏洞上下文信息的新state节点嵌人表示,将更新后的state节点代人式(4),替换候选攻击模式,计算得分函数实现攻击模式识别,得分最高的攻击模式为CAPEC-242,实现攻击模式的自动分析。综上所述,本文方法在文献8 的基础上,引人了知识图谱推理方法,即能够在有效减少人工分析成本,又提高了分析的准确性。2实验与结果分析为了验证方

25、法的可行性和有效性,以AIT日志数据集14 生成的场景作为实验背景。该数据集包含来自网络多个系统相关的6 天真实日志数据,此外还提供了相关配置信息,其网络拓扑结构如图4所示。网络中包括Web服务器、人侵监测系统以及用户主机,深色用户表示攻击者,浅色用户表示正常用户。其中,IDS安装Snort人侵监测系统,Web服务器安装DebianStretch9.11.6操作系统和Ahpache2、Ex i m 4.8 9 等服务,用户计算机安装UbuntuBionic操作系统和Chro-mium、Fi r e f o x 应用程序。每个攻击者分别对各自接入的Web服务器发起攻击。攻击者首先利用nmap和n

26、ikto工具对系统端口和漏洞进行扫描,收集系统配置信息;然后使用smtp-user-enum工具进行HordeWebmail账户枚举,并利用hydra工具暴力破解其中一个账户常用密码;随后通过漏洞上传webshell程序并远程启用命令;同时攻击者意识到安装了易受攻击的Exim软件包并利用相关漏洞获取root权限。web服务器1攻击者攻击者web服务器2IDSweb服务器3攻击者web服务器4攻击者图4实验环境网络拓扑当系统被入侵时,Snort入侵监测系统实时监测并发出告警,通过告警信息反馈相关漏洞信息,与系统配置信息融合,根据本文构建的系统状态图本体构建系统状态图并将结果存储在图数据库Neo4

27、j中,系统状态图如图5所示通过定性分析和定量分析两种方法验证基于知识图谱推理的网络攻击识别方法的有效性。首先,将文本所提方法与文献5 与文献8 所提的方法进行定性分析。根据本文提出的方法,以“state”为头实体,以“hasCAPEC”为关系,计算每个攻击模式在该前提下的得分函数并以倒序排序,列举排名前5的实体结果如表1所示。表1工攻击模式匹配结果序号ID名称1CAPEC-242Code InjectionCommand Line Execution2CAPEC-108through SQL InjectionManipulatingWeb Input to3CAPEC-76File Syst

28、em Calls4CAPEC-112BruteForce5CAPEC-158SniffingNetwork Traffic第4期497张雅雯,等知识图谱推理的网络攻击识别方法DebianUbuntuStretchBionic9.11.6has ProducthasProductCVEHordeSid-1-hasCVEReference-2019-hasCVEReferenceCWE-22Webmail562569895MariaDBhasCVEReferencePHP7hasRelatedWeaknesshasProductCWE-22hasProducthasProducthasProduc

29、tFirefoxhasRelatedWeaknesshasProductCVEChromiu2019-hasCWECWE-94-hasProductService-hasProduct-hasRelatedWeakness-statemhasCVEReference16885Sid-1-hasProducthasProduct15903hasRelatedWeaknesshasCVEReferenceApache2hasProducthasProductClamAVCVE-hasRelatedW eakness-hasCWE-CWE-202019-16885OkayClaExim4.89has

30、CWEmCWE-78图5系统状态图对比可得,文献5 和文献11 仅将知识图谱作为便于查询的知识数据库,而本文所述方法则运用了知识图谱的推理能力,根据漏洞等系统状态信息自动推理出系统中可能存在的攻击行为,展示的分析结果更加简洁,可读性更高。其次,将本文方法与文献14 进行定量分析。根据该实验场景对比量化分析实验组和对照组的攻击识别性能,利用控制变量法展开对照实验,实验组采用本文提出的基于知识图谱推理的网络攻击识别方法。对照组采用文献15 所述方法进行攻击识别,探讨采用基于知识图谱推理的网络攻击识别方法的效果差异。实际实验中,结束时以量表形式对识别成效进行评定,由专业技术人员进行评估。如表2 所示

31、,识别准确度打分中,实验组在采用基于知识图谱推理的网络攻击识别方法后识别准确度打分集中于9 0 10 0 分,对照组集中于7 0 79分,差异显著。实验组和对照组识别速度都集中于7 0 7 9 分,差异并不特别明显,但也在一定程度上得到了提高,且实验组有高分速度。识别召回率实验组打分比重整体上移,可见在采用基于知识图谱推理的网络攻击识别方法后的识别能力更好。表2对照分析识别准确度识别速度识别召回率考核类型实验对照实验对照实验对照69分及以下016.9321.7435.38041.567079分7.2556.9250.7247.6911.2733.728089分39.1320.0020.2916

32、.9238.4418.2190100分55.076.157.25050.296.51综上所述,基于知识图谱推理的网络攻击识别方法将知识图谱推理运用到攻击识别领域,一定程度上填补了知识图谱在此领域运用上的空白,且识别能力较利用属性图进行攻击行为分析更强。且得到相关攻击模板后,仍可以利用网络安全知识图谱快速查询与之相关的技术、防御措施、攻击者等信息,进一步验证了将网络安全知识图谱用于攻击识别的可行性和有效性。3结束语本文对现有的网络攻击识别方法进行分析比较,并结合当前网络数据爆炸的特点,提出了基于知识图谱推理的网络攻击识别方法。首先,定义Turtle文件解析算法对现有的网络安全领域知识图谱进行解析

33、,解决了Turtle文件难以应用到知识嵌人模型中的局限;其次,对照网络安全知识图谱本体构建系统状态图本体,提高了二者的融合分析能力;最后,利用浅层知识嵌人模型TransH将实体和关系嵌人到图中并完成尾实体推理补全任务,提高了图数据的处理效率,实现了网络攻击识别。通过实验,进一步验证了所提方法的可行性和有效性,该方法提高了自动化识别网络攻击的能力,促进了知识图谱在网络安全领域的应用。参考文献:1马瑞新,李泽阳,陈志奎,等.知识图谱推理研究综述(编辑:刘彦茹)2023年程大学学报信息498J.计算机科学,2 0 2 2,49(S1):7 4-8 5.2 AN J,CHO S.Variational

34、 autoencoder based anomaly de-tection using Reconstruction probability J.Special Lec-ture on IE,2015,2(1):1-18.3 胡海峰,周改云,刘云霞.基于过往入侵特征分析潜在网络威胁检测仿真J.计算机仿真,2 0 16,33(2):32 2-325.4 LEICHTNAM L,TOTEL E,PRIGENT N,et al.Sec2graph:network attack detection based on novelty detection ongraph structured data C

35、 /Detection of Intrusions andMalware,and Vulnerability Assessment.Cham:Springer,2020:238-258.5陈珺娴.基于知识图谱的网络攻击态势检测系统设计与实现D.北京:北京邮电大学,2 0 2 0.6 MILAJERDI S M,ESHETE B,GJOMEMO R,et al.POI-ROT:aligning attack behavior with kernel audit recordsfor cyber threat hunting C/Proceedings of the 2019ACM SIGSAC

36、conference on computer and communica-tions security.London,United Kingdom:Association forComputing Machinery,2019:1795-1812.7 NOEL S,HARLEY E,TAM K H,et al.Chapter 4-Cy-Graph:graph-based analytics and visualization for cy-bersecurityJ.Handbook of Statistics,2016,35:117-167.8 KIESLING E,EKELHART A,KU

37、RNIAWAN K,et al.TheSEPSES knowledge graph:an integrated resource for cy-bersecurity C/The Semantic Web-ISWC 2019.Cham:Springer,2019:198-214.9 LI K,ZHOU H C,TU Z,et al.CSKB:a cyber securityknowledge base based on knowledge graph C /Secu-rity and Privacy in Digital Economy.Singapore:Spring-er,2020:100

38、-113.10潘亚峰,朱俊虎,周天阳.APT攻击场景重构方法综述J.信息工程大学学报,2 0 2 1,2 2(1):55-6 0,8 0.11 BORDES A,USUNIER N,GARCIA-DURAN A,et al.Translating embeddings for modeling multi-relationaldata C/Proceedings of the 26th International Con-ference on Neural Information Processing Systems.Lake Tahoe,Nevada:Curran Associates In

39、c.,2013:2787-2795.12 WANG Z,ZHANG J W,FENG J L,et al.Knowledgegraph embedding by translating on hyperplanes C/Proceedings of the Twenty-Eighth AAAI Conferenceon Artificial Intelligence.Quebec City,Canada:AAAIPress,2014:1112-1119.13 LIN Y K,LIU Z Y,SUN M S,et al.Learning entity andrelation embeddings

40、 for knowledge graph completion C/Proceedings of the Twenty-Ninth AAAI Conference onArtificial Intelligence.Austin,Texas:AAAI Press,2015:2181-2187.14LANDAUER M,SKOPIK F,WURZENBERGER M,et al.Have it your way:generating customized log data-sets with a model-driven simulation testbed J.IEEETransactions on Reliability,2021,70(1):402-415.15薛见新,王星凯,张润滋,等.基于异构属性图的自动化攻击行为语义识别方法J.信息安全研究,2 0 2 2,8(3):292-300.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2