1、2023 08 10计算机应用,Journal of Computer Applications2023,43(8):2471-2476ISSN 10019081CODEN JYIIDUhttp:/基于改进Inception-ResNet的加密流量分类方法郭祥,姜文刚*,王宇航(江苏科技大学 自动化学院,江苏 镇江 212100)(通信作者电子邮箱)摘要:基于深度学习的加密流量分类方法中的分类模型大多是深层直筒型结构,存在梯度消失的问题,且网络层数的增加会使模型结构和计算的复杂度显著上升。为此,提出了一种基于改进Inception-ResNet的加密流量分类方法。该方法通过改进Inceptio
2、n模块,并将该模块作为残差块以残差结构连接的方式嵌入卷积神经网络来构建分类模型;此外,改进分类模型的损失函数,并使用VPN-nonVPN数据集来验证所提方法的有效性。实验结果表明,所提方法在2种场景的分类实验中的精确率、召回率、F1值分别达到了94.21%、92.53%和93.31%以上。在与其他方法的对比实验中,以分类难度最大的12分类实验为例,所提方法比C4.5决策树算法和1D-CNN(1 Dimensional-Convolutional Neural Network)在精确率上分别高出13.91和9.50个百分点,在召回率上分别高出14.87和1.59个百分点。与CAE(Convolu
3、tional Auto Encoding)和SAE(Stacked Auto Encoder)等方法相比,所提方法虽然在各项指标上没有明显提升,但在单次训练时长上却有明显缩短,充分表明了所提方法的先进性。关键词:深度学习;批量归一化层;残差结构;不平衡数据集;损失函数中图分类号:TP393.08 文献标志码:AEncrypted traffic classification method based on improved Inception-ResNetGUO Xiang,JIANG Wengang*,WANG Yuhang(College of Automation,Jiangsu Uni
4、versity of Science and Technology,Zhenjiang Jiangsu 212100,China)Abstract:Most classification models in deep learning-based encrypted traffic classification methods have deep and straight structure with the problem of vanishing gradient,and the increase of the number of network layers leads to signi
5、ficant increase of model structure and computational complexity.Based on these,an encrypted traffic classification method based on improved Inception-ResNet was proposed.In the method,the classification model was constructed by improving the Inception module and embedding it into the convolutional n
6、eural network as a residual block in a residual structural connection way.In addition,the loss function of the classification model was improved,and the effectiveness of the proposed method was verified by using VPN-nonVPN dataset.Experimental results show that the proposed method achieves the preci
7、sion,recall,and F1 score of more than 94.21%,92.53%,and 93.31%,respectively,in the classification experiments of two senerios.In the comparison experiments with other methods,taking the 12-class classification experiment,which is the most difficult one,as an example,the proposed method is higher tha
8、n C4.5 decision tree algorithm and 1D-CNN(1 Dimensional-Convolutional Neural Network)by 13.91 and 9.50 percentage points higher in precision and by 14.87 and 1.59 percentage points in recall.Compared with the algorithms such as CAE(Convolutional Auto Encoding)and SAE(Stacked Auto Encoder),the propos
9、ed method not has obvious improvement on the indicators,but has significant shorter single training time,fully demonstrating that the proposed method is a state-of-the-art method.Key words:deep learning;batch normalization layer;residual structure;imbalanced dataset;loss function0 引言 近些年来,互联网的飞速发展使各
10、类新型网络技术不断涌现。在众多新型网络技术中,SSL VPN(Secure Sockets Layer Virtual Private Network)技术因为良好的稳定性、安全性和网络适用性得到了广泛的应用1。虽然SSL VPN技术在安全传输、安全访问等方面有效保护用户隐私,但一些不法分子也通过SSL VPN技术躲避安全检查,给网络安全带来了巨大的挑战。对SSL VPN加密流量的识别分类对防御网络攻击、保护网络安全具有重要意义。在过去的流量识别领域研究中,大都采用基于端口和基于深度包检测的方法完成网络流量的识别分类任务,但随着网络技术的发展以及互联网的普及,网络流量变得越来越复杂,且呈现出海
11、量化的特征,此类方法难以胜任如今的流量识别分类任务,只作为一些辅助方法。近些年来,随着计算机技术的飞速发展,机器学习/深度学习在图像处理、自然语言处理、计算机视觉等领域大放异彩,一些研究者也尝试使用基于机器学习/深度学习的方法开展流量识别领域的研究。机器文章编号:1001-9081(2023)08-2471-06DOI:10.11772/j.issn.1001-9081.2022071030收稿日期:20220714;修回日期:20221117;录用日期:20221121。基金项目:国家自然科学基金资助项目(61702235);江苏省研究生创新计划项目(KYCX21_3482)。作者简介:郭祥
12、(1997),男,安徽六安人,硕士研究生,主要研究方向:多媒体与信息安全、深度学习;姜文刚(1973),男,江苏镇江人,教授,博士,主要研究方向:伺服控制器、网络拥塞控制;王宇航(1996),女,吉林长春人,硕士,主要研究方向:多媒体与信息安全、深度学习。第 43 卷计算机应用学习/深度学习在很大程度上突破了以往方法在处理加密流量和海量化数据方面的限制。除此之外,在流量识别分类领域的研究中,基于机器学习的方法(诸如决策树、聚类等)还具有易于理解、运算速度快、精确率高的优点。基于深度学习方法(诸如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络等)能
13、够以端到端的方式自动提取特征,学习能力强。虽然基于机器学习/深度学习的方法在流量识别领域的研究中具有诸多优势,但此类方法也存在着很多其他方面的问题。例如使用基于机器学习的方法需要人工提取特征,耗时耗力,提取的特征易受主观因素影响,且分类的精度依赖于特征的选择是否合理。基于深度学习的方法所设计的分类模型大都结构复杂,网络深、参数多,需要巨大的计算开销。此外,数据集不均衡问题也严重影响了基于机器学习/深度学习的方法在流量识别领域中的表现。针对上述问题,本文提出了基于改进Inception-ResNet的加密流量分类方法。先分析数据集中数据包的长度,选定合适的截断长度后,再使用构建的加密流量分类模型
14、完成加密流量的分类。本文的工作如下:1)通过在卷积层和全连接层后引入批量归一化层,改进传统的Inception模块,并将改进后的Inception模块作为残差块以残差结构嵌入CNN来构建分类模型。不仅能够加宽、加深网络结构以提取更丰富的特征,而且能够有效避免梯度消失的问题,减少参数量、计算量,可大幅提高训练速度。2)改进了分类模型的损失函数,通过引入识别难度因子将数据集各种类样本数量不均衡问题转化为分类难度不均衡问题。为不同的数据样本赋予不同的权重,让模型在训练时更专注于难分类的样本,从而解决数据不平衡问题。1 相关工作 王洋等2先提取加密流量的荷载特征,再引用决策树分类加密流量;连晓伟等3结
15、合流量的荷载特征和统计特征,再通过构建确定性有限自动机与支持向量机结合的识别模型对Shodan流量进行识别,达到了99.41%的识别精度。虽然这类基于机器学习的方法也能够取得较好的识别效果,但此类方法都需要人工提取特征,不仅依赖专家经验,耗时耗力,且提取的特征易受主观因素影响,对流量的识别分类未必有用。Wang等4通过预处理将数据包前784个字节转为图片,并使用CNN对这些图片进行处理,实现恶意流量和加密流量的分类,该方法虽然取得了不错的分类效果,但并没有解释选取前784个字节的原因且这种做法会使提取的流量特征丢失很多有用的信息。此外,该方法使用的数据集中不同种类流量数量也相差很多,并未考虑数
16、据类别不平衡造成的影响。Lotfollahi等5提出了Deep Packet方法对加密流量进行分类。该方法在对数据集预处理后,使用 SAE(Stacked Auto Encoder)和CNN两种深度学习模型识别加密流量,召回率达到了94%。但该方法并未解释两种模型参数选择的依据,且该文献中使用欠采样(即随机删除数量的种类的样本,直到各种类样本的数量相对平衡)的方法解决数据集不平衡问题,不仅会造成数据浪费,使一些特征提取不充分,还会改变原有的数据分布,易带来偏差。Rezaei 等6-7提出了模糊流的概念,并使用 CNN+LSTM(Long Short-Term Memory)的方式定位流,取得了
17、不错的效果。该方法使用相邻多个流量的特征来识别某个流量的源APP,虽然这样能够达到较高的精度,但该方法网络的结构非常深,且存在计算量过大、耗时的问题。Lu等8使用基于并行Inception和LSTM的神经网络来完成加密流量服务识别的任务,该方法通过在 CNN 中引入Inception模块进行报文局部空间特征提取,再通过LSTM模块进行报文时间序列特征提取,然后融合特征,扩展特征信息,增强报文特征的表征能力,并根据数据集中不同种类流量数为各类流量分配不同的权重,让损失函数更加关注样本量不足的数据以缓解数据不平衡问题。该方法虽然识别准确率高,但存在网络深、结构复杂、计算开销大的问题,且根据数量来分
18、配权重的分类方法效果并不一定好。Ren等9提出了一种基于树状结构递归神经网络的加密流量分类方法,将大分类转为小分类,然后再为每个小分类设置一个特定的分类器,该方法虽然取得了不错的分类效果;但当分类数目较多时,需要训练大量的小分类器,会耗费大量的时间和成本。增加网络的宽度和深度,不仅会增大计算量,而且当网络加深到一定程度时,单纯的加深还可能出现梯度消失、网络过拟合等问题。Soleymanpour 等10根据数据集中各类别流量的数量分布,通过为每个错误分类分配代价创建代价矩阵,并在训练过程中利用这些代价提高识别精度;但这种以数据集中各类样本数或者比例作为错误分类代价的方法并不能很好地反映数据真实的
19、类分布特征11,学习效果无法保证。综上,当前基于深度学习的流量识别方法大多通过增加网络深度或者将多种神经网络模型融合到一起来实现流量的识别分类,虽然这样做能够取得不错的效果;但此类方法的分类模型大多结构复杂、参数多,需要巨大的计算开销,且在解决数据集不平衡问题时,它们在本质上都是通过数据集中各类别样本数来缓解数据不平衡问题,然而在实际的识别分类任务中,并不是某类样本少就一定要增加少数类样本的数量或是增加其在损失函数中的比重。自 Inception-ResNet12提出后很多研究人员借鉴其结构在图像识别、文本分析、语音识别进行研究并取得了不错的效果,本文也借鉴其思想采用所提的基于改进Incept
20、ion-ResNet的加密流量识别方法进行加密流量的分类。2 本文分类方法2.1数据预处理为了将原始流量数据转换为深度学习能够接受的输入格式,基于文献 4 中提出的图像化的思想,决定将Pcap格式转换为idx格式。数据集的预处理如图1所示。图1数据预处理Fig.1Data preprocessing流量分割和清洗 依据五元组信息,利用SplitCap分割原始数据集中的Pcap文件,分割后的流量中存在很多重复文件,这些文件的哈希值相同,通过finddupe软件计算这些文件的哈希值,再删除哈希值完全一致的重复文件。图片生成 数据包的截取长度决定了图片的生成质量。为获得最合理的截取长度,现以数据包长
21、度分布来分析数据包的截取长度。为确保训练的数据中至少含有一个完整的数据包,根据图2的结果,将截断长度设置为1 521字节:对于长度超过1 521字节的数据包做截断处理,对于长度小于1 521字节2472第 8 期郭祥等:基于改进Inception-ResNet的加密流量分类方法的数据包则进行末尾补零,再通过Python以二进制的方式分别读取各段流量数据,并将其转为3939的灰度图片。格式转换 利用Python,将生成的png文件转换为idx文件。在idx文件中,处理好的流量数据和它所属的应用类别标签是对应的。2.2本文模型设计近年来各种深度学习模型不断对网络结构加深加宽,让模型的参数量显著增加
22、。本文将改进后的Inception模块以残差结构连接,以控制网络参数规模,减少参数量和计算量,提高训练速度。连接方式如图3所示,其中N代表残差块数。本文通过在卷积层和全连接层后引入批量归一化层13来改进Inception模块,并将改进后的Inception模块作为残差结构的残差块嵌入卷积神经网络,以提高分类模型的泛化能力,控制网络模型的参数规模。最后改进分类模型的损失函数解决数据集不平衡问题。本文模型详细结构如图4所示。图4本文模型的结构Fig.4Structure of the proposed model网络深度的增加可能会造成过拟合现象和协方差偏移14,针对此,本文在卷积层和全连接层后分
23、别引入批量归一化层,使得训练过程中每层的输入尽可能保持相同的分布。批归一化计算如下:y=Var X +(-E X Var X +)(1)其中:X为待归一化的特征向量;E X 为均值;Var X 为标准差;,分别为放缩和偏移系数。2.2.1改进Inception模块GoogLeNet15即为 Inception V1,由 Inception 模块组成。Inception模块的结构如图5所示,从图5中可以看出,Inception模块将网络输入特征分为4部分,3个卷积分支和1个最大池化分支,以并行的方式提取特征,然后将不同分支获得的特征图拼接作为输出特征图。相较于其他的深度学习网络,Inceptio
24、n 网络具有如下优点:1)使用11的卷积核,在相同尺寸的感受野中叠加更多的卷积,使提取的特征更丰富;2)使用3种不同尺寸的卷积核,使模型在同一层级上获得多种不同尺度的特征信息,提高模型的表征能力;3)不同尺度的特征的分布不均匀,会使相关性强的特征集在一起,相关性弱的特征被弱化。输出的冗余特征少,减少参数,提高训练速度。本文方法的核心在于残差块的设计。分析Inception模块的优点后,设计改进Inception模块作为本文模型的残差块,残差块的设计使用11卷积层,以减少卷积核参数,降低计算成本,提高训练速度;同时采用不同的卷积尺寸进行不同级别上的提取特征,融合强相关性的关键特征,弱化弱相关性的
25、非关键特征,为最后分类判断时提供更多依据,提高网络分类性能;而且在卷积层后引入批量归一化层,使数据分布平稳,避免梯度消失。本文设计的残差块如图6所示。图6残差块Fig.6Residual block图2数据包长度分布Fig.2Distribution of data packet length 图3残差结构连接Fig.3Residual structural connection图5Inception模块的结构Fig.5Structure of Inception module2473第 43 卷计算机应用2.2.2数据不平衡数据集中各类样本数不均衡会使深度学习模型在训练时会偏向数量较多的一类
26、数据样本,而忽视数量较少的那一类的样本,这样会严重影响深度学习分类模型的分类效果。而目前大多数研究人员都是以各样本数为依据通过采样或者分配权重的方法缓解数据集不均衡问题。但这种做法会改变各类样本数据分布,而在训练时数据类别分布应该与应用时的数据类别分布尽量一致以提升分类效果,而并非只追求数据集各种类数量的均衡。除此之外,此类做法并未考虑一些其他因素(例如是否加密、加密规则、特征提取不同)的影响。针对此,本文参考了文献 16 中的思想,将样本不均衡问题转化为识别难度不均衡问题。对损失函数进行改进,通过引入识别难度因子,减小易分类样本的权重,增加难分类样本的权重,让模型在训练时更专注于难分类的样本
27、,改进的损失函数如下:L=i=1K j=1Kii(1-pt(Xij)log(pt(Xij)(2)其中:K表示数据集中样本种类数,Xij表示数据集中某类样本中的某个样本,Ki表示某类样本数;i 为调节因子,数值大小反比于Ki且i=1Ki=1;pt(Xij)为预测概率大小,(1-pt(Xij)是难度识别因子。当某个样本预测概率的值大时,代表该样本属于易分类样本,难度识别因子的值就小,该样本在损失函数中的占比就会相对减小;反之,当某个样本识别难度大时,该样本在损失函数中的比重就会相对地增加。通过引入识别难度因子来减小易分类样本在损失函数中的权重,让模型更专注于难分类的样本。3 实验与结果分析 为验证
28、本文方法的可行性,实验使用3种分类器(2分类、6分类、12分类)以两种实验场景进行验证。根据加密流量的识别粒度由粗到细,一般都是先识别出流量是否加密,再到识别出流量所属的具体协议、应用、服务等。所以本文将实验场景1设置为先使用2分类将流量识别为加密流量和未加密流量,然后再对加密流量和未加密流量各自做6分类实验。此外,考虑到有些情况需要将所有的流量进行一次性分类,所以本文将实验场景2设置为12分类,即直接对所有流量进行分类。除此之外,本文还设置了拓展性实验来验证本文方法的可行性,主要包括网络超参数的择优实验、与现有一些方法的对比实验。3.1评价方法采用Lasgkari等17发布的VPN-nonV
29、PN数据集来验证本文方法的可行性。本文选择精确率P、召回率R和F1这3项评分来评估基于改进Inception-ResNet的加密流量分类方法。计算公式为:P=TPTP+FP(3)R=TPTP+FN(4)F1=2PRP+R(5)在训练和测试过程中,目标样本称为正样本,非目标样本称为负样本。式中:TP表示正样本被正确识别的个数,FP表示正样本被错误地标识的个数,FN表示负样本被正确识别的个数。3.2结果分析为验证本文方法可行性,对本文方法进行5次实验,并给出5次实验的均值和标准差,实验结果如表1所示。从表1可以看出实验场景1的2分类实验的精确率、召回率、F1的均值能够达到100%,标准差为零,原因
30、是分类模型对于这种粗粒度分类要求只需识别出流量是否加密即可,要求相对简单,各项指标都能够达到比较好的效果。对于加密流量的6分类实验和非加密流量的6分类实验的细分的各项指标均能达到92.53%和98.28%以上,由于加密套件的影响,导致识别难度的不同,加密流量6分类实验的各项指标比非加密流量6分类实验均要低几个百分点。实验场景2的各项指标均能达到95.25%以上。从标准差数据来看,各场景的标准差是比较小的,这也反映出本文模型具有可靠的稳定性。3.2.1网络超参数择优由上面的实验可以看出在所有场景中,加密流量的6分类细分实验在所有分类情况中表现最差,为了选取合理的超参数,本章以加密流量的6分类细分
31、设置实验,设计了如下候选参数。输入维度为3939,设定卷积核的尺寸为33、55,特征通道为16、32、64,采用两种池化方式进行多次对比,实验结果如表2所示。从实验结果可知,最大池化的整体效果略优于平均池化。可以看到,特征通道数从16到32时,精度有明显上升,继续增加时,精度提升不大。基于模型参数量考虑,最终选择候选结构2作为模型参数。合理地选择残差块数,有利于控制参数数量,精简分类模型。本章对残差块数N进行确定实验,通过逐渐增加残差块的数量,得出最终的最优结果,实验同样选择加密流量的6分类,实验结果如表3。表3残差块数对精确率的影响单位:%Tab.3Influence of number o
32、f residual blocks on precision unit:%残差块数量12精确率84.4391.67残差块数量34精确率94.1294.12从实验结果可以看出,当残差块的数量为3时,模型的精确率基本已达最优,继续增加残差块的数量对于精度的提升意义不大,但却会明显增加训练时间的开销。因此,最终使用3个残差块。表1本文模型在2类实验场景中的实验结果单位:%Tab.1Experimental results of the proposed model in two types of experimental scenariosunit:%场景场景1场景2分类2分类加密6分类非加密6分类
33、12分类均值P100.0094.2198.2895.25R100.0092.5398.5595.25F1100.0093.3198.3995.26标准差P0.000.120.060.05R0.000.070.060.06F10.000.090.050.04表2不同结构残差块的实验对比Tab.2Experimental comparison of residual blocks with different structures候选结构123456卷积核尺寸333333555555特征通道数163264163264总体精度/%平均池化91.2192.5091.4790.3191.5191.62最
34、大池化91.3792.6391.6390.3791.5691.702474第 8 期郭祥等:基于改进Inception-ResNet的加密流量分类方法3.2.2本文模型与经典加密流量分类模型对比文献 17 中使用了C4.5决策树算法识别加密流量,同时该文献也是最早开放VPN-nonVPN数据集。文献 4 是深度学 习 中 较 典 型 的 分 类 模 型,利 用1D-CNN(1 Dimensional-Convolutional Neural Network)分别对加密流量以及恶意流量进行检测分类。表4是3个模型的平均精确率和平均召回率的指标对比。如表 4 所示,本文模型的各项评价指标均在 92
35、.50%以上,取得了更好的性能。在分类难度最大的12分类对比实验中:本文模型的精准率比C4.5和1D-CNN分别高13.91个百分点和 9.50 个百分点,召回率比 C4.5 和 1D-CNN 分别高14.87个百分点和1.59个百分点。这证实了本文的加密流量分类模型的有效性。除此之外,本文模型的标准差也小于C4.5和1D-CNN,这说明本文模型较其具有更好的稳定性。3.2.3本文模型与先进加密流量分类模型对比实验为验证本文方法的先进性,又将本文的加密流量分类模型与使用同一数据集的两种最先进的方法进行对比。其中文献 1 采用 CAE(Convolutional Auto Encoding)和
36、CNN 两种深度学习模型对数据集中的非加密流量进行分类,数据预处理时也采用了1 521个字节。因为2分类的要求较为简单,因此选择该文章中实验效果最好的非加密6分类实验进行对比。文献 5 中采用SAE和CNN两种模型对加密流量进行12分类实验,所以本文也与它进行12分类的对比实验,实验结果如表5、6所示。表5文献 1 模型和本文模型的非加密流量6分类对比单位:%Tab.5Comparison of unencrypted traffic 6-class classification between model in literature 1 and the proposed model unit
37、:%类别ChatEmailFileP2PStreamingVoIP模型文献 1模型本文模型文献 1模型本文模型文献 1模型本文模型文献 1模型本文模型文献 1模型本文模型文献 1模型本文模型P均值78.4178.0097.1095.4189.3094.9197.1097.1090.7295.9193.9194.21标准差0.070.060.140.060.060.060.060.060.070.060.120.06R均值81.2284.3096.8295.1377.9084.8292.9097.1593.7295.7295.2593.90标准差0.070.040.070.060.040.120
38、.160.060.170.060.120.06F1均值79.6381.1496.6495.2083.2389.6394.6297.1892.1295.8394.4294.12标准差0.100.060.100.060.080.070.200.060.150.060.120.04从实验结果可以看出,本文的加密流量分类模型实现了更好的性能。虽然个别应用的评价指标略低于其他模型,但在精准率、召回率、F1、标准差指标上均优于文献 1 和文献5 中的模型。除此之外,实验还将本文模型与两篇文献中的模型在训练时长上进行了对比,经测试在非加密流量的6分类实验中本文模型的单次训练时长为 17.3 s,文献 1 为
39、18.6 s,在 12 分 类 实 验 中 本 文 模 型 的 单 次 训 练 时 长 为24.7 s,文献 5 为28.6 s。可以看出本文模型的训练时长明显小于文献 1,5 中的模型,因为本文模型核心采用了基于残差结构的改进Inception模块,可减少参数量与计算量,使所用训练时间更短。所以本文方法较对比方法更具先进性。表4本文模型和经典加密流量分类模型对比单位:%Tab.4Comparison of proposed model and classical encrypted traffic classification modelsunit:%分类器2分类加密6分类非加密6分类12分
40、类指标均值标准差均值标准差均值标准差均值标准差PC4.589.800.0589.100.2184.100.1781.300.121D-CNN99.900.0585.520.1894.910.1385.710.09本文模型100.000.0094.230.1898.210.0595.210.07RC4.590.490.0585.510.1087.620.1480.340.121D-CNN99.900.0585.800.1197.310.1393.620.08本文模型100.000.0092.510.0598.520.0695.210.06F1C4.590.120.0587.310.1285.81
41、0.1280.810.071D-CNN99.920.0685.620.1296.100.0689.620.07本文模型100.000.0093.320.0598.220.0795.230.05表6文献 5 模型和本文模型12分类对比单位:%Tab.6Comparison of 12-class classification between model in literature 5 and the proposed model unit:%类别ChatEmailFileP2PStreamingVoIPVPNChatVPNEmailVPNFileVPNP2PVPNStreVPNVoIP模型文献
42、5 模型本文模型文献 5 模型本文模型文献 5 模型本文模型文献 5 模型本文模型文献 5 模型本文模型文献 5 模型本文模型文献 5 模型本文模型文献 5 模型本文模型文献 5 模型本文模型文献 5 模型本文模型文献 5 模型本文模型文献 5 模型本文模型P均值84.1091.9193.9294.6090.5289.6391.3195.2098.1097.7062.9186.9195.3097.3096.9297.2597.0097.4297.0097.2296.9497.2296.9297.31标准差0.120.060.150.060.120.060.150.060.110.070.150
43、.060.080.060.150.040.130.060.130.060.160.070.070.06R均值70.6078.1085.5091.7098.6296.4085.7196.5898.5096.4395.2193.4295.2093.4292.8291.6296.2096.8298.4498.5098.4598.4598.4198.51标准差0.070.060.070.060.070.060.110.130.120.060.090.060.070.060.070.060.130.040.130.060.130.060.120.15F1均值78.6184.4189.5193.2294.
44、4092.8288.4295.8198.3197.1172.6188.7295.3195.4294.8094.3296.6197.1297.5097.8196.7095.2297.6197.89标准差0.110.070.090.090.130.060.120.040.070.060.120.050.160.060.130.060.140.100.120.100.130.060.130.072475第 43 卷计算机应用4 结语 本文提出了一种针对 SSL VPN 加密流量的分类方法。通过对Inception模块进行改进作为残差结构的残差块,不仅能够增强加密流量分类模型的多维特征提取能力,而且能
45、够控制网络的参数规模,降低模型计算复杂度,提高模型的训练速度。此外,对分类模型的损失函数进行改进,以缓解因数据集不平衡引起过拟合、欠拟合问题。对比实验结果表明,本文方法在多项指标上较现有方法有明显优势。实际的流量情况是复杂的,分类的需求也是不同的,现有方法大都只适用于特定的需求。未来将围绕将不同方法结合起来发挥各自优势和迁移学习展开。参考文献(References)1 GUO L L,WU Q Q,LIU S L,et al.Deep learning-based real-time VPN encrypted traffic identification methodsJ.Journal o
46、f Real-Time Image Processing,2020,17(1):103-114.2 王洋,陈紫儿,柳瑞春,等.基于决策树算法的网络加密流量识别方法 J.长江信息通信,2021,34(11):15-17.(WANG Y,CHEN Z E,LIU R C,et al.Network encryption traffic identification method based on decision tree algorithm J.Changjiang Information and Communications,2021,34(11):15-17.)3 连晓伟,马垚,陈永乐,等.
47、基于载荷特征与统计特征的Shodan流量识别 J.计算机工程,2021,47(1):117-122.(LIAN X W,MA Y,CHEN Y L,et al.Shodan traffic identification based on load characteristics and statistical characteristicsJ.Computer Engineering,2021,47(1):117-122.)4 WANG W,ZHU M,WANG J L,et al.End-to-end encrypted traffic classification with one-dim
48、ensional convolution neural networks C/Proceedings of the 2017 IEEE International Conference on Intelligence and Security Informatics.Piscataway:IEEE,2017:43-48.5 LOTFOLLAHI M,JAFARI SIAVOSHANI M,SHIRALI HOSSEIN ZADE R,et al.Deep packet:a novel approach for encrypted traffic classification using dee
49、p learningJ.Soft Computing,2020,24(3):1999-2012.6 REZAEI S,LIU X.Deep learning for encrypted traffic classification:an overviewJ.IEEE Communications Magazine,2019,57(5):76-81.7 REZAEI S,KROENCKE B,LIU X.Large-scale mobile app identification using deep learningJ.IEEE Access,2020,8:348-362.8 LU B,LUKT
50、ARHAN N,DING C,et al.ICLSTM:encrypted traffic service identification based on Inception-LSTM neural network J.Symmetry,2021,13(6):No.1080.9 REN X M,GU H X,WEI W T.Tree-RNN:tree structural recurrent neural network for network traffic classificationJ.Expert Systems with Applications,2021,167:No.114363