ImageVerifierCode 换一换
格式:PDF , 页数:8 ,大小:9.98MB ,
资源ID:3080686      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/3080686.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于Web日志挖掘的网络用户行为交互式可视化分析.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

基于Web日志挖掘的网络用户行为交互式可视化分析.pdf

1、DOI:10.13876/J.cnki.ydnse.230300第 42 卷 第 3 期2023 年 9 月延安大学学报(自然科学版)Journal of Yanan University(Natural Science Edition)Vol.42 No.3Sep.2023基于Web日志挖掘的网络用户行为交互式可视化分析刘翼,高明,田亮亮,严都力,韦雨萌,李凯茵,张博欣(延安大学 数学与计算机科学学院,陕西 延安 716000)摘要:高校在校大学生用户群体的网络行为分析是一个有着普遍需求和意义的重要课题,具有丰富的现实意义与社会价值。本文提出网络用户行为交互式可视化分析方法,研究分析高校大学

2、生用户群体网络行为的特征和兴趣。首先获取某高校真实的网络用户访问日志;其次通过清洗缺省值、去重、规范化等数据预处理方法,选取日期、时间、用户账号和访问地址作为特征属性,并在数据集中标记出每个URL的主题分类和每个用户所属的学院等属性;然后从用户、主题分类、时序3个维度分析得出这些属性的分布情况,发现网络用户行为的区别和联系;最后利用ECharts交互式可视化工具展示分析结果。实验结果反映出当前大学生用户的网络行为特征及兴趣喜好,揭示了大学生用户的网络行为模式,为教学管理者的决策提供了数据支持。关键词:交互式可视化分析;网页日志挖掘;网络用户行为;主题分类;高校学生中图分类号:TP393 文献标

3、识码:A 文章编号:1004-602X(2023)03-0078-08随着高校信息化建设的发展,“校园大数据”被越来越多的人关注,将大数据技术和教育资源相结合,是互联网时代信息科技带给智慧校园建设的新思路、新方法和新途径1。网络访问日志挖掘是从用户Web访问日志中提取感兴趣的模式。通过对Web服务器日志中大量的用户访问记录深入分析,发现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息和知识,用于分析站点的使用情况,从而辅助管理和支持决策2。当前,网络日志挖掘主要被用于个性化服务与定制、改进系统性能和结构、站点修改、商业智能以及Web特征描述等诸多领域。同时也开始在教育领域使

4、用,从网络日志中发现教学行为和教学规律,帮助教学管理者和师生改进管理和学习方式3。本文通过挖掘用户访问网页的日志数据,分析院系用户群体的网络行为,反映出用户网络行为的兴趣和爱好,为教学管理决策提供客观依据和数据支持4。本文提出基于网络日志挖掘的用户行为分析方法,通过获取到的网络访问日志数据,进行数据预处理、数据分析和数据可视化等数据处理阶段,最终直观地展示分析结果,并可以采用交互式可视化分析得出网络用户的行为模式。1相关工作根据Web数据的类型,Web数据挖掘可以分为以下三类5:Web内容挖掘6(Web Content Mining)、Web 结构挖掘7(Web Structure Minin

5、g)、Web 日志挖掘8(也称为Web使用挖掘,Web Usage Mining)。Web挖掘通过内容挖掘、结构挖掘和日志挖掘来寻找数据中的模式。Web内容挖掘是指从文档的内容中提取知识,用于检查搜索引擎和Web spider收集的数据。Web收稿日期:2023-01-10基金项目:国家自然科学基金项目(61962059);陕西省教育厅自然科学专项(22JK0622);延安市科技计划项目(2022SLGYGG-007);陕西省大学生创新创业计划项目(S202010719023,S202010719099);延安大学大学生创新创业计划项目(D2020045)作者简介:刘翼(1982),男,陕西延

6、安人,延安大学副教授,博士。第 3 期刘翼 等:基于Web日志挖掘的网络用户行为交互式可视化分析内容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,Web文本挖掘已经有了比较实用的功能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测等。Web文档中的标记,例如和等蕴含了额外的信息,可以利用这些信息来加强Web文本挖掘的作用。Web结构挖掘是从 Web的组织结构和链接关系中推导知识,用于建立特定的Web站点的结构。不仅仅局限于文档之间的超链接结构,还包括文档内部的结构。文档中的 URL 目录路径的结构等。Web

7、结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序,寻找个人主页和相似网页,提高 Web 搜索蜘蛛在网上的爬行效率,沿着超链接优先爬行。Web结构挖掘还可以用于对Web页面进行分类、预测用户的Web链接使用及Web链接属性的可视化,对各个商业搜索引擎索引用的页数量进行统计分析等。Web日志挖掘是利用数据挖掘技术从 Web日志中发现和抽取信息的过程,应用于发现用户兴趣行为模式,改进网站设计通过额外的主题或推荐观察用户行为。WWW中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息,可以通过分析和研究Web日志记录中的规律,来识别网站的潜在用户;可以用基于扩展有向树模型

8、来识别用户浏览序列模式,从而进行Web日志挖掘;可以根据用户访问的Web记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些Web页面,加快用户获取页面的速度,分析这些数据还可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。2基于网络日志挖掘的用户行为可视化分析方法按照数据挖掘的理论方法,基于网络日志的用户行为分析方法需要经过数据获取、数据预处理和数据分析和数据可视化的过程,具体数据分析流程见图1。首先从网络存储的日志中获取log文件,其次经过特征选取、数据清洗和数据标准化等数据预处理阶段,将真实数据处理成“干净”的数据集;然

9、后利用Pandas工具分析阶段从数据中发现学生用户的网络行为规律;最后利用 PyECharts工具交互式展示数据分析的结果。2.1数据获取网络日志数据主要来源于高校的网络用户访问日志数据。按照 网络安全法 的规定,关键信息基础设施的日志必须存储6个月以上,等级保护三级要求必须监测、记录、保存网络运行日志。因此,高校校园网出口设备具有采集网络用户访问日志的能力,并将访问日志以文本格式存储。通常访问日志的格式包括日期、时间、用户账号、源IP地址、源端口号、目的IP地址、目的端口号、协议、URL等信 息,存 储 文 本 格 式 例 如:date,time,userId,source_ip,sourc

10、e_port,destination_ip,destination_port,protocol,raw_url。2.2数据预处理数据预处理将获取到的数据“去其糟粕,取其精华”,获取到的数据集一般是杂乱无的,并不符合我们模型的需要。首先,将获取到的数据按照算法所需要的属性进行特征选取,去除不相关的数据特征,留下可用的、有意义的数据的特征属性。其次是数据清洗,主要包括去噪和去重。去噪是将数据集中不符合规则的噪声数据和离群数据,并且将重复的数据集成,统计它们的出现的频次。最后是数据的标注。在本文中需要分析每个用户访问URL的主题,所以必须标注出每个条目数据的主题分类。2.2.1数据的特征选取在前期数

11、据获取过程中本文得到的原始数据集共有9个维度,分别包括日期、时间、用户账号、源IP地址、源端口号、目的IP地址、目的端口号、协议和URL等信息。因为在本次用户行为研究的过程中更关注用户时序、类型和主题之间的规律,所以将从数据集选取用户账号、URL两个特征属性作为数据研究的维度,降低数据的体积和维度,提高数据分析的效率。2.2.2数据清洗原始数据中存在默认值、缺省值、空值、离群值以及不规则值,必须经过数据清洗后得到“干净”规则的数据。首先确定观测用户的范围。因为本文的研究范围只是学生用户,所以只需要观测学生用数据获取访问日志log文件数据预处理特征选取数据清洗数据标准化数据分析Pandas统计分

12、析.csv数据可视化Pyecharts交互.html图1数据可视化分析流程图79延安大学学报(自然科学版)第 42 卷 户的网络行为。本科学生的学号为13位纯数字编码,所以可以根据这一规则,利用正则表达式筛选出需要的数据条目。其次,删除缺省和不规则值等噪声。每个数据条目必须完全还有2个特征属性,并符合每个特征属性的命名规则,且每个特征属性必须完整,不能为缺省值、空值或缺失值。最后,对URL进行整形。URL忽略域名后缀中的文件路径信息,如将 。同时,URL不能包含 IP地址和端口号,数据清洗的具体的方法采用正则表达式进行,具体判断规则见表1。数据预处理结束后,真实数据变成“干净”的数据集,能够作

13、为数据分析的输入数据集,并且含有4个特征属性:Date,Time,userId,URL,分别代表用户访问日期、时间、账号、访问资源域名地址。2.2.3数据标准化虽然经过数据清洗阶段,数据已经被处理成为可以进行数据分析研究的数据集,但是经过简单的分析发现,数据集中的各项特征属性数据较为离散和细粒度,导致分析结果信息杂乱,无法发现其中的规律和模型。因此,为了从较为宏观的观测角度分析,需要将数据集进行变形,将各个特征属性中的数据进行分类聚合,转化为“粗粒度”的数据,发现其中的用户访问行为的规律和模式。为此,在数据标准化阶段,将数据的放大用户观测的粒度,并将具体URL进行主题分类标记,达到数据分类聚合

14、的目的。用户观测粒度放大则是将具体用户的观测角度,放大到以二级学院为观测用户的观测角度,在校级层面观测用户群体行为的特征模式。具体由用户学号信息划分学生用户所属的二级学院。学生学号的前三位编码不同的二级学院。由于具体学院信息有可能涉及到学校及用户的信息,在此就不详细列出具体编码对应表,数据分析过程中结合相关数据揭示部分学院信息。网页主题分类标记用户访问URL,要分析用户兴趣和爱好,就要对网页访问资源的进行主题分类,标记出每个URL的主题类型。数据集以URL为标记特征,自动查询网页主题分类网站,确定URL访问网站资源的主题类型。当然,并不是每个URL都会有备案记录及主题分类,必要时还需要人工访问

15、目标网站的URL,手动判断网页的主题分类,其中还会有网页不可打开的情况,也需要人工进行分析和判断,也可能出现少数网站无法分析出主题分类,将此类网站划分到未知主题分类。因此,网页主题分类是一个综合的判断过程。按照数据集研究目的和其他研究工作9,将主题分类标记细化为17个主题,详见表2。下文图中关于主题分类名称统一用表2中序号表示。经过数据标准化后,数据集又增加了2个属性,分别是用户学院(College)和主题分类(Topic),最终数 据属性包括Date,Time,userId,URL,College,Topic 6个属性10。表1数据清洗规则特征属性日期时间学号URL原始数据2022-11-0

16、33:01: and userId0=“1”url=raw_url.split(“/”)0,url not ip and“:”not in url表2网页主题分类信息表序号1234567891011121314151620主题分类名称数据下载社交软件在线视频学习资源购物支付新闻资讯手机厂商网络游戏在线音乐云盘资源数据收集与分析网络安全阅读文学地图导航搜索引擎输入法恶意有害说明应用下载,P2P下载论坛、微博、微信、QQ、贴吧等在线直播、点播在线课程、学习资源淘宝、京东等电商新闻、综合网页华为、苹果、小米等厂商的资源网站腾讯游戏、网页游戏等各类在线音乐网站网络存储、网络资源节点数据分析网站、广告推

17、送网站网络测试、杀毒、手机助手等资源网站网络小说、动漫、网络书籍资源百度、谷歌、腾讯等地图网站百度、谷歌、搜狗、360等搜索网站搜狗、微软、讯飞等输入法钓鱼、有害下载等网站资源80第 3 期刘翼 等:基于Web日志挖掘的网络用户行为交互式可视化分析2.3数据分析与交互式可视化高校教学管理的分析研究通常是宏观上的分析和应用,因此,本次研究着重以二级学院群体用户College为研究对象,分别观测用户访问频率和主题兴趣爱好的分布,以及这些观测点根据时序的变化趋势11。以此研究分析用户的网络行为,为教学管理的决策提供可靠支持。本文采用ECharts开源可视化库将数据分析结果采用适合的图表进行可视化展示

18、。ECharts是一个使用JavaScript实现的开元可视化库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器,底层采用矢量图绘制,能够提供交互丰富、高度个性化定制的数据可视化图表,使研究人员能够直观地发现学生网络行为的规律和模式12。3实验结果交互式可视化分析本次实验所用数据来自某高校校园用户的访问日志。由于日志数量较大,根据实验平台的处理能力,选取2022年11月3日9日一周内校园网用户访问日志作为原始数据集,共计32.7 GB。同时,一周时间段的用户访问数据也符合高校实际教学周期,也能够作为学生用户访问变化周期,体现出用户网络行为规律和模式。原始数据经过数据预处理过程得到数据

19、集共计61 023 711条,其中每一条表示用户访问目标资源的数据都包括日期、时间、用户、URL、学院和主题分类(Date,Time,userId,URL,College,Topic)6个属性。数据可视化分析可以在6个属性中任意选取的某一属性,分别结合其他5个属性创建可视化图表,了解用户的兴趣和喜好13。3.1在线用户基本信息交互式可视化分析在线用户基本信息交互式可视化分析选取用户(userId)和学院(College)2个属性维度,分别绘制各学院用户在线人数的统计分布图(图2)和用户访问频率统计分布图(图3),并通过鼠标悬停的交互方式展示具体信息。通过观测可以发现,化工学院、医学院、教科院、

20、体育学院和外语学院的学院用户无论在在线人数还是网络访问频率都领先其他学院用户,说明其用户的活跃度较高。反而如物电学院、数计学院等专业相关性、学生网络能力较强的用户活跃度相对靠后。若要更深层次的了解用户的兴趣和喜好,通常需要进一步统计主题分类的信息。3.2主题分类交互式可视化分析主题分类交互式可视化分析选取主题分类(Topic)和URL 2个属性维度,分别绘制各个主题分类中不同URL数量统计分布图(图4)和用户访问各主题分类的频率(图5),并采用鼠标悬停的交互方式展示具体信息。综合两图中的分析结果可以直观地发现,在线视频(3)、新闻资讯(6)、在线学习(4)、购物支付(5)、网络社交(2)、网络

21、游戏(8)等6个主题被用户访问较多,这与整个互联网中用户访问资源的主题分类的兴趣和爱好相似。图2学院用户在线人数统计分布图图3学院用户访问频率交互式可视化统计图图4主题分类中各类URL数量统计分布图81延安大学学报(自然科学版)第 42 卷 同时在分析结果中还能发现其他一些有趣的信息。虽然新闻资讯(6)和购物支付(5)2个主题分类访问的URL数量较多,但是它们用户访问频率较低(图5中分别排名7和10),表明用户访问新闻资讯和购物支付等资源的网站种类较多,但是用户行为不需要大量的通信就可以完成这类的行为。相反,网络社交通讯(2)、数据收集与分析(11)和数据下载(1)3个主题分类中用户访问URL

22、数量较少(图4中分别排名5、7和12),但是用户访问的频率却较多(图5中排名1、3和6),表明相较于大量的用户访问频率,用户访问目地网站资源较为集中。而且从网络技术层面看,一方面这些主题中的应用需要大量的网络连接和会话支持完成用户的一个访问行为;另一方面也许存在有些连接和会话并不被用户主动控制,网络终端上的应用会自动地与目标资源服务网站建立通信,自动地产生大量的连接和会话,比如应用软件常见的“心跳”通信、在线视频分段缓存等自动服务行为。3.3用户主题分类交互式可视化分析用户主题分类交互式可视化分析14选取用户(userId)、主题分类(Topic)和学院(College)3 个属性维度,利用数

23、据可视化工具可以绘制表示用户、主题分类、学院3个维度之间关系的交互式数据可视化分析图表,并采用鼠标悬停、点击等交互方式分别展示具体信息和筛选具体属性。主题分类内各学院用户访问频率统计分布图(图6)从主题分类的角度,分析各学院用户访问频率的分布信息,直观地展示每个主题分类中各学院访问频率的分布情况。学院用户内各主题用户访问频率统计分布图从学院用户的观测角度,分析各主题分类的访问频率的分布信息,体现出用户的兴趣和爱好。从数据可视化分析结果图7中可以观察到,社交软件(2)、在线视频(3)、数据收集与分析(11)、网络游戏(8)、学习资源(4)和搜索引擎(15)等主题类型的访问频率排在前6位,一方面体

24、现出用户对这些方面的网络应用依赖较大,另一方面也体现出各个网络应用软件在网络上大量收集用户的相关信息。此外,交式互可视化还可以实现筛选功能,点击选取某一主题或学院用户进行单独展示。本文选取化工、物电、数计、医学和教科 5个学院的用户进行比较发现,化工学院和医学院的用户相比其他学院用户更喜欢访问互联网,而且在各个主题分类中的用户访问次数都比较突出,可视化结果参见图8。尤其化工学院和医学院用户相比其他学院用户更喜欢玩网络游戏,尤其是与信息技术能力较强的数计学院和物电学院的用户相比更为突出。这与传统思维中理解的用户行为模式存在差异性。详细分析结果见参见图9。图5主题分类中用户访问频率统计分布图图6主

25、题分类内各学院用户访问频率统计分布图82第 3 期刘翼 等:基于Web日志挖掘的网络用户行为交互式可视化分析3.4主题时序可视化分析主题时序可视化分析15选取主题分类(Topic)、日期(Date)和时间(Time)3个属性维度,利用数据可视化工具可以绘制热力图,观测主题分类随时间变化过程中用户访问频率的分布情况。时间序列数据是随着时间的推移收集并按照一定规则排序的一系列数据,一般会采用热力图表示数据属性随着时序变化的规律。本文首先将收集到一周的实验数据,从每天0时开始按照每6小时将每天24小时分为凌晨(00)、早上(01)、下午(02)和晚上(03)4个时 间 段。因 此 获 得 从 星 期

26、 日 凌 晨 0 时 6 时(sun.00)至星期六晚上18时24时(sat.03)这28个图7学院用户内各主题用户访问频率统计分布图图8部分学院用户访问各主题分类频率分布图图9学院用户访问网络游戏主题分类频率分布图83延安大学学报(自然科学版)第 42 卷 时序区间,作为热力图横轴的时序坐标。然后将所有主题分类的访问频率按照横坐标28个时序区间进行统计,并对统计结果进行 01 规范化处理(MinMax normalization)。最后将主题类型访问频率的时序关系绘制成热力图进行可视化展示(如图10所示)。从热力图可以直观的表现出各网页主题类型的访问频率分布规律。首先,社交软件(2)、在线视

27、频(3)、数据收集与分析(11)、网络游戏(8)和学习资源(4)等5个主题类型的访问频率相对较高,这与图5可视化分析结果保持一致。其次,大部分主题类型的访问时间都集中在下午和晚上的时间段,少量在早上时间段,凌晨由于用户休息设备关闭相对访问量较少可以忽略不计。然后,有些主题类型随早上、下午、晚上时序变化的访问频率离散度较大,例如社交软件(2)和在线视频(3),但有些主题类型随时序变化的访问频率离散度较小,例如数据收集与分析(11)和学习资源(4)。访问频率离散度大的主题类型说明用户使用习惯较为突出,如用户喜欢在晚上使用社交软件进行大量的交流,以及在晚上集中观看在线娱乐视频。访问频率离散度小的主题

28、类型说明用户每天访问量较为均衡,如软件在每天在早上、下午、晚上随时收集用户信息,以及用户在每天较为均匀的进行在线学习。最后,通过一周内主题随时间规律的比较发现与传统预测不同的用户行为模式,例如用户使用社交软件和在线视频娱乐的访问频率在热力图中呈下降趋势,这两个主题类型的访问量集中在周日和周一的晚上,这与周末(周五和周六)用户具有较多自由可支配时间,在线社交和娱乐行为应该较多的传统经验预测结果相违背。可能用户在周末时间段的线下活动比较丰富多彩,具体需要结合现实中情况具体进行分析研判。4结束语本文利用数据可视化分析方法,主要通过对用户访问网页频率、主题、时序3个维度的分析研究,得出用户的访问兴趣和

29、喜好等行为模式。在这些研究分析结果中发现,用户访问各个主题分类包含的网络资源时,网络连接和会话的数量存在差异;同时个别用户也存在与传统认识和预测并不相同的情况。数据可视化可以直观地展示用户行为特点,挖掘隐含的用户信息和规律,结合实际教学实施情况的分析结果,可以为教学管理政策的制定和决策提供客观有力的数据分析支撑。参考文献:1 李有增,曾浩.基于学生行为分析模型的高校智慧校园教育大数据应用研究 J.中国电化教育,2018(7):33-38.2 万俨慧,任晨,沈敏虎.基于网络日志的高校用户行为分析 J.网络空间安全,2019,10(10):49-53.3 YU J F,LUO G,XIAO T,e

30、t al.MOOCCube:A large-scale data repository for NLP applications in MOOCs C/Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.Online:ACL,2020:3135-3142.4 聂敏.高校学生行为分析及应用研究 D.成都:电子科技大学,2020.图10主题类型网页访问频率随时序变化热力图84第 3 期刘翼 等:基于Web日志挖掘的网络用户行为交互式可视化分析5 LIU Y,SONG T,LI

31、AO L J.Static tainting extraction approach based on information flow graph for personally identifiable informationJ.SCIENCE CHINA Information Sciences,2020,63(3):1-17.6 TIAN J B,YING G L.WEB user interest extraction and applied research in universitiesC/The 2nd International Conference on Informatio

32、n Science and Engineering.Hangzhou:IEEE,2010:5535-5537.7 TAN S H,CHEN M,YANG G H.User behavior mining on large scale web log data C/The 2010 International Conference on Apperceiving Computing and Intelligence Analysis Proceeding.Chengdu:IEEE,2010:60-63.8 JIA Z,HAN Z.Research and analysis of user beh

33、avior fingerprint on security situational awareness based on DNS LogC/2019 6th International Conference on Behavioral.Beijing:Economic and Socio-Cultural Computing(BESC),2019:1-4.9 严承希,王军.高校学生网络行为时序特征的可视化分析 J.情报学报,2018,37(9):890-904.10 LIU Y,SONG T,LIAO L J.TPII:tracking personally identifiable info

34、rmation via user behaviors in HTTP trafficJ.Frontiers of Computer Science,2020,14(3):1-14.11 HAN C,PARK H,KIM Y,et al.Hybrid CNN-LSTM based time series data prediction model studyC/International Conference on Big Data,Cloud Computing,and Data Science Engineering.Cham:IEEE/ACIS,2023:43-54.12 郑娅峰,赵亚宁,

35、白雪,等.教育大数据可视化研究综述 J.计算机科学与探索,2021,15(3):403-422.13 刘滨,刘增杰,刘宇,等.数据可视化研究综述 J.河北科技大学学报,2021,42(6):643-654.14 王万起,田中雨,董兰军.基于主题模型的文本分类算法性能比较 J.高校图书馆工作,2022,42(2):41-46.15 杨梦晨,陈旭栋,蔡鹏,等.早期时间序列分类方法研究综述 J.华东师范大学学报(自然科学版),2021(5):115-133.责任编辑 毕伟Interactive visualization analysis of user network behavior based

36、 on Web log miningLIU Yi,Gao Ming,TIAN Liangliang,YAN Duli,WEI Yumeng,LI Kaiyin,ZHANG Boxin(College of Mathematics and Computer Science,Yan an University,Yan an 716000,China)Abstract:The network behavior analysis is an important subject,both in terms of practical significance and social value.In thi

37、s paper,an interactive visualization analysis method of network user behavior based on Web usage mining was proposed to explore college students network behavior characteristics and interesting.This method first captured the user s web access log form a real network of a university.Secondly,data pre

38、processing methods such as cleaning default values,deduplication,and normalization were used for raw data.At the same time,date,time,user account and access address as characteristic attributes were selected,along with the topic classification of each URL and the user s college in the dataset.Then,t

39、he distribution of these attributes from three dimensions:user,topic classification,and time series were marked to explore the differences and connections in user behavior on Internet.Finally,the ECharts were used to interactively visualize the analysis results.The experimental results reflect the n

40、etwork behavior characteristics and interests of current college students,as well as reveal their network behavior patterns,and provide data support for teaching managers decision-making.Key words:interactive visual analysis;Web log mining;network user behavior;topic classification;college students85

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2