1、2023 年 2 月 25 日第 7 卷第 4 期现代信息科技Modern Information Technology Feb.2023 Vol.7 No.41931932023.022023.02收稿日期:2022-09-26基金项目:广东省教育评估协会 2021 年度研究课题(21GJYPG10);北京理工大学珠海学院校级教学改革项目(2020009JXGG)基于教育数据挖掘的学生画像构建与学情预测分析研究唐茜(北京理工大学珠海学院,广东 珠海 519088)摘 要:该研究通过采集学生在校的图书借阅、参加公益活动、上网等行为数据,采用随机森林算法挖掘行为特征与学业成绩之间的关联程度,提取
2、关键特征进行加权计算合并形成新特征,通过基础模型 K-means 算法进行聚类分析,最终将学生划分成自律学霸型、夜猫子上网型和缺乏规划型三类学生。基于 Logistics 回归模型建立预测模型,分别讨论三类群学生的学习成绩预测效果,为教育工作者深入诊断学生的学习状态并给予精准的教学引导和干预提供参考。关键词:教育数据挖掘;行为数据;学生画像;关联度;预测分析中图分类号:TP311 文献标识码:A 文章编号:2096-4706(2023)04-0193-06Research on Student Portrait Construction and Learning Condition Predi
3、ction Based on Educational Data MiningTANG Qian(Beijing Institute of Technology,Zhuhai,Zhuhai 519088,China)Abstract:By collecting the behavioral data of students book borrowing,participating in public welfare activities and surfing the Internet,this paper uses the random forest algorithm to mine the
4、 correlation degree between behavior characteristics and academic performance,and the key characteristics are extracted to weight and calculate for merger to form new characteristics.Through the clustering analysis of the basic model K-means algorithm,the students are divided into three types of exc
5、ellent performance in self-discipline,late sleepers with Internet access and lack of planning.This paper establishes a prediction model based on the logistic regression model,and discusses the prediction effect of the three types of students,which provides a reference for educators to deeply diagnos
6、e students learning status and give precise teaching guidance and intervention.Keywords:educational data mining;behavioral data;student portrait;correlation;prediction analysis0 引 言教育信息化 2.0 时代,教育进入以大数据驱动的新时代。目前,高校内积聚了学生的各类在校行为数据并逐步构建成为智慧校园。学生画像作为智慧校园中的重要组成部分,通过搜集和整理学生在各类平台中留下的碎片化“烙印”,进行聚合和抽象形成学生的专属
7、“画像”,以反映学生的多方面属性。学生的学习成绩作为教育教学中的核心指标,是衡量学校教学质量、检验教师教学成果和评价学生知识掌握程度的重要依据,分析学生行为特征与学习成绩之间存在的内在联系和潜在规律,获得优化教学决策的信息并加以应用,已引起高校和研究者的广泛关注。本研究基于数据挖掘技术,通过采集学生的基本信息、图书借阅、上网行为、参与公益活动等各类数据,挖掘行为特征与学习成绩之间的关联性,进一步提取关键特征并构建学生画像,针对不同类群的学生DOI:10.19850/ki.2096-4706.2023.04.048建立预测模型预测其学业成绩,以达到对学生异常情况的早期预警,优化教学实施过程,以促
8、进学校对不同类群学生的培养、引导和管理工作。1 相关研究教育数字化转型已成为高等教育高质量发展的重要引擎和创新路径,引发了高等教育教学模式、治理体系等方面的系统性变革。在 2020 年出台的深化新时代教育评价改革总体方案中提出,利用人工智能、大数据等现代信息技术,探索学生在学习全过程纵向评价和德智体美劳全要素横向评价。教育数据挖掘已成为教育信息化、数字化的新方法,从应用需求上来看,王宏志、熊风等将教育数据挖掘划分为三个层次,即描述分析、预测分析和规范分析1。其中,描述分析是依据历史数据描述并分析学生行为特征,预测分析是指预判学情的未来趋势及概率,规范分析根据学生的历史数据提出学生下一步的学习计
9、划和引导方案。杜婧敏、方海光等认为教育数据挖掘的应用主要体现在评估、预测和干预,评估是指基本统计分析及其可视化、提取学生群体特征,预测是针对不同类型的学生构建预测模型研判学生成绩,干预是指对教师的教学方法提供改进意见2。李凤霞、徐玉晓提1941942023.022023.02第 4 期现代信息科技出了教育数据挖掘的三大主要趋势为教育数据的挖掘分析以优化教学策略,开发自适应学习系统以实现个性化学习,以及开展多元化的学生综合评价促进教育教学模式的创新3。国外相关学者也对此进行分析研判,KLANJA-MILIEVI等构建了教育大数据的理论框架,包含信息技术分析、学习分析和平台机构分析4。美国智库布鲁
10、金斯研究院提出了教育大数据研究的五种范式为趋势分析、聚类分析、关系挖掘、自然语言转化以及构建现象解释模型5。Kirsty Kitto 建立了一种新的教学数据挖掘方法“do(做)analyse(分析)change(改变)reflect(反映)”,以区别传统的特定系统范围内的教学数据静态分析,形成面向学生行为跟踪的动态数据分析6。通过研究成果梳理分析,我们发现教育数据挖掘(Educational Data Mining,EDM)方法主要包括预测(Prediction)、聚类(Clustering)、关联挖掘(Relationship Mining)、决策支持(Distillation for hu
11、man judgment)和模型发现(Discovery with models)。当前教育数据挖掘应用主要聚焦于三大热点:以解释和优化学生学习过程的学习分析,以学生个性化需求为导向的教育空间及平台分析,以学生动态性、全过程为研究对象的教育数据治理分析。从数据来源来看,教育数据可分为学习者个人信息、学习资源信息(视频、PPT、文档等)以及学习者行为信息(行为跟踪、社会交互等)等不同来源的异构数据。通过采集和整理学生海量的行为数据,抽象出学生的行为特征并形成学生用户画像。学生画像是由用户画像概念迁移而来7。一般来说,学生画像由学生特征、学生标签和学生属性三个基本要素构成8。学生画像侧重于对学生进
12、行不同维度的划分。目前,已形成了学生画像的一定研究,Kiu 等人通过研究图书馆的学生数据,挖掘分析其阅读习惯,进而构建画像,为学生读者推荐图书的目的9。张治等构建学生的个体画像和群体画像,分别服务于学生生涯规划和个性发展,为学校办学改进和政府教育治理提供决策支持10。薛耀峰等设计了基于德、智、体、美、劳五个维度的学生画像用于呈现不同区域学生的培养发展情况11。因此,学生的数字画像是以学生的行为数据为客观事实和依据,通过数据挖掘等技术方法抽离出描述学生的真实特征及行为的标签集,基于具体的教学情境的形成有信度和效度的综合评价。综合已有的研究基础,本研究基于预测、聚类和关联分析三个教育数据挖掘的主要
13、方法,通过采集学生的多维行为数据,分析学生们在生活规律、学习习惯等方面的群体特征,计算学生行为特征与学习成绩之间的关联程度,利用聚类算法对学生进行用户画像形成立体的评价,并构建预测模型深入分析预测各类群学生的学习成绩变化特征12,13。2 数据采集与预处理本研究以广东省某高校的 103 名本科生为研究对象,使用学生脱敏数据进行分析,该数据集包含了学生基本信息、学籍信息等静态数据,以及两个学年的成绩信息、图书借阅记录、参与公益活动记录、上网记录等动态数据。数据预处理在数据挖掘中约占整个工作量的 80%,数据的质量将会直接影响模型分析的效果,因此,在建模之前,需要先对数据进行预处理。为了提升数据质
14、量,针对部分信息记录不完全或存在缺失的样本进行清洗等预处理操作。并进一步计算各特征值与学习成绩相关性及影响度,针对关联度大的标签进行加权计算并强化学生属性,最后通过合并新特征并聚类形成学生用户画像,分析模型基本流程如图 1所示。数据源数据预处理学生行为特征提取学生画像及结果分析学习成绩预测分析图书借阅管理系统上网认证管理平台公益学分管理平台教学管理平台图书借阅记录上网记录参与公益活动记录学生成绩单数据整合并提取行为特征指标关联度计算提取关键特征加权计算合并形成新特征画像群体确定画像结果输出预测效果分析不同类群的预测效果分析预测结果输出群体画像聚类画像模型比较数据模型图 1 学生画像分析模型的基
15、本流程对经过数据预处理之后的数据类型汇总,分为学生基本信息、图书借阅信息、上网行为信息、参与公益活动信息以及教学活动信息 5 个部分,预处理后的 2018 级学生特征如表 1 所示。表 1 学生特征列表特征类型特征名称基本信息学号民族专业性别图书借阅图书借阅次数各类数据借阅次数上网行为上网总次数上网总时长平均每周上网时长不同时间段上网时长参与公益活动参与公益活动次数参与公益活动总时长参与公益活动平均时长获得公益活动认证学分教学活动入校成绩各课程成绩获得奖学金次数选课类型平均学分绩点1951952023.022023.02第 4 期3 学生群体画像分析为了进一步探索数据,我们将预处理后的数据利用
16、汇总统计及可视化进行数据特征的初步分析,勾勒出学生群体画像。3.1 学生基本情况本次的研究对象为 2018 级某专业 103 名本科生,其中男生 46 人,女生 57 人,从性别比例上来看相差不大。学生们主要来自广东省内,占比68.75%,其余则来自湖南、湖北、浙江、陕西、吉林等11个省份。同时,我们采集了学生的语文、数学和英语三科的入学成绩,因不同省份的高考总分不一致,无法对分数进行横向比较,我们通过预处理将高考总分对标学分制5.0,进一步将学生入学的三科分数转化为学分绩点,并计算出语文、数学、英语三科的平均绩点分别为3.39、3.06、3.24。从学生获得奖学金情况来看,在统计周期内共计有 68名同学获得优秀学生奖学金,人均获奖 0.66 次,学生生源地及性别分布情况如图 2 所示。3.2 图书借阅数据大学图书馆是高校教学科研工作的支撑,也是学生学习的第二课堂。本研究选取的图书借阅信息,包含学号、书名、书号、借阅日期、书籍所属类型等指标,探索学生图书借阅的数据特征。通过图 3 和图 4 图书借书次数的分布情况可以看出,约有 84%的学生借书图书次数集中在 0,30 之间,最多的一位