1、基于随机森林算法的高校学生评教指标研究以程序设计基础课程为例蒋明池,胡圣波*,孟欣(贵州师范大学,贵州 贵阳550025)摘要:为解决高校学生评教量表不规范导致评教指标设置不科学的问题,本文提出采用随机森林算法对学生评教指标建模分析.以程序设计基础课程为例,设计评教问卷,采用随机森林算法建模,对综合评分的优秀与否进行判断,并得到评教指标重要性排序.实验结果显示:教学效果、语言表达等评教指标在高校学生评教量表中占重要地位,对量表的设计改进有重要参考价值.关键词:随机森林算法;学生评教;问卷调查;评教指标;程序设计基础课程中图分类号:TP39文献标识码:A文章编号:1673-9329(2023)0
2、3-0074-08近年来,评教评学工作成为高校加强教学管理、促进教风与学风建设以及提高教育教学水平的一项重要措施1.从学生的角度来说,它为学生表达学习意愿提供了合理的途径;从高校建设的角度来说,它有利于高校践行为学生服务的办学宗旨.有关研究表明,高校评教的科学性和规范性并没有统一的标准,评教指标的设定需要进一步规范.针对评教指标的设定,国内外学者已有相关研究.有学者认为,学生期望和选课动机是评教的重要因素,评教指标的设置应当具有针对性,如Marsh2的研究表明,学生对感兴趣的课程评价更高,评教指标的设置应当根据课程的类型进行设定.而有的学者认为评教作为一种监督和反馈机制,如刘福元3在对二元维度
3、下高校课程评价的通用指标设置中,以知识传授为中心,评价学生接受度和教师的讲授情况.但由于评教指标的设置始终难以规范,很多常见指标与知识传授的实际效果并无太大关联,例如教师语言、教学环节等4,由此得出的评教结果与真实情况之间有所偏差.因此,在真实的评教数据中,需要通过严谨的分析方法,为评教指标的设置提供量化依据,推导出更重要的评教指标,为高校教学质量管理提供有力的保障.目前,不少学者运用机器学习算法对评教数据进行相关分析,如白雪梅5等采用监督学习设计实验,提出一种梯度下降模型,用于主客观数据的自动评教.众所周知,评教指标的重要性直接影响评教结果的有效性,但上述方法并未解决评教指标的选择问题.为此
4、,本文提出利用随机森林算法建立模型,从评教中得到指标的重要性选择.1随机森林算法1.1决策树决策树是一种用于回归和分类的机器学习算法,它通过树结构进行决策6,可将已知实例从收稿日期:2022-12-05基金项目:教育部新工科研究与实践项目“面向新一代信息技术的跨类专业联合培养改革实践”(0919001)作者简介:蒋明池(1999-),女,江西赣州人,贵州师范大学大数据与计算机科学学院硕士研究生,研究方向为计算机教育.*通讯作者:胡圣波(1964-),男,贵州六盘水人,博士,贵州师范大学大数据与计算机科学学院教授,博士生导师,研究方向为计算机教育和计算机应用.第 41 卷第 3 期2023 年
5、6 月凯里学院学报Journal of Kaili UniversityVol.41 No.3Jun.202374杂乱无序转换为可预测的未知实例.一棵决策树的生成通常包括三步,即特征选择、生成和剪枝.由于特征选择的量化评估方法不同,因此衍生出不同的决策树算法,常用的有ID3、C4.5、CRAT等.CART是通过Gini指数进行评估和特征选择7,如本文所采用的随机森林算法就是基于CART决策树完成的.CART决策树不但可以作分类树,也可作回归树.分类树用于处理离散数据,输出的是样本的类别;回归树则用于预测连续性数值,输出的是数值.1.2随机森林算法随机森林是bagging(集成学习方法)的扩展体
6、,弱学习器一般为CART决策树,在训练过程中随机选择划分属性.随机森林训练弱学习器时,先从候选属性集中随机挑选出一个包含k个属性的子集,再从该子集中选出一个最优属性进行划分8.随机性的引入程度由k决定,一般推荐使用公式k=log2d.经过多次随机取样,再多次随机选择属性,最后选出最优分割点,构造多个CART分类器进行投票表决.由于样本扰动和属性扰动,弱学习器之间会明显提升差异度.随机森林只在候选属性集的一个子集中进行选择,能够得到更高的训练效率.随机森林的生成方法主要包括以下3步:为k棵决策树抽样产生k个训练集每棵决策树对应一个训练集,采用随机抽样法从原始数据集中产生k个训练子集9;决策树构建
7、先构建一棵决策树,每棵树的成长过程都是根据指数最小原则,从M个特征变量的m个属性中选出最优划分.随机森林算法选中的属性个数称为随机特征变量;随机森林形成及算法执行多棵决策树形成随机森林,输出的最终结果是通过投票法来实现的.将测试集样本D输入到随机构建的k棵决策子树中进行分类,总结每棵决策树的分类结果,以投票数最多的分类结果作为最优结果.随机森林分类示意图如图1所示.随机化D2D1DkD决策树分类结果 1决策树分类结果 2决策树分类结果 k投票决定最优分类图1随机森林分类示意图1.3随机森林算法特点随机森林能够同时解决分类和回归问题.由于采用了继承算法,随机森林的分类精度明显高于单株决策树.在测
8、试集上表现良好,由于随机取样和随机特征选择,不易陷入过拟合,也因此随机森林具有抗噪能力.训练中,可通过检测特征间的交互获得特征重要性.随机森林实现简单、精度高、抗过拟合能力强,使它成了一种广泛使用的回归分类算法.752实验设置2.1数据来源采用问卷调查的方式,收集贵州师范大学大数据与计算机科学学院数计科学与大数据技术专业2018-2021级208位本科生的评教结果数据,选择针对程序设计基础这门课程的12个评教指标进行分析.2.2问卷设计程序设计基础是计算机相关专业的必修课,是涉及程序设计方法和程序设计语言的基础课程.该课程的教学目标是引导学生领悟和体会程序设计,形成计算机思维,逐渐培养学生用计
9、算机解决问题的能力10.根据教学目标和学情特点,问卷设计主要从学生对教师课前、课中、课后三个维度的表现进行评价,共设置指标12项,即12个变量.问卷设置的12个变量分别是教学态度、课堂管理、语言表达、教学内容、授课方式、教学手段、科研实践、课堂氛围、课后作业、教学效果、教学特色和课堂思政,每一个变量都设置了5个分值,可选择2、4、6、8和10分.而教学总体评价综合评分设为120分.由于综合评分在90分以上的高达81.7%,100分以上的占62.0%,110分以上的占49.5%,因此设置综合评分达到110分作为判断优秀的标准更合适.2.3数据预处理为了使用随机森林方法解决回归及分类问题,对数据做
10、了如下处理.在回归任务中,直接根据问卷特征预测综合评分,是一个连续的值,建立随机森林回归模型,得出其中特征的重要性,即得到各项评教指标的重要性排序.在分类任务中,对综合评分设置阈值.为了便于二分类,设置阈值为110分.大于等于110分为1,否则为0,建立随机森林二分类模型.由于问卷调查所采集的数据不完整,并且含有噪声的冗余数据,因此需要对数据进行预处理.原始数据设置了20个问题,各项数据的属性个数较多,需要删除一些与此次实验无关的数据,如年级、性别和综合排名等.之后,采用等宽分箱法对噪声数据进行处理,通过考察相邻数据来确定最终值,处理后的数据都将以连续型数值的形式呈现,部分数据见表1.表1学生
11、评教结果部分数据序号12345678910教学态度10888810108106课堂管理108108688888语言表达10881068881010教学内容1088888108108授课方式1088106810886教学手段88108888888科研实践1081010681081010课堂氛围108886108101010课后作业10888810106108教学效果101010868106108教学特色10810886106108课堂思政10881068106106综合评分11898106104821001129011496763基于随机森林算法的学生评教实验结果分析3.1训练测试集预测评教结果
12、将样本容量按7 3的比例划分为训练集和测试集,选取测试集进行随机森林拟合,拟合得到测试集样本的实测值和预测值,如图2所示.从拟合结果来看,随机森林拟合效果与实际数据曲线基本吻合,说明调查所得的实际综合评分能够反映真实情况.本模型的均方误差为3.037 6,拟合度为0.992 5.SCORE:0.992 4541201008060402000 10 20 30 40 50 60true valuepredict value图2随机森林拟合图3.2二分类模型准确率和灵敏度的判断在构建的随机森林二分类模型中,如图3所示,大于等于110分为1、小于则为0,达到优秀的人数略低于未达到优秀的人数.如图4所
13、示,通过混淆矩阵统计分类模型归错类和归对类的观测值个数.对角线深色部分表示的是正确分类的数量,采用35个类别为0的样本输入到分类算法后,得到的分类结果也全为0,即全部正确分类.对角线的数量越大,说明该分类模型的性能越好,准确率越高.右对角线浅色部分表示错误分类的数目.准确率(ACC)是指分类所有判断正确的结果占总观测值的比重,灵敏度(TPR)是指真实值是Positive(正例)的所有结果中,模型预测对的比重,计算公式分别为:ACC=TP+TNTP+TN+FP+FNTPR=Recall=TPTP+FN其中,TP是指True Positive(真正例),真实值是positive,模型认为是posi
14、tive的数量;TN是指True Negative(真负例),真实值是positive,模型认为是negative的数量;FP是指False Positive(假正例),真实值是negative,模型认为是positive的数量;FN是指真False Negative(假负例),真实值是negative,模型认为是negative的数量.77本模型的准确率计算为0.984 1,灵敏度为1.0.图3综合评分优秀与否分布图3随机森林模型混淆矩阵4基于随机森林算法的高校学生评教指标研究4.1各项指标之间的相关性各项指标之间的相关性通过绘制热力图(相关系数图)进行分析.根据不同方块颜色对应的相关系数大
15、小,可以判断各指标变量之间的相关性.两个变量之间相关系数的计算公式为:x1x2=Cov(X1,X2)DX1,DX2=EX1X2-EX1*EX2DX1*DX2其中,X表示指标,表示各指标间的相关系数,X1X2表示X1与X2之间的相关系数,Cov表示协方差,D表示方差,E表示数学期望.相关系数越高,变量间的线性相关程度越高;反之,则越小.如图5,热力图中教学效果和教学特色之间的相关性为0.91,即存在较强的多重共线性.图5相关系数矩阵热力图4.2各项指标出现的频率如图6所示,连续型变量分布图中,分别以所选的12项指标的分数为X轴、密集度(即出现的频率)为Y轴,呈现明显的曲线变化趋势.其中,各项指标
16、的评分差异不大,评分为10分出现的次数最多,其次是8分和6分.78图6连续型变量分布图4.3回归算法得到特征重要性排序回归模型中,以各项指标为X,重要性为Y.如图7所示,可以得到特征的重要性排序为教学效果语言表达课堂氛围课堂思政课后作业授课方式教学手段科研实践教学特色教学内容教学态度课堂管理.其中,可以得知教学效果、语言表达和课堂氛围等指标在评教量表中占据重要地位,其中教学效果在评教指标中占比为0.37,与其他指标相比占比最显著,因此教学效果的高低是学生评教最为重要的衡量指标.5对评教指标设置的建议通过随机森林算法建立的回归模型对本课程评教指标进行重要性排序,结果显示教学效果、语言表达和课堂氛围指标排前三.综合以上研究,本文对评教指标设置给予以下建议.79图7随机森林分类算法特征重要性排序图5.1指标的设置应充分考虑学生的学习效果从实验结果来看,教学效果在本课程评教中最重要.高校应当以学生为主体,充分考虑学生对于课程的建议和意见,并结合教师授课的实际情况,对评教指标进行设置.作为学生,更多地关注自身学习效果.若能够在课堂上有所收获,学生对本课程的重视程度会明显提升,在评教时也能够以更真