改进的C4.5算法在CET-4成绩分析中的应用

资源描述

1、第卷第期黑龙江工程学院学报年月：改进的算法在成绩分析中的应用王善勤，王立辉（东南大学仪器科学与工程学院，南京；滁州职业技术学院信息工程学院，安徽滁州）摘要：是一个客观、准确的大学生英语能力测量平台，算法在应用于成绩分析中仍存在一些问题。针对运用算法对高职院校成绩数据构建分析决策树时存在的离散化运算繁琐、忽视各属性影响度等典型问题，提出一种面向高职院校成绩分析的改进算法。首先通过在算法中引入成绩正态分布规律确立初始聚类中心、算法来离散连续属性；其次引入中听、读、写的权重来修正信息增益率的计算；最后运用改进的算法、经典的算法分别构建决策树模型并进行预测分析。实

2、验结果表明，改进的算法所构建高职院校成绩分析的模型效率、预测能力均有明显提高。运用改进的算法有效地分析出影响达标各因素间的关系，从而提升反拨英语教学效应。关键词：；正态分布；算法；决策树中图分类号：文献标识码：文章编号：（），（，；，）：，：；收稿日期：基金项目：安徽省高校优秀拔尖人才培育资助项目（）；安徽高校自然科学研究重点项目（）第一作者简介：王善勤（），男，副教授，研究方向：机器学习；软件工程；智能算法通信作者简介：王立辉（），男，教授，研究方向：无人系统多源导航；智能算法为了精准应对构建新型国际关系和人类命运共同体的迫切需要，需持续深化国际和地区合作、培养参与国际事务和国际化

3、的人才。因此，我国的外语教育需进一步提升质量，使其教育目标与国际深入接轨。目前，大学英语四级考试（简称）是一个客观、准确的大学生英语能力测量平台；大学英语四级考试的设计、发展得益于我国英语教学理论和实践水平的不断提高。当前对大学英语四级考试研究主要从宏观进行分析，数据量化分析并不深入；对采用数据挖掘技术进行各因素反拨教学质量提升预测挖掘的研究也有待提高。决策树是一种常用的数据挖掘技术，算法是决策树最具影响力的一种算法。但目前导致影响算法的分类预测效果因素主要有中听力、阅读、写作成绩具有连续性及各属性因素的影响度不同等。安葳鹏等提出的改进算法主要解决条件属性之间相关性问题，但没有针对成

4、绩分析实际场景进行优化。为此，文中提出一种采用基于成绩正态分布规律、算法、属性权重修正的改进算法，对成绩数据进行挖掘，运用该算法构建成绩分析预测模型并进行实验测试。理论基础算法以信息增益率为选择分裂点标准构建决策树；信息增益率是信息增益与分裂信息的比值，信息增益是决策树某一节点信息熵与条件熵的差。若训练集中分类目标值有个，第个分类目标值在所有训练样本中出现概率为（，），则该训练样本集合包含的信息熵为（）。假如用属性划分训练集中的样本，属性有个数值，其中，和分别是和中包含的样本数，则属性对样本集的划分条件熵（）（），信息增益

5、（，）（）（），分裂信息（），信息增益率（）（，）（）。算法是聚类算法的一种经典算法，其算法过程是把相互靠近的点归为一类，找到每一类的中心点，再从中心点出发寻找其邻近的点，不断重复此过程，直到中心点不再发生变化时停止计算。但其存在对初始选取的聚类中心点敏感等典型问题。正态分布是概率论中最重要分布之一，也是一种最常见的连续性随机变量的概率分布，其概率密度函数曲线以均值为对称中线；在理想状态下学生考试成绩一般呈正态分布，若随机变量的密度函数为（）（），则称服从正态分布，其中，参数，；在排除其他干扰条件的理想状态下，学生成绩等级为优秀

6、约占、良好约占、中等约占、一般约占、差约占。改进的算法）针对算法存在离散连续属性运行繁琐的问题，提出应用算法对连续属性值进行离散化，针对算法随机选取点作为初始聚类中心导致最终得到的聚类中心不稳定及计算次数过多的问题，提出应用成绩正态分布规律计算连续属性取值的初始聚类中心及值。按照成绩正态分布规律划分的“优”“良”“中等”“一般”“差”个等级，可以分为个区域。假设数据记录数为，每次记录用于分析属性为个，将数据分成个属性降序排列，按正态分布规律划分值域。假设数据记为，区域个数为，每个区域为，。成绩正态分布密度函数为（），如式（）所示。（），优，良，中等，一般，差（）则各个区域个数（

7、），表示数据记录数。从降序排列的列表中划分出个值域，取各个值域数据平均值最佳邻近点作为初始聚类中心点，将各值域中数据先求和，再取平均值，如式（）所示。表示区域内的第个元素。.（）计算的最佳邻近点如式（）所示。（）（），.（）当为最小值时，为各值域初始聚类中心点。根据上面确立的初始聚类中心点，运用算法离散化各个属性字段，从而实现各属性的离散化操作。）针对各属性影响目标分类的作用强度不一致场景，引入属性权重修正该属性信息增益率。若分类属性有个，设，表示第个属第期王善勤，等：改进的算法在成绩分析中的应用性，（）表示的权重，（）表示的信息增益率，（）表示的修正信息增益率

8、，引入权重修正算法信息增益率计算式为（）（）（）.（）由于大学英语四级考试成绩主要由听力、阅读、写作模块组成，所占比重分别为、，各部分在合成英语四级成绩的比重不均等，也就说明在判定英语成绩是否达标中所起到的作用强度并不完全一致，所以在算法节点分裂标准需要根据各属性所占比重进行调整。比如听力信息增益率（）（）（）（）。在构建决策树的过程中，改进的算法运用各属性权重与信息增益率之积来确定优先分裂的属性。具体构建过程如下：根据正态分布规律，确立值及初始聚类中心点；运用算法对各属性值进行离散化；划分用于数据挖掘的训练、测试样本数据集；依次计算目标分类信息熵、属

9、性条件熵、属性分裂信息、属性信息增益率、属性修正信息增益率；比较各属性修正信息增益率，修正信息增益率最大的属性作为分裂节点；以此计算，运用剪枝法进行剪枝，直到满足最低要求为止。改进算法决策树构建过程如图所示。图改进的算法决策树构建过程实验与分析目前，成绩主要包括听力、阅读、写作三部分，总分为分。听力占，满分为分；阅读理解占，满分为分；写作占，满分为分。成绩原始数据项主要包括专业名称、学号、姓名、性别、总分、听力分数、阅读分数、写作分数、学历等属性。数据预处理数据清洗在选择参与训练的属性上，专业名称、学号、姓名对英语能力水平挖掘意义不大，需删去；学历对英语学习能力评估

10、作用不大，只有专科和本科，大量数据重复，故不予考虑。英语学习能力评估重在听说读写，听力、阅读、写作可信度大，故选取听力、阅读、写作作为训练属性。最后，用于建模的数据项包括听力、阅读、写作、总分。为了对英语四级历黑龙江工程学院学报第卷史数据进行挖掘，选取年的成绩数据作为挖掘数据，经过清洗，最终选取条优良数据作为训练及测试样本数据，按照学生姓名进行排序，训练样本集与测试样本集中数量按划分，从上到下选择用于训练的样本数量为条、测试的样本数量为条。数据变换与规约成绩总分超过分为达标，否则不达标。为了能表征是否达标这一重要决策属性，引入一个达标属性。该属性

11、由总分属性迁移而来，进行如下约定：如果总分大于等于分就用“是”来表示，否则用“否”来表示。成绩数据结构转化为四级数据表（，）。其中，为决策属性，其余属性均为必选条件属性。）初始聚类中心点的选定。若选取训练的样本数据量为，根据成绩正态分布规律，学生成绩各等级样本数：优秀为条，良好为条，中等为条，一般为条，差为条。先将样本数据按各属性降序排序，并划分各样本属性，然后将该属性每个级别学生成绩先求和，再取平均值为，取与最接近的点值作为各个值域最初聚类中心。各样本属性各级别初始聚类中心点如表所示。表各属性各级别初始聚类中心点科目优良中等一般差听力（）阅读（）写作

12、（）运用算法进行属性离散化。选取各值域中心点、最小值、最大值，离散成优、良、中等、一般、差个等级。编程实现、个字段数据离散化操作。试验划分结果为：“听”属性分数在区间时，属于优秀等级；分数在，区间时，属于良好等级；分数在，区间时，属于中等等级；分数在，区间时，属于一般等级；分数在，区间时，属于差等级。“读”属性分数在，区间时，属于优秀等级；分数在，区间时，属于良好等级；分数在，区间时，属于中等等级；分数在，区间时，属于一般等级；分数在，区间时，属于差等级。“写”属性分数在，区间时，属于优秀等级；分数在，区间时，属于良好等级；分数在，区间时，属于中等等

13、级；分数在，区间时，属于一般等级；分数在，区间时，属于差等级。各属性值离散化后数据如表所示。表属性离散化后数据序号姓名听力阅读写作达标陈玲优中等良是陈平中等差差否陈萍一般中等中等否构建高职院校成绩分析模型运用改进的算法、算法对清洗处理后的数据分别构建预测模型，两种预测模型分别如图和图所示。模型的叶子结点中标出事例比，如“（）”，代表有条训练数据达标属性为是，代表有条数据达标属性为否。改进的算法构建成绩分析模型）构建决策树。以清洗转换后的条数据作为训练集构建决策树。决策树构建过程如下：计算信息熵。根据公式计算信息熵，其中，训练集数据中总样本数为条，而达标数为条，未达标数为条。（

14、）（，）.计算属性的信息熵。根据公式计算属性的信息熵，对于属性值有“优”“良”“中等”“一般”“差”种。其中，听力成绩为“优秀”的条件下，总成绩达标的记录为条，未达标的记录为条，可表示为（，）；听力成绩为“良”的条件下，总成绩达标的记录为条，未达标的记录为条，可表示为（，）；听力成绩为“中等”的条件下，总成绩达标的记录为条，未达标的记录为条，可表示为（，）；听力成绩为“一般”的条件下，总成绩达标的记录为条，未达标的记录为条，可表示为（，）；听力成绩为“差”的条件下，总成绩达标的记录为条，未达标的记录为条，可表示为（，）。则属性的信息熵计算过

15、程如下：（）（，）第期王善勤，等：改进的算法在成绩分析中的应用（，）（，）（，）（，）.计算属性信息增益（）（）（）.计算属性信息增益率。属性的分裂信息如下：（）优优良良中等中等一般一般差差 .因此，属性“”的信息增益率为（）（）（）计算属性信息增益率修正值（）（）（）依照上面构建方法分别计算、属性信息增益率修正值，（），（）。因为（）（）（），由此可见，属性信息增益率修正值最大，因此，以属性作为分裂属性进行下一步分裂。当为优秀时，（），（）。因为（）（），因此，以听力属性作为分裂点进行分裂。其他分支计算步骤与上一致，此处不再赘述。从上述计算结果的比较可知

16、，修正后的信息增益率最大属性是“”，所以将此属性作为决策树的根结点。重复上述方法与步骤来挖掘相应的分支节点，此处不再给出详细过程，完成决策树模型的构建。使用算法直接构造的决策树实用性不高，因此，决策树修剪是非常必要的步骤，这里使用后修剪方法来修剪决策树。修剪后的高职院校成绩分析决策树如图所示。图中叶子结点中表示达标，表示未达标。修剪后的决策树与修剪前的决策树不同，局部属性不同而成绩达标类型相同，就认为得出达标类型与属性无关的结论。）提取决策树分类规律。根据决策树模型，并结合样本数量进行分析，抽取相关规则。例如当、属性同时为优时，在训练样本中共有样本个，属性值为差的样本数为个并且该条记录未达标，其他样本均达标，认为当、属性同时为优、属性为差是小概率事件，那么可以推断当、属性同时为优、不为差时，该样本达标为大概率事件，由此推出【“优”“优”！“差”达标“是”】规则。同样，当属性为优、属性为中等、属性为中等时，共有个训练样本，其中，个样本未达标；当属性为优、属性为中等、属性为一般时，共有个训练样本且全未达标，据此可以推导出 “优”“中等”“差”

展开阅读全文

改进的C4.5算法在CET-4成绩分析中的应用_王善勤.pdf