收藏 分享(赏)

基于机器学习的汽车二氧化碳排放量预测研究_薛云飞.pdf

上传人:哎呦****中 文档编号:2252964 上传时间:2023-05-04 格式:PDF 页数:6 大小:1.69MB
下载 相关 举报
基于机器学习的汽车二氧化碳排放量预测研究_薛云飞.pdf_第1页
第1页 / 共6页
基于机器学习的汽车二氧化碳排放量预测研究_薛云飞.pdf_第2页
第2页 / 共6页
基于机器学习的汽车二氧化碳排放量预测研究_薛云飞.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 学术研究学术研究 22 本文引用格式:薛云飞.基于机器学习的汽车二氧化碳排放量预测研究J.自动化与信息工程,2023,44(1):22-26;45.XUE Yunfei.Research on prediction of automobile carbon dioxide emissions based on machine learningJ.Automation&Information Engineering,2023,44(1):22-26;45.基于机器学习的汽车二氧化碳排放量预测研究 薛云飞(重庆交通大学机电与车辆工程学院,重庆 400074)摘要:针对汽车尾气排放物中二氧化碳(C

2、O2)的排放量测量设备价格昂贵且测量精度低的问题,进行基于机器学习的汽车二氧化碳排放量预测研究。首先,利用斯皮尔曼等级相关系数分析汽车特征之间的相关性,并过滤冗余特征;然后,利用随机森林算法筛选出影响 CO2排放量的 4 个核心特征;最后,分别基于线性回归、梯度提升树、XGBoost、支持向量机 4 种机器学习算法建立 CO2排放量的预测模型,并通过模型效果对比和网格搜索调参,确定最佳的预测模型为基于梯度提升树算法构建的模型。预测值和真实值的对比结果表明,基于梯度提升树算法构建的模型具有较高的预测精度,能有效预测不同汽车每公里的 CO2排放量。关键词:机器学习;CO2排放量;斯皮尔曼等级相关系

3、数;随机森林算法;预测模型 中图分类号:TP181 文献标志码:A 文章编号:1674-2605(2023)01-0004-06 DOI:10.3969/j.issn.1674-2605.2023.01.004 Research on Prediction of Automobile Carbon Dioxide Emissions Based on Machine Learning XUE Yunfei(School of Mechatronics and Vehicle Engineering,Chongqing Jiaotong University,Chongqing 400074,C

4、hina)Abstract:Aiming at the problem of the high price and low measurement accuracy of the emission measurement equipment of carbon dioxide(CO2)in automobile exhaust emissions,the research on the prediction of automobile carbon dioxide emissions based on machine learning is carried out.Firstly,the co

5、rrelation between automobile features is analyzed by using Spearman rank correlation coefficient,and redundant features are filtered;Then,the random forest algorithm is used to screen out four core characteristics that affect the emission of CO2;Finally,the prediction model of CO2 emissions is estab

6、lished based on four machine learning algorithms,namely linear regression,gradient lifting tree,XGBoost and support vector machine,and the best prediction model is determined based on gradient lifting tree algorithm through model effect comparison and grid search parameter adjustment.The comparison

7、between the predicted value and the real value shows that the model based on gradient lifting tree algorithm has high prediction accuracy and can effectively predict the CO2 emissions per kilometer of different automobile.Keywords:machine learning;CO2 emissions;Spearman rank correlation coefficient;

8、random forest algorithm;prediction model 0 引言 随着科技和经济的飞速发展,我国汽车保有量迅速增长,汽车尾气已成为我国大气污染物的主要来源之一1。汽车发动机工作时,燃油中的碳与氧结合生成的CO2约占汽车尾气总排放量的20%2。CO2会引发温室效应,影响全球气候变化,因此对汽车尾气中 的CO2排放量进行测量是非常必要的。通过测量得到规定条件下汽车的CO2排放量,不仅可以确定汽车是否符合环保检测尾气标准,还可以为环境污染管理提供碳排放数据。目前,测量汽车CO2排放量的方法大都根据光学原理,利用CO 和CO2等气体对不同频率的红外光有 2023 年 第 44

9、 卷 第 1 期 自动化与信息工程 23 不同吸收率的特点进行测量。汽车尾气的测量设备主要有化学发光分析仪、可移动的四极质谱仪、新型非分光红外线(non-dispersive infrared,NDIR)设备和改进的氢火焰离子化检测器(flame ionization detector,FID)等。王刚等3针对轻型汽车设计一款便携式车载排放测试设备,依据非分光红外法原理测量汽车的CO2排放量,稳态工况下的测量误差为 2.54%。苏茂辉4利用 NDIR 分析仪来测量汽车尾气排放物中 CO及 CO2的浓度,测量误差稳定在 2.5%之内。隋修武 等5采用一体化结构设计一套汽车排放瞬态工况法测量用气体

10、流量分析仪,用于测量汽车尾气排放物中CO2的浓度值及排放量,测量误差仅为 0.93%。以上测量设备价格昂贵,动态响应差,只能满足CO2浓度变化微小的工况。随着人工智能技术的快速发展,有些学者将其应用于汽车尾气排放量的测量,如李小颖等6基于神经网络建立汽车尾气排放物中 CO 的软测量模型,该模型可在没有汽车尾气排放物专用测量仪器时进行CO 排放量的测量。受此启发,本文基于机器学习与数据挖掘技术,利用汽车行驶的信息数据来预测CO2排放量。1 数据描述及预处理 本文的研究数据来源于开放数据平台 Kesci 上的2022年加拿大汽车燃油消耗等级数据。该数据集有15个字段,共946 条记录,每条记录包含

11、唯一的汽车特征,数据集中的汽车特征信息如表1 所示。表 1 汽车特征信息 变量名称 特征类型 特征含义 ModelYear 无用特征 车型年份 Make 离散 汽车品牌 Model 离散 车型类型 VehicleClass 离散 汽车类别 EngineSize(L)连续 发动机容积 Cylinders 离散 气缸数 Transmission 离散 变速器 FuelType 离散 燃料类型 FuelConsumption(City(L/100 km)连续 城市燃料消耗等级 FuelConsumption(Hwy(L/100 km)连续 公路油耗等级 续表 变量名称 特征类型 特征含义 FuelC

12、onsumption(Comb(L/100 km)连续 油耗综合等级 FuelConsumption(Comb(mpg)连续 燃料消耗综合评级 CO2Rating 离散 二氧化碳排放等级 SmogRating 离散 烟雾污染物排放等级 CO2Emissions(g/km)标签 二氧化碳排放量 在 Python3.8 环境中进行 CO2排放量预测的分析和建模,编辑器采用 Spyder。将 2022 年加拿大汽车燃油消耗等级数据导入 Python 后,先删除无用特征ModelYear;再采用独热编码方式对 5 列字符型的离散型特征进行编码处理,以方便后续输入模型的分析。2 特征选择 2.1 斯皮尔

13、曼相关性分析 斯皮尔曼相关性分析作为一种常用的描述性分析方法,可检查特征间的相关性。当特征间的相关性过大时,可能引起模型不稳定,导致模型的鲁棒性较差7。2 个特征的相关性可用相关系数的绝对值来表征。斯皮尔曼根据特征数据的位置顺序计算2 个特征的相关 系数,不受数据本身影响,计算流程为:1)对2 个特征X、Y 排序;2)排序后的位置信息称为秩,秩的差记为di,d 值的个数记为n;3)将di和n 代入公式(1),计算相关系数s:()22611isdn n=-(1)因为特征中异常值的秩只出现在数据的头尾,所以斯皮尔曼相关系数降低了异常值对相关性的影响。2 个特征之间的相关性等级如表2 所示。表 2

14、2 个特征之间的相关性等级 相关系数的绝对值 0.00.2 0.20.4 0.40.6 0.60.8 0.81.0 相关 等级 极弱相关或无相关 弱相关 中等程度相关 强相关 极强 相关 24 由表2 可知:当2 个特征的相关系数的绝对值在0.81.0 之间时,说明2 个特征呈极强相关;当2 个特征的相关系数的绝对值大于0.95 时,说明2 个特征极度相似,近似呈线性关系。本文设定相关性阈值为0.95,即 2 个特征的相关系数的绝对值大于 0.95 时,只保留其中1 个。利用斯皮尔曼相关性分析计算汽车特征之间的相关系数,并以热力图的形式将特征之间的相关系数可视化,如图1 所示。图 1 汽车特征

15、之间的相关性 由图1 可知,汽车不同特征之间共有8 个相关系数的绝对值大于阈值 0.95。可删除 FuelConsumption(Comb(L/100 km)、CO2Rating、FuelConsumption(Comb(mpg)这三列冗余特征。2.2 基于随机森林算法的特征重要性评分 将删除冗余特征后的数据按 73 的比例随机划分为训练集和测试集。其中,训练集数据有662 个样本,测试集数据有284 个样本。基于随机森林算法对斯皮尔曼相关性分析后的汽车特征进行重要性评分,只保留重要性评分较高的汽车特征来挖掘影响 CO2排放量的核心特征。对于回归问题,随机森林内部节点的特征按方差减少的标准来选

16、择8。假设共有 n 个 特征1X、2X、3XnX,它们的重要性评分用VIM 表示,方差Var的计算公式为 21()nSnniniVaryx=-(2)式中:nS为节点 n 中训练集样本的个数,niy为各个样本的值,nx为节点 n 中训练集样本的输出均值。特征jX在节点 n 的重要性,即节点 n 分枝前后的方差变化量为()VarjnnlrVIMVarVarVar=-(3)式中:lVar、rVar分别为分枝后 2 个新节点的方差。如果特征jX在决策树i中出现的节点在集合 N中,则jX在第i棵树的重要性为()VarVarijjnn NVIMVIM=(4)CO2Rating Make Model VehicleClass EngineSize(L)Cylinders Transmission FuelType FuelConsumption(City(L/100 km)FuelConsumption(Hwy(L/100 km)FuelConsumption(Comb(L/100 km)FuelConsumption(Comb(mpg)SmogRating CO2Rating Make Model

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2