1、人口预测是一个省级行政单位进行经济发展规划的核心工作之一.人口总数预测旨在揭示未来人口规模的大小,是最基础的人口预测内容之一.不少学者已经对某些地方的人口进行了预测,如采用灰色预测 GM(1,1)模型,经改进之后对某地的人口总数进行预测1-4.马振禹、朱林林根据南京市统计局提供的人口普查数据,运用 MATLAB 软件建立Leslie模型,对数据进行处理,并预测了20252035年南京的老龄人口数量5.曹亚楠、崔玉杰采用Logistic模型,根据19902020年我国65岁及以上老龄人口数据,对20212040年我国65岁及以上老龄人口数进行预测6.秦梦甜、李爱华等均采用队列要素法分析人口结构,
2、构建了人口预测模型,并通过实证分析了该模型的预测效果7-8.宋晓敏、周海燕等以20002019年成都市人口总数为依据,结合微分方程模型的相关知识,优先拟合出灰色预测模型,结果显示灰色预测模型精度较高9.罗万春基于 20052018 年的重庆市人口数据,用 BP神经网络对 20192038年重庆市总人口、城镇人口等进行了预测,得到可决系数,从而为重庆市相关部门了解人口的变化和制定相应的政策提供了依据10.王沛林分析了当前中国的人口形势,建立了四类预测人口方法的模型,对我国未来总人口进行预测,并将这四种预测方法进行比较发现,Logistic模型拟合优度和预测效果优于其他模型11.陈秋怡、崔妮等研究
3、了经典的时间序列预测方法,并总结了实现预测分析的基础过程与原则12.许泽杰、刘冬生根据20152019年各季度的基础数据,采用趋势分析季节模型和移动平均数法,预测2022年第一季度、第二季度的出院人数,然后与实际出院人数比较13.刘第 37 卷第 5 期2022年10月Vol.37No.5Oct.2022广 西 科 技 师 范 学 院 学 报Journal of Guangxi Science&Technology Normal University基于两种不同预测方法的广西人口预测唐璐薇,吕超,潘玉婷,陈璟(广西科技师范学院数学与计算机科学学院,广西来宾546199)摘要:基于2011202
4、0年的广西人口数据,本研究在MATLAB软件中运用BP神经网络和时间序列ARIMA模型对20212036年的广西农村人口、城镇人口和年末常住人口进行了预测.通过BP神经网络和ARIMA模型构造图形,经图形拟合度的分析,本研究发现BP神经网络预测效果良好,精度较高,这有助于预测今后一段时间人口的变化,能为有关部门制定相应的人口政策提供参考.关键词:人口预测;MATLAB;BP神经网络;时间序列ARIMA模型中图分类号:C921文献标识码:A文章编号:2096-2126(2022)05-0108-08收稿日期 2022-06-29基金项目 2022年度广西高校中青年教师科研基础能力提升项目(202
5、2KY0855);2022年度广西科技师范学院科研基金项目(GXKS2022QN019)。作者简介 唐璐薇(1995),女,广西桂林人,硕士,研究方向:生存分析、统计建模。通讯作者 吕超(1994),男,海南三亚人,硕士,研究方向:随机分析及其应用。108智、李欣雨等提出一种结合K-medoids聚类算法和贝叶斯优化后的长短期记忆网络算法对隧道拱顶沉降与周边收敛位移进行预测14.本研究以 20112020年广西全区农村人口、城镇人口和年末常住人口为基础,运用BP神经网络和时间序列ARIMA(p,d,q)预测模型,对20212036年广西全区农村人口、城镇人口和年末常住人口进行预测,证实了两种预
6、测模型的有效性,进而为相关部门制定相应的政策措施提供依据.1模型的建立1.1BP神经网络BP(back propagation)神经网络是 1986 年由 Rumelhart 和 McClelland 为首的科学家提出,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络模型之一15.有关研究表明,有一个隐层的神经网络,只要隐节点足够多,就可以以任意精度逼近一个非线性函数.因此,本研究采用含有一个隐层的三层多输入多输出的BP网络建立预测模型,模型的建立如下:输入数据为20112020年广西全区农村人口、城镇人口和年末常住人口数,(1)输入层到隐层的一个模型,假设是第h个隐层
7、神经元的输入其中,为输入数据数,取值为输入层到隐层的权重,权重初始值设置为1.(2)隐层到输出层的一个模型,得到我们20212036年的人口预测数据,其中 为输出数,取值=1,2,3,16.等价于模型(1)中的为隐层到输出层的权重,取值为-1.我们通过以上的模型,运用MATALB编程将数据代入,根据BP神经网络求解步骤,可得到20212036年广西人口总数的预测.其具体结构如图1所示.BP神经网络求解的步骤如下:第一步,选择训练集和检测集;第二步,构建一个神经网络;第三步,用训练样本对网络进行训练;第四步,对检测样本进行仿真模拟;第五步,评价拟合效果;第六步,求出未知的待检测样本.图1BP神经
8、网络多输入多输出拓扑结构图1091.2ARIMA(p,d,q)模型的建立人口数量是随着时间不断变化的,但是人口和时间的关系不能用简单的线性回归多项式来表示,为了更好地对人口进行预测,本研究运用了时间序列中的ARIMA(p,d,q)模型,模型的输入数据为20112020广西城镇人口数、农村人口数和年末人口总数,用来预测20212036年年末广西人口总数.本研究的数据序列假设经过差分后,得到的序列为平稳序列.假设其时间序列具有明显的线性趋势,则可以设其模型为:其中是高斯白噪声,为非平稳序列,p为自回归阶数,q为滑动平均阶数.ARIMA(p,d,q)模型有3种基本形式:AR(p),MA(q),ARI
9、MA(p,d,q).2模型求解预测广西人口2.1BP神经网络模型求解2.1.1数据集本研究数据来源于国家统计局官网中人口普查数据的统计,包括20112020年广西全区农村人口、城镇人口和年末常住人口的数据.2.1.2数据分组本研究将数据分为训练集和检测集,将原始数据从20112015年的数据归入训练集,其余所有数据作为检测集;对检测集的数据进行预测,以测算预测精度来判断,预测精度越接近于1,拟合效果越好,以此对20212036年的人口相关数据进行预测.为了更好地预测人口数,在进行BP神经网络预测前,本研究将数据进行了归一化处理,归一化处理后的人口数与原始数据对比散点图如图2所示,其中第一列图为
10、归一化处理后的图形,第二列图为原始数据图形.图2原始数据归一化比较图由图 2 可知,归一化后的数据基本保持了原始数据的走势规律,这说明归一化不改变数据要表达的原始意义.接着,运用收集到的人口数据,采用BP神经网络进行预测,发现预测精度为99.05%,接近于1,说明BP神经网络的预测效果良好.可视化的展示如图3所示.110图3广西年末实际农村人口、城镇人口和常住人口与预测人口曲线图由图3可知,运用BP神经网络对2011年到2020年的广西农村人口、城镇人口和年末常住人口进行预测,经过与实际人口数量对比可知,两条曲线接近于重合,说明本研究运用BP神经网络预测效果良好.图420212036年广西农村
11、人口、城镇人口和年末常住人口预测图111由图4可知,本研究通过对20212036年广西年末常住总人口的预测,到2036年末广西常住总人口将突破5685万,且农村人口在不断减少,而城镇人口在逐年增多,这说明广西的城镇化水平逐年提高.另外,由年末常住人口呈上升趋势来看,广西的发展水平也在逐年提升,更多的人愿意留在广西生活.结合广西统计年鉴对2021年年末广西总人口的统计数,我们发现,运用BP神经网络的预测效果良好,与实际数据较接近.具体的人口预测数如表1所示.表1广西20212036年人口预测结果统计表年份2021202220232024202520262027202820292030203120
12、322033203420352036农村人口(万人)2262.6662204.3882160.1092115.832071.5522027.2731982.9941938.7151894.4361850.1581805.8791761.6001717.3211673.0421628.7641584.485城镇人口(万人)2775.2672901.9332987.6003073.2673158.9333244.6003330.2673415.9333501.6003587.2673672.9333758.6003844.2673929.9334015.6004101.267年末常住人口(万人)5
13、037.9335106.3215147.7095189.0975230.4855271.8735313.2615354.6485396.0365437.4245478.8125520.2005561.5885602.9765644.3645685.7522.2ARIMA(p,d,q)模型求解预测广西人口数据来源与2.1.1数据相同,这里选取的是年末常住人口数,对数据用MATLAB软件进行一次单位根检验,判定该数据序列的平稳性.这里得到的 值为0.96,大于检验的临界值0.05,所以该数据序列不平稳.通过对这些不平稳数据序列进行差分处理,差分的次数用表示,对其经过差分处理之后变为平稳序列.图52
14、0112020广西年末人口数的差分图112由图5可知,该人口数序列对其进行3阶差分后已无明显趋势,因此,我们可以认为该时间序列平稳.本研究对已经平稳的数据序列进行白噪声检验,判断数据序列是否是纯粹的随机序列,由于Ljung-Box检验用得相对较多,故采用此检测方法.经过检测,我们可以发现 值为0.007435,小于标准值0.05,所以对数据序列进行三阶差分后的平稳序列不是随机序列,是可以开展下一步工作的.经过前面对数据序列的差分,现在确定模型的阶数,画出序列的自相关图(ACF)和偏自相关图(PACF),具体详见图6.图6自相关图和偏自相关图由图6可知,ACF图3阶截尾,PACF图具有拖尾性,判
15、定模型为ARIMA(0,3,3).同时,根据MATLAB软件的运算,可以得出该模型为用ARIMA(0,3,3)模型预测20212036年广西农村人口数、城镇人口数和年末人口总数,得到的预测结果如图7所示.图7ARIMA(p,d,q)模型预测20212036年广西年末常住人口113由图7可知,利用ARIMA(p,d,q)模型对20212036年广西农村人口数、城镇人口数和年末常住人口数进行预测,本研究发现城镇人口数和年末常住人口数总体呈上升趋势,而农村人口数则呈下降趋势,与BP神经网络模型预测的结果是一样的.但是ARIMA(p,d,q)模型受时间影响,只能对中短期的数据进行预测,对于较长时间数据
16、的预测会出现不精准的结果.3结语本研究通过对20112020年广西全区年末人口数量进行分析,采用BP神经网络和时间序列ARIMA(p,d,q)模型对20212036年的广西年末常住人口数进行了预测,发现均呈上升趋势.通过图形可知,BP神经网络对于年末常住总人口数的预测效果较好,预测每一年的年末人口数过程比ARIMA(p,d,q)模型预测过程精简,无论是从拟合度还是从变化趋势中短期预测都有很高的可信度.参考文献 1 侯瑞环,徐翔燕.基于改进GM(1,1)模型的中长期人口预测 J.统计与决策,2021(1):186-188.2 侯瑞环,徐翔燕.基于改进多维灰色模型及支持向量机的人口预测 J.统计与决策,2021(18):41-44.3 高红.基于灰色神经网络模型的江苏省人口预测 J.江苏商论,2021(9):130-132.4 崔红艳,刘颖锋,郑柯.基于灰色GM(1,1)模型的白城市人口预测分析 J.白城师范学院学报,2021(5):66-71.5 马振禹,朱林林.基于Leslie模型的南京市人口预测分析 J.信息与电脑(理论版),2021(2):58-60.6 曹亚楠,崔玉杰.基于 Lo