人工神经网络应用实例分析.ppt

资源描述

1、人工神经网络的研究方法及应用人工神经网络的研究方法及应用实实例例分分析析 2008.6.10 一、人工神经网络知识回顾一、人工神经网络知识回顾 1 1、什么是、什么是人工神经网络人工神经网络？T.Koholen的定义：的定义：“人工神经网络“人工神经网络是由具有适应性是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交能够模拟生物神经系统对真实世界物体所作出的交互反应。互反应。”2 2、神经网络基本模型、神经网络基本模型细细胞胞体体突突触触轴轴突突树树突突图图 1.生生物

2、物神神经经元元功功能能模模型型输输入入输输出出信信息息处处理理电电脉脉冲冲形形成成传传输输 o1 ok ol W1 Wk Wl y1 y2 yj ym V1 Vm x1 x2 xi xn-1 xn图图2 BP神经网络结构模型神经网络结构模型 3、人工神经网络、人工神经网络研究的局限性研究的局限性（1 1）ANNANN研究受到脑科学研究成果的限制。研究受到脑科学研究成果的限制。（2 2）ANNANN缺少一个完整、成熟的理论体系。缺少一个完整、成熟的理论体系。（3 3）ANNANN研究带有浓厚的策略和经验色彩。研究带有浓厚的策略和经验色彩。（4）ANN与

3、传统技术的接口不成熟。与传统技术的接口不成熟。（1）一般而言）一般而言,ANN与经典计算方法相比并非优越与经典计算方法相比并非优越,只有当只有当常规方法解决不了或效果不佳时常规方法解决不了或效果不佳时ANN方法才能显示出其优越性。方法才能显示出其优越性。尤其对问题的机理不甚了解或不能用数学模型表示的系统尤其对问题的机理不甚了解或不能用数学模型表示的系统,如故如故障诊断、特征提取和预测等问题障诊断、特征提取和预测等问题,ANN往往是最有利的工具。往往是最有利的工具。（2）另一方面）另一方面,ANN对处理大量原始数据而不能用规则或公对处理大量原始数据而不能用规则或公式描述的问题式描述的问题,表现出

4、极大的灵活性和自适应性。表现出极大的灵活性和自适应性。细胞体突触轴突树突图 12.2 生物神经元功能模型输入输出信息处理电脉冲形成传输黑箱黑箱二、神经网络的应用实例二、神经网络的应用实例人工神经网络以其具有自学习、自组织、人工神经网络以其具有自学习、自组织、较好的容错性和优良的非线性逼近能力，受到较好的容错性和优良的非线性逼近能力，受到众多领域学者的关注。在实际应用中，众多领域学者的关注。在实际应用中，80%80%90%90%的人工神经网络模型是采用误差反传算法的人工神经网络模型是采用误差反传算法或其变化形式的网络模型（简称或其变化形式的网络模型（简称BPBP网络），目网络），目前主要应用

5、于前主要应用于函数逼近函数逼近、模式识别模式识别、分类分类和和数数据压缩据压缩或或数据挖掘数据挖掘。1.样本数据样本数据 1.1 收集和整理分组收集和整理分组采用BP神经网络方法建模的首要和前提条件首要和前提条件是有足够多典型性好和精度高足够多典型性好和精度高的样本。为监控训练（学习）过程使之不发生“过拟合”和评价建立的网络模型的性能和泛化能力，必须将收集到的数据随机分成训练样本、检验样本（训练样本、检验样本（10%以上）以上）和测试样本（和测试样本（10%以上）以上）3部分部分。数据分组时还应尽可能考虑样本模式间的平衡。1.2 输入输入/输出变量的确定及其数据的预处理输出变量的确定及其数据

6、的预处理一般地，BP网络的输入变量即为待分析系统的内生变量（影响因子或自变量）数,一般根据专业知识确定根据专业知识确定。若输入变量较多，一般可通过主成份分析方法压减输入变量，也可根据剔除某一变量引起的系统误差与原系统误差的比值的大小来压减输入变量。输出变量即为系统待分析的外生变量（系统性能指标或因变量），可以是一个，也可以是多个。一般将一个具有多个输出的网络模型转化为多个具有一个输出的网络模型效果会更好，训练也更方便。1.3 数据的预处理数据的预处理要对输入数据进行预处理。要对输入数据进行预处理。如果输出层节点也采用如果输出层节点也采用Sigmoid转换函数，输出变量也必须作相应的预处理，

7、转换函数，输出变量也必须作相应的预处理，否则，输出变量也可以不做预处理。否则，输出变量也可以不做预处理。预处理的方法有多种多样，各文献采用的公式也不预处理的方法有多种多样，各文献采用的公式也不尽相同。但必须注意的是，预处理的数据训练完成后，尽相同。但必须注意的是，预处理的数据训练完成后，网络输出的结果要进行反变换才能得到实际值。网络输出的结果要进行反变换才能得到实际值。再者，为保证建立的模型具有一定的外推能力，最再者，为保证建立的模型具有一定的外推能力，最好使数据预处理后的值在好使数据预处理后的值在0.20.8之间。之间。2.神经网络拓扑结构的确定神经网络拓扑结构的确定 2.1 隐层数的选取隐

8、层数的选取一般认为，增加隐层数可以降低网络误差（也有文献一般认为，增加隐层数可以降低网络误差（也有文献认为不一定能有效降低），提高精度，但也使网络复杂认为不一定能有效降低），提高精度，但也使网络复杂化，从而增加了网络的训练时间和出现“过拟合”的倾化，从而增加了网络的训练时间和出现“过拟合”的倾向。向。Hornik等早已证明：若输入层和输出层采用线性转换等早已证明：若输入层和输出层采用线性转换函数，隐层采用函数，隐层采用Sigmoid转换函数，则含一个隐层的转换函数，则含一个隐层的MLP网络能够以任意精度逼近任何有理函数。显然，这网络能够以任意精度逼近任何有理函数。显然，这是一个存在性结论。在

9、设计是一个存在性结论。在设计BP网络时可参考这一点，网络时可参考这一点，应应优先考虑优先考虑3层层BP网络（即有网络（即有1个隐层）。个隐层）。一般地，靠增加一般地，靠增加隐层节点数隐层节点数来获得较低的误差，其训来获得较低的误差，其训练效果要比增加隐层数更容易实现。练效果要比增加隐层数更容易实现。2.2 隐层节点数隐层节点数在在BP 网络中，隐层节点数的选择非常重要，它不仅对建立的网络中，隐层节点数的选择非常重要，它不仅对建立的神经网络模型的性能影响很大，而且是训练时出现“过拟合”的神经网络模型的性能影响很大，而且是训练时出现“过拟合”的直接原因，直接原因，但是目前理论上还没有一种科学的和

10、普遍的确定方法。但是目前理论上还没有一种科学的和普遍的确定方法。目前多数文献中提出的确定隐层节点数的计算公式都是针对训目前多数文献中提出的确定隐层节点数的计算公式都是针对训练样本任意多的情况，而且多数是针对最不利的情况，一般工程练样本任意多的情况，而且多数是针对最不利的情况，一般工程实践中很难满足，不宜采用。事实上，各种计算公式得到的隐层实践中很难满足，不宜采用。事实上，各种计算公式得到的隐层节点数有时相差几倍甚至上百倍。节点数有时相差几倍甚至上百倍。为尽可能避免训练时出现“过拟合”现象，保证足够高的网络为尽可能避免训练时出现“过拟合”现象，保证足够高的网络性能和泛化能力，性能和泛化能力，确定

11、隐层节点数的最基本原则是：在满足精度确定隐层节点数的最基本原则是：在满足精度要求的前提下取尽可能紧凑的结构，即取尽可能少的隐层节点数。要求的前提下取尽可能紧凑的结构，即取尽可能少的隐层节点数。研究表明，隐层节点数不仅与输入研究表明，隐层节点数不仅与输入/输出层的节点数有关，更与需解决的问题输出层的节点数有关，更与需解决的问题的复杂程度和转换函数的型式以及样本数据的特性等因素有关。的复杂程度和转换函数的型式以及样本数据的特性等因素有关。在确定隐层节点数时在确定隐层节点数时必须满足下列条件必须满足下列条件：(1)隐层节点数必须小于隐层节点数必须小于N-1（其中（其中N为训练样本数），为训练样本数）

12、，否则，网络模型的系统误差与训练样本的特性无关而否则，网络模型的系统误差与训练样本的特性无关而趋于零，即建立的网络模型没有泛化能力，也没有任趋于零，即建立的网络模型没有泛化能力，也没有任何实用价值。同理可推得：输入层的节点数（变量数）何实用价值。同理可推得：输入层的节点数（变量数）必须小于必须小于N-1。(2)训练样本数必须多于网络模型的连接权数训练样本数必须多于网络模型的连接权数，一般为，一般为210倍，否则，样本必须分成几部分并采用“轮流训倍，否则，样本必须分成几部分并采用“轮流训练”的方法才可能得到可靠的神经网络模型。练”的方法才可能得到可靠的神经网络模型。若隐层节点数太少，网络可能根本

13、不能训练或网络若隐层节点数太少，网络可能根本不能训练或网络性能很差；若隐层节点数太多，虽然可使网络的系性能很差；若隐层节点数太多，虽然可使网络的系统误差减小，但一方面使网络训练时间延长；统误差减小，但一方面使网络训练时间延长；另一方面，训练容易陷入局部极小点而得不到最优另一方面，训练容易陷入局部极小点而得不到最优点，也是训练时出现“过拟合”的内在原因。点，也是训练时出现“过拟合”的内在原因。因此，合理隐层节点数应在综合考虑网络结构复杂因此，合理隐层节点数应在综合考虑网络结构复杂程度和误差大小的情况下用程度和误差大小的情况下用节点删除法节点删除法和和扩张法扩张法确确定。定。3.神经网络

14、的训练神经网络的训练 3.1 训练训练 BP网络的训练就是通过应用误差反传原理不断调整网络的训练就是通过应用误差反传原理不断调整网络权值使网络模型输出值与已知的训练样本输出值之网络权值使网络模型输出值与已知的训练样本输出值之间的误差平方和达到最小或小于某一期望值。虽然理论间的误差平方和达到最小或小于某一期望值。虽然理论上早已经证明：具有上早已经证明：具有1个隐层（采用个隐层（采用Sigmoid转换函数）转换函数）的的BP网络可实现对任意函数的任意逼近。但遗憾的是，网络可实现对任意函数的任意逼近。但遗憾的是，迄今为止还没有构造性结论，即在给定有限个（训练）迄今为止还没有构造性结论，即在给定有限个

15、（训练）样本的情况下，如何设计一个合理的样本的情况下，如何设计一个合理的BP网络模型并通过网络模型并通过向所给的有限个样本的学习（训练）来满意地逼近样本向所给的有限个样本的学习（训练）来满意地逼近样本所蕴含的规律（函数关系，不仅仅是使训练样本的误差所蕴含的规律（函数关系，不仅仅是使训练样本的误差达到很小）的问题，达到很小）的问题，目前在很大程度上还需要依靠经验目前在很大程度上还需要依靠经验知识和设计者的经验。因此，通过训练样本的学习（训知识和设计者的经验。因此，通过训练样本的学习（训练）建立合理的练）建立合理的BP神经网络模型的过程，在国外被称为神经网络模型的过程，在国外被称为“艺术创造的过程

16、”，是一个复杂而又十分烦琐和困难“艺术创造的过程”，是一个复杂而又十分烦琐和困难的过程。的过程。由于BP网络采用误差反传算法，其实质是一个无约束的非线性最优化计算过程，在网络结构较大时不仅计算时间长，而且很容易限入局部极小点而得不到最优结果。目前虽已有改进改进BP法法、遗传算法（遗传算法（GA）和模拟退火算法模拟退火算法等多种优化方法用于BP网络的训练(这些方法从原理上讲可通过调整某些参数求得全局极小点)，但在应用中，这些参数的调整往往因问题不同而异，较难求得全局极小点。这些方法中应用最广的是增加了冲量（动量）项的改进增加了冲量（动量）项的改进BP算法。算法。3.2 训练函数的选择训练函数的选择 3.3 学习率和冲量系数学习率和冲量系数学习率影响系统学习过程的稳定性。大的学习率可能使网络权值每一次的修正量过大，甚至会导致权值在修正过程中超出某个误差的极小值呈不规则跳跃而不收敛；但过小的学习率导致学习时间过长，不过能保证收敛于某个极小值。所以，一般倾向选取较小的学习率以保证学习过程的收敛性（稳定性），通常在0.010.8之间。增加冲量项的目的是为了避免网络训练陷于较浅的局部极小点。理论

展开阅读全文