1、数据挖掘技术及其应用实现0803031xx【】知识发现与数据挖掘是人工智能、机器学习和数据库相结合的产物。随着科学数据的大量积累和各种数据库的广泛使用,人们又逐步认识到海量数据的利用十分困难、效率低下,而且很难从中获得有价值的指导性意见。在这种情况下,数据库挖掘技术应运而生。本文介绍了数据库挖掘技术的现状、过程和其在现实生活中的应用。【关键字】数据挖掘、知识获取、数据库、处理过程一、 引言随着数据库技术的成熟和数据引用的普及,人类积累的数据量正以指数级迅速增长。进入九十年代,伴随着英特网Internet出现和开展,以及随之而来的企业内部网Intranet和企业外部网Extranet以及虚拟私有
2、网VPNVirtualPrivatenetwork产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空界限在网上交换数据信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本单位的庞大数据库,而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。据估计,一个大型企业数据库中数据,只有百分之七得到很到应用。这样,相对于“数据过剩和“信息爆炸,人们又感到“信息贫乏Informationpoor和“数据关在牢笼中datainjail,奈斯伯特(JohnNais
3、bett)惊呼“we are downing information,but starving for knowledge人类正在被数据淹没,却饥渴于知识。面对浩瀚无际的数据,人们呼唤从数据汪洋中来一个去粗存精、去伪存真技术。从数据库中发现知识KDD及其核心技术数据挖掘DM便应运而生了。一、 知识发现与数据挖掘一般来说,知识知识获取KnowledgeDiscovery inDatabases,简称KDD意为在数据库中发现知识,它代表从底层次数据中提取高层次数据的全过程,包括数据信息的收集、数据原型确实定、相关函数的分析、知识的抽取和数据模式分析。而数据挖掘KD那么是指从数据中自动抽取模型。数据
4、挖掘包括许多步骤:从大规模数据库中或从其他来源取得数据;选择适宜的特征属性;挑选适宜的样本策略;剔除数据中不正常的数据并补足不够的局部;用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配;区分所得到的是否是知识那么需将得到的结果信息化或可视化,然后与现有的知识相结合比拟。这些步骤是从数据到知识的必由之路。每一步骤都可能是成功的关键或失败的开始。在一般的定义中数据挖掘是知识获取的一局部。数据挖掘的研究领域极广泛,主要包括数据库系统,基于知识的系统,人工智能,机器学习,知识获取,统计学,空间数据库和数据可视化领域。(1) 数据库数据库及其相关的技术显然与数据挖掘有直接的关系。数据库是原始数据
5、的处理、存储和操作的根底。随着平行和分布式数据库的使用,对数据录入和检索有更高的要求。数据挖掘中很重要的一个问题是对数据库中的数据在线分析,主要是如何利用多种方法对数据进行实时处理和分析。一般来说,通过相关数据结构的标准化可以克服要求特殊存取数据的困难。在数据挖掘中为了对数据进行特定的统计和计数,那么要对各个特征属性进行组合形成新的数据库。其中,对于数据库的挖掘所得知识支持率的研究是一个新领域。为了直接从数据库中发现联系规那么,已经以产品的形式出现的分析和分类表达式的新方法。此外,为了对数据库问题的求解和优化,利用新出现的数据库定向技术更加易于寻求数据库中隐含的模式。(2) 人工智能人工智能对
6、于数据挖掘来说原来一直是在符号的层次上处理数据,而对于连续变量注意较少。在基于机器学习和基于案例的推理中,分类和聚类算法着重于启发式搜索和非参数模型。对于其结果,并不象模式模式识别和统计学在数学上的精确和严格分析。随着计算机学习理论的开展。人工智能把注意力集中在了表达广义分类的模糊边缘上。机器学习主要是对数据挖掘过程中的数据变量选择处理极有帮助,在通过大量搜索表达式和选择变量上很有作用。另外,机器学习对于发现数据结构,特别是人工智能中的不确定推理技术和基于贝叶斯模型推理是统计学意义上的分布密度估计的强有力的工具。人工智能技术建立的关于特定领域知识和数据已有的知识的相对容易理解和自然的框架。人工
7、智能的其他技术,包括知识获取技术、知识搜索和知识表达在数据挖掘的数据变换、数据选择、数据预处理等步骤中都有作用。(3) 统计学统计学在数据样本选择、数据处理及评价抽取知识的步骤中有非常重要的作用。以往许多统计学的工作是针对数据和假设检验的模型进行评价,很明显也包括了评价数据挖掘结果。在数据预处理步骤中,统计学提出估计噪声参数过程中要用的平滑处理的技术,在一定程度上对补足丧失数据有相当的作用。统计学对检测数据分析、聚类和实验数据参数设计上也有用。但统计学研究工作大多是针对技术和模型的理论方面。于是许多工作是着眼于线性模型、递增的高斯噪声模型、参数估计和严格分类参数模型上。只有在进行相近模式区别时
8、才强调寻优。大多数数据库用户并不具备恰当使用统计学知识的能力。实际上是要求有关数据工程师或数据系统的数据管理员运用关于数据选择的模型、相当多的域知识和数学知识的能力,在现实中是不大可能的。(4) 模式识别在模式识别工作中,传统上是把注意力集中在符号形式化直接结合实际技术的工作过程中。模式识别主要用于分类技术和数据的聚类上。模式识别中的分类和含义分析是对数据挖掘概念形成的开端。多数模式识别的算法和方法对降维、变换和设置都有直接的参考意义。在数据挖掘的步骤中,模式识别比统计学更为重要,因为它强调了计算机算法、更加复杂的数据结构和更多的搜索。典型的数据分类是用一定的分类技术把数据从一个向量空间映射到
9、另外一个向量空间。但这种映射并不总是有意义的。比方,形状上“方与“圆的差异就很难说比性别上“男与“女的差异大。显然,这其中应当注重其语言的含义。二、 数据挖掘的方法3.1 统计分析方法主要用于完成总结知识和关联知识挖掘。统计分析方法利用统计学、概率论的原理对关系中各属性进行统计分析, 以找出它们之间的关系和规律。 统计分析方法是最根本的数据挖掘技术之一。在数据库中, 表的属性之间一般存在两种关系:1 函数关系: 即能用函数公式表示的、 确定性的解析关系;2 相关关系: 即不能用函数公式表示, 但仍然存在相关确实定关系。常用的统计分析方法有:常用的统计分析方法有: 判别分析、 因子分析、相关分析
10、、 回归分析、 偏最小二乘回归 PLS 、 聚类法 Clustering等。聚类分析是数据挖掘中最重要的技术之一。与分类有所不同,分类的类别是按应用要求事先给定的, 根据表示事物特征的数据, 可以识别其类别。而聚类的类型不是人为指定的而是分析数据的结果。聚类法大致可分为两种类型:a. 分层聚类: 分层聚类是基于数学的标准, 对数据进行细分或聚合。这种类型适用与数值数据。b. 概念聚类: 概念聚类基于数据的非数值属性数据进行细分或聚合。这种类型适用与非数值数据类型。3.2神经网络方法(Neural Networks)神经网络方法用于分类、 聚类、 特征挖掘、 预测和模式识别。神经网络方法模仿动物
11、的脑神经元结构, 以M-P模型和Hebb学习规那么为根底。在本质上是一个分布式矩阵结构, 通过对训练数据的挖掘, 逐步计算 包括反复迭代或累加计算 神经网络连接的权值。神经网络模型大致可分为以下三种:1 前馈式网络: 以感知机、 反向传播模型和函数型网络为代表, 主要用于预测和模式识别等领域;2 反响式网络: 以Hopfield人名 离散模型和连续模型为代表, 主要用于联想记忆和优化计算;3 自组织网络: 以自适应共振理论Adaptive Resonance Theory,ART 模型和Kohonen人名 模型为代表,主要用于聚类分析。目前,在数据挖掘中最常用的神经网络是J%网络。当然, 人工
12、神经网络还是正在开展的科学, 某些理论尚未真正形成, 如收敛性、 稳定性、 局部最小值和参数调整问题等。对于J%网络常遇到的问题是训练速度慢, 可能陷入局部最小, 以及网络参数和训练参数难以确定等。针对这些问题有人采用人工神经网络与遗传基因算法相结合的方法,取得了较好的成果。人工神经网络具有分布式存储信息、并行处理信息、 推理、 以及自组织学习等特点, 并且具有对非线形数据快速拟合能力,解决了诸多其它方法难以解决的问题。3.3粗集(Rough Set)方法用于数据简化如删除与任务无关的记录或字段 、 数据意义评估、 对象相似或差异性分析、 因果关系及范式挖掘等。Rough集理论是Z.Pawla
13、k在LM年代提出来的,用于研究非精确性和不确定性知识的表达、 学习、 归纳等方法的。 主要思想如下: 在数据库中将行元素看成对象, 列元素是属性, 把对象的属性分为条件属性和决策属性,按各属性值是否相同划分等价类。等价关系R定义为不同对象在某个或几个 属性上取值相同, 这些满足等价关系的对象组成的集合称为该等价关系R的等价类。条件属性上的等价类E与决策属性上的等价类Y之间有三种情况:1下近似: Y包含E ;2上近似: Y和E的交为空;3无关: Y和E 的交为空。对下近似建立确定性规那么, 对上近似建立不确定性规那么 含可信度 , 对无关情况不存在规那么。3.4覆盖正例、 排斥反例方法它是利用覆
14、盖所有正例、排斥所有反例的思想来寻找规那么。比拟典型的有Michalski的AQ11方法、洪家荣改良的AQ15方法和洪家荣的AE5方法。 AQ系列的核心算法是, 在正例集中任选一个种子, 到反例集中逐个比拟,对字段取值构成的选择子相容那么舍去, 相斥那么保存。 按这种思想循环所有正例种子将得到正例集的规那么 选择子的合取式 。 AQ系列方法是用扩张矩阵来完成。3.5公式发现公式发现是在工程和科学数据库由试验数据组成 中对假设干数据项 变量 进行一定的数学运算,以求得相应的数学公式。例如, 典型的BACON发现系统就完成了物理学中大量定律的重新发现。它的根本思想是对数据项进行初等数学运算 加、
15、减、 乘、除等 , 形成组合数据项, 假设它的值为常数项,就得到了组合数据项等于常数的公式。国防科技大学研制的FDD发现系统,其根本思想是对两个数据项交替取初等函数后,与另一数据项的线形组合假设为直线时, 就找到了数据项 变量 的初等函数的线性组合公式。该系统所发现的公式比BACON系统发现的公式更为广泛、 范围更宽。3.6 模糊论方法利用模糊集合理论对实际问题进行模糊评判、模糊决策、 模糊模式识别和模糊聚类分析。 模糊性是客观存在的, 系统的复杂性越高, 精确化的能力就越低, 意味着模糊性越强。这是Zadeh总结出的互克性原理。以上提到的模糊方法都已经在化学研究领域取得了较好效果。3.7 可
16、视化技术可视化是计算机应用技术的开展趋势,也是数据挖掘的研究方向之一。可视化数据分析技术拓宽了传统的图表功能, 用直观图形形式将信息模式、 数据关联或趋势呈现给决策者,使之能交互分析数据关系,如把数据库中多维数据变成多种图形对揭示数据总体状况、 内在本质及规律至关重要。 可视化技术将人的观察力和智能融入挖掘系统,极大提升了系统挖掘的速度、层次和内容。四、数据挖掘的应用4.1数据挖掘在经营中的应用数据挖掘首先是用于经营中,国外很多公司利用数据挖掘 已经取得巨大经济效益 ,他们把数据挖掘方法视为商业机密,这方面的主要应用是销售领域、客户概况 、目标市场和购置方式分析通过客户概况分析 ,根据挖掘预测 ,可以帮助企