近似保序序列模式挖掘_刘锦.pdf-资源下载-蜗牛文库-知识共享服务平台

近似保序序列模式挖掘_刘锦.pdf

1、小型微型计算机系统：年月第期收稿日期：收修改稿日期：基金项目：国家自然科学基金项目（）资助作者简介：刘锦，男，年生，硕士研究生，会员，研究方向为序列模式挖掘；武优西（通讯作者），男，年生，博士，教授，会员，研究方向为数据挖掘和机器学习；王月华，女，年生，博士研究生，会员，研究方向为数据挖掘和机器学习；李艳，女，年生，博士，副教授，研究方向为数据挖掘和供给链管理近似保序序列模式挖掘刘锦，武优西，王月华，李艳（河北工业大学人工智能学院，天津）（河北工业大学经济管理学院，天津）：摘要：保序序列模式挖掘旨在时间序列中挖掘保序模式完全相同（最精确）的子序列，其可以

2、用来进行疾病发展趋势预测但只挖掘最精确的保序模式往往会遗漏一些重要信息有些保序模式虽然不完全相同，但它们之间仍具有很高的相似性有鉴于此，本文提出了一种近似保序序列模式挖掘算法（：），该算法能根据输入参数值的不同而挖掘出近似程度不同的保序模式在候选模式生成方面，算法采用了基于前后缀拼接的模式融合策略，减少了无意义候选模式的数量在模式支持度计算方面，算法首选获取候选模式的全部候选序列，然后在进行模式匹配本文通过在真实数据集上进行对比实验，验证了算法的完备性和高效性关键词：模式挖掘；时间序列；保序序列；（）距离；模式匹配中图分类号：文献标识码：文章编号：（），（，）（，）：（

3、），（，），：；（）；引言序列模式挖掘是数据挖掘的一个热门领域，在近年来获得了信息产业的极大关注随着网络信息技术的飞速发展，序列模式挖掘在大数据时代的重要性和必要性日益凸显，由于序列模式挖掘具有高效、可解释性强的特性，目前已被广泛应用在生物信息学、疾病检测，、市场营销、网络安全，等领域时间序列数据作为一种常见而重要的数据，广泛存在于人类的生产生活中，与字符序列不同，时间序列数据是按照时间顺序排列而成的数值序列，蕴含着大量的规律信息，为了快速有效地获得其中有价值的信息，研究者们提出了诸多时间序列分析方法，如序列模式挖掘方法、离散短时傅里叶变换法和逻辑回归法等然而在一些实际应用中，有时元素值

4、的变化趋势要比元素值本身更有意义例如在股票分析中，股票的变化趋势要比股票的实际价格更值得研究；在气温预测方面，气温的变化显然比气温数值的大小更有意义，因此保序序列模式挖掘应运而生保序序列模式挖掘是序列模式挖掘的一个新的分支，它适用于时间序列，关注的是元素值的变化趋势而不是数值大小，所以它能挖掘出现频率较高的趋势图保序序列模式挖掘保证了时间序列的连续性，挖掘出的代表性趋势使得人们可以更好地认识事物的内在变化规律为了可以灵活地挖掘保序模式，本文提出基于（）距离的近似保序序列模式挖掘算法（，），用来挖掘近似程度不同的保序模式下面通过例来说明近似保序序列模式挖掘问题例时间序列（，），图

5、时间序列的趋势变化图若采用近似保序序列模式挖掘算法，可以挖掘出时间序列中频繁出现的趋势图（如图所示）如当，时，可以挖掘出两个子序列（，）和（，），它们的保序模式完全相同，都为（，）当，时，则可以挖掘出更长的保序模式，如两个子序列（，）和（，），它们的保序模式分别为（，）和（，）和的保序模式虽然不完全相同，但与保序模式（，）具有很高的相似性，这是因为和与它在每个位置的局部误差都满足，总误差满足，可以认为保序模式（，）的相似趋势在中出现了两次，满足最小支持度阈值，因此（，）是一个频繁的近似保序模式本文的贡献如下：）为了可以灵活地挖掘保序序列模式，提出了局部误差不超过且整体

6、误差不超过的近似保序模式挖掘问题）为了完备地解决这个问题，我们提出了算法在生成候选模式方面，采用了前后缀拼接的模式融合策略，不会生成无意义的候选模式，减少了候选模式的范围在模式支持度计算方面，首选获取候选模式的全部候选序列，然后在进行模式匹配）在真实的时间序列数据集上进行了对比实验，验证了算法的完备性和高效性本文剩余部分安排如下：第节总结相关工作；第节给出了问题的相关定义；第节提出算法，并分析算法的时空复杂度；第节验证算法的性能；第节得出了本文结论相关工作序列模式挖掘作为当前的研究热点之一旨在快速找出满足用户特定需求的模式，针对不同问题，已经衍生出多种形式的挖掘方法，

7、如间隙约束挖掘方法，、负序列挖掘方法、高效用挖掘方法、序列规则挖掘方法等序列模式挖掘方法可以采用多种形式进行划分，如模式支持度计算方式的不同和挖掘数据性质的不同等角度进行划分根据模式支持度计算方式的不同，可以将序列模式挖掘分为精确序列模式挖掘和近似序列模式挖掘等人采用方法将时间序列进行分段并对求每段的平均值，然后再挖掘其中的频繁模式；等人根据数据波动将数字时间序列转换为字符型序列，并运用在具有弱通配符间隙的模式挖掘中，这些研究都属于精确序列模式挖掘而等人利用效用容忍因子计算模式的可信效用，进而从噪声数据库中提取鲁棒的高效用模式则属于近似序列模式挖掘根据挖掘数据性质的不同，又可以将序列

8、模式挖掘分为字符序列模式挖掘和时间序列挖掘字符序列模式挖掘主要针对序列和基因序列等由字符构成的字符型序列，挖掘字符序列通常是为了解决生物信息学中的问题时间序列挖掘的对象则是由连续变化的数值构成的数值型序列，通常首先采用算法将时间序列符号化，然后在使用不同的方法进行挖掘，如计算时间序列的先验移动平均的方法、线性回归的方法等保序模式挖掘的对象就是时间序列，通过挖掘其中频繁出现的趋势图，可以帮助人们进行分析和预测，如股票市场的股价波动分析，某个地点的气温变化分析以及用户行为分析等由于时间序列具有高维性、连续性等特点，直接对其进行挖掘是非常困难的，需要通过一系列转换将原始的数值型数据转换为其

9、它域的数据再进行挖掘，转换的实质就是对时间序列模式来进行重新表示保序模式匹配问题就与时间序列的次序关系表示紧密相关，基于次序关系的表示与数值型表示并不相同，数值型表示是原始的时间序列数据，而次序关系则是用元素在序列中的秩次进行表示的，所以有相对顺序的概念等人首先将元素之间的次序关系定义为二元关系（，），并提出了相对顺序的前缀表示和最近邻表示，但没有考虑元素间数值相等的情况然而两个数值之间的次序关系实际上是三元（，）的，因此等人对其进行了扩展，将二元关系扩展为三元关系，并设计了一种即使存在元素相等的情况，也能判断两个字符串是否顺序同构的算法它要求模式与子序列的相对顺序完全相同，能快速定

10、位与已知模式趋势变化完全相同的子序列，为此，等人提出了保序模式挖掘算法，用来发现时间序列中的隐藏规律上述研究属于精确匹配的研究而在一定数据噪音存在的场景下，需要研究近似模式匹配，如等人允许模式和匹配子序列之间存在数据噪声，提出了一种带长度约束的（）近似预测方法，用来找到更加有价值的模式又如等人提出基于距离度量相似度的匹配的精确度，若两个字符串在相同位置删除最多个元素后具有相同的相对顺序则匹配成功，但该问题的匹配结果存在偏差，因为无法度量子序列与模式之间的局部近似度等人提表相关研究工作对比相关工作研究类型精确近似数据性质等人模式匹配精确数值型等人模式匹配精确数值型等人

11、模式匹配近似数值型等人模式匹配近似数值型等人模式挖掘精确数值型本文模式挖掘近似数值型出基于（）距离的相似度度量方法改善了此问题，采用局部整体约束，提高了匹配的精确度表给出了相关研究工作对比从表可以看出：文献与本文的研究最为相近，不期刘锦等：近似保序序列模式挖掘同之处在于文献是精确的保序模式挖掘，而本文是保序模式的近似挖掘文献是基于（）距离的保序模式匹配，而本文研究的是保序模式挖掘文献是基于距离的保序模式匹配，而本文是（）距离近似本文将（）保序匹配引入到保序模式挖掘中来，挖掘不同约束条件下的频繁趋势图，适应了更多的应用领域，更好地帮助人们进行分析和预测相关定义定

12、义时间序列：由个有序的连续数值构成的时间序列可以表示为（），其中可以称为元素定义秩次：元素在长度为的模式（）中的秩次记作（），定义相对顺序和保序模式：长度为的模式的相对顺序为（）（）（）（），由相对顺序所表示的模式就是保序模式例给定模式（，），由于元素在模式中第小，因此其秩次（）；类似的，元素在模式中最小，因此（）进而其保序模式（）（，）定义和：给定两个长度的序列和，它们的保序模式分别（）（）（）（）和（）（）（）（）模式和的距离是对应位置相对次序之差的界限，即（，）（）（）；模式和的距离是所有的距离之和的界限，即（，）（）（）（）（）

13、定义（）保序出现：对于一个长度为的保序模式，若在时间序列中能找到一个长度也为的子序列，使得与的保序模式（）满足（）距离约束，则称是保序模式在时间序列中的一次（）保序出现，其中和是两个给定的非负整数定义频繁保序模式：如果保序模式在时间序列中的（）保序出现数不小于用户给定的最小支持度阈值（），则称为一个频繁的（）保序模式例给定，（，），（，）在时间序列中可以找到子序列（，），将转化为保序模式后得（）（，），与（）进行（）保序匹配：，；，因此，和满足（）距离约束，为在时间序列中的一次（）保序出现同理，在时间序列中的另外个（）保序出现分别为（，）

14、，（，），（，）定义近似保序模式挖掘：用户通过自定义参数值，在给定的时间序列中找到所有满足最小支持度阈值的频繁保序模式例时间序列（，），挖掘出所有的频繁（）保序模式在时间序列中挖掘得到的频繁近似保序模式集（，），（，），（，），（，），（，），（，），（，），（，）（，），（，），（，）当时，近似保序序列模式挖掘转化为精确保序序列模式挖掘，因此本文研究是更具一般性研究对于近似保序模式挖掘，关键的两个步骤是候选模式的生成和（）保序模式支持度的计算节介绍了候选模式生成策略；节介绍了候选模式支持度计算策略；节介绍了算法；节对算法及其对比算法进行了时空复杂度分析候选模式生成枚

15、举策略枚举策略是一一列出所有可能出现的情况的策略，假设一个长度为（）的频繁（）保序模式，在其末尾生成一个元素数值，这个元素的数值大小有种可能性，所以也就可以生成个候选模式例长度为的频繁模式集合（，），（，），采用枚举策略生成长度为的候选模式集，结果如下表所示表基于枚举策略生成候选模式集（，）（，），（，），（，），（，）（，）（，），（，），（，），（，）以模式（，）为例，生成长度为的候选模式有以下种情形：）新增加的元素小于原始的个元素时则生成候选模式（，）；）新增加的元素的数值只比第一个大则生成候选模式（，）；）新增加的元素比最小的两个元素数值都大则生成候选模式（，）

16、；）新增加的元素大于原始的个元素时则生成候选模式（，）由于每个模式可以生成个候选模式，那么个频繁模式就可以产生出个候选模式显然候选模式数量越多，挖掘速度越慢下一小节中，本文将提出更加高效的模式融合策略减少候选模式的生成模式融合策略定义前缀子模式和保序前缀子模式、后缀子模式和保序后缀子模式：给定序列模式（），除去最后一个元素后剩余的子模式（）就是模式的前缀子模式，保序前缀子模式就是前缀子模式的保序模式，记做（）；除去第一个元素后剩余的子模式（）就是模式的后缀子模式，保序后缀子模式就是后缀子模式的模式，记做（）定义模式融合：假设有两个长度都为的模式（）和（），当模式的后缀子模式的保小型微型计算机系统年序模式与模式的前缀子模式的保序模式一致时，即（）（），则和就可以拼接生成长度为的超模式；这里存在种情况：情况此时产生一个超模式，其中，然后将（）与进行比较，若，那么，否则，情况此时产生两个超模式和，在拼接为模式（）时，首先令，然后将（）与进行比较，若，那么，否则，；在拼接为模式（）时，然后将（）与

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？