1、()(,),基于删失加权广义第二类分布的氺幼恶吴里万鑫裴健朱复康(吉林大学数学 学院,长 春 )摘 要若时间序列的观测值中存在大 部 分 零值和一些正值,并且正值服从某一连续分布 时,常见方法的拟合 效果可能 不太好为此,年和提出了一种删 失方法,该方法将原分布向左移 动,即将原随机变量减去一个常数,并 将得到的 负值赋值为,但他们采用的广义第二类分布 有一定的局 限性文章 考虑了更一般的加权广义第二类分布,采用条件得分方法,提出了删 失加权广义第二类动 态模型文章 将这个 模型应用到澳大利亚日降雨量数 据中,并与删 失未加权、零増 广 加权、零増 广未加权的广义第二类动 态模型相比较,发现删
2、 失加权的模型要优于其 它三种模型关键词删 失分布,加权广义第二类分布,动 态条件得分 模型,零増 广模型()主题分类号 (,),国家自然科学基金(,),吉林省自然科学基金()资助课题收稿日期:,收到修改稿日期:通信作者:朱复康,:编 委:邹国华期万鑫等:基于删 失加权广义第二类分布的动 恣模型,引言时间序 列的观测值中有时会存在一部分 零值,当零值出现得 过于频繁时,我们称其为零膨胀的,这种情况下常见方法的拟合结 果 可能 不太准确零膨胀的情况经常在医学、经济学、保险精算和 生物 科学 等领域出现零值过多的情况主要分为两类:一种为观测值为计数数据的情况,也就是说观测值服从离散分布,例 如保险
3、索赔次数、交通事故发生的次数等;另一种为正值服 从连 续分布的情况,例 如 降 雨量和地 震过后余震的震级等一直以来,零膨胀问题都受 到国 内外学 者及研究人员 的广泛关注针对观测值为离散的且数据零膨胀的情况,提出了零膨胀泊松(,)回归模型,认为观测值以概 率取,以概 率服 从泊松分布,采用算法以及迭 代方法进行参数估 计,并将这种模型应用到 制造过 程中缺陷数目的研究上等提出了一个 零膨胀负二项混合回归模型,通过算法进行计算,分 析住院时间的数据和用零膨胀泊松、零膨胀负二项、零膨胀广义泊松和零膨胀双泊松等多种参数化零膨胀计数分布对保险中的索赔频 率数据进行 分析,结 果表明,零膨胀计数模型的
4、应用,特别是零膨胀双泊松回归模型,提供了对 数据的良好拟合和分析等构建了零膨胀泊松和泊松模型均值的置信区间对于观测值中的正值为连 续分布且零值过多的情况,目前的处理方法有两种第一种方法为零增 广方法,它通过引入一种二元机制分配给零和正观测值相应的概 率,认为正观测值服从某一概 率分布第二种方法为和提出的一种新方法,将原有的连 续分布向左移动,也就 是 将随机变量减去一个常数,并且将得到的 负值赋值为,基于广义第二类(,),这种 删失方法被用于分 析澳大利亚和英国的降 雨量分布是含 有个参数的分布,性质 灵活,对于拟合 重尾数 据的效果很好由于保险数据的分布通常为重尾分布,因此关于保险数据的研究
5、中分布的应用很多近年来,研究人员逐渐将分布应用到金融、保险以及收入等各方面的研究中,但由于分布分配给不同的观测值同样的权重,导致拟合 结 果 可能出现 偏差,从而会有一定的局限性因此我们考虑了更一般的加权广义第二类(,)分布,相比于分布,分布增 加了权重函数,赋予 不同的观测值不同权重,该权重的大小 与观测值的大小有关,由参数控制,从而使拟合 结 果 可以更准确分布 最 早由等提出,并 将其应用到了美国家庭收入()数 据中等介绍系统科学与数学卷了分布的概 率密度函数()、累积分布函数()、危险函数、矩、均值、方差、变异系数、偏度系数和峰态系数等,同时 也应用到顶 部敏感指数、底部敏感指数、平均
6、对数偏差指数和广义熵得到的泰尔指数等和考虑了新的加权广义第一类分布,推 导出了一些 重 要的定理来估 计分布的参数,并确 定 与其 他 相关分布的关系对于类 似和这种重尾分布 来 说,在建模中使用得分驱动的模型,有利 于更好地减少过多的零 值对 建模的影响,而动 态条 件得分(,)模型就是经常被 使用的得分驱动模型之一等提出了模型(最初被 称为广义自回归得分()模型),这种模型的参数随 时间不断变化,并且参数的更新与似然函数的条 件得分密 切相关在模型被提出后,也有 许多学 者对其进行了研究及推 广和 在模型的基础上引入了指数加权移动平均,建立了相应的得分驱动模型和系统地回顾并总结了模型的各种
7、应用,介绍了经典时间序 列模型和模型之间的区别,并介绍了三种模型在经济和金融 时间序 列中的应用本 文的结构 如下在第节,介绍了删失方 法、删失分布和删失分布的相关知识及条件得分在第节,基于上述分布,采用条件得分 方法,构建删失动 态模型和删失动 态模型,并给出了两个删失分布的动 态条件均值在第节,我们将分布和分布应用到零增 广模型中,构建 零增 广动 态模型和零增 广动 态模型在第节,我们对删失动 态模型、删失动 态模型、零增 广动 态模型和零增 广动 态模型进行了数 值 模拟在第节,将删失动 态模型、删失动 态模型、零增 广动 态模型和零增 广动 态模型应用到澳大利亚降 雨量的数 据中,并
8、 将结 果进行对比及讨论删失分布的定义及性质删失方 法本文主要运用和中提出的删失方法,即将原有的连 续分布向左移动,也就是将随机变量减去一个常数,并且将得到的 负值赋值为,从而 构造出一个新的随机变量,为处理连 续零膨胀时间序 列问题提供了一种新的解决思路具体 方法如下设是连 续非负 的随机变量,它的尺度 参数为(),概 率密度函数和累积分布函数分别为 九 和尺我们用如下方 法定义一个新的随机变量,这 里的是一个未知的形状参数,当为正值时,经过上述变换后原始分布向左移动了,并且将负值均赋值为在 该方法中,当时,我们观察到的的值为;而当时,观察到的奶的值为,因此 该方法是删失的饥为的概 率为(饥
9、)()当不变时,)将随着的增大而减小,更一般情况下,当随着的变化 而变化 时,若令()(),其中和叫为参数,那么()()(叫万鑫等:基于删 失加权广义第二类分布的动 态模型)的值取决于标准化变量(),由于)()()(),因此 给定叫,当时,则有)由于奶的分布是连 续离散混合的,如果)表示一个指 示变量,当)时表示数 据未删失,当()时表示数 据删失,即、,),则的对数密度函数为(;,?,)()()()(),其中为形状参数,不依赖于,关于的相关得分为()()()()()()()删失 分布本节将删失方法应用到分布和分布中,构建了删失分布和删失分布,并介绍了这两个 分布的对 数密度函数及条件得分删失
10、分布分布是一个有个参数;、和?的分布,它的灵活性强,因此 可以对各种类型的数据进行建模分析()分布和对数正态(,)分布均为分布的一种极限分布情况;当¥时,分布为分布;当?时,分布为分布;当;时,分布为第二类()分布分布的概 率密度函数为),(),)()其中)尸()为函数,是尺度 参数,;、和;是形状参数,并且这个参数均大于¥和?共同决定分布的偏态特 性,控制左尾 形状,?控制右尾 形状,决定全局形状,并且影响密度函数的峰值在后面的论述中,我们令尺度 参数(),从而尺度 参数 变成了分布的分布函数为(;,?)(,?),其中,(勹(;,);()为不完全函数因此,根 据()式,删失分布对 数密度函数
11、为()()?)()(?)()(,?)()(;,?),其中,()根 据()式,可以得出分布关于的得分为()()(;)()()()(),()(系统科学与数学卷其中,表示当时的值考虑更一般的情况下,当随的变化 而变化,即()()()时,条件得分为()(,)(。)广()删失分布分布 在分布的基础上加入了权重函数,并由参数控制假设是一个非负随机变量,它的概 率密度函数为为参数那么加权后的随机变量的概 率密度函数为()()其中,(,)为权重函数,它是一个非负函数,可能依赖于?,是归一化因子,)在 这 里,给定权重函数如下定义)()()其中,(),()在式()中,令;、左)、)、左、左和,分别可以得到随机变
12、量的概 率加权矩、矩生成函数、矩、阶数统计、比例 风险和比例反向风 险为了得到分布的概 率密度函数,我们令()式中的,因此 得到权重函数()分布的阶矩为()其中,尸()。浐为伽马函数当左时,左阶矩存在将权重函数()和()式、()式一起代入()式中,可以得到分布的概 率密度函数为?)?)()?其中,叭已;,:可以看出,分布有个参数,比分布多了一个参数当时,分布就 变成了分布分布的累积分布函数为?,:,并且(入广因此,根 据()式,删失分布对数密度函数为()()?)()()(?)()期万鑫等:基于删 失加权广义第二类分布的动 态模型(),?)根 据()式,分布关于的得分为()()():)()考虑更
13、一般的情况下,当随的变化 而变化,即()()()时,有)(,)()()()删失动态模型在上述各个删失分布的基础上,进一步采用条 件得分 方 法,构建删失动 态模型和删失动 态模型我们主要运用的是模型,模型是基于得分函数的观测驱动模型,并且含有时变参数,每个时变参数的动 态方程都由对数似然函数的条件得分更新模型与经典的时间序列模型相比的一个重要优势在于模型对离 群值有 稳健性,因为得分函数不考虑极端观测值,而经典时间序 列模型如自回归滑动平均模型(,)模型和广义自回归条 件异方差(,)模型等对于离 群值 并不稳 健因此 得分的一个 优点是 解 决了如何 衡量零 值的问题并且对于和分布 等 重尾分
14、布 来 说,极端观测值的权重将会降低,因此异常值对模拟的不利影响将会 很小采用条件得分方法时,我们认为尺度 参数是时变参数,因此基于删失分布的动 态方程被关于的条 件得分驱动动 态方程中还添 加了解 释变量,包含在向量中因此动 态方程为()其中,入匀(十()上式中,;,冷和为方程中的待估参数,表示条 件得分,?表示参数向当別:时,是 平稳的,其中,分布的得分叫为(句式,分布的得分叫为()式关于删失动 态模型和删失动 态模型的参数,我们使用极大似然方法进行估计,通过软件中的函数得到参数的极大似然估计值,在数值模拟部分我们会展 示极大似然方 法对于这两种模型参数 估计的优越性根 据上面的动 态方程
15、我们可以推 导出各个删失分布的动 态条件均值动 态模型的条件均值 公式为()()()系统科学与数学卷对于分布,条件均值、,、尸(十士)尸士)()()()(;)对于分布,条 件均值():()()(?)()式的证明根 据()式可以写出)(),十?)(¥十吾,(吾)十(入丁十一()()(?)吾)吾)令(广,则,八,所以()式可以写成吾)()()(?),令(),则(),(十),则()()()(?)()(广(广(;),(),、分布的证明与上述证明类 似,只是令上述证明 中的此处 不再给出详细讨论零增广动态模型零增 广模型认为,零 值以某一概 率出现,并且正观测值 服从 某一概 率密度函数零增 广数据的典
16、型特征就 是包含大量的零和正连 续值,这种数 据通常是 右偏的通常情况下,数 据只要符合正态性和同方差性,我们就可以用广义线性回归模型来处理数据,但考虑到数据中存在大量的零,因此 类 似对数变换等一些常用的方法可能就不太适用还有一种方法就是忽略数 据中的零,只考虑非零值,但由于零值过多,这种方 法显然会导致 很大的偏差因此,零增 广模型的研究就 很有必要零增 广模型假定随机变量取正值的概 率为取的概 率为在时,服 从密度函数(),零增 广分布的对 数密度函数一般如下(;)()()()()()期万鑫等:基于删 失加权广义第二类分布的动 态模型当是随 时间变化的参数时,这时就变成了动 态分布,我们考虑当依赖于时,即(!),兀卟()这时,参数被两个参数如和心替 代我们希望是正的,因为这样当尺度 参数增加 时,随机变量取的概 率随之减少则此时关于的动 态得分为召(饥;中;中;()(;中;()()对于:分布,上式中的(奶;入中)从卜为(;)对于分布,()式中的(奶;叫)叫为)?),关于零增 广动 态模型和零增 广动 态模型的参数,我们也使用极大似然方法进行估计,通过软件中的函数得到参数的极大似然