1、Company Logo,传染病监测数据时空分析及早期预警的统计(tngj)技术研究进展 四川大学华西公共卫生学院卫生统计学教授李晓松2009年9月26日 昆明,第一页,共一百一十八页。,Company Logo,随着信息技术的迅速发展,已经和正在(zhngzi)产生大量各类公共卫生信息和数据。数据分析理论的滞后和分析技术的缺失,数据所隐含的知识并未被充分认识和利用,而这些知识可能具有潜在的巨大应用价值。,第二页,共一百一十八页。,Company Logo,3S技术等先进技术的迅速发展和应用,为深入分析和揭示公共卫生信息数据(shj)间复杂的时间和空间关系,一方面提供了重要的基础技术平台,另一
2、方面又产生了新的数据(shj)源。,第三页,共一百一十八页。,Company Logo,时空分析(fnx)及早期预警统计技术研究进展贝叶斯时空分析技术(Bayesian Disease Mapping)多源监测数据分析技术(Multivariate Surveillance Data Analysis)贝叶斯网络和隐马尔科夫模型聚集性探测(Cluster Detection),第四页,共一百一十八页。,Company Logo,贝叶斯时空(sh kn)分析技术Bayesian Disease Mapping,第五页,共一百一十八页。,传染病数据(shj)基本要素和特征,传染病数据是传染病流行过
3、程(guchng)及其相关因素关系的符号化表示。,第六页,共一百一十八页。,人们所观察到的传染病流行是一系列复杂的自然与社会因素综合作用的结果。所谓传染病“流行规律(gul)”可理解为,第七页,共一百一十八页。,贝叶斯时空分析技术 从时间轴看,在揭示传染病发病(f bng)(率)随时间发生变化的同时,揭示其在每个时点上发病(f bng)(率)存在的空间变异;从空间轴看,在揭示传染病发病(率)随区域不同而发生变化的同时,揭示在这些异质的区域上发病(率)存在的时间变异。与此同时,还指揭示与传染病发病(率)上述时空变异所关联的各种因子及其变化。,第八页,共一百一十八页。,Company Logo,B
4、ayes学说是不同于经典统计(频率学派(xupi)的另一大统计学派(xupi),随着计算机技术的发展和Markov Chain Monte Carlo(MCMC)抽样算法的引入,Bayes方法得以迅速发展和广泛应用。,第九页,共一百一十八页。,Company Logo,Bayesian Disease Mapping的优势(yush),可利用(lyng)人们对于传染病流行及其相关因素的先验知识确定先验分布。由于传播特性,传染病流行常呈现出时空相关性,Bayes建模可借用邻近时空信息。,第十页,共一百一十八页。,基于(jy)Bayes框架时空建模的传染病流行规律多维度分析,第十一页,共一百一十八
5、页。,Company Logo,基于(jy)Bayes框架建模充分反映了传染病数据的基本要素与特征,第十二页,共一百一十八页。,多维度、多尺度(chd)和多层次,第十三页,共一百一十八页。,随时间推移,各区域疟疾发病相对危险度连续发生变化 各区域间相对危险度存在差异(空间异质性)相邻区域相对危险度有相似性(空间相关性)降雨量与疟疾发病的数量(shling)关系(系数)随不同时期发生变化,亚马逊河区域(qy)某州某时期疟疾发病的相对危险度变化,第十四页,共一百一十八页。,Company Logo,发病(f bng)(率)在各个区域的时间变异:各时点(段)的空间变异。相关因素与发病(率)的影响、以
6、及这种影响在不同时间的变化和不同空间的变化。,第十五页,共一百一十八页。,Company Logo,多尺度:传染病流行(lixng)在不同时空尺度上表现出的特征可能不同。,第十六页,共一百一十八页。,第十七页,共一百一十八页。,在全球尺度,可发现登革热广泛流行(lixng)于北纬30 度和南纬20度之间。,第十八页,共一百一十八页。,非洲、东南亚、西太平洋地区地区、美洲(mi zhu)加勒比地区及欧洲部分境域,第十九页,共一百一十八页。,近10年其分布有向高纬度或高海拔(hib)地区扩散趋势,第二十页,共一百一十八页。,第二十一页,共一百一十八页。,第二十二页,共一百一十八页。,但如在地区(d
7、q)尺度上如我国海南地区(dq),它可能呈散在聚集分布而未能呈现出任何规律。,第二十三页,共一百一十八页。,第二十四页,共一百一十八页。,Company Logo,第二十五页,共一百一十八页。,Company Logo,第二十六页,共一百一十八页。,Company Logo,时空(sh kn)模型,多水平(shupng)模型,第二十七页,共一百一十八页。,Company Logo,聚集(jj)性探测Cluster Detection,第二十八页,共一百一十八页。,Company Logo,回顾性和前瞻性两种分析(fnx)策略,回顾性分析:发病模式与病因(bngyn)探索 前瞻性分析:实时监测与
8、早期预警,第二十九页,共一百一十八页。,Kullduff前瞻性时-空扫描统计量Rogerson空间模式(msh)监测方法,前瞻性聚集(jj)性探测方法,第三十页,共一百一十八页。,Company Logo,目前我国部分地区用于预警的方法主要是单纯时间聚集性探测方法。其主要目的是探测时间序列(xli)数据中发病例数异常增加的时点。,第三十一页,共一百一十八页。,单纯时间聚集性分析的主要不足:未利用疫情(yqng)数据中的空间信息,难以及时、准确地预警。,第三十二页,共一百一十八页。,国外的研究多开始于2001年炭疽恐怖事件后,纽约、华盛顿、西雅图等地先后(xinhu)建立了早期预警系统试点(时-
9、空扫描统计量和贝叶斯网络等技术)。,第三十三页,共一百一十八页。,国内外预警系统研究(ynji)的区别,第三十四页,共一百一十八页。,国内外预警系统研究(ynji)的区别,第三十五页,共一百一十八页。,Company Logo,前瞻性时空(sh kn)扫描统计量,第三十六页,共一百一十八页。,研究(ynji)区域,扫描(somio)窗口,病例(bngl),第三十七页,共一百一十八页。,第三十八页,共一百一十八页。,第三十九页,共一百一十八页。,寻找病例最多的窗口(chungku):扫描统计量S,第四十页,共一百一十八页。,Company Logo,由于传染病的特殊性,用于传染病监测(jin c
10、)的扫描统计量,其构建更为复杂。,第四十一页,共一百一十八页。,传染病时空(sh kn)聚集性的特点,无法(wf)预知传染病爆发可能的规模,扫描窗口的大小(dxio)应当是动态变化的,第四十二页,共一百一十八页。,传染病时空聚集(jj)性的特点,某些(mu xi)因素造成传染病发生数在时间和空间的自然变异:如季节性,应当对这些因素进行(jnxng)校正,第四十三页,共一百一十八页。,传染病时空(sh kn)聚集性的特点,人口的地理分布不均匀(jnyn)如:城市人口密度高于农村,应对人口密度的不均匀进行(jnxng)校正,第四十四页,共一百一十八页。,寻找病例最多的窗口:扫描(somio)统计量
11、S,如何(rh)得到P 值,寻找(xnzho)扫描统计量的概率分布?,非常复杂和困难的概率理论问题,第四十五页,共一百一十八页。,Company Logo,新近发展的Kullduff时空扫描(somio)统计量,扫描(somio)窗口大小可变对非均匀的人口密度进行校正 采用蒙特卡罗随机化法进行假设检验,无需再考虑扫描统计量的概率分布,第四十六页,共一百一十八页。,扫描(somio)窗口:一定地理区域,空间(kngjin)扫描统计量,第四十七页,共一百一十八页。,扫描(somio)窗口:一定时间长度,时间扫描(somio)统计量,第四十八页,共一百一十八页。,时空扫描(somio)统计量,一定的
12、时间(shjin)长度,一定的地理(dl)区域,第四十九页,共一百一十八页。,第五十页,共一百一十八页。,第五十一页,共一百一十八页。,第五十二页,共一百一十八页。,第五十三页,共一百一十八页。,第五十四页,共一百一十八页。,第五十五页,共一百一十八页。,第五十六页,共一百一十八页。,第五十七页,共一百一十八页。,第五十八页,共一百一十八页。,第五十九页,共一百一十八页。,第六十页,共一百一十八页。,第六十一页,共一百一十八页。,第六十二页,共一百一十八页。,第六十三页,共一百一十八页。,第六十四页,共一百一十八页。,第六十五页,共一百一十八页。,Company Logo,传染病早期(zoq)
13、预警系统与可视化平台,第六十六页,共一百一十八页。,网络(wnglu)直报系统,早期(zoq)预警系统框架,数据(shj)获取,第六十七页,共一百一十八页。,探测(tnc)算法,采用聚集性探测(tnc)算法进行数据分析,网络(wnglu)直报系统,早期预警系统框架,第六十八页,共一百一十八页。,探测(tnc)算法,地理信息系统,地理(dl)编码&可视化实现,网络(wnglu)直报系统,早期预警系统框架,第六十九页,共一百一十八页。,探测(tnc)算法,地理信息系统,报告(bogo),早期(zoq)预警系统框架,网络直报系统,第七十页,共一百一十八页。,Google Earth 可视化平台GE支
14、持的图形为三维图形,较二维图形直观,且可任意改变方位和视角进行查看(chkn)。GE提供的卫星影像信息包括了山川河流等地形地貌信息,可结合上述环境信息查看聚集性探测结果。除地理图形外,GE还可容纳预警信号的相关重要信息。GE操作十分简便,便于推广应用。,第七十一页,共一百一十八页。,省级前瞻性时空(sh kn)聚集性探测结果图示1,第七十二页,共一百一十八页。,图7.12 区县级前瞻性时空(sh kn)聚集性探测结果图示1,第七十三页,共一百一十八页。,图7.13 区县级前瞻性时空聚集(jj)性探测结果图示2,第七十四页,共一百一十八页。,Figure.聚集性探测结果在Google Earth
15、上的平面透视图(在预警(y jn)信号所在位置点击鼠标左键,即可出现预警(y jn)信号的详细信息,包括时间、地域、实际发病数、预期发病数、P值),第七十五页,共一百一十八页。,时空两个维度聚集性探测(tnc)的优势,与单纯时间聚集(jj)性分析相比,时空聚集(jj)性分析信息更为详尽,不仅可提示有无聚集性,还可对聚集性进行空间定位。,第七十六页,共一百一十八页。,时空(sh kn)两个维度聚集性探测的优势,时空聚集性分析充分利用了数据中的空间信息,预警更为(n wi)及时。,第七十七页,共一百一十八页。,H0:传染病无聚集(jj)性(病例随机分布),拒绝(jju)H0,对应(duyng)爆发
16、?,“偶然”?,信息不真实?,存在聚集性,第七十八页,共一百一十八页。,与散发相对散发:独立发生的病例(bngl)。爆发:病例之间具有流行病学上的联系。,流行病学意义(yy)上的传染病爆发,第七十九页,共一百一十八页。,统计(tngj)聚集性,流行病学(li xn bn xu)爆发,是否(sh fu)对应?,现场调查:确定病例之间的流行病学联系。实验室检查:根据病原体染色体DNA的同源程度识别病例之间的联系(更为准确)。,第八十页,共一百一十八页。,聚集(jj)性的原因,空间(kngjin)自相关,其它(qt)因素,第八十一页,共一百一十八页。,是否(sh fu)需校正空间自相关?,取决于需要从数据中获取(huq)什么样的信息?,第八十二页,共一百一十八页。,情况(qngkung),通过空间(kngjin)自回归分析确定主要影响因素:如分析发病人群的主要特征,此时需校正空间自相关。否则可能高估危险性,使得本来没有关联的因素得到具有统计学意义的结果。,第八十三页,共一百一十八页。,探测传染病爆发:勿需校正空间自相关。因为所要探测的cluster很可能是空间自相关引起的。如果对其进行校正,