1、艾滋病疗法的评价及疗效的预测最优模型王 犁 冯 浩 童金萍 (朱家明)摘 要本文建立了艾滋病疗法的评价及疗效的预测模型,从总体上就美国艾滋病医疗试验机构ACTG公布的两组数据,对不同的疗法作出了优劣的评判,运用最小二乘原理结合所给数据中的CD4和HIV值,建立数据模拟模型,对三种不同程度的病人继续治疗的效果作出了预测,或者确定最佳治疗终止时间。在兼顾治疗费用的条件下,对不同治疗法给出了较好的评判。最后,对模型作出分析、评价和改进。对于问题一我们建立了模型数据拟合模型。先根据355位病人的1665组检测数据中CD4和HIV的浓度,预测是继续服用此药物对病人进行治疗还是确定最佳终止时间提前终止治疗
2、,我们分析认为影响这个问题的最主要的因素是病人的初始病情,为了衡量病人的疗效,根据艾滋病病理,由CD4浓度与HIV浓度的比值定义了健康指标。利用最小二乘法原理,根据不同病期平均健康指标的拟合函数确定不同病期的病人的最佳治疗终止时间或者是预测继续治疗的效果。按此模型得出结果:早期爱滋病患者继续接受治疗,病人健康会好转但不会痊愈,中期和晚期患者最佳治疗终止时间分别在第32.8和第46.2081周。对于问题二,在评价 4种疗法的优劣时建立了模型统计概率模型,以CD4浓度的变化为标准,增加则表示疗法有效,否则疗法无效,比较4种疗法的有效治疗率大小,得知从优到劣的次序依次为:疗法4、疗法2、疗法3、疗法
3、1。因为附件2给出了病人的年龄,对于最优疗法4,改进了模型我们建立了模型数据拟合模型。增加年龄段因素,分成不同病期内不同年龄段的六类病人,仍按最小二乘原理确定各类病人的最佳治疗终止时间或者是预测继续治疗的效果。得出结果:对于最优疗法4,青壮年早、中、晚期患者的最佳治疗终止时间分别在第22.6592,15.7154,23.622周;中老年早、中、晚期患者的最佳治疗终止时间分别在第10.0294,4.3657,10.063周。对于问题三,综合考虑疗效、费用,我们建立模型统计实验模型,我们固定各疗法的有效人数,来算出各疗法的人数所花费的费用,费用最小的疗法就是效果最好的疗法,我们得到在综合考虑情况下
4、疗法1效果最好。疗法1与问题二中的疗法4有明显的不同,最佳停药时间明显比疗法4出现的早。关键词:艾滋病 CD4 HIV 最小二乘法 数据拟合 Matlab 可决系数 1 问题的重述一、背景知识1、艾滋病概况艾滋病是当前人类社会最严重的瘟疫之一,从1981年发现以来的20多年间,它已经吞噬了近3000万人的生命。2、艾滋病病理艾滋病的医学全名为“获得性免疫缺损综合症”,英文简称AIDS,它是由艾滋病毒(医学全名为“人体免疫缺损病毒”, 英文简称HIV)引起的。这种病毒破坏人的免疫系统,使人体丧失抵抗各种疾病的能力,从而严重危害人的生命。人类免疫系统的CD4细胞在抵御HIV的入侵中起着重要作用,当
5、CD4被HIV感染而裂解时,其数量会急剧减少,HIV将迅速增加,导致AIDS发作。 3、艾滋病治疗艾滋病治疗的目的,是尽量减少人体内HIV的数量,同时产生更多的CD4,至少要有效地降低CD4减少的速度,以提高人体免疫能力。迄今为止人类还没有找到能根治AIDS的疗法,目前的一些AIDS疗法不仅对人体有副作用,而且成本也很高。许多国家和医疗组织都在积极试验、寻找更好的AIDS疗法。二、具体试验数据现在得到了美国艾滋病医疗试验机构ACTG公布的两组数据。1、ACTG320数据(见附件1) ACTG320是同时服用zidovudine(齐多夫定),lamivudine(拉美夫定)和indinavir(
6、茚地那韦)3种药物的300多名病人每隔几周测试的CD4和HIV的浓度(每毫升血液里的数量)。2、193A数据(见附件2)193A是将1300多名病人随机地分为4组,每组按下述4种疗法中的一种服药,大约每隔8周测试的CD4浓度(这组数据缺HIV浓度,它的测试成本很高)。4种疗法的日用药分别为:600mg zidovudine或400mg didanosine(去羟基苷),这两种药按月轮换使用;600 mg zidovudine加2.25 mg zalcitabine(扎西他滨);600 mg zidovudine加400 mg didanosine;600 mg zidovudine加400 m
7、g didanosine,再加400 mg nevirapine(奈韦拉平)。三、要解决的问题1、问题一:利用附件1的数据,预测继续治疗的效果,或者确定最佳治疗终止时间(继续治疗指在测试终止后继续服药,如果认为继续服药效果不好,则可选择提前终止治疗)。2、问题二:利用附件2的数据,评价4种疗法的优劣(仅以CD4为标准),并对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间。3、问题三:艾滋病药品的主要供给商对不发达国家提供的药品价格如下:600mg zidovudine 1.60美元,400mg didanosine 0.85美元,2.25 mg zalcitabine 1.85美元,4
8、00 mg nevirapine 1.20美元。如果病人需要考虑4种疗法的费用,对问题二中的评价和预测(或者提前终止)有什么改变。2 问题的分析艾滋病疗法的评价及疗效问题是一类大样本多数据的统计分析与预测类问题。对本问题本处理要分两个步骤进行:第一,对艾滋病的治疗方法作出合理的评价;第二,对治疗的效果给出准确的预测。要合理准确处理好本问题,关键必须弄清问题的相关知识并对问题作出深入的分析。一、相关知识的介绍艾滋病是当前人类社会最严重的瘟疫之一,它是由艾滋病毒HIV引起的,这种病毒破坏人的免疫系统,使人体丧失抵抗各种疾病的能力,从而严重危害人的生命。人类免疫系统的CD4细胞在抵御HIV的入侵中起
9、着重要作用,当CD4被HIV感染而裂解时,其数量会急剧减少,HIV将迅速增加,导致AIDS发作。因此,首先我们要明确点,即CD4数量越多或HIV浓度越少,人类免疫系统就越强,反之,则越弱。为此我们必须弄清以下两个关系:1、CD4数量与病症CD4数量多少为好,为此我们查阅了有关资料1,结果表明,无症状HIV感染期:CD4 绝对数500个/ mm3;有症状感染期:CD4 绝对数 200-499/mm 3;AIDS 期:CD4 绝对数200/mm 3。2、HIV浓度与治疗HIV是一种逆转录病毒,它主要存在于感染者和病人的体液及多种器官中,它可通过含HIV的体液交换或器官移植而传播。HIV的浓度指每毫
10、升血液里的数量。显然,健康人的身体内没有HIV,对于感染者和病人,HIV的浓度越低说明病症越轻微,浓度越高则病症越严重。二、对问题的具体分析1、对问题一的分析:问题要求利用附件1的数据,预测继续治疗的效果,或者确定最佳治疗终止时间。数据ACTG320是使用同时服用3种药物的治疗方法得到的300多名病人每隔几周测试的CD4和HIV的浓度。把附件1的扩展名txt改成xlt(即电子表),运用excel2可统计出结果为355位病人的1665组检测数据,其中病人、时间、CD4数量和HIV的浓度是要考虑的四个量。以下是处理数据的原则。剔除缺少HIV的数据运用excel统计,有100组数据缺少HIV数值,仅
11、占总量的6%,为了便于研究,首先把这些组数据剔除掉。利用差值法把数据组时间统一到第0、4、8、24、40周将1665组检测值对时间作散点图(见图1),从图1可以发现:图形大致呈折线形变化,且在第0、4、8、24、40周附近呈水平,为了简化对问题的处理,可在总体上只考虑这五周CD4的大小和HIV的数值(以下简记为CD4和HIV)来进行总体拟合,对恰巧不全是这几周检测的,我们可按下面四条原则行处理:按相邻原则由左右两测点推测中间点。我们假设病人的病情在两个测试中间段的变化是平稳的,具体办法:如已知第0、3、8、23、40周,可由第3周与第8周的CD4和HIV分别按直线求出第4周的CD4和HIV,同
12、理可由第23周与第40周的CD4和HIV分别按直线求出第24周的CD4和HIV。图1 1665组检测值点对时间散点图按就近原则由已知最近两点推测端点。具体办法:如已知第1、4、8、24、38周,可由第1周与第4周的CD4和HIV分别按直线求出第0周的CD4和HIV,同理可由第24周与第38周的CD4和HIV分别按直线求出第40周的CD4和HIV。按多余点舍弃原则。具体办法:如已知第0、4、8、24、41、50周,可由第24周与第41周的CD4和HIV分别按直线求出第40周的CD4和HIV,对多余的第50周可舍弃。按缺少点不补原则。具体办法:如已知第0、4、8、24周,对缺少第40周CD4和HI
13、V,不再补充,在求总体均值时要注意到总量的多少。第0周情况可作为病情分类的依据。由于第0周是病人治疗前的检测结果,这既可作为病情分类的依据,也可作为治疗结果的参照。当然,在对总体拟合是也是不可缺少的点。2、对问题二的分析:问题要求利用附件2的数据,仅以CD4为标准来评价4种疗法的优劣,并对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间。附件2涉及到五个量:病人、疗法、年龄、时间、Log(CD4数+1)。评价4种疗法的优劣时,首先按不同的治疗法将数据分成四组,然后对每组的CD4分别按问题一的方法进行处理,统计出各组CD4值增加的个数,据此运用统计概率模型可以求出四种治疗法的有效治疗率,由
14、有效治疗率大小即可以判别四种疗法的优劣。对较优的疗法,然后仿照问题一依据病人治疗前的CD4值将病人按病情分成早期、中期和晚期三类,再依据年龄将病人分成青壮年和中老年,这样交叉可得六类病人,最后仿照问题一求出各类数据拟合函数曲线图,据此可以预测继续治疗的效果,及确定最佳治疗终止时间。3、对问题三的分析:近年来,由于不发达国家因为种种原因,感染艾滋病人数很多,而经济又相对落后,治疗费用是必须考虑的一大重要因素,为此,对问题二的模型的要进行改进,要把几种药品价格加入模型进行分析与处理。 对个体而言,由于不同的疗法的费用是固定的,我们要从总体上进行考虑,在疗效相同的条件下,对每种疗法进行实验设计,然后
15、可求得每种费用在相同时间内的花费多少,从而可以判四种疗法的优劣。对最佳停药时间,应该为有费用限制出现在无费用限制之后。3 模型的假设1、假设病人的病情在两个测试周中间时段的变化是平稳的;2、为了方便起见,规定早期、中期、晚期编排序号为1、2、3; 3、规定第0、4、8、24、40周编排序号为第0、1、2、3、4次;4、每月按28天计算即每个月4周;5、对仅有初始检测值的视为未进行治疗,在研究时可剔除;6、所有数据均为原始数据,来源真实可靠。4 名词解释与符号说明一、名词解释1、AIDS:艾滋病的英文简称,其医学全名为“获得性免疫缺损综合症”;2、HIV:艾滋病毒的英文简称,其医学全名为“人体免疫缺损病毒”;3、CD4:是一组产生免疫功能的淋巴细胞的辅助细胞;4、健康指标:各时刻测试出的CD4浓度与HIV浓度的比值;5、病情好转速度:单位时间(周)内一个病人健康指标的变化量;6、可决系数:是指1减误差平方和与残差平方和的差,用来检验曲线拟合程度的量。二、符号说明序号符号符号说明1k表示病人的综合健康指标2c表示病人综合检测的CD4浓度3h表示病人综合检测的HIV浓度4表示第i个病人在第j次检测时的健康指标5表示第i个病人进行第j次检测的周数6表示第i个病人在第j次检测时的病情好转速度7表示t期第i个病人在第j次的健康