1、论著基于数据库的生物信息学分析筛选抑郁症诊断标志物张敏,和申,丁蕾,金锋,黄佳,蔡亦蕴,彭代辉 摘要:目的:通过生物信息学分析方法筛选潜在的抑郁症诊断标志物,探讨这些基因在抑郁症疾病过程中的生物作用。方法:数据集包含位抑郁症患者,位健康对照的外周血表达谱芯片数据,采用语言包,以 ,为标准,分析数据集中的差异表达基因,并使用在线网站分析基因功能,对这些差异表达基因进行批量分析,筛选出最大的前个差异表达基因,通过回归和多元逻辑回归构建抑郁症诊断模型,并采用方法进行内部验证。结果:构建出包含,这个差异基因在内的抑郁症诊断模型,其 (),模型内部验证证实其具有较好的区分度及校准度。结论:本研究通过基因
2、表达谱数据分析,获得包含个基因在内的抑郁症诊断模型,并发现该模型具有较高的诊断价值。关键词:生物信息学;抑郁症;差异表达基因;诊断模型中图分类号:文献标识码:文章编号:(),:(),(),:,(),:;抑郁症是一种严重的精神障碍,有预测表明,到年抑郁症将成为全球疾病负担的主要原因之一。迄今抑郁症的诊断仍主要依赖症状学,缺乏客观的生物学诊断指标,导致目前抑郁症的漏诊率、误诊率高,延误治疗时机。尽管目前已经试图从内分泌、炎症、代谢、基因组学、神经影像等方面探索客观诊断指标,但仍然缺乏可靠、稳定的诊断标志物。基金项目:上海市科学技术委员会基金();上海市自然科学基金项目();上海市精神卫生中心院级课
3、题()作者单位:上海交通大学医学院附属精神卫生中心通信作者:彭代辉,:生物信息学是一门新兴的交叉学科,越来越多的研究开始通过生物信息学分析进行疾病机制的探索,以及诊断模型的构建,这为抑郁症诊断标志物的研究提供了新的思路。数据库()是由美国国立生物技术信息中心创建并维护的免费基因表达数据库,收录了世界各国研究机构提交的高通量基因表达数据。按照本研究组已发表的相关论文的统计分析方法,本研究通过下载数据库抑郁症患者外周血基因表达谱芯片,利用软件,筛选出前个具有较高抑郁症诊断效能的差异基因,进一步通过回归及多元逻辑回归进行模型构建,发现个包含基因在内的抑郁症诊断模型,该模型具有较高的诊断价值,这为抑郁
4、症研究提供了新的潜在诊断标志物基因及模型。对象和方法 对象本研究分析的基因数据集来自数据库(:)。是当今最大、最全面的公共基因表达数据资源。数据集包含例抑郁症患者和名健康对照的外周血基因表达谱芯片数据,是目前数据库中样本量最大的抑郁症数据集。平台为。方法 差异表达基因的筛选在软件中采用程序包标准化矩阵数据,并鉴定抑郁症患者和健康对照的差异表达基因(,)。以 且值 表示基因差异具有统计学意义。差异表达基因功能富集分析(:)是一个集基因注释、功能富集分析、蛋白质互作分析于一体的基因分析网站。它整合了、和等多个权威的数据资源。本研究通过该网站对差异表达基因进行功能富集分析。筛选较高诊断效能的差异表达
5、基因进一步通过程序包中的函数对差异表达基因进行批量受试者工作特征(,)曲线分析,评估差异表达基因的诊断价值,并选取曲线下面积最大的前位基因,纳入诊断模型构建分析。诊断模型构建为解决基因间表达水平的共线性问题,限制模型中纳入的基因个数,从而尽可能提高模型的临床适用性,本研究采用回归分析进一步筛选诊断价值高的基因,同时通过多元逻辑回归分析识别具有独立诊断效能的基因,构建诊断模型。诊断模型内部验证分析采用重抽样方法(次)对模型进行内部验证,得到该模型内部验证的统计量来确认模型区分度,通过校准度曲线来评价模型的校准度。结果 差异表达基因的鉴定在数据集中,本研究共鉴定出 个差异表达基因(),包括 个高表
6、达基因,个低表达基因。见图。功能及通路富集分析通过在线网站对进行功能及通路富集分析。结果显示这些的生物学过程主要富集在中性粒细胞脱粒作用,淋巴细胞激活,细胞死亡调控,细胞因子产生调控等,参与的主要通路包括细胞受体信号通路、固有免疫系统、白细胞介素调控通路等。这些功能和通路已经被既往研究证实在抑郁症发生发展中发挥重要作用。见图。图差异表达基因分析鉴定图 注:中红点代表上调基因,蓝点代表下调基因;火山图展示差异表达基因,差异表达基因的及通路富集分析 明确较高诊断效能的差异表达基因通过函数对差异表达基因进行批量曲线分析评估差异表达基因诊断价值,并提取曲线下面积排名前位基因。见表。临床精神医学杂志年第
7、卷第期表诊断价值排名前位的基因序号基因序号基因 诊断模型构建及内部验证利用语言包,使用逻辑回归分析进一步筛选,采用最小筛选出个基因(,)。见图。采用多元逻辑回归分析进行独立诊断标志物筛选出,这个基因作为潜在的抑郁症独立诊断标志物并构建诊断模型。诊断模型()。见图。通过分析得到 ()。见图。初步表明该模型具有较好的区分度,采用方法(抽样 次)进一步对该模型进行内部验证,校正后的 ,表明模型区分度较高,校准曲线图表明该模型校准度好。见图。图诊断模型构建及分析图注:使用筛选最佳变量;多因素回归分析筛选具有独立诊断价值的基因;诊断模型曲线及曲线下面积;诊断模型校准度 讨论本研究筛选并构建了包含个差异表
8、达基因在内的抑郁症诊断模型,经内部验证该诊断模型具有良好的敏感性及特异性,具有潜在的临床应用价值。等利用数据集,发现个存在表达差异的免疫相关基因,并且曲线分析报道面积为。另一项研究报道包含血清,催乳素在内的个生物标志物组成的诊断模型敏感度和特异度均超过。年等构建了个包含个神经免疫内分泌相关指标的诊断模型,该模型表现出较好区分抑郁症和健康对照的能力。作为对比本研究用相对较少的基因得到个区分度较高,校准度好的抑郁症诊断模型。、在以往研究中已发现与抑郁症发病相关。本研究发现这些基因 ,水平可能作为抑郁症潜在的诊断标志物。是编码细胞毒性淋巴细胞的细胞质颗粒内一组丝氨酸蛋白酶(颗粒酶)基因,在机体的免疫
9、功能方面发挥作用。一项研究表明,是抑郁症的易感基因。一项研究发现,抑郁症患者的血清抵抗素水平低于正常人,且血清蛋白水平可作为抑郁症潜在的生物标志物。另有研究通过网络分析发现在抑郁症患者免疫功能中发挥重要作用。为家族成员,编码通路上与复制、损伤修复以及干细胞增殖有关,既往研究认为是区分抑郁症和孤独症的标志物基因。存在于淋巴细胞及其他免疫细胞、树突状细胞和内皮细胞的表面,主要在机体免疫方面发挥作用,其异常与多种自身免疫性疾病有关。既往有研究报道在抑郁模型大鼠海马等脑区存在表达改变。除此之外本研究构建的基因模型中,是参与基因转录调控的蛋白编码基因,其与抑郁症的关系尚未见报道,但既往有研究发现,该基因
10、与阿尔兹海默病()的严重程度有关,随着严重程度增加,水平也随之增加。是氨基酸氧化酶()的编码基因,能够去除老化过程中积累的氨基酸,调节大脑中丝氨酸的水平。一项年的研究显示,可能与精神分裂症和双相情感障碍的遗传易感性有关,但与抑郁症的关系仍待进一步研究。是一种,它与抑郁症的关系目前尚不清楚。此外,本研究通过差异分析和富集分析还发现细胞受体信号通路、固有免疫系统、白细胞介素调控等通路与抑郁症密切相关,验证了免疫炎症在抑郁症病理机制中的重要性。本研究尚存在一些缺陷。首先本研究是基于生物信息数据库的数据挖掘分析,这些基因最终能否作为抑郁症的诊断标志物尚需在后续分子实验中进一步研究验证。该研究选取的数据集为目前样本量最大的抑郁症外周血基因芯片,在构建诊断模型后进一步通过方法对其进行内部验证,结果显示出较好的模型区分度和校准度。但是本研究缺乏外部数据验证,后续需要在其他独立样本中进一步明确。此外,该模型是否具有精神疾病诊断特异性仍不清楚,例如是否能够区分抑郁症和双相抑郁。最后,模型中的一些基因是否在抑郁症病理机制中发挥作用仍需进一步研究。参考文献:,():,:,:,():,:,():,:,():,():,():,:,:,():,:,():,():,(),():,():(收稿日期:修回时间:)临床精神医学杂志年第卷第期