1、论著基于机器学习联合加权基因共表达网络分析鉴定狼疮肾炎潜在生物标志物白志勋1,王艳平2,杨杰3,谭州科11.遵义医科大学附属医院器官移植中心(贵州遵义 563000)2.遵义医科大学临床学院(贵州遵义 563000)3.遵义医科大学第二附属医院检验科(贵州遵义 563000)【摘要】目的 探讨狼疮肾炎(lupus nephritis,LN)发生发展的潜在机制,探讨与 LN 进展相关的关键生物标志物和免疫相关途径。方法 从 Gene Expression Omnibus 数据库中下载数据集。通过对差异表达基因的差异表达分析和加权基因共表达网络分析(weighted gene co-express
2、ion network analysis,WGCNA)挖掘,通过基因本体论基因功能富集分析、疾病本体论疾病富集分析、京都基因和基因组数据库通路富集分析,探索 LN 中差异表达基因的生物学功能。利用 LASSO 回归、支持向量机和随机森林 3 种机器学习模型获得 LN 中的枢纽基因(hub 基因),构建基于 hub 基因的列线图诊断模型,并通过受试者操作特征曲线评价 hub 基因的诊断准确性,同时采用单样本基因集富集分析对已知标记基因集与 hub 基因的表达之间的关系进行分析。结果 共获得 2 297 个具有统计学意义的差异表达基因。WGCNA 得到 7 个共表达模块;青色模块与 LN 的相关性
3、最高;通过结合差异基因,共获得 347 个目标基因。通过支持向量机、LASSO 和随机森林 3 种机器学习技术获得了 3 个 hub 基因(CLC、ADGRE4P、CISD2),作为 LN 的潜在生物标志物。受试者操作特征曲线下面积(area under the curve,AUC)分析显示 3 个 hub 基因具有诊断价值(AUCCLC=0.718,AUCADGRE4P=0.813,AUCCISD2=0.718)。根据单样本基因集富集分析,hub 基因主要在细胞凋亡、糖酵解、代谢、缺氧以及肿瘤坏死因子-核因子-B 相关途径中得到增强。结论 通过机器学习技术结合 WGCNA 筛选获得 3 个
4、LN 疾病发生发展中的 hub 基因(CLC、ADGRE4P 和 CISD2)。以上3 个基因可以为临床早期诊断 LN 提供帮助,并可能为进一步深入研究 LN 进展机制提供思路。【关键词】枢纽基因;加权基因共表达网络分析;潜在生物标志物;狼疮肾炎Identification of potential biomarkers of lupus nephritis based on machine learning andweighted gene co-expression network analysisBAI Zhixun1,WANG Yanping2,YANG Jie3,TAN Zhouke
5、11.Organ Transplantation Center,Affiliated Hospital of Zunyi Medical University,Zunyi,Guizhou 563000,P.R.China2.Clinical College,Zunyi Medical University,Zunyi,Guizhou 563000,P.R.China3.Department of Laboratory,the Second Affiliated Hospital of Zunyi Medical University,Zunyi,Guizhou 563000,P.R.China
6、Corresponding author:TAN Zhouke,Email:【Abstract】Objective To explore the potential mechanism of the occurrence and development of lupus nephritis(LN)and identify key biomarkers and immune-related pathways associated with the progression of LN.Methods Wedownloaded a dataset from the Gene Expression O
7、mnibus database.By analyzing the differential expression of genes andperforming weighted gene co-expression network analysis(WGCNA),as well as Gene Ontology enrichment,DiseaseOntology enrichment,and Kyoto Encyclopedia of Genes and Genomes pathway enrichment,we explored the biologicalfunctions of dif
8、ferentially expressed genes in LN.Using three machine learning models,namely LASSO regression,support vector machine,and random forest,we identified the hub genes in LN,and constructed a line diagram diagnosismodel based on the hub genes.The diagnostic accuracies of the hub genes were evaluated usin
9、g the receiver operatingcharacteristic curve,and the relationship between known marker gene sets and hub gene expression was analyzed usingDOI:10.7507/1002-0179.202306132基金项目:国家自然科学基金(82260106);贵州省卫生健康委员会项目(GZWKJ2021-138);遵义医科大学大学生创新创业培养专项(ZYDC2022119)通信作者:谭州科,Email: 996 West China Medical Journal,J
10、ul.2023,Vol.38,No.7 http:/www.wcjm.orgsingle sample gene set enrichment analysis.Results We identified a total of 2 297 differentially expressed genes.WGCNA generated 7 co-expression modules,among which the cyan module had the highest correlation with LN.Weobtained 347 target genes by combining diff
11、erential genes.Using the three machine learning methods,LASSO regression,support vector machine,and random forest,we identified three hub genes(CLC,ADGRE4P,and CISD2)that could serveas potential biomarkers for LN.The area under the receiver operating characteristic curve(AUC)analysis showed thatthes
12、e three hub genes had significant diagnostic value(AUCCLC=0.718,AUCADGRE4P=0.813,AUCCISD2=0.718).According tosingle sample gene set enrichment analysis,the hub genes were mainly associated with apoptosis,glycolysis,metabolism,hypoxia,and tumor necrosis factor-nuclear factor-B-related pathways.Conclu
13、sions By combining WGCNA andmachine learning techniques,three hub genes(CLC,ADGRE4P,and CISD2)that may be involved in the occurrence anddevelopment of LN are identified.These genes have the potential to aid in the early clinical diagnosis of LN and provideinsight into the mechanisms underlying LN pr
14、ogression.【Key words】Hub gene;weighted gene co-expression network analysis;potential biomarker;lupus nephritis系统性红斑狼疮(systemic lupus erythematosus,SLE)是一种累及肾脏等多系统的自身免疫性疾病,其中 50%以上的患者可发展为狼疮肾炎(lupusnephritis,LN)1。LN 是以补体大量激活、免疫复合物在肾小球内沉积、肾小球增生和硬化、肾组织炎症反应为特点的肾损害2。LN 是我国最常见的继发性肾小球疾病,约占肾小球疾病的 12%,占继发性肾小球
15、疾病的 70%左右3。LN 患者具有广泛的临床表现,包括单纯性血尿或快速进展的肾功能衰竭,以及各种器官组织的损害,病理类型表现为轻度的系膜高细胞增生到新月体肾炎和弥漫性硬化的各种阶段。不同病理分型 LN 的疾病活动性及其预后不同,研究证实 LN 是导致 SLE 患者不良预后的首要原因,尽管激素及免疫抑制剂能够改善部分LN 患者预后,但仍有大量的 LN 患者进展为终末期肾病,极大增加了患者的经济负担,影响患者生活质量4。淋巴瘤同样是一种系统性疾病,可以入侵几乎任何组织和器官,在 SLE 患者中非霍奇金淋巴瘤很常见,其组织学类型通常为弥漫大 B 细胞淋巴瘤。临床医生必须高度警惕,积极进行检查并及时
16、完成淋巴结活检,以便在早期阶段发现淋巴瘤5-10。同时,LN 患者总体上患癌症的风险也略有增加,可以猜测 LN 与淋巴瘤之间可能存在一定关联。此外,临床诊疗过程缺乏生物标志物和治疗过程中的病情反复是目前 LN 治疗的障碍。传统的分子生物学只能解释生物过程的局部部分,难以对 LN 进展中的整个生物系统进行全面探索。为探索筛选 SLE患者中发生 LN 的差异表达基因,并研究 LN 的潜在机制和与 LN 进展相关的关键生物标志物和免疫相关途径,本研究使用加权基因共表达网络分析(weighted gene co-expression network analysis,WGCNA)方法,分析 Gene Expression Omnibus(GEO)数据库中与 LN 相关的数据集,同时结合癌症基因组图谱(The Cancer Genome Atlas,TCGA)和基因型-组织表达数据库(Genotype-TissueExpression,GTEx)来分析 LN 与淋巴瘤之间的关联。1 资料与方法1.1 数据收集与处理LN 的表达谱数据集 GSE99967 从 GEO 数据库中获得11。GSE999