1、33(1):38Feb.,2023生物技术Biotechnology第 33 卷第 1 期2023 年 2 月 收稿日期:2021-12-15 基金资助:国家自然科学基金项目(81772680)作者简介:邓慧(1996-),女,湖北省黄冈人,硕士研究生,研究方向:胶质瘤发生的分子机制,E-mail:3286623702 。通讯作者:张孟贤(1973-),男,湖北省武汉人,博士,主任医师,研究方向:胶质瘤干细胞生物学行为的调控机制,主持国家自然基金项目 2 项,发表论文 30 余篇,E-mail:。基于单细胞测序构建胶质母细胞瘤预后模型邓慧,呙文静,宋萍,张孟贤(华中科技大学同济医学院附属同济医
2、院肿瘤科,湖北 武汉 430030)摘要:目的基于单细胞测序筛选胶质母细胞瘤特征基因并构建预后模型。方法分析 GEO 数据库单细胞 RNA 测序数据集 GSE84465,筛选出 GBM 细胞分化相关的差异基因。下载 TCGA 数据库 GBM 的基因表达谱和临床数据,采用Lasso 回归、Cox 回归分析筛选出特征基因构建预后模型,根据独立预后因素构建列线图,GSE83300 作为外部验证集。基于风险评分中位数将患者分组,比较两组生存差异。结果通过 scRNA-seq 得到 492 个分化差异基因,经过回归分析得到基于 6 个基因(PLAUR、RARRES2、G0S2、MDK、SERPINE2、
3、CD81)的预后模型。其 1、3、5 年 ROC 曲线下面积均大于 0.7;KM 分析显示高低风险组预后存在差异(P 0.001),GSE83300 验证结果与 TCGA 一致。多因素 Cox 回归分析表明年龄和风险评分可以作为独立影响因素(P 0.01);C-Index(0.679)、校准图显示列线图预测模型有良好的拟合度。GSEA 分析示高低风险组差异基因集参与细胞因子受体相互作用、抗原处理与提呈等通路。结论 由PLAUR、RARRES2、G0S2、MDK、SERPINE2、CD81 构建的模型能够预测 GBM 患者预后。关键词:胶质母细胞瘤;单细胞测序;预后模型;癌症基因组图谱计划;生物
4、信息学分析中图分类号:R739.41 文献标识码:A DOI:10.16519/ki.1004-311x.2023.01.0007Establishing prognostic model of glioblastoma based on single cell sequencingDENG Hui,GUO Wen-jing,SONG Ping,ZHANG Meng-xian(Department of Oncology,Tongji Hospital of Tongji Medical College,Huazhong University of Scienceand Technology,
5、Wuhan 430030,China)Abstract:ObjectiveTo screen feature genes of glioblastoma and construct a prognostic model based on single-cell sequen-cing.MethodScRNA-seq data GSE84465 from GEO database was analysed to identify the differential genes related to GBMcells differentiation.The gene expression and c
6、linical data of GBM were downloaded in TCGA database,then Lasso regression,Cox regression analysis were used to obtain the feature genes to constructe prognostic model,then according to independentlyprognostic factors nomogram was constructed,GSE83300 as external validation set.The patients were gro
7、uped based to the me-dian risk score with comparing survival difference.Result400 differential genes of differentiation were screened by scRNA-seq,and after regression analysis the prognostic model about 6 genes(PLAUR,RARRES2,G0S2,MDK,SERPINE2,CD81)wasobtained.The areas under ROC curve in 1,3,5 year
8、s were greater than 0.7;KM analysis showed the prognosis was differentbetween high risk group and low risk group(P 0.001);the result about validation of GSE83300 was consistent with TCGA.Multivariate Cox analysis found age and risk score could be used as independently prognostic factors(P 0.01).C-in
9、dex(0.679),calibration plot showed the nomogram about prediction of the prognosis had good fitting.GSEA showed that the differ-ential gene sets between two group were related to cytokine receptor interaction,antigen treatment and presentation and others.Conclusion The model about six genes(PLAUR,RAR
10、RES2,G0S2,MDK,SERPINE2,CD81)can predict effectively the prog-nosis of GBM.Keywords:glioblastoma;scRNA-seq;prognostic model;TCGA;bioinformatics analysis 胶质母细胞瘤(glioblastoma,GBM)是中枢神经系统最常见和致死率最高的恶性肿瘤1。2016 年世界卫生组织首次将中枢神经系统肿瘤组织学表型和基因特征进行整合2。近年来,单细胞 RNA 测序技术(single cell RNA sequence,scRNA-seq)逐渐应用于肿瘤研究,
11、能在单细胞水平分析不同肿瘤细胞 1 期邓慧,等:基于单细胞测序构建胶质母细胞瘤预后模型分化过程中的差异表达,揭示不同分型中细胞的异质性。例如,Pang Bo 等揭示了原发 GBM 中的不同功能状态的细胞亚群并证实了高侵袭潜能细胞的存在3。Candice C Poon 比较了 IDH 野生型和 IDH 突变型 GBM 的免疫细胞图谱,发现两者预后差异可能与先天免疫微环境相关4。国内关于 GBM 预后模型的构建,大部分都是基于传统的转录组数据,很少利用到单细胞高通量测序数据5-6。因此,可以通过联合单细胞测序数据和传统转录组信息尝试找到肿瘤组织细胞或者免疫微环境中免疫细胞分化的差异基因,用于构建
12、GBM 预后预测模型。笔者用 GEO 数据库来源的 GBM scRNA-seq数据联合 TCGA 数据库的 GBM 表达谱和临床信息筛选特征基因,构建有预测价值的风险评分模型和列线图,用外部数据集 GSE83300 进行验证,为 GBM预后、治疗提供依据。1 材料与方法1.1 材料1.1.1 数据准备与预处理从美国国家生物技术信息中心的 GEO(GenomeExpression Omnibus)数据库下载 GBM scRNA-seq数据集 GSE84465 和转录组文件 GSE83300,其中GSE84465 包括 4 位原发性 GBM 患者,细胞数 3 589个(肿 瘤 细 胞 2 343
13、个、正 常 细 胞 1 246 个);GSE83300 包括 50 例原发性 GBM 患者,全部纳入研究。从癌症基因组图谱 TCGA(The Cancer GenomeAtlas)数据库中下载 GBM 样本的转录组文件和对应的临床信息,排除缺乏临床信息以及生存时间20 d的样本,最终从 TCGA 队列中纳入 156 个GBM 样本。1.1.2 单细胞测序数据的质控、降维、注释提取下载的 GSE84465 数据集,Seurat R 包用于质量控制,3 个细胞中表达的基因、基因数 200个的低质量细胞、线粒体基因表达5%的低质量细胞均被排除。利用主成分分析(principal componenta
14、nalysis,PCA)对数据进行降维,t 分布随机近邻嵌入(t-distributed stochastic neighbor embedding,tSNE)机器学习法进行聚类。R 中的 limma 包对细胞簇内基因进行差异分析,鉴定每个细胞簇内的标记基因。P 1 被认为有意义。根据每个细胞簇标记基因的组成,Single R 包里的 BlueprintEncodeDate 数据库对各细胞簇予以注释。1.1.3 细胞轨迹分析以及差异基因的鉴定用 Monocle R 包构建 GBM 单细胞分化轨迹,鉴定分 支 间 差 异 表 达 基 因(differentially expressedgenes
15、,DEGs),并用 clusterProfiler R 包对 DEGs 进行GO 富集和 KEGG 信号通路分析。1.1.4 靶向基因的鉴定并建模提取 DEGs 在 TCGA 队列中的表达数据和临床信息,结合生存时间作为观察终点,采用单变量 Cox回归分析筛选有预后价值的基因。利用 R 语言 glm-net 包的 Lasso 算法进一步提取具有关键基因。对关键基因进行多因素 Cox 分析算出相关基因风险系数,得到风险评分公式。1.1.5 预后模型和列线图的评估和验证依据 风 险 评 分 中 位 值 将 TCGA 队 列 和GSE83300 数据集患者分为高低风险组,Kaplan-Meier 曲
16、线比较两组的生存差异,用 R 语言 timeROC包绘制接受者操作特征曲线(receiver operating char-acteristic,ROC)并 计 算 曲 线 下 面 积(area undercurve,AUC),以判断模型的区分度。对临床病理特征(年龄、性别)和风险评分进行单变量、多变量 Cox分析,筛选独立预后因素。用 R 语言 rms 包构建风险评分和临床特征的列线图模型,bootstrap 法重复抽样 1 000 次计算一致性指数(C-Index)并绘制校准曲线,验证列线图模型预测的有效性。1.1.6 高低风险组 GSEA应用 GSEA 软件进行基因集富集分析,识别 TC-GA 队列高、低风险组的差异基因集参与的通路与生物学过程,P 0.05 是显著富集。1.2 生物信息分析和统计学方法用 R 软件 4.1.1 版本进行分析,R 语言相关程序包(Seurat、limma、survival、survminer、timeROC、glmnet 等)进行处理。通过 Kaplan-Meier 分析比较生存差异,用实用报表提取语言(https:/www.perl.org/)进