1、SCIENTIA SINICA Informationis中国科学:信息科学2023年第53卷第2期:250265c 2023中国科学 杂志社论文基于单细胞数据的癌症协同驱动模块识别方法陈希1,王峻1,2*,余国先1,2,崔立真1,2,郭茂祖31.山东大学软件学院,济南 2501012.山东大学-南洋理工大学人工智能国际联合研究院,济南 2501013.北京建筑大学电气与信息工程学院,北京 100044*通信作者.E-mail:收稿日期:20220204;修回日期:20220401;接受日期:20220411;网络出版日期:20230203国家自然科学基金(批准号:62072380,62031
2、003)和山东大学中央高校基本业务费项目(批准号:2020GN061)资助摘要从大规模生物组学数据中准确识别导致癌症发生的协同驱动模块是生物信息学研究领域重大课题之一.现有研究方法通常只基于批量组学数据进行识别,忽视了细胞水平上的癌症异质性,易受噪声影响.针对上述问题,本文提出了一种基于单细胞数据和先验知识指导的协同驱动模块识别方法CDMFinder.该方法首先利用基因在不同亚型及正常细胞表达数据间存在的特异性共表达信息,融合基因交互网络,优化形成分子功能关联网络,在深入挖掘基因间功能关联的同时有效降低网络复杂度;再基于重叠马尔可夫(Markov)聚类从该网络中挖掘功能簇,并提出基于融合权重和
3、贪心策略的驱动模块识别方法,从功能簇中获得驱动模块集合;最后,融合功能交互网络与突变共现定义模块距离函数,识别获取协同驱动模块.CDMFinder充分融合评估了表达、突变、差异分析等多种因素,展现了优良的识别性能.在乳腺癌和胶质母细胞瘤多组学数据上的实验结果表明,本文方法能够识别出超过对比方法1.35倍的驱动基因,识别到的协同驱动模块在功能/通路水平富集度上超过现有算法1.5倍.关键词单细胞数据,协同驱动模块,分子功能关联网络,马尔可夫聚类,多组学数据融合1引言癌症,作为致死率最高的疾病之一,其形成和发展机制十分复杂,涉及基因组、转录组及表观组等生命体活动的各个层级1.现有研究表明癌症是由基因
4、突变(单核苷酸多态性,拷贝数变异,核苷酸序列重复、插入以及缺失等)累积导致的,这种对癌症的发生起促进作用的突变被称为驱动突变(drivermutation),驱动突变位点所处的基因被称为驱动基因(driver gene)2.近年来,随着高通量生物技术的发展,大型癌症基因组项目,如癌症基因组图谱(TCGA3)、基因组联盟(ICGC4)等,产生和积累了丰富的高通量多组学癌症数据,为研究者从系统层面深入解析癌引用格式:陈希,王峻,余国先,等.基于单细胞数据的癌症协同驱动模块识别方法.中国科学:信息科学,2023,53:250265,doi:10.1360/SSI-2022-0057Chen X,Wa
5、ng J,Yu G X,et al.Cooperative driver module identification based on single cell data(in Chinese).SciSin Inform,2023,53:250265,doi:10.1360/SSI-2022-0057中国科学:信息科学第 53 卷第 2 期症机理提供了支撑.然而,仅依靠生物实验或者简单的统计分析方法,很难从大规模生物组学数据中准确地识别与特定癌症类别相关的驱动突变和驱动基因.因此,针对大规模疾病遗传数据,开发有效的计算方法实现精确高效的癌症驱动突变/基因集合识别,是当前癌症信息学研究的一项重大
6、挑战.准确识别致癌遗传因子对癌症诊断、靶向药物开发以及癌症患者的精确、个性化治疗等诸多方面均有重要的理论和应用价值5.2相关工作早期驱动突变/基因识别研究中,研究人员主要关注单个驱动基因的识别,主要采用的筛选方法是将患者基因突变的发生频率与正常样本基因的突变频率对比,识别显著高频突变的基因.如Ding等6使用在250个基因中鉴定的同义体细胞突变来估计背景突变率(background mutation ratio,BMR),以此识别了26个在肺腺癌中高频突变的驱动基因.这种基于频率的方法局限性较大.首先,BMR受到序列上下文、突变位置、基因特异性等多种因素影响.其次,癌症驱动基因存在广泛的突变异
7、质性,同种癌症可能由不同的基因突变导致.因此,仅对单驱动基因进行研究存在不确定性和局限性.近年来对癌症的深入研究表明,癌症的产生是多基因共同作用的结果,个体基因水平的异质性与特定基因集合(即驱动模块)密切相关,癌症通常只由数量有限的驱动模块触发.因此,在模块水平上进行癌症发生相关遗传机制研究,识别与癌症关联的驱动模块,是当前探究癌症病理的关键所在.研究发现,癌症驱动模块具有高覆盖性和高互斥性7.高覆盖性是指驱动模块内的基因在大量样本中观测到突变,高互斥性是指模块内的基因在同一样本中一般不同时发生突变,通常一个基因突变就能够影响整个驱动模块.现有驱动模块识别的研究大多基于上述先验知识进行展开8.
8、如Ciriello等9提出了MEMo(mutual exclusivity modules in cancer)算法在基因交互网络中识别满足互斥规则的驱动模块.HotNet10使用热扩散算法重新构建基因交互网络,再从中检测具有最佳覆盖和互斥的子网络.Vandin等7开发了Dendrix,通过在突变数据上建立权重函数,再结合贪心和MCMC方法,优化识别具有最高权重的基因集作为驱动模块.Zhang等11结合表达相似的基因通常共同执行某种生物功能的特性,提出了MDPFinder,该方法在Dendrix基础上加入基因表达数据,并引入二元线性规划(binary liner programming,BLP
9、)和遗传算法,更充分地引入遗传信息指导,并解决了贪心算法导致的局部最优解问题.上述方法获取的驱动模块通常为单个或离散的多个基因集合,未考虑模块间存在的协作关系,因此这些方法被称为单驱动模块识别方法.研究证明,癌症的形成和发展过程更多地受到多个彼此间存在遗传调控或功能关联的基因簇(驱动模块)的协同作用影响12.因此,识别存在协同作用的驱动模块集合能够更全面地阐释癌症相关机制.Leiserson等13改进了Dendrix,提出了Multi-Dendrix,使用整数线性规划同时检测多个具有高权重的驱动模块,但Multi-Dendrix没有考虑模块间共现性,导致识别出的驱动模块缺乏协作性.Zhang等
10、14开发了CoMDP,定义了新权重函数,将模块间突变高共现与模块内突变高覆盖和高互斥结合,使用BLP识别存在协同作用的驱动模块.Ma等1517引入基因时序表达数据,开发了多种提取方法获得多个驱动癌症发生并对应不同癌症阶段的动态模块.Yang等18开发了CDPath,首先基于突变数据和基因交互网络,利用整数线性规划获得多个驱动模块,再使用马尔可夫(Markov)聚类对模块相关通路聚类,将模块划分为协同驱动模块.他们还提出了CoPath19,使用贪婪搜索来探索具有共同下游的互斥模块,再设计双正则双聚类方法将互斥模块判别为协同驱动模块.Liu等20将Vandin等提出的最大权重基因集问题重新定义为具
11、有连续和非凸松弛的成本函数的组合优化问题,构建了一种从头发现驱动模块的算法MCSS,能够同时获得数个驱251陈希等:基于单细胞数据的癌症协同驱动模块识别方法动模块.Li等21开发了CDPLP,首先对基因进行层次聚类获得协同突变模块,通过链路预测补充通路间潜在联系,最后基于模块和更新的通路交互网络识别协同驱动模块集.细胞是生物体结构与功能的基本单位,在细胞水平上进行癌症驱动因子的研究能够更好地揭示癌症内在遗传发育机制22,而现有识别方法使用的多细胞批量测序数据,其实际测序结果是多个细胞整体水平上的平均值.由于细胞分化的异质性,相同表型的细胞的遗传信息可能存在显著性差异,很多低丰度的信息会在整体表
12、征中丢失,难以准确描述单个肿瘤细胞的特殊性.单细胞测序技术能够在单个细胞水平上揭示细胞基因结构和基因表达状态,反映细胞间的异质性,精确分离肿瘤细胞和正常细胞,准确划分癌症分子亚型23.因此,在驱动模块识别过程中引入单细胞测序数据将能弥补传统批量高通量测序的遗传信息缺失.此外,已有研究者使用多种癌症类型之间驱动基因集的共性和特异性共同推断泛癌水平的驱动模块24.这类研究证明从遗传差异性中寻找共性是可行的.与泛癌和癌症间的关系类似,某种特定癌症的不同亚型也存在特异性和共性25,有效利用这种共性可以帮助我们寻找驱动模块.针对现有驱动模块集合识别中低丰度遗传信息易丢失,对癌症在亚型水平的共性和特异性利
13、用和建模不充分等问题,本文引入单细胞测序数据和癌症亚型数据,提出了一种基于单细胞测序数据和亚型特异性的协同驱动模块识别方法CDMFinder.该算法首先基于单细胞基因表达数据对每种亚型和正常细胞分别构建细胞水平的特异性基因共表达网络,然后将这些网络组合为能够体现亚型共性的表达关联网络,该网络表示了在不同亚型中普遍存在且与正常细胞差异明显的基因共表达关系.然后,本文引入了基因功能交互网络,将其与获取的表达关联网络融合优化为功能关联网络,以加强基因间的功能联系,并降低网络复杂程度.随后,本文将重叠马尔可夫聚类应用在该网络上,获得多个功能簇.为有效挖掘基因表达数据和利用驱动模块的高覆盖性和高互斥性,
14、本文分别引入了差异表达分析和基因突变数据,综合构建了模块权重评估函数,然后在功能簇上使用贪心搜索识别驱动模块.最后,本文基于模块间的功能联系和突变共现性,定义了模块间的协作距离函数,将具有较小协作距离的驱动模块判定为协同驱动模块.在乳腺癌及胶质母细胞瘤数据集上的实验结果表明,相比现有算法,CDMFinder能够更准确地识别驱动基因及协同驱动模块.3癌症协同驱动模块识别方法CDMFinder的总体算法流程如图1所示,主要流程可以分为4部分:步骤1,基于单细胞数据和基因互作信息的分子功能关联网络构建;步骤2,基于重叠马尔可夫聚类的功能簇获取;步骤3,基于融合权重和贪心策略的驱动模块识别;步骤4,基
15、于功能关联和突变共现的协同驱动模块判定.下文将详细介绍算法细节.3.1基于单细胞数据与基因互作信息的分子功能关联网络构建本文研究中将综合利用癌症的多种亚型和正常细胞对应的单细胞基因表达数据,增强在多个癌症亚型间普遍存在的基因共表达关系,同时降低与癌症发育相关性较低或无影响的噪声基因关联的不利影响,获取能体现亚型共性的基因表达关联网络.在此基础上,引入基因交互网络,构建对探究癌症发病机制有指导作用的基因分子功能关联网络,降低原始基因表达关联网络的复杂度,增强基因间的生物学功能联系,为后续驱动基因和驱动模块的识别提供指导,为实验结果的可解释性提供支撑.252中国科学:信息科学第 53 卷第 2 期
16、AAAEEECCCDDDBBBExpression association(subtype)Expression association(normal)Gene interactionGeneCellSubtypeNormalABCDEABCDECandidate clusterDriver moduleCooperative driver moduleStep 1Step 3IntegrationOptimizationModule weightGreedy algorithmStep 4 Cooperative distanceAECDBOverlappingMarkov clusteringStep 2PCC+ADBCCDBCCDADFMu+MuFDE+Mu+FDEMuFunctional associationMutation data(matrix)Differential expressionAEDAECDCBFunctional association(matrix)FAECDBAECDB图1(网络版彩图)CDMFinder 流程示意图Figure 1(Color onl