1、第 39 卷第 2 期福建师范大学学报(自然科学版)Vol.39,No.2(2023 年 3 月)Journal of Fujian Normal University(Natural Science Edition)Mar.2023DOI:10.12046/j.issn.1000-5277.2023.02.003文章编号:1000-5277(2023)02-0026-09基于对比学习的单细胞转录组测序数据聚类模型张珊珊,林劼(福建师范大学数学与统计学院,福建 福州350117)摘要:单细胞转录组测序技术(single-cell NA sequencing,scNA-seq)的快速发展为分析生
2、物数据提供了有力支持 对 scNA-seq 数据进行聚类分析,能够发现潜在的细胞亚型并研究细胞的异质性 但由于scNA-seq 数据存在高维性、高稀疏性以及 dropout 事件等问题,为聚类分析带来了挑战 提出一种基于对比学习的聚类方法,假设数据服从零膨胀负二项分布,应用自编码器框架学习细胞的表示 实验结果表明提出的方法在真实数据集上有优越的性能,在不同规模的数据集上具有良好的可扩展性关键词:单细胞转录组测序数据;对比学习;零膨胀负二项分布模型;自编码器中图分类号:Q811.4文献标志码:A收稿日期:2022-06-21基金项目:国家自然科学基金资助项目(61472082)通信作者:林劼(1
3、972),男,教授,博士,研究方向为生物信息学 linjie891 A Clustering Model For ScNA-seqData Based on Contrastive LearningZHANG Shanshan,LIN Jie(School of Mathematics and Statistics,Fujian Normal University,Fuzhou 350117,China)Abstract:The rapid development of single-cell NA sequencing(scNA-seq)technologyprovides strong s
4、upport for the analysis of biological data Cell clustering in scNA-seq analysis canidentify potential cell subtypes and study cell heterogeneity However,high dimensionality,highsparsity and dropout events of scNA-seq data produces challenges in clustering analysis This pa-per proposes a clustering m
5、ethod based on contrastive learning,which assumes that the data followsa zero inflated negative binomial distribution and uses an autoencoder framework to learn the repre-sentation of cells Experimental results show that the method has excellent performance on real data-sets and good scalability on
6、different scale datasetsKeywords:scNA-seq;contrastive learning;zero inflated negative binomial distributionmodel;autoencoder细胞是生物体结构和功能的基本单位,每个细胞都有其特有的生物学功能,细胞的转录组分析通过基因转录组活动来揭示细胞的特性和功能 传统的基因表达分析(bulk NA-seq)测量基因关注整个群体细胞的平均转录水平,而忽略个体细胞之间存在的特性差异1 近年来,单细胞转录组测序技术的快速发展使得研究者可以获得每个细胞的转录表达,从而在 NA 水平上提取细胞的异
7、质性,解决 bulk NA-seq 存在的技术限制2 在单细胞测序分析中,针对不同的研究目的会采用不同的分析过程 细胞聚类是 scNA-seq 分析的重要步骤之一,是 scNA-seq 数据进一步分析的基础3 不同的亚群细胞具有不同的功能,因此可以通过聚类获得细胞亚群,进而基于细胞亚群研究单细胞转录组的差异,如 scNA-seq 可以将乳腺癌细胞聚类为不同的分子亚型,从而鉴定出与不良预后和耐药相关的亚群,促进个体化治疗4 单细胞数据的聚类主要面临 2 大挑战 第一,测序过程中存在技术难题,如 NA 捕获效率低、第 2 期张珊珊,等:基于对比学习的单细胞转录组测序数据聚类模型PC 扩增的偏差等,
8、导致测序过程中发生数据缺失,使得单细胞转录表达谱出现“假零”,称其为dropout 事件5 第二,scNA-seq 数据通常具有高维的特征,一般的聚类算法会面临“维数灾难”问题,这在一定程度上增加了分析的难度1相关工作目前,业内已经提出了不少针对 scNA-seq 数据的聚类方法,可以分成 5 大类67:基于距离的方法、基于图的方法、基于模型的方法、基于联合学习的方法和基于集成学习的方法 现有基于距离的聚类方法主要通过度量细胞间的距离或相似性进行聚类,聚类方法选择 K-means 算法,如 SC38、SIML9、Pcaeduce10、CID10 SC3 是一种共识聚类方法,采用 3 种不同的距
9、离度量方式来获得一致性矩阵,并作为 K-means 聚类算法的输入 SIML 采用的距离度量方式是核函数,使用多个核函数计算相似性矩阵后,利用 t-SNE 进行降维,进而用 K-means 聚类得到细胞亚型 Pcaeduce 结合PCA 和 K-means 聚类算法,以迭代方式合并成对的聚类 CID 对距离矩阵执行主坐标分析(PCoA)后,选择前几个坐标执行分层聚类 这几个方法的不足在于 K-means 算法往往依赖于初始簇中心的随机选择,不能保证收敛于全局最优解,但其有收敛速度快和聚类效果较优的优势基于图的方法是将单细胞转录组测序数据用图结构进行表示 谱聚类是图方法中常用的方法之一,目前用谱
10、聚类算法对单细胞数据聚类的最大区别在于计算相似性矩阵的方法不同 SinNL12 在相似矩阵上施加非负的低秩结构,得到相似矩阵后应用谱聚类算法获得每个细胞的聚类标签 SCE-NA13 选择多个特征集构造相似矩阵 首先使用局部亲和矩阵更新每个特征集的相似矩阵,随后利用谱聚类对每个相似矩阵进行聚类,并将这些聚类结果合并为一致性矩阵,最后对一致性矩阵进行谱聚类以获得最终聚类结果 使用社区检测算法确定聚类也是基于图方法一种方式,其中 Louvain 算法14 已广泛应用于 scNA 序列,主要优点是速度快和可拓展性强 如 GGC15 利用正则化高斯图模型得到网络的邻接矩阵,接着应用 Louvain 算法
11、对邻接矩阵进行聚类 基于深度学习的图聚类也广泛用于scNA-seq 数据,scGNN16 利用带有多模态自编码器的 GNN 来构建细胞-细胞之间的关系;Graph-sc14 将 scNA-seq 数据建模成基因-细胞的图网络,连接图节点与对应有表达的基因节点 构建图网络的一大优势在于可以将细胞相似性从向量相似性转换为更具有生物学意义的图相似性,解释性更强,但 graph-sc 的可拓展性不强,在大规模数据集会有更大的计算需求基于模型的方法主要思想是假设数据由模型生成,并且希望对数据建模从而恢复原始数据分布ScGMAI18 假设数据服从高斯混合分布,在低维空间用高斯混合模型对 scNA-seq
12、数据进行建模,在学习到合适的表示后进行聚类 该方法的一个不足在于单细胞测序数据具有高稀疏性,而高斯混合分布模型不一定适用于单细胞测序数据 基于此,文献 19 假设 scNA-seq 数据服从零膨胀负二项(zero-inflated negative binomial model,ZINB)模型,该模型可以捕获原始 scNA-seq 数据的数据分布、过度分散和稀疏性特征 但该方法将聚类(K-means)与训练过程分开,可能无法获得最佳的聚类性能 为此,文献 20 结合 DCA 的建模思想,提出了一种加权软均值聚类算法(scziDesk),实现降维和聚类相结合的自训练策略基于联合学习的方法的思想在
13、于学习表示时联合降维和聚类,降维过程在聚类的指导下生成特征,而聚类过程也可以选择合适的特征 如 DjCC 算法21 通过投影矩阵分解实现降维,通过非负矩阵分解实现细胞类型聚类,并将联合学习过程转成一个有约束的优化问题基于集成学习的聚类方法是将 2 种或 2 种以上的不同聚类方法集成起来,可以得到信息更丰富的注释 SC38 是较早用集成方法聚类的一种工具,实现了较高的准确性和鲁棒性 SAME22 是一种基于混合模型的同向聚类方法,该方法分别从 SC38、CID11、Seurat23、K-means 和 SIML9 得到 5组聚类解,然后根据成对调整的兰德指数(AI)的变化,选择 4 个最大差异的
14、子集组合一个新的矩阵,最后利用 EM 算法求解最大似然问题获得集成解Contrastive-sc24 首次在 scNA-seq 数据聚类中应用对比学习,该方法的工作分成两阶段,第一阶72福 建 师 范 大 学 学 报(自 然 科 学 版)2023 年段学习增强样本的表示,第二阶段对学习到的表示进行聚类 Contrastive-sc 存在的一个不足在于利用dropout 层对样本进行增强,该增强方式往往有很大的随机性,很有可能会影响特征的学习 此外,contrastive-sc 没有考虑数据的分布本文提出了一种基于零膨胀负二项模型的对比学习框架,假设 scNA-seq 数据服从零膨胀负二项分布,
15、将似然损失作为重构损失,同时对数据进行插补 在学习细胞的表示时,本文采用对比学习框架,对数据进行两次不同的增强并作为网络的输入,在潜在空间中用对比损失约束正负例,以学习到更好的细胞表示 网络采用的结构是自编码器框架,该框架具有高度可扩展性,可以应用于不同规模的数据集,实验结果也表明本文提出的方法在不同规模的数据集上有良好的聚类性能2方法本文提出了一种基于零膨胀负二项模型的对比学习框架进行单细胞聚类,以识别 scNA-seq 数据中的细胞类型 该框架由 3 个模块组成:零膨胀负二项分布模型、对比学习模块和聚类模块,如图 1所示 负二项分布有方差大于均值的特点,这与 scNA-seq 数据的分布基
16、本一致 此外,scNA-seq数据中基因的表达值有相当大的比例为零,因此零膨胀负二项分布模型可以很好地拟合数据 对比学习模块旨在对原始数据添加一定的噪声,通过学习增强数据的特征对细胞进行表征,最终对学习到的嵌入进行聚类,并进行下游任务的分析,如构建细胞谱系、基因表达差异的分析等图 1scNA 聚类框架Fig.1Framework of scNA clustering2.1零膨胀负二项分布模型考虑到 scNA-seq 数据存在大量的零,本文采用零膨胀负二项模型拟合 scNA-seq 数据 输入为预处理后的基因表达矩阵 X,矩阵元素 Xij(i=1,N;j=1,M)表示第 i 个细胞的第 j 个基因的计数值,N 表示细胞个数,M 表示基因个数 假设 Xij服从负二项分布,其分布函数如公式(1)所示PNB(Xij|ij,ij)=(Xij+ij)(Xij+1)(ij)ijij+ij()ijijij+ij()Xij,(1)其中,ij表示负二项分布的均值,ij表示负二项分布的离散度 由于 dropout 事件的存在,本文以参数 表示基因表达值出现假零的概率,并进一步用混合模型(ZINB)来表示 s