1、长非编码RNA鉴定方法研究杨阳:高通量测序技术的出现带来了大量可用的转录组数据,评估进化保守區域的编码潜力成为转录数据分析中的核心任务。对转录本编码潜力的预测可以用来鉴定长非编码RNA(long noncoding RNA, lncRNA)。lncRNA是一种长度超过200个核苷酸的非编码RNA,研究说明lncRNA在多种生物中都有重要作用,能够在染色质修饰、表观遗传、转录及转录后调控等多种层面发挥重要的调控作用。已经有许多基于机器学习的工具被开发用来区分编码与非编码转录本序列。不同的工具通常是针对不同的情况设计的,因此需要根据特定的情况选择适宜的方法。本文分析了几种常用工具各自的特点和适用范
2、围,帮助研究人员选用适宜的方法以获得更可靠的结果。关键词: 转录组数据; 编码潜力; 长非编码RNA; 机器学习【Abstract】 With the advent of high-throughput sequencing technologies, a large amount of available transcriptome data has been generated, and the evaluation of the coding potential of evolutionarily conserved regions has become a core in the an
3、alysis of transcripts. Prediction of the coding potential of transcripts can be used to identify long noncoding RNAs (lncRNAs). lncRNA is a kind of noncoding RNA with length more than 200 nucleotides, which plays an important role in many organisms. It can play an important regulatory role in variou
4、s aspects such as chromatin modification, epigenetics, transcription and post-transcriptional regulation. Many machine learning tools have been developed to distinguish between coding and non-coding transcripts. Different tools are designed for different situations, so it is required to choose the s
5、uitable method for the specific situation. In this review, several popular tools and their advantages, disadvantages, and application scopes are summarised to assist people in employing a suitable method and obtaining a more reliable result.【Key words】 transcriptome data; coding potential; long nonc
6、oding RNA; machine learning0 引 言非编码RNA(noncoding RNA ,ncRNA)是所有从DNA转录但不编码蛋白质的功能性RNA的统称。最初,人们将非编码RNA基因分类为“垃圾基因或转录“噪音,然而在之后的研究中发现,非编码序列在生命体生命活动中具有重要的调控作用1。这些非编码序列中,最近研究较多的是长非编码RNA(long noncoding RNA, lncRNA),lncRNA是指长度超过200个核苷酸且不编码蛋白质的转录物2。为了系统研究lncRNA的功能,首要的工作是从基因中识别lncRNA。高通量测序数据大量涌现为学者们提供了更多有关lncRN
7、A的有用信息。与此同时,为了方便后续研究和分析,很多鉴定lncRNA的计算机方法被提出。本文对鉴定lncRNA的计算方法进行了较为全面的回忆。1 lncRNA鉴定工具介绍lncRNA鉴定过程中的一个重要问题是区分编码与非编码转录本序列,目前已经有很多生物信息学的方法使用序列的内部特征和结构特点预测非编码RNA3。本文中比拟了几种流行的基于机器学习的工具。对此可做阐释分述如下。1.1 CPAT4介绍CPAT是基于逻辑回归模型的蛋白质编码潜力评估工具。使用的特征包括:开放阅读框大小、开放阅读框覆盖率、Fickett分数和Hexamer分数。1.4 CPC2介绍CPC27是CPC的升级,仍然使用支持
8、向量机模型,CPC2能更加快速、准确地评估RNA转录本的编码能力。CPC2中使用了4个特征,包括:Fickett分数、开放阅读框长度、开放阅读框完整性以及预测肽的等电点。开放阅读框的完整性是指开放阅读框以起始密码子开始,以终止密码子结束。等电点可以通过BioPython中的ProtParam模块计算得到。1.5 CPPred介绍CPPred8的实现基于支持向量机分类器和多个序列特征, CPPred使用开放阅读框长度、开放阅读框覆盖率、Fickett分数和Hexamer分数、开放阅读框完整性、预测肽的等电点、预测肽的不稳定指数、预测肽的亲水性平均值Gravy以及30个CPPred中提出的CTD特
9、征训练分类器。CTD特征用来描述全局转录本序列,核苷酸组成(特征C)描述了转录本序列中每个核苷酸的百分比组成;核苷酸转换(特征T)描述了4个核苷酸在相邻位置之间转换的百分比;核苷酸分布(特征D)计算每个核苷酸在转录物序列的5个相对位置(0,25%,50%,75%,100%)来表示每个核苷酸在转录本序列中的分布。2 lncRNA鑒定工具比拟本文所涉及的5个lncRNA鉴定工具包括最常用的CPAT、CNCI、PLEK,以及CPC的最新版本CPC2和最新发布的工具CPPred。其中,CPAT使用了逻辑回归模型,其余四个工具都使用了支持向量机模型。本文总结每种工具的简要信息和使用细节见表1。接着,本文
10、更具体地对5种工具所选择的特征进行概述,见表2。5种鉴定工具都是不包含比对过程的,适用于对未充分研究的物种的转录物分析。其中,CNCI和PLEK都可以用于有测序错误的数据集,PLEK在这类数据上表现更好。与CPAT、CPC2和CPPred相比,PLEK在除人类以外的其他物种中表现不佳。5种鉴定工具在不同测试集上的表现见表3。由于不同物种lncRNA、不同测序数据之间存在一定的差异性,不同的lncRNA鉴定工具设计上存在一定的针对性。CPAT和CPPred为小鼠转录本的鉴定提供了专门的模型。在分析其他物种时,CPAT还提供了果蝇和斑马鱼的模型;CNCI和PLEK可以预测脊椎动物和植物的序列;CP
11、C2还可以预测果蝇、斑马鱼、拟南芥、蠕虫;CPPred提供了适用于斑马鱼、果蝇、酿酒酵母、线虫和拟南芥的模型。不同工具在不同条件下的适用性见表4。3 结束语lncRNA的鉴定一直以来都是生物信息学研究的一个挑战,在2023年之前,以CPC软件为代表的lncRNA鉴定工具会依赖比对过程,此后,大局部软件通过提取序列的内在特征来进行分类。这篇综述中,集中探讨了常用的和最新的lncRNA鉴定工具,总结了其相应的适用范围,帮助研究人员来选择使用适合的工具,同时获得令人信服的结果。未来lncRNA鉴定工具的趋势是针对不同类型的序列,开放不同的工具来解决各种特定情况下的问题。参考文献1 PALAZZO A
12、 F, LEE E S. Non-coding RNA:What is functional and what is junk? J. Frontiers in Genetics, 2023, 6: 2.2SCHMITZ S U, GROTE P, HERRMANN B G. Mechanisms of long noncoding RNA function in development and diseaseJ. Cellular and molecular life sciences, 2023, 73(13): 2491.3HAN Siyu, LIANG Yanchun, LI Ying
13、, et al. Long noncoding RNA identification: Comparing machine learning based tools for long noncoding transcripts discriminationJ. BioMed Research International, 2023, 2023: 8496165.4WANG Liguo, PARK H J, DASARI S, et al. CPAT: Coding-potential assessment tool using an alignment-free logistic regres
14、-sion modelJ. Nucleic acids research, 2023,41(6): e74.5SUN Liang, LUO Haitao, BU Dechao, et al. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcriptsJ. Nucleic acids research, 2023, 41(17): e166.6LI Aimin, ZHANG Junying, ZHOU Zhongyin. PLEK:A tool for pr
15、edicting long non-coding RNAs and messenger RNAs based on an improved k-mer schemeJ. BMC bioinformatics, 2023, 15: 311.7KANG Yujian, YANG Dechang, KONG Leilei, et al. CPC2: A fast and accurate coding potential calculator based on sequence intrinsic featuresJ. Nucleic acids research, 2023, 45(W1): W12.8TONG Xiaoxue, LIU Shiyong. CPPred: Coding potential prediction based on the global description of RNA sequenceJ. Nucleic Acids Research, 2023, gkz087:1