ImageVerifierCode 换一换
格式:DOCX , 页数:5 ,大小:22.06KB ,
资源ID:1802686      下载积分:8 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/1802686.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(2023年长非编码RNA鉴定方法研究.docx)为本站会员(g****t)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

2023年长非编码RNA鉴定方法研究.docx

1、长非编码RNA鉴定方法研究杨阳:高通量测序技术的出现带来了大量可用的转录组数据,评估进化保守區域的编码潜力成为转录数据分析中的核心任务。对转录本编码潜力的预测可以用来鉴定长非编码RNA(long noncoding RNA, lncRNA)。lncRNA是一种长度超过200个核苷酸的非编码RNA,研究说明lncRNA在多种生物中都有重要作用,能够在染色质修饰、表观遗传、转录及转录后调控等多种层面发挥重要的调控作用。已经有许多基于机器学习的工具被开发用来区分编码与非编码转录本序列。不同的工具通常是针对不同的情况设计的,因此需要根据特定的情况选择适宜的方法。本文分析了几种常用工具各自的特点和适用范

2、围,帮助研究人员选用适宜的方法以获得更可靠的结果。关键词: 转录组数据; 编码潜力; 长非编码RNA; 机器学习【Abstract】 With the advent of high-throughput sequencing technologies, a large amount of available transcriptome data has been generated, and the evaluation of the coding potential of evolutionarily conserved regions has become a core in the an

3、alysis of transcripts. Prediction of the coding potential of transcripts can be used to identify long noncoding RNAs (lncRNAs). lncRNA is a kind of noncoding RNA with length more than 200 nucleotides, which plays an important role in many organisms. It can play an important regulatory role in variou

4、s aspects such as chromatin modification, epigenetics, transcription and post-transcriptional regulation. Many machine learning tools have been developed to distinguish between coding and non-coding transcripts. Different tools are designed for different situations, so it is required to choose the s

5、uitable method for the specific situation. In this review, several popular tools and their advantages, disadvantages, and application scopes are summarised to assist people in employing a suitable method and obtaining a more reliable result.【Key words】 transcriptome data; coding potential; long nonc

6、oding RNA; machine learning0 引 言非编码RNA(noncoding RNA ,ncRNA)是所有从DNA转录但不编码蛋白质的功能性RNA的统称。最初,人们将非编码RNA基因分类为“垃圾基因或转录“噪音,然而在之后的研究中发现,非编码序列在生命体生命活动中具有重要的调控作用1。这些非编码序列中,最近研究较多的是长非编码RNA(long noncoding RNA, lncRNA),lncRNA是指长度超过200个核苷酸且不编码蛋白质的转录物2。为了系统研究lncRNA的功能,首要的工作是从基因中识别lncRNA。高通量测序数据大量涌现为学者们提供了更多有关lncRN

7、A的有用信息。与此同时,为了方便后续研究和分析,很多鉴定lncRNA的计算机方法被提出。本文对鉴定lncRNA的计算方法进行了较为全面的回忆。1 lncRNA鉴定工具介绍lncRNA鉴定过程中的一个重要问题是区分编码与非编码转录本序列,目前已经有很多生物信息学的方法使用序列的内部特征和结构特点预测非编码RNA3。本文中比拟了几种流行的基于机器学习的工具。对此可做阐释分述如下。1.1 CPAT4介绍CPAT是基于逻辑回归模型的蛋白质编码潜力评估工具。使用的特征包括:开放阅读框大小、开放阅读框覆盖率、Fickett分数和Hexamer分数。1.4 CPC2介绍CPC27是CPC的升级,仍然使用支持

8、向量机模型,CPC2能更加快速、准确地评估RNA转录本的编码能力。CPC2中使用了4个特征,包括:Fickett分数、开放阅读框长度、开放阅读框完整性以及预测肽的等电点。开放阅读框的完整性是指开放阅读框以起始密码子开始,以终止密码子结束。等电点可以通过BioPython中的ProtParam模块计算得到。1.5 CPPred介绍CPPred8的实现基于支持向量机分类器和多个序列特征, CPPred使用开放阅读框长度、开放阅读框覆盖率、Fickett分数和Hexamer分数、开放阅读框完整性、预测肽的等电点、预测肽的不稳定指数、预测肽的亲水性平均值Gravy以及30个CPPred中提出的CTD特

9、征训练分类器。CTD特征用来描述全局转录本序列,核苷酸组成(特征C)描述了转录本序列中每个核苷酸的百分比组成;核苷酸转换(特征T)描述了4个核苷酸在相邻位置之间转换的百分比;核苷酸分布(特征D)计算每个核苷酸在转录物序列的5个相对位置(0,25%,50%,75%,100%)来表示每个核苷酸在转录本序列中的分布。2 lncRNA鑒定工具比拟本文所涉及的5个lncRNA鉴定工具包括最常用的CPAT、CNCI、PLEK,以及CPC的最新版本CPC2和最新发布的工具CPPred。其中,CPAT使用了逻辑回归模型,其余四个工具都使用了支持向量机模型。本文总结每种工具的简要信息和使用细节见表1。接着,本文

10、更具体地对5种工具所选择的特征进行概述,见表2。5种鉴定工具都是不包含比对过程的,适用于对未充分研究的物种的转录物分析。其中,CNCI和PLEK都可以用于有测序错误的数据集,PLEK在这类数据上表现更好。与CPAT、CPC2和CPPred相比,PLEK在除人类以外的其他物种中表现不佳。5种鉴定工具在不同测试集上的表现见表3。由于不同物种lncRNA、不同测序数据之间存在一定的差异性,不同的lncRNA鉴定工具设计上存在一定的针对性。CPAT和CPPred为小鼠转录本的鉴定提供了专门的模型。在分析其他物种时,CPAT还提供了果蝇和斑马鱼的模型;CNCI和PLEK可以预测脊椎动物和植物的序列;CP

11、C2还可以预测果蝇、斑马鱼、拟南芥、蠕虫;CPPred提供了适用于斑马鱼、果蝇、酿酒酵母、线虫和拟南芥的模型。不同工具在不同条件下的适用性见表4。3 结束语lncRNA的鉴定一直以来都是生物信息学研究的一个挑战,在2023年之前,以CPC软件为代表的lncRNA鉴定工具会依赖比对过程,此后,大局部软件通过提取序列的内在特征来进行分类。这篇综述中,集中探讨了常用的和最新的lncRNA鉴定工具,总结了其相应的适用范围,帮助研究人员来选择使用适合的工具,同时获得令人信服的结果。未来lncRNA鉴定工具的趋势是针对不同类型的序列,开放不同的工具来解决各种特定情况下的问题。参考文献1 PALAZZO A

12、 F, LEE E S. Non-coding RNA:What is functional and what is junk? J. Frontiers in Genetics, 2023, 6: 2.2SCHMITZ S U, GROTE P, HERRMANN B G. Mechanisms of long noncoding RNA function in development and diseaseJ. Cellular and molecular life sciences, 2023, 73(13): 2491.3HAN Siyu, LIANG Yanchun, LI Ying

13、, et al. Long noncoding RNA identification: Comparing machine learning based tools for long noncoding transcripts discriminationJ. BioMed Research International, 2023, 2023: 8496165.4WANG Liguo, PARK H J, DASARI S, et al. CPAT: Coding-potential assessment tool using an alignment-free logistic regres

14、-sion modelJ. Nucleic acids research, 2023,41(6): e74.5SUN Liang, LUO Haitao, BU Dechao, et al. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcriptsJ. Nucleic acids research, 2023, 41(17): e166.6LI Aimin, ZHANG Junying, ZHOU Zhongyin. PLEK:A tool for pr

15、edicting long non-coding RNAs and messenger RNAs based on an improved k-mer schemeJ. BMC bioinformatics, 2023, 15: 311.7KANG Yujian, YANG Dechang, KONG Leilei, et al. CPC2: A fast and accurate coding potential calculator based on sequence intrinsic featuresJ. Nucleic acids research, 2023, 45(W1): W12.8TONG Xiaoxue, LIU Shiyong. CPPred: Coding potential prediction based on the global description of RNA sequenceJ. Nucleic Acids Research, 2023, gkz087:1

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2