1、 .():/.:./.韩霜 徐浩 余静雅 等.藏茵陈基源植物皱边喉毛花的全长转录组信息分析.广西植物():.“”.():.藏茵陈基源植物皱边喉毛花的全长转录组信息分析韩 霜 徐 浩 余静雅 韩 赟 张发起(.中国科学院西北高原生物研究所 高原生物适应与进化重点实验室 西宁 .中国科学院大学 生命科学学院 北京 )摘 要:皱边喉毛花为藏药藏茵陈基源植物之一其包含丰富的药用成分 为进一步了解皱边喉毛花转录组丰富其基因注释、代谢通路等遗传信息该研究利用 测序平台对皱边喉毛花叶片进行全长转录组测序 结果表明:()全长转录组测序共获得 的高质量数据对 个环形一致性序列()序列进行聚类和去冗余最终获得 条
2、高质量的全长转录本()与 个数据库比对后共有 条转录本注释成功其中注释到 数据库的转录本最多有 条 条转录本成功注释到 数据库中共有 个子类 条转录本注释到 数据库中涉及 个主要通路和 个子通路 条转录本注释到 数据库中按分子功能、生物学过程和细胞成分 大类对注释成功的转录本进行分类()分析共鉴定到 个 其中单碱基重复最为丰富共检测到 个转录因子和 个长非编码()而注释到转录本最多的转录因子家族是 ()筛选出 条与单萜类及黄酮类化合物合成相关的转录本 该研究结果丰富了皱边喉毛花的转录组信息为进一步筛选皱边喉毛花药用成分合成相关的关键基因提供了重要的遗传资源关键词:皱边喉毛花 全长转录组 代谢通
3、路 转录因子 长非编码 中图分类号:文献标识码:文章编号:()“”(.):“”.:()收稿日期:基金项目:第二次青藏高原科学考察研究项目()青海省科技国际合作专项()第一作者:韩霜()硕士研究生主要从事高山植物多样性研究().通信作者:张发起博士研究员研究方向为高山植物多样性().().().:.().().().:藏茵陈是青藏高原藏药八珍之一龙胆科植物是藏茵陈入药源植物中的主要植物多以川西獐牙菜、湿生扁蕾、椭圆叶花锚和喉毛花属植物入药常用于热症、肝胆病及血液病等疾病的治疗(唐丽等)近年来的研究表明这些基源植物包含丰富的药用成分主要为环烯醚萜、黄酮类化合物在保肝、抗氧化、抗病毒等方面具有显著效
4、果(延玺等董天骄等杨青松等)龙 胆 科()喉 毛 花 属()植物是藏茵陈基源植物之一(钟国跃等)对喉毛花属植物的研究目前主要集中在细胞学、胚胎学、生态学、系统发育研究及天然产物学上(刘建全和何廷农张婵等刘 小 翠 等 .刘 真 等)刘真等()在长梗喉毛花的化学成分研究中发现 个化合物其抗炎活性较高并对人体癌细胞株具有抑制作用 乔涌起等()在长梗喉毛花植物中分离得到正丁醇化学成分为进一步深入研究其化学成分奠定基础 然而有关喉毛花属植物的基因注释信息尚未见报道限制了对次级代谢产物合成相关代谢通路及功能基因的研究 因此需要利用测序技术丰富喉毛花植物的转录组遗传信息随着测序技术的发展越来越多的学者将高
5、通量测序技术应用到植物转录组研究(.朱兴正等)二代测序读长的限制导致所拼接得到的转录本不够完整而三代测序技术正好弥补了这一缺点其能够完成长读长测序测序过程无需打断严格执行 样品提取与检测、建库及测序等环节的工作最终得到高质量的全长转录本信息(王瑞娴和李川张子敬等)对没有参考基因组的植物而言全长转录组()测序为其研究提供了可能解决了转录本拼接较短、信息不完整的难题(赵陆滟等)因此三代测序技术成为深入挖掘基因组数据的有效手段之一(赵陆滟等)近年来有许多学者研究了青藏高原地区药用植物的全长转录组 在这些研究案例中对老芒麦()的转录组解析成功并挖掘到其落粒相关候选基因为筛选低落粒老芒麦新品种提供了参考
6、(张俊超)丹参()的全长转录组揭示了丹参酮二萜类化合物的生物合成的相关基因(.)蒙 古 黄 芪(.)全长转录组解析了次生代谢产物生物合成的相关基因(.)这些研究案例说明全长转录组对药用植物关键基因的挖掘具有显著优势为进一步研究药用植物的功能基因提供了新的思路和参考喉 毛 花 属 的 皱 边 喉 毛 花()为青藏高原特有植物()目前对皱边喉毛花的研究主要集中在系统发育研究上 为进一步了解喉毛花属下物种植物体内的次级代谢产物应对相关转录组进行深入研究本研究以皱边喉毛花为对象基于 测序平台对其全长转录组进行测序获取的数据用于功能注释、可变剪切分析、分析、转录因子分析及长非编码 等分析 通过与公共数广
7、 西 植 物 卷据库比对筛选药用相关成分合成相关的代谢通路和转录本 全长转录组能够为皱边喉毛花药用成分合成相关的关键基因的筛选提供重要的遗传资源材料与方法.试验材料新鲜幼叶采集于海南藏族自治州共和县(地理坐标为.、.海拔为 )采集后迅速置于液氮罐中保存后将其转移至 的超低温冰箱中用于后续 提取凭证标本()存放于中国科学院西北高原生物研究所青藏高原生物标本馆().方法.提 取 和 文 库 构 建 采 用 ()试剂法(.)提取皱边喉毛花的总 琼脂糖凝胶电泳检测 降解程度及污染情况并评估其质量和完整性 检测合格的 样品用于构建皱边喉毛花全长转录组测序文库 具体操作如下:在反转录酶的作用下以 为引物、
8、目标 为模板进 行 反 转 录 通 过 低 循 环 扩 增 全 长利用 /末端修读及加()尾 试剂盒及 用于测序接头的连接 建好的文库采用(公司英国)测序平台进行测序.数据处理测序完成后对原始数据进行过滤去 除 接 头 以 及 低 质 量 的 采 用 软 件.(:/./)进行过滤和处理 参数设置:(最小长度为 )(最大长度为 )(最小的 数为)利用.文件得到环形 一 致 性 序 列()对其进行分类搜寻并聚类 序列得到 序 列 利 用 软 件 对 得 到 的 序列进行校正获得高质量的全长优化序列()用于后续分析最终统计得到 有 效 数 据 为 提 高 数 据 的 准 确 性 利 用 软件()对转
9、录本进行校正生成校正序列()利用 软件(.)对校正后的转录本进行冗余分析.全长转录组序列分析对去冗余后的序列进行基因功能注释所使用的数据库包括非冗余蛋白数据库(.)、蛋白质家族域数据库(.)、蛋白质真核同源数据库(.)、蛋白质原核同源数据库(.)、东 京 基 因 与 基 金 组 百 科 全 书(.)、基因本体论数据库(.)、核酸序列数据库()和 数 据 库()等以此获得更全面的基因功能信息.全长转录组结构分析利用 .软件(参数设置:)对皱边喉毛花进行转录因子()预测(.)利用().软件 检 测 简 单 重 复 序 列 标 记()设置单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸及六核苷酸的最
10、少重复次数分别为、其余参数默认(.)利 用 (.)、.(.)、.(.)软件以及 数据库(.)对 测序数据进行编码潜能预测(参数设为默认)获得的长非编码()用于后续分析结果与分析.全长转录组测序及组装经 ()测序共获得 的 原 始 数 据 对 其 过 滤 后 获 得 个 基于.文件获得 个 序列 长度为 最 期韩霜等:藏茵陈基源植物皱边喉毛花的全长转录组信息分析大长度为 最小长度为 平均长度为 (表)经分类获得 条 序列 长度为 最大长度为 最小长度为 对其聚类后获得 条 序列最大长度为 最小长度为 长度为 对 序列进行校正后获得 条校正序列 长度为 我们对冗余前后的序列长度频数分布情况进行了统
11、计(图)表 测序数据统计 类别总数最小长度()最大长度()平均长度()长度()环形一致性序列 优化序列 校正序列 图 皱边喉毛花全长转录组 和 长度分布图.全长转录组功能注释共有 条转录本成功注释到 个数据库中其中注释到 数据库的转录本最多有 条注释到 数据库的转录本最少有 条(图)、条转录本分别注释到 数据库和 数据库中 条转录本注释到至少一个数据库中 条转录本注释到所有数据库中 从不同数据库中选择 个常用的数据库进行韦恩图绘制(图)图 转录本注释结果.图 转录本功能注释韦恩图.注释与 数据库比对后共有 条基因被注释成功 按 分类可分为 广 西 植 物 卷个类型(图)其中注释到只有一般功能预
12、测(条)、翻译后修饰、蛋白转运(条)和信号传递机制(条)的基因最多 然而细胞活性(条)和未命名蛋白(条)注释到的基因最少.加工和修饰.染色体结构和动力学.能源生产与转化.细胞周期调控、细胞分裂、染色体分离.氨基酸转运和代谢.核酸转运和代谢.碳水化合物转运和代谢.辅酶转运和代谢.脂类转运和代谢.翻译、核糖体结构和生物发生.转录.复制、重组和修饰.细胞壁/细胞膜生物发生.细胞活性.翻译后修饰、蛋白转运.无机离子转运和代谢.次生代谢物合成、转运和代谢.只有一般功能预测.未知功能.信号传递机制.细胞间运输、分泌物和囊泡运动.防御机制.细胞外结构.未命名蛋白.核结构.细胞骨架./.图 转录本 注释结果.
13、注释 是描述基因功能的一套分类系统可全面描述生物体中基因和基因产物的属性()共有 条转录本注释到了 数据库根据注释结果对得到的转录本进行分类(图)注释到生物过程、细胞成分、分子功能 大类分别有 个、个、个子类共 个子类 然而注释到细胞杀死(条)和行为(条)的基因最少 在细胞成分中注释到细胞和细胞部分的基因最多(均为 个)而突触(条)、突触部分(条)和细胞连接(条)子类中涉及的基因最少在分子功能中注释到结合(条)和催化活性(条)的基因最多而金属伴活动分子功能调节器(条)子类中涉及的基因最少在生物过程中注释到代谢过程(条)和细胞过程(条)的基因最多而细胞杀死(条)和行为(条)子类中涉及的基因最少.
14、注释根据 与 的关联性进行 代谢通路分类 与 数据库比对后成功注释的基因有 条 这些注释基因被分到 个主要通路(代谢、遗传信息处理、细胞过程、环境信息处理、组织系统和人类疾病)和 个子通路中(表)其中涉及基因最多的主通路为代谢(条)其次为组织系统(条)、人类疾病(条)和环境信息处理(条)最少为细胞过程(条)和遗传信息处理(条)涉及基因最多的子通路为信号转导(条)其次为碳代谢(条)和翻译(条)最少为信号分子和互作作用(条).药用相关的代谢通路龙胆科植物包含环烯醚萜、黄酮类及三萜类化合 物 等 药 效 成 分(杨 青 松 等)根 据 转录本注释结果统计及分析与药效成分相关的次级代谢通路(表)其中包
15、括单萜类生物合成(条)、倍半萜类和三萜类生物合成(条)、类黄酮生物合成(条)、黄酮和黄酮醇生物合成(条)统计这些代谢通路中可能与环烯醚萜、黄酮等药效成分合成相关的转录本.分析对皱边喉毛花的全长转录组进行 分析后共检测到 个 信息位点 共获得 种 重复类型其中单碱基重复类型(个)最丰富其次为三碱基重复类型(个)、二碱基重复类型(个)、四碱基重复类型(个)和六碱基重复类型(个)而五碱 期韩霜等:藏茵陈基源植物皱边喉毛花的全长转录组信息分析.膜部分.膜封闭腔.细胞连接.超分子纤维.病毒.膜.病毒部分.细胞器.大分子复合物.胞外区域部分.胞外区域.其他有机体.细胞.细胞器部分.突触.突触部分.其他有机
16、体部分.细胞部分.结构分子活性.核酸结合转录因子活性.金属伴活动分子功能调节器.转录因子活性与蛋白质结合.分子功能调控.分子转导活性.抗氧化活性.结合.信号转导活性.催化活性.转运蛋白活性.生物黏附.生物过程负调控.代谢过程.多细胞生物过程.生殖过程.细胞过程.生物过程的调节.细胞杀死.生殖过程对刺激的反应.繁殖.单一生物体过程.生物调节.细胞成分组织或生物合成.生物过程正调控.生长.定位.生物相.节律过程.发育过程.免疫系统过程.解毒.行为.信号.多组织过程.转运.图 转录本 注释结果.基重复类型(个)最少 统计 个重复类型中不同长度范围重复序列的分布情况结果显示 长度的重复序列最丰富其次是 、长度的重复序列而 长度的重复序列最少(图).转录因子分析转录因子是一些表达的蛋白质分子能与基因顺式作用元件专一性结合对基因转录进行调控(刘强等)本研究预测结果显示共获得 个转录因子(图)其中注释到转录本最多的转录因子家族是(个)其次为(个)、(/个)和 (个)而(个)、(个)转录因子家族数量最少广 西 植 物 卷表 转录本 注释结果 主通路 子通路 转录本数量 主通路 子通路 转录本数量 代谢