1、脊索动物嗅觉受体基因命名法的发展韩 伟1,赵素文2,3*,黄行许1*,林 峰4*(1之江实验室智能计算平台研究中心,杭州 311121;2上海科技大学iHuman研究所,上海 201210;3上海科技大学生命科学与技术学院,上海 201210;4之江实验室人工智能研究院,杭州 311121)摘要:嗅觉受体属于G蛋白偶联受体家族,在脊索动物的整个生命周期中都扮演着至关重要的角色。与其他多数基因家族不同,嗅觉受体家族是一个成员数量庞大的超基因家族,为它们合乎逻辑的命名可以更好地对该家族进行描述、分析和讨论,也可以为机器学习程序从庞大的嗅觉受体数据库自动构建相应的蛋白结构和功能知识库提供语义信息。由
2、于脊索动物嗅觉受体演化速度很快、基因数量庞大、假基因比率高、在物种及染色体上分布差异巨大等多方面的原因,给嗅觉受体基因合理的命名较为困难。三十多年来,伴随着嗅觉受体研究领域的发展,嗅觉受体基因命名法也经历了多次迭代,在每个阶段都发挥着积极的作用。随着测序技术和生物信息学算法工具的发展,随之而来的是新注释的海量的嗅觉受体基因,这使已有的嗅觉受体基因命名法变得越来越难以适应大数据挖掘和知识工程的系统开发,因此迫切需要一个能满足当下需求的嗅觉受体基因命名法。关键词:脊索动物;嗅觉受体;基因;命名法Advances in nomenclature for chordate olfactory rece
3、ptor genesHAN Wei1,ZHAO Suwen2,3*,HUANG Xingxu1*,LIN Feng4*(1Research Center for Intelligent Computing Platforms,Zhejiang Lab,Hangzhou 311121,China;2iHuman Institute,ShanghaiTech University,Shanghai 201210,China;3School of Life Science and Technology,ShanghaiTech University,Shanghai 201210,China;4Re
4、search Institute of Artificial Intelligence,Zhejiang Lab,Hangzhou 311121,China)Abstract:Olfactory receptors are members of the G protein-coupled receptor family,playing a crucial rolethroughout the entire lifespan of chordates.Distinguished from most gene families,the olfactory receptorfamily is a v
5、ast superfamily consisting of a large number of members.Providing logical names for thesereceptors enables better description,analysis,and discussion of the family.Additionally,it offers semanticinformation that assists machine learning programs in automatically constructing the corresponding protei
6、nstructure and functional knowledge bases from extensive olfactory receptor databases.However,namingolfactory receptor genes appropriately poses significant challenges,given the rapid evolution,the large numberof genes,a high incidence of pseudogenes,and substantial variations in their distribution
7、across species andchromosomes in chordates.Over the past three decades,the field of olfactory receptor research hasexperienced significant development,resulting in several iterations of olfactory receptor gene nomenclature,allof which have played a positive role at its respective stage.The advanceme
8、nt of sequencing technologies and生命的化学,2023,43(5):648-doi:10.13488/j.smhx.20230130收稿日期:2023-02-21基金项目:国家自然科学基金项目(32122024);上海市生物大分子与精准医药前沿科学研究基地第一作者:E-mail:*通信作者:林峰,E-mail:;黄行许,E-mail:;赵素文,E-mail:bioinformatics algorithms tools has brought about a massive influx of newly annotated olfactory receptor
9、 genes.Thisoverwhelming number has rendered the existing olfactory receptor gene nomenclature increasingly inadequateto accommodate the needs of big data mining and knowledge engineering system development.Consequently,there is an urgent need for a new olfactory receptor gene nomenclature that can s
10、atisfy current demands.Key Words:chordates;olfactory receptors;gene;nomenclature嗅觉是脊索动物最重要的感觉之一,在寻找食物、交配、躲避危险、识别个体、标记领域等方面起着关键作用1-3。嗅觉的实现主要依赖嗅觉受体基因(olfactory receptor gene,Olfr)的表达。对于脊索动物来说,大部分的嗅觉受体基因在嗅觉组织或者器官内表达出嗅觉受体(olfactoryreceptors,ORs),用于识别环境中的气味分子;也有部分嗅觉受体基因在多种非嗅觉组织或器官中表达,即异位表达,并被证明与多种疾病密切相关4
11、-6。这些证据意味着嗅觉受体不仅可以作为嗅觉功能的执行者,还可以作为潜在的药物靶点,具有重要的研究价值。嗅觉受体属于G蛋白偶联受体家族,具有七次跨膜螺旋结构域7,作为脊索动物中的超基因家族它的数量及分布极具特点。第一个特点是基因数量众多。大多数的脊索动物具有1 000多个嗅觉受体基因(包含功能基因与假基因),占据了G蛋白偶联受体家族中相当一部分比例。例如,人类的功能性嗅觉受体基因的数量占G蛋白偶联受体家族成员的约50%8。第二个特点是嗅觉受体基因在不同物种基因组中的数量差异十分明显。在脊索动物中,嗅觉受体基因数量从数个到数千个不等,反映了物种对不同生存环境的适应9-13。第三个特点是嗅觉受体基
12、因在染色体上广泛且不均匀的分布,数量众多的嗅觉受体基因成簇地分布在物种的大多数染色体上。以人的嗅觉受体基因在染色体上的分布为例,近千条嗅觉受体基因分布在除了20号和Y染色体外的其他22条染色体上,并且他们在每条染色体上分布的数量并不均匀,其中11号染色体上分布了大多数的嗅觉受体基因,而10、12和X号染色体上都仅存在一条嗅觉受体基因14-17。第四个特点是脊索动物嗅觉受体假基因比例很高。就目前Han等9注释的近1700个脊索动物的约80万个嗅觉受体基因来看,功能性嗅觉受体与嗅觉受体假基因的比例大约是109。综上,脊索动物嗅觉受体基因具有数量庞大、在物种及染色体上分布差异大、假基因比例高等特点,
13、而这些恰恰导致了嗅觉受体基因的命名等基础问题难以解决。此前,该领域的研究者曾提出过多种嗅觉受体基因的命名方案18-26,但是,目前这些方案或多或少存在一些问题。一方面,这些命名法存在基因标识符混乱,甚至是嗅觉受体亚家族和家族错误分配等缺陷,这将给生物实验科学家带来嗅觉受体基因功能认识上的困惑。在目前最流行的嗅觉受体基因命名法的规则下,部分嗅觉受体基因被明确分成了OR5、OR8和OR9三个基因家族。但是,有研究表明,这三个嗅觉受体基因家族的功能是一致的27-30。Han等9对这三个家族的序列进行分析,发现来自这三个家族的序列之间的相似性完全满足同一个嗅觉受体家族的标准,即他们应该被划分到同一个嗅
14、觉受体家族。更多类似的例子还有OR1/3/7、OR2/13、OR41/42、OR51/52和OR61/62等9,27-30。另一方面,在已经完成全基因组测序的脊索动物中,有超过80%物种的全部嗅觉受体基因没有被注释和命名,这极大限制了后续功能和内源性配体鉴定等科学研究的开展9。随着生物信息学算法工具的发展,嗅觉受体基因的发现越来越依赖一个合乎计算生物学逻辑的命名规范,以使机器学习程序能更有效地从已有的嗅觉受体基因数据库中挖掘海量的潜在信息,自动构建相应的蛋白结构和功能知识库,并有助于实验生物学家获得更多嗅觉受体功能分类上的信息。1 嗅觉受体基因命名法的发展嗅觉受体无论是作为气味分子的探测器还是
15、作为潜在的药物靶点都具有重要的研究价值,但是它在相当长的时间内都没能真正意义上步入主韩伟,等.脊索动物嗅觉受体基因命名法的发展 649 流科学的殿堂。随着1991年Linda Buck和RichardAxel发现嗅觉受体,嗅觉受体几乎在一夜之间被推向主流神经科学研究领域7,他们也凭此杰出的成就获得了2004年的诺贝尔生理学或医学奖。自此,人们对嗅觉受体的研究热情逐渐高涨。但是,嗅觉受体基因命名在相当长的一段时间内都处于相对混乱的状态。1.1 早期的嗅觉受体基因命名法截至20世纪末,研究者们已经从多个物种中注释出了数百个嗅觉受体基因。此时的研究者对于嗅觉受体基因的命名法尚未达成共识,分别尝试基于
16、克隆名称(如HGMP07E18)、克隆方法或环境(如HPFH1OR19)、染色体位置(如OR17-2320)、全 基 因 组 范 围 的 顺 序 编 号 和 随 机 编 号(如OLFR118、ORL300121和ZF2A22)、随意指定(如gen523)等方式为少数的嗅觉受体基因命名。对于嗅觉受体基因命名来说,这个阶段是百家争鸣的时期,尚未出现被研究者广泛认可的命名法。简单来说,这些命名法只是单纯地为嗅觉受体基因分配标识符,并没有明确的命名逻辑。在嗅觉受体基因数量较少的研究初期,这些命名法尚可满足需求。但是,随着测序技术的飞速发展,获得物种嗅觉受体基因数据越来越容易,此时混乱的命名法为大量嗅觉受体基因命名变得十分困难31。然而,大量嗅觉受体基因只有被有意义的、合乎逻辑的命名才能被更好地描述和讨论。此时,研究者已经认识到人们迫切需要一个新的嗅觉受体基因命名法32。1.2 具有明确逻辑的嗅觉受体基因命名法2000年,研究者着手构建具有内在逻辑的嗅觉受体基因命名法,其中Ziegler等24和Glusman等25提供的方案最具代表性。Ziegler等24提供的命名法整合了嗅觉受体基因的物种、染