1、第 卷 第 期 年 月南京理工大学学报 收稿日期:修回日期:作者简介:刘炎(),男,硕士生,主要研究方向:生物信息学,:;通讯作者:袁野(),男,博士,副教授,主要研究方向:生物信息学、模式识别,:。引文格式:刘炎,袁野,沈红斌 基于图神经网络的固定骨架蛋白质设计方法研究 南京理工大学学报,():投稿网址:基于图神经网络的固定骨架蛋白质设计方法研究刘 炎,袁 野,沈红斌(上海交通大学 图像处理与模式识别研究所,上海)摘 要:针对图神经网络()结构特征约束不充分的问题,增加了骨架二面角、配对氨基酸的相对位置编码和相对方向等结构约束,提出了一种基于 的固定骨架蛋白质设计方法。实现了基于 多头注意力
2、机制的 架构,将物理坐标添加到消息传递和更新步骤中,提高了原子坐标的等变特性。在 数据集上的训练和测试结果显示:该文模型平均困惑度为,比 的平均困惑度 降低了;在掩盖率为 时,的恢复率为;然后,增加更多的结构约束,恢复率达到了;随后,将 的 替换成基于 的,恢复率达到了;最后,通过再引入等变特性,恢复率进一步提高到。关键词:图神经网络;固定骨架蛋白质;蛋白质设计;结构特征约束;骨架二面角;配对氨基酸;相对位置编码;相对方向中图分类号:文章编号:():,(,):(),南京理工大学学报第 卷第 期 ,;,;,;,;,:;蛋白质是生物体中重要的参与生命过程的分子。在生物体内,、等遗传物质被翻译成蛋白
3、质,然后通过蛋白质的活性控制多种生化反应,例如蛋白酶,能催化生物化学反应,影响生物体内的代谢等。蛋白质通常由 种氨基酸组成的序列在空间上折叠的肽链构成,并通过氨基酸残基的相互作用折叠为 个特定的空间构型。氨基酸序列形成紧凑的 级结构的过程被称为蛋白质折叠。蛋白质的结构取决于蛋白链上的氨基酸序列,并且和功能密切相关,因此揭示蛋白质结构和序列之间的关系至关重要。目前越来越多的蛋白质结构通过实验被解析出来,如目前最 大 的 蛋 白 质 数 据 库(,)已经积累了超过 万个结构。随着深度学习的发展,蛋白质的结构和功能预测取得了重要进展。在蛋白结构预测大赛里的部分结果也接近了与湿实验类似的精度。基于预测
4、结果,公司和欧洲生物信息学研究所合作创建了 蛋白质结构数据库(,),为科学界免费提供这些预测结果。该数据库涵盖了完整的人类蛋白质组和 余种其他关键生物(例如小鼠)的蛋白质组,目前 已经拥有近百万个预测的蛋白质结构。蛋白质序列的设计是蛋白质结构预测的反过程,即所谓的“反向折叠问题”,通过蛋白质设计,获得 种新的蛋白质序列,该序列将自动折叠成所需的结构并执行特定的功能。基于传统方法的序列设计从目标主干结构和随机序列开始,通过序列的随机突变与整体能量最小化,搜索具有最低能量的序列,从而最大化()。在这个过程中,通常涉及 个基本问题:大序列空间的序列搜索算法,序列评价方法(或能量函数)。对于序列搜索,
5、目前一般可以分为 类:精确算法,如 搜索算法等;近似算法,如宽松的整数规划;启发式算法,如遗传算法和马尔科夫链蒙特卡洛方法等,。然而,这些模型成功的关键是需要精确的能量函数来评价序列。当前常用的能量函数至少包含 类。第 类是基于物理化学规律,由物理定律直接推导出来的能量函数,比如 ()等;第 类是基于统计的能量函数,它们通过解析 中蛋白质的统计规律来设计能量函数。但由于蛋白质结构很多样,目前能量函数还不能准确地适用于所有的蛋白质,在目标蛋白质上使用不适用的能量函数往往会导致不理想的结果。由于算力和数据的大幅增长,深度学习理论与方法取得了快速的发展,继卷积神经网络(,)之后又发展出 了 生 成
6、对 抗 网 络(,),图 神 经 网 络(,)等。在图像分类、语音识别等多个领域,深度学习方法通过针对特定任务从数据中自适应学习,其性能往往能够超越传统方法。基于深度学习的序列设计也有了很大的发展。目前使用深度学习进行蛋白质设计的方法大致可分为 大类,通过生成式模型直接设计序列、固定骨架设计序列。第 类只用到序列信息,从序列中学习到蛋白质序列数据分布。在自然语言处理中,语言模型能够帮助获取句子的开头并预测该句子中的下一个单词;类似地,给定 个起始氨基酸残基或残基序列,蛋白质设计模型可以为序列中下一个位置输出 种氨基酸残基的概率分布。序列中的下一个残基可以从这个概率分布中采样获得,它又被用作预测
7、下一个残基的输入。按照这种方法,从训练数据的分布中采样生成新序列,目标是获得与训练集有类似分总第 期刘 炎 袁 野 沈红斌 基于图神经网络的固定骨架蛋白质设计方法研究 布的序列。等基于大约 亿 千万条蛋白质序列,以分类学和关键字标签(例如分子功能和细胞成分)为条件,训练了 个有 亿个参数的条件式蛋白质语言模型,它通过细粒度的条件来控制生成的序列。一些研究利用自编码器()等生成模型来设计序列,将潜在空间映射到序列空间。等训练了 个条件 变 分 自 编 码 器(,)模型,模型以蛋白质拓扑结构为条件来生成序列,并通过分子模拟检验生成的序列是稳定的。等开发了具有引导条件基于 距离的生成对抗网络(,),
8、通过一定的条件使生成的序列偏向于所需结构,并通过快速结构预测算法作为外部评价器来评估输出序列,提供反馈来完善模型。生成了比 具 有 更 高 的 模 板 建 模 分 数(,)和更多样化的序列。固定骨架的蛋白质序列设计,在监督学习情况下,大多以天然序列为基础,将天然序列的恢复率(即与天然序列匹配的百分比)作为指标。()模型输入 个 残基的滑动窗口,预测中心位置的氨基酸概率,以生成与所需结构兼容的序列。这种模型的特征包括骨架扭转角、等。的序列恢复率达到了,进一步将其提高 到 了。()将氨基酸残基的空间局部环境作为输入,使用 处理输入的空间局部环境来预测区域中心最稳定的残基类型,获得了 的恢复率。还有
9、一类使用图神经网络来处理蛋白质的空间结构。等基 于 图 结 构 进 行 蛋 白 质 设 计,提 出 了 模型。该模型输入 个结构,用图表示,并输出序列。将序列设计问题处理成类似于机器翻译问题,即从结构到序列的翻译。和原来的 模型一样,采用了 个带有自注意机制的编码器解码器框架,动态学习 个相邻层的信息之间的关系,将语音识别中广泛使用的度量标准 困惑度()作为指标,其结果低于 的困惑度。提出了一种新的固定骨架的蛋白质设计方法,将蛋白质设计建模成约束满足问题,将蛋白质的结构特征作为约束,并将一部分氨基酸类型掩盖掉,预测被掩盖的氨基酸的类型,用预测的新序列填充特定目标结构。本文针对 结构特征约束不充
10、分,网络模型的性能还可以进一步提高等问题,提出了一种基于 的图神经网络架构,进一步地引入等变特性,将物理坐标添加到图神经网络的消息传递和更新步骤中,能更充分地提取结构信息。特征表示用属性图(,)表示蛋白质结构,节点特征 描述每个氨基酸的特征,边缘特征 捕捉节点之间的关系。使用蛋白质氨基酸序列中 的坐标,以 的距离为标准建立最近邻图。节点特征主要包括以下 类特征:()蛋白质骨架的 个二面角(,),有助于重建蛋白质骨架。()氨基酸类型的独热()编码。选定 个掩盖比例,比如,然后随机将 个蛋白质图中的 的氨基酸节点的氨基酸类型信息掩盖掉,即使用第 类的 编码代替。氨基酸类型分为 类,第 类代表未知的
11、氨基酸。边特征主要包括以下 类特征:()配对的 个氨基酸的相对位置编码。使用 等提出的相对位置编码计算方式,序列中 个残基之间的距离作为输入,得到 维相对位置编码。()配对的 个氨基酸的距离编码。使用 个高 斯 径 向 基 函 数(,),间隔为 到 。()配对的 个氨基酸的相对方向。为氨基酸 的 坐标。()()()式中:为氨基酸 的 坐标,为 个配对氨基酸的距离,为 个配对氨基酸的相对方向。基于图的蛋白质设计算法图是一种数据结构,它对对象和对象之间的南京理工大学学报第 卷第 期关系建模。个对象即是 个节点,对象之间的关系为边。因为 个节点可能和不确定数目的其他节点相连,导致基于图的数据很不规则
12、,从而导致一些重要的操作(例如卷积)比较适用于图像领域,但是很难在图的领域去使用。很多数据都可以用图来表示,比如蛋白质可以将氨基酸作为节点,将距离该节点比较近的氨基酸作为邻居节点来建图等。等提出了 的概念,以迭代方式传播邻居节点信息来学习目标节点的表示方法,直到目标节点的表示收敛到 个稳定的点。这个过程一般计算成本比较昂贵。受 在计算机视觉领域成功的影响,大量重新定义的图卷积概念的方法被开发出来,主要分为基于谱的方法和基于空间的方法等,。它们的主要思想是通过邻居节点和本身节点的信息来聚合更新节点信息,然后可以堆叠多个图卷积层以提取高级节点表示,后续一些基于注意力的图神经网络也被开发出来。当图神
13、经网络应用于生物学分子等节点具有坐标信息的图时,为了更好地利用坐标信息,等变(平移反射旋转等变)特性被引入图神经网络中,。等提出了()等变图神经网络(),),将物理坐标添加到消息传递和更新步骤中。受上述研究进展的启发,本文设计了一种面向固定骨架蛋白质序列设计的 图神经网络,然后引入等变特性,将物理坐标添加到图神经网络的消息传递和更新步骤中,以更充分地提取结构信息。残基级别的图神经网络残基级别的图神经网络架构,见图,包括输入层、编码层和输出层。其中输入层对输入的边和节点特征进行变换,将边和节点的特征维度对齐;编码层通过基于 的图神经网络进一步提取节点和边的特征;输出层使用全连接层将氨基酸节点的节
14、点特征转换到 维,然后通过 计算预测的氨基酸类别概率。输入层由如下多个线性层组成,并通过层正则化对输出进行归一化处理()()()()式中:为输入的节点特征,为输入的边特征,为全连接层,为激活函数,为层正则层,为经过变换后的节点特征,为经过变换后的边特征。图 残基级别的图神经网络架构 编码层由 相同的 网络模块组成,每个 网络模块都包括多头注意力层和前向连接层。多头注意力层构成如下,通过残差连接多头注意力层的输入和输出(,)(,)()(,)()(,)()()式中:为某一氨基酸节点特征,、为其邻居节点的节点特征和边的特征的加和,为归一化指数函数。前向连接层如下()()式中:为丢弃层。输出层对氨基酸
15、节点的节点特征进行变换,总第 期刘 炎 袁 野 沈红斌 基于图神经网络的固定骨架蛋白质设计方法研究 输出预测的氨基酸结构类型的概率分布()()等变特性残基级别的图没有提供蛋白质 结构足够的细粒度表征,还有很多原子的坐标信息可以利用。原子坐标不具备旋转平移不变性,泛化能力不强,所以为了更好地利用坐标信息,将 中的等变特性(平移反射旋转等变)融入网络去提取更精确的结构表征。选取了、个原子,在消息传递函数中添加了原子距离信息,而距离信息随原子平移反射旋转,是不变的。原子坐标编码通过式()更新,不直接影响图神经网络消息传递和更新过程(,)()()()()()()(,)()式中:为节点 到 的边的消息传
16、递,为节点特征,为第 层网络节点 的坐标编码,为节点 到 的边特征,为消息传递函数。在测试集上的预测对比与分析 基准数据集,()数据库是 个蛋白质结构分类数据库,它是使用它分类层级的首字母缩写命名的,类别分别是、。本文中,使用 非冗余数据集。由图 可以看出,长度为 的序列占了绝大多数,因而选择其中长度为 的序列构成数据集,然后按照 的比例划分为训练集、验证集和测试集。获取蛋白质序列对应 结构中、的坐标。当氨基酸 原子之间的距离小于 时,个氨基酸被认为互相接触,因此使用蛋白质氨基酸序列中 原子的坐标,以 的距离为标准建立最近邻图,即当 个氨基酸的 原子坐标距离小于 时,个氨基酸互为邻居节点。根据 ,绝大部分情况下,邻居节点数目小于,所以为了避免邻居节点数目异常,当某氨基酸节点的邻居节点数目大于 时,本文选择距离最近的 个氨基酸作为邻居节点。图 数据集序列长度分布 模型验证方法和评价性能指标恢复率代表模型重建氨基酸序列的能力,以天然序列为基础,将天然序列的恢复率(预测氨基酸序列的预测准确度)作为指标。在测试集上,使用图神经网络得到输出的氨基酸概率分布,然后根据氨基酸概率分布采样 次。和氨基