1、收稿日期:2022 01 14基金项目:国家自然科学基金资助项目(62072089);中央高校基本科研业务费专项资金资助项目(N2116016,N2104001,N2019007,N2224001 10)作者简介:李婵(1994 ),女,河北邯郸人,东北大学硕士研究生;信俊昌(1977 ),男,辽宁辽阳人,东北大学教授,博士生导师;王之琼(1980 ),女,黑龙江哈尔滨人,东北大学教授,博士生导师第44卷第3期2023 年 3 月东北 大 学 学 报(自 然 科 学 版)Journal of Northeastern University(Natural Science)Vo l 44,No
2、3Mar2 0 2 3doi:1012068/j issn 1005 3026 2023 03 003基于潜在调控因子筛选的高阶动态贝叶斯建模方法李婵1,曲璐渲1,信俊昌2,3,王之琼1(1.东北大学 医学与生物信息工程学院,辽宁 沈阳110169;2.东北大学 计算机科学与工程学院,辽宁 沈阳110169;3.辽宁省大数据管理与分析重点实验室,辽宁 沈阳110169)摘要:为了解决目前用于构建基因调控网络的方法中所存在的网络构建准确率低、网络构建时间过长等问题,以及减小网络构建的复杂度,提高网络构建效率,提出了一种基于潜在调控因子筛选的高阶动态贝叶斯网络建模方法(high-order dyn
3、amic Bayesian network modeling method based on potential regulatory factorscreening,PS HO DBN)该方法将关联模型与高阶动态贝叶斯网络模型相结合,首先利用潜在调控因子筛选的方法在不同的时间延迟下删除与目标基因关联程度较低的基因,保留与目标基因关联程度较高的基因并作为目标基因的潜在调控因子集,以减小搜索空间;然后利用高阶动态贝叶斯模型进行结构学习,以提高网络构建的精确率 与其他的网络构建模型方法相比,该方法可以极大地缩短网络构建的时间,提升效率和精确度关键词:基因调控网络;潜在调控因子;高阶动态贝叶斯网络;
4、关联模型;结构学习中图分类号:TP 181文献标志码:A文章编号:1005 3026(2023)03 0323 08High-Order DynamicBayesianNetworkModellingMethodBased on Potential egulatory Factors ScreeningLI Chan1,QU Lu-xuan1,XIN Jun-chang2,3,WANG Zhi-qiong1(1.College of Medicine Biological Information Engineering,Northeastern University,Shenyang 1101
5、69,China;2.School of Computer Science Engineering,Northeastern University,Shenyang 110169,China;3.KeyLaboratory of Big Data Management and Analytics(Liaoning Province),Shenyang 110169,China Correspondingauthor:WANG Zhi-qiong,E-mail:wangzq bmie neu edu cn)Abstract:In order to solve the problems of lo
6、w network construction accuracy and long networkconstruction time in the current methods used to construct gene regulatory networks,so as toreduce the complexity of network construction and improve the efficiency of network construction,a method called high-order dynamic Bayesian network modelling m
7、ethod based on potentialregulatory factors screening(PS-HO-DBN)was proposed The method combines the correlationmodel with the high-order dynamic Bayesian network model Firstly,the potential regulatoryfactor screening method is used to delete the genes with low association with the target gene underd
8、ifferent time delays,and retain the genes with high association with the target gene as thepotential regulatory factor set of the target gene to reduce the search space Then the high-orderdynamic Bayesian model is used for structure learning to improve the accuracy of networkconstruction Compared wi
9、th other methods,the method can greatly reduce network constructiontime and improve efficiency and accuracyKey words:gene regulatory networks;potential regulatory factors;high-order dynamic Bayesiannetwork;correlation model;structure learning基因通过表达传输遗传信息,基因之间相互影响、相互制约的调控关系,形成了复杂的基因调控网络 该网络可以帮助人们在面对由
10、于基因异常表达所导致的恶性肿瘤等疾病时,从遗传层面上了解疾病发生的原因,以实现对于治疗靶点的精准用药1 因此,构建具有高精确度的基因调控网络在疾病诊断治疗方面具有重要意义 传统用于构建基因调控网络的模型大多针对非时序基因表达数据,这不符合生物学意义,也不能精确地描述基因之间的调控关系 基因表达是随时间变化的,不同基因表达后调控其他基因表达的时间延迟也是不同的,因此,基于时间维度去构建基因调控网络才能更真实地还原基因之间的调控关系 而如何更有效地利用时序基因表达数据构建包含更多真阳边,同时更高效地构建基因调控网络成为一种挑战随着基因调控网络建模方法研究的不断进步,产生了各种各样的模型 这些模型从
11、不同角度对基因调控网络进行抽象,其中动态贝叶斯网络模型2 由于可以处理时序基因表达数据进而构建基于时间维度的基因调控网络而被广泛使用关联模型3 因为可以精确地寻找到不同基因之间的关联程度,也被广泛应用在基因调控网络构建中 关联模型虽然可以寻找到不同基因之间的关联程度强弱,但是该模型所构建的网络是无向图;而动态贝叶斯模型时间复杂度高,且只能寻找一个时间延迟的调控关系 如果增加阶数,为目标基因寻找父节点的搜索空间呈指数级上升,而且所构建的网络结构中假阳边较多,使得网络构建效率降低基于此,本文将关联模型与高阶动态贝叶斯网络模型相结合,提出了基于潜在调控因子筛选的高阶动态贝叶斯基因调控网络构建方法(h
12、igh-order dynamic Bayesian network modeling methodbased on potential regulatory factor screening,PS HO DBN)首先,利用关联模型方法计算目标基因与不同时间延迟下其他基因之间的关联程度强弱,为了筛选出更符合要求的基因,使用节点自动选择技术,根据时序基因表达数据之间的关系自动选择阈值来筛选潜在调控因子集,目的是为进行网络结构学习时缩小搜索空间;然后,利用高阶动态贝叶斯模型进行结构学习,去构建基因调控网络;最后,通过实验证明该方法在保证真阳边数量的同时大大缩短了网络的构建时间,提高了计算效率,使利
13、用高阶动态贝叶斯网络模型进行大规模基因调控网络的构建成为可能1潜在调控因子筛选的高阶动态贝叶斯网络建模1.1相关工作为了准确找到目标基因与其他基因之间的关系,本 文 采 用 关 联 模 型 中 互 信 息(mutualinformation,MI)和皮尔逊相关系数(Pearsoncorrelation coefficient,PCC)两种方法来计算基因间的关联程度,但这两种方法只能确定基因之间是否有关联,无法确定基因之间的关联程度 为了获得 合 理 的 阈 值,使 用 预 测 最 小 描 述 长 度(predictive minimum description length,PMDL)和基于假
14、设检验的断点检测两种方法分别为互信息和皮尔逊相关系数两种方法确定阈值,以实现对目标基因潜在调控因子的筛选1.1.1互信息互信息4 是求两个随机变量之间相互依赖的程度,在基因调控网络中,互信息描述基因之间相互关联的程度,互信息值越高表明两个基因之间关联程度越强 在时序基因表达数据中,基因的表达水平被表示成变量 X,X=X1,Xn,n 为基因数量,Xi 1,Xi t 表示 X 中第 i 个基因在 t 个时刻内的表达值;Xi t 表示 X 中第 i 个基因在第 t 时刻的表达值;而在 X 中所有基因 X1,Xn 在第 t 时刻的表达值可以表示为X t=X1 t,Xn t 对于一个离散变量 X,它的熵
15、 H(X)是指 X接收的每条消息中所包含信息的平均值,即所接收的消息随机性越大熵就越大,可表示为H(X)=xXp(x)lgp(x)(1)其中,p(x)是变量 X 的边缘概率分布函数X 和 Y 的联合熵(joint entropy,JE)可表示为H(X,Y)=xX,yYp(x,y)lgp(x,y)(2)其中,p(x,y)为 X 和 Y 的联合概率分布函数互信息以熵的形式可表示为I(X,Y)=H(X)+H(Y)H(X,Y)(3)两个离散变量 X 和 Y 的互信息定义为I(X,Y)=yYxXp(x,y)lgp(x,y)p(x)p(y()(4)其中:p(x)和 p(y)是变量 X 与变量 Y 之间的边
16、缘概率分布函数;p(x,y)是 X 和 Y 的联合概率分布函数1.1.2皮尔逊相关系数皮尔逊相关系数用于度量两个变量间的线性423东北大学学报(自然科学版)第 44 卷相关程度,相关系数的绝对值越大,表明变量之间的相关度越高5 在基因调控网络中,通过基因表达数据去计算基因之间的线性相关程度在基因调控网络构建过程中,基因之间皮尔逊相关系数的计算可由式(5)表示r=(X?X)(Y?Y)(X?X)2(Y?Y)2(5)其中,?X 和?Y 分别表示在基因表达数据中基因 X和 Y 表达水平的平均值1.1.3预测最小描述长度要实现潜在调控因子的筛选,需要确定筛选阈值,选择预测最小描述长度6 方法来计算通过互信息获取基因之间关联程度的阈值,该方法适用于时间序列数据 该方法只对数据点建模,因此计算代码长度只涉及数据 将代码长度设为文献 7 中给出的数据长度 由于基因调控网络的概率特性,当一个基因从一个时刻转换到另一个时刻时,它可以取任何值,而每个状态转换都会带来新的信息,这些信息由条件熵来衡量:H(Xt+1|Xt)=lg(p(Xt+1|Xt)(6)其中,Xt和 Xt+1分别表示基因 X 在 t 时刻和