跳过主要内容

模块化船:基于模块分解的高效网络推理算法

抽象的

背景

给定数据,基因监管网络(GRN)推理方法试图确定监管关系。然而,目前的推理方法在一定程度上忽略了GRN的固有拓扑结构,导致缺乏明确的生物解释的结构。为了增加推断网络的生物物理含义,本研究在网络推断之前进行了数据驱动模块检测。通过基于分解的方法鉴定基因模块。

结果

基于ICA分解的模块检测方法已被用于直接从转录组数据中检测功能模块。关于时间序列表达、curated和scRNA-seq数据集的实验表明,与已建立的方法相比,所提出的ModulaBost方法具有优势,尤其是在效率和准确性方面。对于scRNA序列数据集,ModulaBost方法优于其他候选推理算法。

结论

作为复杂的任务,GRN推断可以分解成显着复杂性的几个任务。使用所识别的基因模块作为拓扑约束,可以通过分别推断模块化和模块间相互作用来实现初始推理问题。实验结果表明,所提出的模块化方法可以通过引入拓扑限制来提高推理算法的准确性和效率。

同行评审报告

背景

近年来,系统生物学已经发展迅速。随着蛋白质组学和转录组织等高通量分析技术的不断发展[1,就有可能推断出基因调控网络(GRNs)。GRN推断的主要目的是确定基因之间的因果关系。这样的网络提供了有关监管的重要信息,并促进了人们对机制的理解。

经过几十年的发展,网络推理算法的计算效率和准确性得到了极大的提高。利用转录组学数据集可以重建微生物和哺乳动物的大型基因网络。目前已经提出了高精度的grn推断方法。例如,虎妞[2]和LASSO稠合[3.]在计算效率方面表现出了优越的性能,而基于机器学习的方法如GENIE3 [4.]和GRNBoost2 [5.6.]由于其在精度上的优势,在升力机构中得到了广泛的应用。基于相互资讯的CLR [7.]及PIDC [8.可以揭示基因之间的统计相关性。

但是,这些GRNS推理方法中也存在一些限制。推断拓扑通常缺乏明确的生物物理解释,限制了诸如疾病 - 基因预测和基因治疗的应用。对于GRN和蛋白质 - 蛋白质相互作用(PPI)网络,通过生物网络共享的关键字符是所谓的功能模块或社区结构[9.].每个模块对应一个子网络,其中节点紧密连接,频繁交换信息[10.].此外,传统方法决定了一个阶段基因之间的随意关系,导致相当大的计算负担。具有拓扑限制的GRN参数估计在计算效率方面具有优势[11.].根据调节模块理论,模块间的连接比模块内的基因对有更紧密的联系[12.].当传统的推理任务可以在多个阶段来完成,网络推断的效率可预期得到改善。

通过精确检测到的模块,开发一种高效推理框架,可以将固有的模块化结构与已建立的推理算法结合起来是可行的。已经开发了大量模块识别方法来检测来自GRN,PPI和其他生物网络的功能模块。对于基因模块检测方法,包括COREG和SIGMOD等[13.14.,要求了解网络拓扑结构。这是一个在实际应用中很难满足的强先决条件。在这种情况下,数据驱动的模块识别方法成为直接从转录组数据识别模块的关键。由于能够从转录组数据中检测基因模块,基于分解和基于聚类的方法受到了越来越多的关注[15.].虽然可以检测到基因模块,但目前的研究侧重于在一定程度上寻找生物学解释和相关途径[16.].从网络推理(NI)的观点来看,基因模块提供了引导推理的约束,导致GRN与社区结构。

本研究提出了这些拓扑特征的动机,提出了一种模块化的方法,以集成基于分解的模块识别和基于促进的推理算法。使用ICA-FDR,ModularBoost根据其表达数据分配了监管模块的基因。基于检测到的基因模块,GRNBoost2的基因模块中的休闲关系是一种倒数排名推断算法,而模块之间的监管关系被线性稀疏回归检测。然后模块化船稳定化子网中的分数以获得最终网络。

在基于分解的方法中,已经实现了ICA-FDR,ICA-ZScore和PCA,并与常用的聚类表达式数据集进行了相比[9.].我们选择了ICA-FDR算法,展示了模块识别中的最高精度。此外,通过单细胞表达和时间序列数据评估模块化船舶方法的性能。模拟的ScrNA-SEQ数据集由Beeline生成[17.]及PIDC [8.].三个实验ScrNA-SEQ数据集来自SCODE项目[18.].时间序列数据集是s奥里斯E大肠杆菌来自Dream5挑战的酵母表达数据[19.].至于基因模块的金标准,基于部分已知的基因调节边缘,通过图形理论或群落检测方法提取功能模块。这项工作不仅讨论了集模块载于网络推理(NI)的适用性和准确性,而且还进一步分析了数据驱动模块检测与NI之间的关系。

结果

模拟ScrNA-SEQ数据集的模块化推断

筛选网络是从Beeline项目中提取的,该项目专注于利用单细胞表达数据进行GRN推断。与传统的微阵列数据集不同,单细胞数据包含关于细胞-细胞变异性的信息,可用于研究细胞群体的行为模式[20.].然而,强大的随机单细胞表达数据通常导致网络推断中的低精度。甚至已经开发了几种包括SCODE和PIDC的算法[8.18.],使用单个细胞数据的GRN推断的精度水平静止。由于大量的细胞样本,单个细胞数据带来的另一个瓶颈增加了计算负担[21.]. 单细胞表达数据中的细胞-细胞变异信息在推断TF基因关系中起着负面作用,导致许多情况下推断的准确性较低。

在这种情况下,所提出的模块化方法旨在通过引入拓扑限制来提高推理的准确性。在提出的模块化船舶方法中,基于ICA-FDR的分解用作内部部分,以直接从静电数据集中检测功能模块。竞争方法包括ICA-FDR2,ICA-ZScore,基于PCA的分解和K-Means Clustering方法。性能指数\(F_{rr}\)在本研究中描述了使用四种分解方法和K-means聚类。GSD网络的策划数据集具有三种实验条件,具体取决于辍学率。PIDC.E大肠杆菌-s表示具有700个单元格样本的单个小区数据,而这两者均E大肠杆菌-ll和E大肠杆菌-lh表示具有2000个样本的数据集。除此之外E大肠杆菌-ll和E大肠杆菌-lh组对应于具有低和高差速率的单小区数据。策划GSD网络和PIDC的评估指标E大肠杆菌在表格中比较了网络1

表1策划GSD和PIDC的模块识别评估E大肠杆菌网络使用\(F_{rr}\)

\(F_{rr}\)数值与模块检测的准确性水平呈正相关。每列中最高的值以粗体显示。ICA-FDR和ICA-FDR2需要基因模块的数量\(n \ _comp \)以及Q值的阈值Q_Cutoff.根据GRN中的基因数量。对于具有19个基因的策划网络的模块识别评估,我们一直设置\(n \ _comp \)5种模块识别方法= 2。与此同时,演讲E大肠杆菌具有100个基因的网络集\(n \ _comp \)=4.以及Q_Cutoff.ICA-FDR,ICA-FDR2和PCA是\(10 ^ { - 3} \). 但是,Q_Cutoff.由于统计原则的差异,ICA-ZScore分解与ICA-FDR不同:\(\textit{q\\U截止日期}\^{zscore}\)= 1.5. 为了消除启发式算法的随机性,我们将每个基因网络重复10次,并取平均值\(F_{rr}\)

可以在表中找到的模式1是ICA-FDR优先表现出三种分解方法和K-MEARY集群,在模块检测中显示出高精度。此外,\(F_{rr}\)ICA-FDR获得的索引略高于ICA-FDR2。可能的解释是,ICA-FDR2算法考虑了调节边缘的方向,从而影响了基因模块识别的准确性。同时,被视为噪声的辍学率显示了对模块检测的负面影响。\(F_{rr}\)GSD-70的索引低于GSD-1和GSD-50,使用五个模块检测方法。

模块化船舶方法而不是重建网络,而是基于所识别的模块完成GRN推理任务,而不是识别的模块,这是密集连接的基因和TFS。此外,在两个推理的两个阶段推断基因之间的模块内和模块间相互作用。

从表中可以看出2所提出的ModularBoost方法获得选择的推理算法,包括脊和GRNBoost2方法中最高的AUROC指标。在每列最高AUROC和AUPR都以粗体显示。这一现象验证ModularBoost的有效性以及两种推理策略的整合。ModularBoost的三个策划网络和PIDC网络的计算时间也小于GRNBoost2的。ModularBoost\(time_ {gsd-1} = 85 \)S,\(time_ {gsd-50} = 73 \)S,\(time_ {gsd-70} = 78 \)S,Grnboost2.\(time_ {gsd-1} = 119 \)S,\({time_ GSD-50} = 116 \)S,\(time_ {gsd-70} = 100 \)s。ModularBoost\(time_ {e。coli-s} = 16 \)S,\(时间{E。大肠杆菌LL}=155\)S,\(time_ {e。coli-lh} = 137 \)S,Grnboost2.\(时间{E。coli-S}=67\)S,\(time_ {e。coli-ll} = 1362 \)S,\ (time_ {E。coli-LH} = 965 \)sGRNBoost2的AUROC和AUPR指数以及拟议的ModulaBost表明,ModulaBost方法能够使用较少的计算资源完成推理任务,而不会明显降低准确性。从这个角度来看,ModulaBost方法可以作为一种利用单细胞表达数据推断TF基因关系的有效方法。GSD-70组的AUROC和AUPR指数低于其他两组,表明辍学率的负面影响。特别是当辍学率从50增加到70时,无论是在模块检测还是网络推理方面,这种影响都是明显的。同时,PIDC数据集也证实了这种情况。当单细胞数据样本量和辍学率增加时,AUROC和AUPR指数趋于下降。在本研究中,退出率在单细胞表达数据中起到了噪声的作用,并对GRN推理的准确性产生了负面影响。

表2采用常规GRN推断和ModulaBost的curated和PIDC网络的AUROC和AUPR指数

为了展示模块Boost2的卓越网络预测,我们将模块化与基于RIDGE回归的推断方法与程度分布的角度进行比较[22.].程度分布\ (p_k \)GRN的分布近似遵循幂律[23.],由下式给出:

$$ \ begined {对齐} \ log p_k = - \ alpha \ log k + c \ neg {aligned} $$
(1)

哪里K.表示程度,\(\alpha\)表示缩放系数,C是常数。

图。1
图1

PIDC的幂律分布E大肠杆菌.幂律分布与\(\ log _ {10} \)-\(\ log _ {10} \)黄金标准网络,模块化推断网络和脊推断网络的学位E大肠杆菌

PIDC的幂律分布E大肠杆菌-沙E大肠杆菌-LL被示于图1.对于模拟单个小区表达数据集,Ecoli-S和Ecoli-LL共享相同的黄金标准网络。由于各种复杂性水平,这两种情况可能导致不同的推断结构。当表达数据的样本量增加时,推理指标往往会下降,而推断网络和金标的不匹配程度变得更加重要。

在这种情况下,所提出的方法ModularBoost可以获取更高拓扑与金标准类似的GRNs,与岭回归推理算法进行比较。换句话说,ModularBoost能够提高推断网络的可解释性在一定程度上。

实验scRNA-seq的数据集的模块化推理

在本节中,实验性单细胞RNA测序(scRNA-seq)数据集被用作GRN推断的主要信息源。在生物医学和基因组研究中,scRNA-seq数据集在探索细胞种群和分化动力学方面发挥了关键作用。SCODE项目提供了三个scRNA-seq数据集和相关的金标准网络。在桌子上3.PrE(原始内胚层细胞),MEF(小鼠胚胎成纤维细胞),DE(最终内胚层细胞)分别代表来自小鼠和人类的各种细胞类型。金标准中的调控边缘覆盖了100个基因的子集,范围从40个到40个不等\(\%\)到60.\(\%\).基于已知的调节边缘,使用基于曲线理论的方法检测基因模块,即社区检测方法。那些模块相交,对应于重叠现象。

表3三个SCODE网络基因模块金标准列表

模块标准的基本思想是探索强烈互连的组件,其中节点是相互连接的。在预网络的模块2中,ETS1,EGR1和Smad7形成了连接的部件。ETS1和EGR1由于高出度,是集线器节点。在已知的监管关系中,SMAD7基因拥有12个OUT - 度和16个以上,表明该基因在预网络中播放桥接节点。

对于MEF网络,那些如KLF4的TFS具有高度高度,并且被认为在信息流中具有高拓扑重要性。根据已知的模块,存在重叠,允许部分基因属于两个或更多个功能模块。

图2
图2.

SCODE PrE网络的基因模块金标准。重叠表示POU5F1同时参与模块2和模块4。网络中的边缘表示基因之间的调节

在无花果。2,基因模块被Gephi软件着色并可视化,以说明拓扑位置。在指向图中,节点的物理尺寸与其拓扑重要性正相关。同时,功能和拓扑社区有关但不同。从图2中可以观察到它。2同一基因模块中的节点倾向于密集连接并具有拓扑关系。在该研究中,基因模块通过数据驱动的ICA-FDR方法测定,留下了未溶解的一部分基因。

对于PrE、MEF、DE网络,根据先前的信息,基因模块的数量被分配为3、4、4。

表4使用ScrNA-SEQ数据集使用实验模块识别方法的比较

从表4., 高的\(F_{rr}\)与pca分解和k-means聚类相比,基于ica分解得到的粗体指标在检测精度上具有优势。和\(F_{rr}\)ICA-FDR2的索引低于ICA-FDR。这种模式与策划分段中的微阵列数据集中的这种模式一致。

基于检测到的模块,所提出的模块化方法使用两种回归来完成网络推断:RIDGE回归和集合推断算法。本研究选择了名为Grnboost2的尖端集合推理,以确定模块内的休闲交互。桌子5.显示通过模块化船舶方法和三个候选推理算法获得的AUCOC和AUPR指标。每列中的最高氧气和AUPR都以粗体显示。

表5使用经典GRN推断和模块化船舶SCODE的AUROC和AUPR

SCODE PrE和MEF数据集是取自小鼠细胞的单细胞表达数据,SCODE DE数据集是取自人类细胞群体的表达数据。对于PrE和MEF数据集,所提出的ModularBoost方法在降低计算代价的同时提高了推理性能(ModularBoost\(时间=17s,时间=24s,时间=11\)S,Grnboost2.\ (time_ {PrE} = 335年代,time_ {MEF} = 230年代,time_ {DE} = 539 \)s)。

图形3.描述了重建三个SCODE网络期间四种推理算法的PR和ROC曲线。对于PrE和MEF网络,所提出的ModulaBost方法在AUPR和AUROC值方面优于三种候选推理方法。此外,PR曲线的形状表明,ModulaBost方法推断的预测列表比其他算法包含更多的真实边。对于DE数据集,ModulaBost的准确度指标低于现有GRNBoost2。一种可能的解释是人类细胞群体中基因调控的复杂生理过程。

图3.
图3.

表现在三个SCODE网络。ROC和PR下的面积是积极与网络推断的准确性相关

Dream5网络的模块化推理

作为典型的时间序列表达数据,微阵列数据集已长期被用作GRN推断中的信息源。Dream5提供了四个网络作为网络推论研究的基准[19.]. 考虑到节点和规则边的数量庞大,现有方法获得的精度指标相对较低,计算时间较长。在四个DREAM5网络中,s奥里斯E大肠杆菌酵母网络已被用作本节中的基准。

在DREAM5的挑战中,“真实”的调节关系被用作所谓的黄金标准来判断推理算法的准确性程度。特别地,DREAM5的模块化黄金标准来自于塞伦斯[9.].至于基因模块,西西米和Macisaac等的标签。AL提供了两组不完整的模块集,以定量评估候选模块识别方法的性能[24.].基于ICA-FDR的ModularBoost方法首先直接从DREAM5数据集检测基因模块。ICA-FDR与其他方法的比较见表6.

表6 DREAM5网络模块识别评估

根据连接模式,最小,严格,互连的表示基因模块的三种定义。最小模块可以被视为共享至少一个TF的重叠基因集。严格的模块对应于由相同调节器调节的基因组。对于互连模块,同一模块中的基因是强烈的互连。对于相同的黄金标准网络,互连标准通常获得最少数量的基因模块。

为了E大肠杆菌我们设置了4511个基因的网络和5950个基因的酵母网络\(n\_comp = [10,20, \ldots, 100]\)\({q_cutoff} = [10 ^ { - 1},10 ^ { - 2},\ ldots,10 ^ { - 13}] \),导致130个参数组合。的参数Q_Cutoff.ICA-Zscore和PCA分解算法定居为\({q \ _cutoff} \ ^ {zscore} = [0.5,1,\ ldots,6.5] \)\({q \ _cutoff} \ ^ {pca} = [1,0.75,0.5,0.25,0.1,0.075,0.05,0.025,0.01,00075,0.005,00.0025,0.001] \).为了减少随机影响,基于分解的模块检测算法检测到每个参数组合的模块十次,并计算平均值\(F_{rr}\)索引。在表格中6.,价值观\(F_{rr}\)通过在130个组合之间取得最大值而获得。

从表中可以看出6.基于分解的方法在三个模块定义下,基于分解的方法具有比K-Means方法的精度增强的基因模块。在三个模块定义中,\(F_{rr}\)最小组和严格组的各项指标均高于相关标准。这一现象表明,最小协同调节可以作为评估模块检测的合适定义。为了证明ICA-FDR的分解,调节模块在DREAM5中着色E大肠杆菌图2中所示的基因网络包括:4.

图4.
图4.

模块识别Dream5E大肠杆菌网络采用ModulaBost算法。网络拓扑源自DREAM5E大肠杆菌金标准,并显示出清晰的拓扑模块。根据仿生料的分解结果,用不同颜色标记多种基因模块。在分解部件中使用ICA-FDR算法以检测来自时间序列表达数据的功能模块

在无花果。4.,图中的节点表示TF或基因和边表示法规。用相同的颜色着色的那些节点被分配到相同的功能模块,根据在ModularBoost方法ICA-FDR分解。使用注释,基因模块是加深关于与给定的网络调控机制的认识至关重要。从这个角度来看,ModularBoost方法提供了一个数据驱动溶液直接从表达数据揭示的功能模块,即使没有精确的注解。从原料模块识别不同,该方法ModularBoost在第一阶段检测到的基因,然后推断在第二级模块化帧间和帧内模块化法规。TF-基因对之间的定向调控边缘将有必要进一步分析信息流和潜在的生物物理解释。

表7 AUROC,AUPR索引在Dream5网络中的比较

在系统生物学中,密集连接的节点通常与特定的细胞功能或疾病有关[25.].在这种情况下,模块化船舶方法旨在通过明确的社区结构提供重建的GRN拓扑。这是模块化船舶方法拥有的重要角色。其他候选推理算法,包括基于RIDGE回归的TIGRESS和基于集合的GRNBOOST2主要集中了整个网络结构[2].

从两个DREAM5网络的基因模块检测结果来看,ModularBoost方法中的ICA-FDR部分高效地完成了第一阶段的任务。在后续的子网络推断中,对比表中AUROC和AUPR指标7.. 每列中的最高值用粗体标出。

它可以从表中观察到7.在两个DREAM5网络中,ModulaBost方法获得的AUROC和AUPR指数高于标准ridge和GRNBoost2。提出的ModulaBost方法通过引入基因模块作为拓扑约束,集成了基于集成的GRNBoost2和岭推理方法。TIGRESS算法的核心是正则化回归,与传统线性回归方法相比,AUPR指数更高。网络推断任务是在一台内存为8GB、英特尔i7-9750h2.60GHz的计算机上执行的。GRNBoost2算法用了1小时57分钟完成对DREAM5的推断s奥里斯网络,才需要模块化船只需要7分钟以获得相同的任务。Grnboost2算法在Dream5上拍摄了41小时46分钟E大肠杆菌网络,而模块化船占1小时8分钟,减少了约96%的计算工作。梦想5酵母网络36小时36分钟,GRNBoost2推断需要1小时,模块化船只使用1小时9分钟。显然,与GRNBoost2相比,模块化船体显着提高了网络推断的速度,并且没有导致网络推断的准确性的显着降低。引入拓扑限制的一个优点是提高推理准确性。另一个好处是减少计算负担,特别是对于有数千个监管边缘的GRN。

对于三种类型的GRN,通过幂律分布装配度分布,如图2所示。5..与基于RIDGE的推理算法相比,通过模块化船舶方法获得的GRN与金标准网络更接近相似。这些结果表明,模块化推断的网络与“真正的”网络拓扑相似。线性拟合参数如表所示8.

图5.
图5.

幂律分布E大肠杆菌和酵母。幂律分布与\(\ log _ {10} \)-\(\ log _ {10} \)黄金标准网络,模块化推断网络和脊推断网络的学位E大肠杆菌和酵母

表8中的线性拟合参数\(\alpha\)C对于幂律分布

讨论和结论

本文旨在开发一个基于模块识别的GRN推理的无缝框架。为了从表达式数据中检测模块,本文提出的ModularBoost算法采用了基于ica的分解算法。在几种候选分解方法中,ICA-FDR在检测精度方面表现出优势。在这种情况下,ModularBoost采用ICA-FDR算法从转录组数据中检测基因模块。在随后的网络推理部分,分别采用基于集成的算法和基于稀疏回归的算法确定模块内和模块间的交互。ModularBoost背后的思想是在传统网络推理中引入拓扑约束。这种拓扑约束考虑GRN和其他生物网络中的固有群落结构,可以通过数据驱动方法引入。

所提出的模块化船舶方法也可以作为处理时间序列和单个小区表达数据的低重量溶液。基于策划和SCRNA-SEQ数据集的实验结果,模块化船舶方法能够提高推理准确性以及降低计算时间。可以理解,网络推断的分解可以降低计算负担,因为原始任务被传送到多个子任务。目的是获得具有更好的生物物理或生物医学解释的拓扑。为了评估所识别的监管模块的有效性,需要有关叫做模块金的相关注释。本研究适用模块标签和计算\(F_{rr}\)指数定量评价的数据驱动的基因模块识别性能。

模块化船舶方法

ICA-FDR基基因模块识别

基因模块对应于具有相似表现形式和生物功能的基因组。关于基因模块的研究有助于研究人员更好地了解疾病模块和基因疾病关系。

一般来说,独立成分分析(ICA)的目的是找到隐藏的“独立成分”,即本研究中的基因模块[26.].当应用于基因模块检测领域时,ICA通常拆分表达数据矩阵X分为两个矩阵:源矩阵S.和一个混合矩阵一种, 意思是\(x = \)如图所示。6.

图6.
图6.

ICA-FDR分解方法的概述。castica分裂表达式X进入混合矩阵一种和一个源矩阵S..包含在行的行中S.,组件反映了影响基因表达的隐藏生物过程。对组分的遗传影响水平由热彩色图反映,从黑暗(最小)到红色(最大)。FDR估计确定将哪个基因分配给每个模块

对于单细胞表达矩阵X,这项研究假定列和行X分别对应于基因和细胞样本。表达值\(间{ij} \)基因j在样品上一世显示为原稿

$$ \ begined {对齐} x_ {ij} = \ sum _ {k} a_ {ik} s_ {kj} \ end {aligned} $$
(2)

哪里\(A_ {IK} \)反映了细胞样本的贡献一世在组件中K.\(s_{kj}\)表示组分的贡献K.关于基因j[16.].ICA分解算法是在采用优化标准组件的独立性不同。在这项研究中,我们选择了一个高效的ICA算法,FastICA算法。的FastICA的目标是通过固定点迭代帧找到数据预白化的正交旋转[27].FastICA迭代地最大化旋转分量的非高斯性,直到收敛K.相对的独立信号K.基因模块在此过程中发现。

FastICA算法试图在源矩阵中找到具有非高斯特征的源矩阵中的基因组件。源矩阵中的每个模块化信号通常都遵守重型的正态分布。在这种情况下,尾部的那些基因对这些组分具有显着的贡献,而峰的大多数基因产生薄弱。在下一步中,我们应用了假发现速率(FDR)估计以将基因分配给各种功能模块。

ICA-FDR算法的基本步骤如算法1所示。

雕像

输入参数包括基因模块的数量\(n \ _comps \),最大迭代次数\(max \ _ter = 20 {,} 000 \)在本研究中,Q值的阈值Q_Cutoff..将美白过程定义为Eq。3.

$ ${对齐}\ \开始varvec{\波浪号{x}} = \ varvec {ED} ^ {5} \ varvec {E} ^ T \ varvec {x} \{对齐}$ $
(3)

哪里\ (\ varvec {E} \)表示特征向量的正交矩阵\ (E \ {\ varvec {xx} ^ T \} \)\ (\ varvec {D} \)是其特征值的对角矩阵。ICA-FDR的首要目标是最大化非高斯性,非高斯性通过负熵近似来度量\ (J_G (\ varvec {w}) \)在方程式中给出。4.

$ $ \{对齐}开始J_G (\ varvec {w}) = H (\ varvec {w} _{高斯})- H (\ varvec {w}) \{对齐}$ $
(4)

\(h(\ cdot)\)可以定义为eq。5.在ICA-FDR中:

$$ \ begin {对齐} j_g(\ varvec {w})= [【varvec {w} ^ t \ varvec {\ tilde {x}})\} - e \ {g(\ nu)\}] ^ 2 \结束{对齐} $$
(5)

哪里\(\ upsilon \)是单位方差和零均值的高斯变量,并且\(G(\ CDOT)\)是用于提高估计稳健性的非二次函数,例如:

$$ \ {开始对准} G_1(U)= \压裂{1} {A_1} \ LOG \ COSH a_1u,\ \ \ \ G_2(U)= - EXP(-u ^ 2/2)\ {端对齐}$$
(6)

(\ cdot) \ \ (g)这是一种算法。1是等式中函数的导数。6.

$$ \ begined {对齐} g_1(u)= tanh(a_1u),\ \ \ \ g_2(u)= u \ exp(-u ^ 2/2)\ end {对齐} $$
(7)

FDR表示实验中错误发现的数量除以总发现的数量,发现是提供接受阈值的统计检验。通过假设检验,本研究首先评估了每个模块信号中基因的统计意义。这产生了一个P.每个模块中的基因值,以及按降序排列的列表。通过从试验数据中计算“Q值”,对多次试验进行校正P.值和估计FDR值[28].计算q值的公式由Eq定义。8.

$$ \ {开始对准} Q_ {IK} = \压裂{P_ {IK} N} {I} \ {端对齐} $$
(8)

哪里\(p_{ik}\)是个\(我^ {th} \)最小的P.- alueN基因P.价值的K.模块化信号。

后工艺的基本原则是将Q值较低的基因分配Q_Cutoff.到一个模块,流程如图所示。6..根据基因和模块的数量,值Q_Cutoff.从集合中选择了{10^{-1}, 10^{-2}, \ldots, 10^{-13}\}\)

基于ICA的分解也有几种衍生品,包括ICA-FDR,ICA-FDR2和ICA-Zscore。ICA-FDR2类似于ICA-FDR,但根据基因规则的迹象,将每个组件分为两个模块,而ICA-ZScore则替换FDR索引与Z分数以检测来自源信号的模块。作为减少维度的工具,主要成分分析(PCA)可用于可视化生物样本中的相似性[29].我们测试了这些方法在实验中的性能,以与ICA-FDR进行比较。

基于分解的GRN混合推理

不同的NI算法有其独特的特点,多种算法的组合可以提供一种可能的策略来获得具有稀疏和密集交互的网络[11.].ICA-FDR算法将基因分成不同的模块。对于grn,功能相关的基因或转录因子形成基因模块,其中模块内的连接比模块间的关系更紧张。在本节中,我们根据检测到的基因模块,提出了一种算法,利用GRNBoost2推断模块内相互作用和脊回归确定模块间的规则,符合群落结构。在计算模块间连接之前,提出的ModularBoost方法去除相同模块中的基因对,以减少计算负担。ModuleBoost的工作流程如图所示。7.

图7.
图7.

模块化的工作流程。(一种)输入:时间戳单细胞基因表达数据;(B.)步骤1:基于表达式模式,ICA-FDR将基因分配成具有各种颜色的多个模块;(C)步骤2:单独的Grnboost2为每个基因模块的Infers GRN\(n \ _comps \)分数按降序排列;(D.)步骤3:通过稀疏回归计算互模拟交互;(E.)步骤4:分别对推理得分进行归一化,计算GRN的合并边缘预测

使用GRNBoost2推断模块内交互

基于类似的理念为GENIE3,GRNBoost2推断调节器为每个目标基因纯粹来自基因表达矩阵[4.].传统的GRNBoost2推理算法基于梯度升压机(GBM)回归,专注于效率,并且是GRN推断中的排名算法。Grnboost2的一个字符是通过自调整机制的决策树数的全局估计。

一套\(n \ _comps \)由ICA-FDR分解的模块定义为\(m = \ {m_1,m_2,\ ldots,m_k,\ ldots,m_ {n \ _comps} \} \),在那里\(m_k = \ {g_1 ^ k,g_2 ^ k,\ ldots,g_ {k_n} ^ k \} \)\(k = 1,2,\ ldots,n \ _comps \),有\(k_n\)分配了基因\(m_k\).在下面的情况下,我们在每个模块上应用Grnboost2\(m_k\)并单独推断模块内的连接。学习样本可以构建为\(LS^k=\{\mathbf{x}\u 1、\mathbf{x}\u 2、\ldots、\mathbf{x}\u s、\ldots、\mathbf{x}\u N\\), 在哪里N是基因表达矩阵中的样品或实验的数量,以及\(\mathbf{x}{u s=(x{u s^1,x{u s^2,\ldots,x{u n})^T)是基因表达数据的载体S.第四个样本。

GRNBoost2假定在基因的表达水平\(m_k\)可以由模块中的其他基因表示,随机噪声。这表明了\ (\ mathbf {x} _ ^ {- j} \)可以定义为基因载体以外的基因jS.- 观察样本,即\(\ mathbf {x} _s ^ { - j} =(x_s ^ {1},x_s ^ {2},\ ldots,x_s ^ {j-1},x_s ^ {j + 1},\ ldots,x_s^ {k_n})^ t \).因此,靶基因的表达行为j由其他基因控制,由等式显示。9.

$$
(9)

哪里\(\ varepsilon _s \)是一种随机噪音,均值为零。功能\(f_j(\cdot)\)利用基因的直接调控表达j,并根据学习样本进行训练\(LS_j^k=\{(\mathbf{x}{u s^{-j},x_s^{j}),s=1,\ldots,N\}).同时,特征选择计算置信度\(w{ij}(i\ne j)\)对于来自基因的调节边缘一世基因j.对于基于树回归的GRN推理方法,功能\(f_j(\cdot)\)由决策树的集合决定。在每个树节点\(\ phi \),计算输出变量的方差的总减少为:

$$ \ begined {对齐} i(\ phi)= svar(s) - s_lvar(s_l) - s_rvar(s_r)\ neg {aligned} $$
(10)

哪里S.是树节点上的样本集\(\ phi \)\(s_l \)\(S_R \)表示左和右子树,\(var(\ cdot)\)表示分裂过程中的方差。

对于GRNBOOST2,每个决策树都是由大约90的随机样本的随机样本训练\(\%\)原始数据和10\(\%\)其他的被称为袋外样本,它改善了损失函数[5.].当损失函数满足平均损失改进为0的早期停止规则时,树木停止生长。

因此,基因模块对应于具有多个拓扑的重要性级别的子网。收集监管协会和在按降序排序,帧内模块化推理定型如图所示的输出。7.C。

使用稀疏回归推断模块间连接

通过基于集合的GRNBoost2算法推断调节因子和靶基因之间的调节关联,而模块外部的调节器控制的关系仍然未知。具有生物学上有意义的约束的稀疏回归算法的组合可以提供有希望的解决方案,以提高GRN推理的精度。基于这一假设,我们通过采用正规的线性回归(脊回归)并使用预处理来恢复不同模块中基因的监管关系,以降低计算复杂性。模块间推理的可视化可用于图2中可用。6.天。

在下文中,给出N基因,m样品和表达矩阵\ \ (E_{米乘以n} \)时,线性回归问题可定义为:

$$ \ begined {对齐} \ varvec {e} _t = \ alpha _ {r_1,t} \ varvec {e} _ {r_1} _ {r_1} + \ alpha _ {r_2,t} \ varvec {e} _ {r_2} +\ ldots + \ alpha _ {r_t,t} \ varvec {e} _ {r_t} + \ varvec {\ beta} _t \ end {aligned} $$
(11)

哪里\(\ varvec {e} _t \)是目标基因的表达值载体\(g_t \在g = \ {g_1,g_2,\ ldots,g_n \},t = 1,2,\ ldots,n \).潜在的监管机构\(g_t \)即在同一模块与不\(g_t \)表示为\ (G ^ {- t} = \ {g_ {r_1}, g_ {r_2}, \ ldots g_ {r_t} \} \), 和\(\ varvec {e} _ {r_1},\ varvec {e} _ {r_2},\ ldots,\ varvec {e} _ {r_t} \)是表达的\(g ^ { - t} \). 详情如下:

$ ${对齐}\ \开始离开(\{数组}{c}开始e_ {1, t} \ \ e_ {2, t} \ \ \ vdots \ \ e_ {m t} \结束数组{}\右)=左(\ \{数组}{预备}开始e_ {1, r_1} ^ t & \四e_ {1, r_2} ^ t & \四& \四e_ {1, r_t} ^ t \ \ e_ {2, r_1} ^ t & \四e_ {2, r_2} ^ t & \四& \四e_ {2, r_t} ^ t \ \ \ vdots & \四\ vdots & \四\ ldots & \四\ vdots \ \ e_ {m, r_1} ^ t & \四e_ {m, r_2} ^ t & \四& \四e_ {m, r_t} ^ t \结束数组{}\)\离开(\开始{数组}{c} \α_ {r_1, t} \ \ \α_ {r_2, t} \ \ \ vdots \ \ \α_ {r_t t} \结束数组{}\右)+ \离开(\开始{数组}{c} \β_ {1,t} \ \ \β_ {2,t} \ \ \ vdots \ \ \β_ {m t} \结束数组{}\)\{对齐}$ $
(12)

哪里\(\alpha{r\u t,t}\)是描述调节器影响的回归系数\ (g_ {r_t} \)在靶基因上\(g_t \), 和\(\varvec{\beta}\)是回归中的噪声向量。为了得到解向量\(\ varvec {\ alpha} \)对于每个目标基因,岭回归的目标函数定义为:

$$ \ begined {对齐} l = \ arg \ min _ {\ alpha} \ vart \ varvec {e} _t- \ varvec {e} _r \ varvec {e} _r \ varvec {e} _r \ varvec {\ alpha} \ vert ^ 2_2 + \ frac {1} {2} \ vart \ varvec {\ alpha} \ vert _2 ^ 2 \ end {对齐} $$
(13)

在额定惩罚术语的地方\(\ vart \ varvec {\ alpha} \ vert _2 ^ 2 \)使损耗功能凸,导致最小独特。

子网和跨模块连接的推论,共经过\(n次(n-1)\)计算因果关系和重要评分。然后使用最大 - 最小归一化标准化模块内和模块间关系的调节边缘分数:

$$ \ begined {对齐} x_i'= \ frac {x_i - \ min(\ mathbf {x})} {\ max(\ mathbf {x}) - \ min(\ mathbf {x})} \ end {对齐$$
(14)

根据标准化的重要分数,对监管关联进行组合,并按降序排列。因此,我们可以用金标准校准这些关联,如图所示。7.e,并使用AUROC指数来检验排名顶端的真实监管关系是否丰富。

评价指标

评估度量用于定量评估数据驱动模块识别方法的性能。作为索引f度量,rand索引和归一化的互信息面临检测重叠模块的问题[9.].这项研究选择了恢复相关性, 和\(F_{rr}\)为了评估ICA-FDR的模块识别方法的准确性,以实现它们的处理重叠的高精度和效率。三个索引在[0,1]的范围内,并且仅在观察到的模块和已知模块完全相等时才能达到值1。

\(\ hat {m} \)m是组已知的和观察到的模块。在该第一阶段中,的距离(相似度)矩阵由两个模块组之间的的Jaccard指数计算。

$ $ \{对齐}复苏开始= \压裂{1}{{M} | | \帽子}\总和_{\帽子{M} \ \帽子的{M}} \马克斯_ {M \在M} Jaccard (M \帽子{M}) \{对齐}$ $
(15)
$$\begin{aligned}相关性&=\frac{1}{M}\sum{M\in M}\max{\hat{M}\in\hat{M}Jaccard(M\hat{M})\end{aligned}$$
(16)

恢复用于将已知模块与观察模块匹配,以及相关性索引反映了观察模块与已知模块匹配的程度。

然后,计算相似度得分\(F_{rr}\)将已知模块映射到已检测模块,反之亦然。对假阴性进行量化的分数(相关性通过平均已知模块的相似性并挑选检测到的模块中的最佳代表来计算。另一个与误报有关的分数(恢复)以类似的风格计算。通过veriging给出模块相似性的不对称方法相关性恢复如eq所示。17.

$$ \ begin {对齐} f_ {rr} = \ frac {2 \ cdot recovery \ cdot相关性} {recovery +相关性} \ end {aligned} $$
(17)

本研究使用接收算子曲线下面积(AUROC)和精确召回曲线下面积(AUPR)来揭示ModulaBost网络推理算法的准确度水平。ModuleBost输出假定的监管互动的降序列表。只拣上面的K.在此列表中的边缘,我们将它们与黄金标准进行比较,以评估误报(FP),真正的阳性(TP),假否定(FN)和真正否定(TN)的数量。ROC曲线显示了虚假阳性率(FPR)和不同阳性率(TPR)之间的权衡K.的阈值,而PR描述召回和精度之间的关系。FPR,TPR,召回和精密表示为:

$$ \ {开始对准} FPR&= \压裂{FP} {TN + FP},\ \ \ \ TPR = \压裂{TP} {TP + FN} \ {端对齐} $$
(18)
$$\begin{aligned}recall&=\frac{TP}{TP+FN},\\\\precision=\frac{TP}{TP+FP}\end{aligned}$$
(19)

最后,通过计算ROC和PR曲线下的区域分别评估AUROC和AUPR。

可用性数据和材料

在当前研究期间分析的数据集可在GitHub存储库中获得,https://github.com/cosinalee/modularboost.git.

缩写

grn:

基因监管网络

你:

网络推理

PPI:

蛋白质 - 蛋白质相互作用

FDR:

错误发现率

GSD:

Gonadal性别决定

TF:

转录因子

ICA:

独立成分分析

主成分分析:

主要成分分析

AUROC:

接收运营商曲线下的区域

AUPR:

精确查全曲线下的面积

Scrna-SEQ:

单细胞RNA测序

上一篇:

原始内胚层细胞

mef:

小鼠胚胎成纤维细胞

德:

定型内胚层细胞

GBM:

梯度升压机

FP:

误报

TP:

真正的积极

FN:

假阴性

TN:

真正的底片

FPR:

假阳性率

TPR:

真阳性率

参考

  1. 1。

    邓勇,蒋永华,杨勇,何智,罗峰,周军。分子生态网络分析。BMC Bioinf。2012;13(1):113。

    文章谷歌学术

  2. 2。

    哈利AC,Mordelet F,Vera-Licona P,Vert JP。TIGRESS:使用稳定性选择的基因调节的信赖推断。BMC SYST BIOL。2012; 6:145。

    文章谷歌学术

  3. 3.

    Omranian N, eloundu - mbebi JMO, muller - roeber B, Nikoloski Z.使用融合套索在多个数据集上的基因调控网络推断。面众议员2016;6(1):20533。

    中科院谷歌学术

  4. 4.

    Irrthum A,Wehenkel L,Geurts P等人。使用基于树的方法从表达数据推断法规网络。Plos一个。2010; 5(9):12776。

    文章谷歌学术

  5. 5.

    Moerman T,Aibar Santos S,BravoGonzález-Blas C,Simm J,Moreau Y,Aerts J,Aerts S. Grnboost2和Arboreto:基因监管网络的高效和可扩展推断。生物信息学。2019; 35(12):2159-61。

    中科院文章谷歌学术

  6. 6.

    弗里德曼jh。贪婪函数近似:梯度升压机。安统计。2001; 29(5):1189-232。

    文章谷歌学术

  7. 7.

    信JJ,Hayete B,Thaden JT,Mogno I,WierzbowskiĴ,Cottarel G,Kasif S,柯林斯JJ,加德纳TS。大规模的映射和验证大肠杆菌表达谱汇编的转录调节。Plos Biol。2007; 5(1):8。

    文章谷歌学术

  8. 8.

    陈TE,施通普夫MP,Babtie交流。利用多元信息的措施单细胞数据基因调控网络的推理。细胞SYST。2017; 5(3):251-67。

    中科院文章谷歌学术

  9. 9。

    Saelens W,Cannoodt R,SAEYS Y.对基因表达数据模块检测方法进行综合评价。自然交流。2018; 9(1):1-12。

    中科院文章谷歌学术

  10. 10。

    乔萨贝尔D,鲍德温N。通过模块化转录谱分析使系统免疫学民主化。Nat Rev免疫。2014;14(4):271–80.

    中科院文章谷歌学术

  11. 11.

    李伟,张伟,张杰。一种新的基于聚类和中心基因发现的模型集成网络推理算法。分子Inf.2020;39(5):1900075.

    中科院文章谷歌学术

  12. 12.

    Alsina L,以色列人E,Altman MC,Dang KK,Ghandil P,以色列L,Von Bernuth H,Baldwin N,Qin H,Jin Z等。患者患者在MyD88或Irak4中丧失功能突变的患者中损害了响应于脓泡细菌的狭窄的转录模块。NAT IMMUNOL。2014; 15(12):1134-42。

    中科院文章谷歌学术

  13. 13

    宋Q,Grene R,Heath Ls,Li S.在基因组规模转录网络中的监管模块鉴定。BMC SYST BIOL。2017; 11(1):140。

    文章谷歌学术

  14. 14

    柳Y,布罗萨尔男,Roqueiro d,Margaritte-JEANNIN P,Sarnowski C,Bouzigon E,Demenais F. SIGMOD:一个确切和有效的方法来在基因网络识别强烈互连疾病相关模块。生物信息学。2017; 33(10):1536至1544年。

    中科院PubMed谷歌学术

  15. 15

    张W,张章,张继,王N.基于拓扑分析的GRN分层参数估计。IET SYST BIOL。2018; 12(6):294-303。

    文章谷歌学术

  16. 16.

    Rotival M、Zeller T、Wild PS、Maouche S、Szymczak S、Schillert A、CastagnéR、Deiserath A、Proust C、Brocheton J等。整合全基因组遗传变异和单核细胞表达数据揭示了人类中的反式调节基因模块。《公共科学图书馆·遗传学》。2011;7(12):1002367.

    文章谷歌学术

  17. 17.

    普拉塔帕A、贾利哈尔AP、法约、巴拉德瓦A、穆拉利T。从单细胞转录组数据推断基因调控网络的基准算法。Nat方法。2020;17(2):147–54.

    中科院文章谷歌学术

  18. 18.

    Matsumoto H,Kiryu H,Furusawa C,Ko Ms,Ko Sb,Gouda N,Hayashi T,Nikaido I. Scode:分化期间的单细胞RNA-SEQ有效的监管网络推理算法。生物信息学。2017; 33(15):2314-21。

    文章谷歌学术

  19. 19。

    Marbach D, Costello JC, Küffner R, Vega NM, Prill RJ, Camacho DM, Allison KR, Kellis M, Collins JJ, Stolovitzky G.群体智慧的健壮基因网络推断。Nat方法。2012;9(8):796 - 804。

    中科院文章谷歌学术

  20. 20。

    元Y,Bar-Joseph Z.深入学习从单细胞表达数据推断基因关系。PROC NAT ACAD SCI。2019; 116(52):27151-8。

    中科院文章谷歌学术

  21. 21。

    张伟,李伟,张杰,王宁。混合微阵列和单细胞表达数据的数据集成,以增强基因网络推断。Curr Bioinf。2019;14(3):255–68.

    中科院文章谷歌学术

  22. 22。

    De Matos Simoes R,Dehmer M,Emmert-Streib F.接口蜂窝网络酿酒酵母E大肠杆菌:连接动态和遗传信息。BMC基因组学。2013;14(1):324。

    文章谷歌学术

  23. 23。

    Ouma WZ,Pogacar K,Grotewold E。基因调控网络的拓扑和统计分析揭示了统一但数量上不同的涌现特性。计算机生物学。2018;14(4):1006098.

    文章谷歌学术

  24. 24。

    Macisaac KD,Wang T,Gordon DB,Gifford DK,Storpo Gd,Fraenkel E.一种改进的Saccharomyces Cerevisia的保守监管部位地图。BMC Bioinf。2006; 7(1):1-14。

    文章谷歌学术

  25. 25

    罗p,li y,tian l-p,wu f-x。增强多峰深度学习疾病 - 基因关联的预测。生物信息学。2019; 35(19):3735-42。

    中科院文章谷歌学术

  26. 26

    Nascimento M,Silva FFE,SáfadiT,Nascimento Acc,Ferreira Tem,Barroso LMA,Ferreira Azevedo C,吉马齐莎SEF,Serãonvl。基于临时RNA-SEQ数据的基于独立组分分析(ICA)聚类。Plos一个。2017; 12(7):0181195。

    文章谷歌学术

  27. 27

    海夫里宁A,奥贾E。独立成分分析:算法和应用。神经网络。2000;13(4–5):411–30.

    文章谷歌学术

  28. 28.

    Benjamini Y,Hochberg Y.控制虚假的发现率:多种测试的实用和强大的方法。J Roy Stat SoC:Ser B(方法)。1995年; 57(1):289-300。

    谷歌学术

  29. 29.

    姚F,柯杰,曹国强。独立主成分分析用于大型生物数据集的生物意义降维。BMC Bioinf。2012;13(1):24.

    文章谷歌学术

下载参考

致谢

作者感谢李文超对GRN推断的初步研究,这启发了这个项目的想法。Li对scRNA-seq数据原理的指导也为本研究提供了更广阔的视角。

资金

不适用。

作者信息

隶属关系

作者

贡献

XL测试了模块化的表现,并写了稿件。WZ起草了初始想法,加载了初始数据集,并写了稿件。JZ和GL是监督和引导整个研究过程。所有作者阅读并认可的终稿。

相应的作者

对应于魏张或者张建明张

道德宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

李,X.,张,W.,张,J。等等。模块化船:基于模块分解的高效网络推理算法。欧宝娱乐合法吗22,153 (2021). https://doi.org/10.1186/s12859-021-04074-y

下载引文

关键词

  • 监管网络推断
  • 基因模块分解
  • Grnboost2.
  • 线性回归
\