跳到主要内容

通过双向反复性神经网络预测RNA二级结构的研究

摘要

背景

RNA二级结构预测是生物信息领域的重要研究内容。预测具有伪发电机的RNA二级结构已被证明是一个NP难题。由于在预测RNA二级结构时,传统的机器学习方法不能有效地应用于具有不同序列长度的蛋白质序列信息,以对自动模型的约束来预测过程。另外,在RNA序列中的配对基部的数量和未配对的基质的数量之间存在很大差异,这意味着阳性和阴性样品不平衡的问题易于使模型落入局部最佳状态。为了解决上述问题,本文提出了一种可变长度的动态双向门控复发单元(VLDB GRU)模型。通过引入标志向量,该模型可以接受具有不同长度的序列。该模型还可以在预测基础之前和之后充分利用基本信息,并且可以避免由于截断而丢失部分信息。引入重量向量以通过动态调整每个基本损耗功能来预测RNA训练,解决了均衡样本不平衡的问题。

结果

在数据集RNA链的五个代表子集上,将本文提出的算法与现有算法进行了比较,实验结果表明,该方法的准确度和Matthews相关系数分别提高了4.7%和11.4%。

结论

引入的标志向量允许模型在蛋白质序列之前和之后有效地使用信息;引入的重量载体解决了样本平衡不平衡的问题。与其他算法相比,本文提出的LVDB GRU算法具有最佳的检测结果。

背景

核糖核酸(RNA)作为生物体的遗传载体,在生物体中起着非常重要的作用,特别是在HIV等病毒中,其遗传信息是由RNA而不是DNA来携带的[1].RNA的功能通常由其空间结构决定,其空间结构通常分为三个层次。RNA的一级结构是指四个核苷酸的排列顺序。由于不同的碱基产生不同的核苷酸,RNA的一级结构由四个碱基组成:A、C、G、u。RNA的二级结构是指非相邻碱基相互作用、折叠而形成的平面结构。发夹环、凸起环、内环、多分支环、单链区、螺旋和假结是7种公认的二级结构要素。目前,大量的实验表明,RNA的二级结构与其功能密切相关[2].因此,研究RNA的二级结构是我们理解和研究其功能的第一步[3.]然而,RNA分子具有结晶困难、降解快的特点,传统的X射线晶体衍射和核磁共振测定二级结构的方法不仅耗时、昂贵,而且不适用于所有RNA分子[4.].

目前,RNA二级结构的预测主要分为三类:基于最小自由能的方法,基于统计的序列比较和方法的方法。最小自由能模型通常用于预测RNA的二级结构,仅在RNA的主要序列没有任何先前知识的情况下[5.6.].该模型假设RNA将折叠成具有最小自由能的稳定的二级结构。基于这个想法,Akiyama等。提出了一种相结合热力学方法和机器学习的加权方法[7.].该方法通过基于原始机器学习模型在训练过程中添加正则化术语来避免在原始模型中可能发生的过度拟合问题。伊斯兰教等。提出了一种基于化学反应优化算法的模型(CRO)[8.].该模型通过对RNA序列中重复茎的验证和删除,在一定程度上加快了预测时间。Jin Li等人提出了一种基于茎替换和生长的RGRNA模型,利用组合优化算法提高了RNA二级结构预测的准确性[9.]然而,这些方法仍有两个缺点:第一,它们的预测精度相对较低,通常仅在50到70%之间;第二,这种方法只考虑了配对碱基对自由能的影响,不能用伪结预测RNA序列。但是,伪结是RNA序列中常见的结构,因此这种方法具有明显的局限性。基于比较序列的方法是通过比较和分析大量同源RNA分子序列来确定RNA的二级结构。TurboFold II由甄坦等人提出,是一种基于多个RNA同源序列预测RNA二级结构的方法。与TurboFold相比[10.ThowoOdold II增加了多个序列的比较。Ouangraoua等人提出的Alifreefold模型。是通过计算由一组同源RNA序列的代表性结构产生的次优二次结构来加速预测,当同源RNA增加并且预测效果不理想时,通过来自一组同源RNA序列产生的各种序列产生的次优二次结构。在这些方法中,预测之前的比较方法是基于结构保守性大于序列保守性的前提。该方法的预测效果强烈取决于序列比较的结果。同时预测和序列比较方法的主要思想是循环序列比较和最大基对折叠,这消耗了计算机的时间和空间资源。比较之前的预测方法考虑了进化信息,但这种方法不能预测与伪通知的RNA序列。基于统计的概念,可以将问题转换为序列中基本配对结果的分类问题。Bellaousov S等人。提出了通过比较含有少于700个核苷酸的大RNA序列数据库的预测结构和已知结构来预测RNA的二次结构方法[11.]Rujira Achawanantakun等人使用保留结构特征邻接和嵌套的方法,而不考虑螺旋和环区域长度细节的抽象形状,并使用支持向量机方法预测RNA的二级结构,该方法可以预测包含伪结的RNA序列[12.].这些算法也取得了某种结果,但存在一些缺陷。首先,RNA碱基配对是一种复杂的生物过程,并且难以通过简单的公式或浅程的普通学习挖掘序列中包含的信息[13.14.].其次,它们受到自己模型的问题的限制,因此它们只能接受固定长度序列信息[15.].第三,由于训练数据集中的正和阴性样本的不平衡,训练有素的模型可能是局部最佳的(表1)。

表1动态调整损耗函数的训练算法

在本文中,提出了一种可变长度动态双向门控复发单元(VLDB GRU)模型,以根据当前RNA二级结构预测方法及其缺陷的特征来解决上述问题[16.17.].RNA二级结构的预测基于序列,即前后底座之间的氢键力可能影响其他碱基之间的氢键的效果,而Gru神经网络模型则擅长处理基于序列的问题[18.].因此,本文选择GRU作为算法的主要框架。该算法通过设置最大递归值和标记向量来保证不同序列长度的RNA序列都能被接受,并通过对每个碱基的损失函数进行动态调整来解决正样本和负样本之间的不平衡问题重量向量。

结果

基于双向递归GRU算法的五种数据集的预测结果(表中的GRU2。)和可变长度双向递归GRU算法(表中的标志2。)和VLDB GRU算法(表中的VLDB2。)如表所示2.从表中的数据2,我们可以看到三点信息。首先,三种模型在SPR数据集和ASE数据集上最差地执行最佳。该结果与两个数据集的最大序列长度相关。从数据集的选择可以看出,SPR数据集上的最大序列长度为93,并且ASE数据集的最大序列长度为486.由于递归神经网络获得的最大递归值是最大值数据集的序列长度值,数据集的最大序列长度越大,递归神经网络的最大递归值以及学习模型的难度越大。其次,可变长度双向反复性神经网络模型具有比五个数据集的双向复发神经网络模型更好的预测结果,这表明了引入a的方法旗帜向量比序列长度补充的简单方法更合理,科学,也使学习模型更加坚固和强大。第三,与标志模型相比,VLDB GRU模型是ASE和SRP数据集中最突出的,并且在RFA数据集中的最后一次在TMR和SPR数据集中没有明显的优势。这些数据结果与每个数据集合的配对基础和未配对基础有关,因为VLDB GRU模型是解决数据集上的配对基础和未配对基础之间的不平衡问题的算法改进。从图1中可以看出。1,配对基座与五个数据集上未配对基础之间的差异是ASE,SRP,SPR,RFA和TMR从大到小。其中,对TMR数据集的配对基座和未配对基础的情况与整个数据集的情况完全相反。因此,介绍一个方法重量向量在TMR数据集上没有明显优势,但本文提出的VLDB GRU模型在ASE和SRP数据集上可以看到很好的效果。因此,基于以上三点,本文VLDB模型的预测效果优于其他两种模型。

表2基于VLDB GRU算法的实验结果
图1
图1

配对和未配对的基础的情况

与其他算法的比较

本文中的训练算法(VLDB GRU)与现有的支持向量机算法(SVM),Probknot算法,长射门存储器(LSTM)算法和五个数据集SPR,ASE,RFA,SRP和STMOLD算法进行比较TMR。实验比较结果如表所示3..实验中各指标的差异如图所示。23.

表3与其他算法的比较
图2
图2.

VLDB GRU和Probknot算法之间的索引差异

图3
图3.

VLDB GRU和SVM算法之间的索引差异

案例研究

SRP_00256(PIR.SPE.)是一种信号识别粒子核糖核酸。其序列的一级长度为93。此类分子通常可以识别同一氨基酸的多个密码子。其5'末端碱基为修饰碱基,a修饰为I(亚嘌呤),它可以与U、C和A配对。因此,这种RNA的配对要复杂得多。图4.(a)是SRP_00256的自然次级结构图,(b)是这里预测的SRP_00256的二级结构图,(c)是使用probknot方法预测的SRP_00256的二级结构图。黑色碱基指示正确预测的配对或未配对的基础,红色表示预测的配对或未配对的基础错误。其他案例研究数据可以从中评估http://eie.usts.edu.cn/prj/currentdata/index.html.

图4
图4.

SRP_00256二级结构图

讨论

从表中可以看出3.,VLDB GRU模型在数据集SPR上的其他两个算法上具有明显的优势。一方面,GRU擅长处理前后序列之间的相关问题。另一方面,该模型可以接受不同长度的序列,而不会猛烈截断序列的长度。因为这重量传染媒介方法也给出了更好的准确性。另外,可以看出,VLDB GRU模型在数据集ASE上也表现良好,但是与数据集SPR上的每个算法的索引减少,这在很大程度上与ASE数据集其自身的特性有关那because the proteins on the ASE data set are RNase P proteins, i.e., ribonuclease P, which contain a large number of bases, making the prediction of its secondary structure more difficult. From Figs.23.,我们可以看到VLDB GRU模型对Probknot算法,SVM算法,LSTM算法和圆柱形算法的每个数据集上的预测精度,特别是在数据集TMR上,所提出的方法比Probkn高出13%和21.9%。分别在ACC和MCC中的算法。因此,与其他算法相比,本文提出的VLDB GRU模型可以更准确地预测RNA的二次结构。

结论

本文基于递归神经网络模型设计了VLDB GRU模型。该方法一方面改进了传统的处理不同长度序列的RNA数据集的方法,通过设置a旗帜序列中的每个碱基的向量,即数据集的简单粗截断方法,有效地使用蛋白质序列中的所有信息。另一方面,该方法提高了RNA二级结构预测的准确性。此外,为了解决正面和阴性样品之间不平衡的问题,本文采用了设置的方法重量每个基地的矢量。在计算每个基础的损耗功能时,动态调整损耗函数中的每个基部的比例,以避免模型落入本地优化并使训练模型更好。实验表明,与SVM,探针,LSTM和圆柱形算法相比,VLDB GRU模型分别提高了4.7%,9.1%,10.4%和7.7%,这表明本文提出的算法可以更好地预测RNA二级结构。

方法

数据集和测量

在本文中,我们选择RNase P型的ASE数据集,锤头核苷型,转移RNA型的SPR数据集,TMRNA型和信号识别粒子RNA类型的TMR数据集,以预测RNA二级结构。原因如下:首先,这五个RNA数据集是五个典型的RNA二级结构预测数据集;其次,这五种RNA数据集全部具有伪通知,这符合我们的研究问题;最后,这五种RNA数据集包括序列的最大长度远远大于最小长度的情况,最大长度靠近最小长度,并且配对基座大于大约等于和更小的而不是未配对的基础。这五个RNA数据集确保了我们实验结果的说服力[19.20.21.].各子集的统计数据如图所示。5.那在哪里‘Pseudoknots’ represent the number of pseudoknots in the dataset, ‘Average length’ represents the average length of the dataset sequence, ‘Max length’ represents the maximum sequence length of the dataset, and ‘Min length’ represents the minimum sequence length of the dataset. The situation of paired bases and unpaired bases in each subset is shown in Fig.1,其中“配对”表示配对碱基的数量,“未配对”表示未配对碱基的数量,“差异”表示配对碱基与未配对碱基之间的差异。

图5
图5.

子集的基本情况

本文采用灵敏度(SEN)、特异性(PPV)、马修斯相关系数(MCC)和准确性(ACC)四个指标对模型进行评价。世纪挑战是一个综合SEN和PPV的评估指标[22.23.].它们的计算方法显示在EQ中。(1)。

左$ $ \ \{{\开始{数组}{l *{20}}{森= \压裂{TP} {{TP + FN}}} \ hfill \ \ {PPV = \压裂{TP} {{TP + FP}}} \ hfill \ \ {MCC = \压裂{TP * TN - FP * FN}{{\√6{\离开({TP + FP} \) \离开({TP + FN} \) \离开({TN + FP} \) \离开({TN + FN} \右)}}}}\ hfill \ \ {ACC = \压裂{TP + TN} {{TP + TN + FP + FN}}} \ hfill \ \ \{数组}}结束\ $ $
(1)

其中Tp表示正确预测的基对的数量;TN意味着正确预测未配对的基础的数量;FP表示预测成对但不是实际配对的基础数量;Fn表示预测为未配对但实际配对的基础的数量。MCC的值范围在-1和1之间,其他三个指示符的值范围在0到1之间。这四个指示器越大,模型的预测效果越好。

RNA二级结构的预测。

基础是RNA结构的组合单位,通过碱之间的氢键相互作用形成稳定的碱基对[24.].正确预测二级结构是对RNA三级结构预测的强烈保证。在许多生物细胞中,伪动不足是复杂且稳定的结构。Pseudoknots指配对碱基对之间的交叉现象,如碱基一世与基地配对j基础m与基地配对N.,以及它们在RNA序列中的位置序列号满足的现象一世<m<j<N.被称为RNA序列中伪动脉的存在[25.26.].虽然不是所有的RNA二级结构都有伪结,但伪结对RNA的功能有重要的影响。因此,为了分析RNA的真实结构,必须解决伪结问题。目前,利用假结对RNA二级结构的预测得到了广泛的关注,这也是RNA二级结构预测中的一个主要问题。

从机器学习的角度来看,RNA二级结构的预测是提取RNA序列的相关主要信息。在数据预处理之后,结构化数据用作机器学习模型的输入。通过模型训练,可以在最大程度地预测RNA序列中的每个碱基的匹配。该过程可以被视为具有多种分类的监督学习过程。

功能选择和生成

根据Mathews等人。[27.[通过分区功能预测的基础的配对概率与真正的两个基础的配对概率之间存在正相关性。因此,本文将分区功能的输出结果作为输入特征的一部分,以提高RNA二级结构的预测精度。另外,序列中越频繁地出现,与基座配对的可能性越大。因此,在该实验中,输入功能如下:

  1. 1。

    通过RNA结构软件计算的配分函数的输出,给出了配分函数的计算方法N.*N.输出基质将在具有长度的蛋白质序列后获得N.计算。

  2. 2。

    序列中某一种碱基出现在该序列中的概率,以及该碱基在序列中所占据的频率,用一维向量记录并表示。

  3. 3.

    基类型信息。RNA一级结构可以用四个碱基来表示:A, G, C和u。我们用四维矢量来表示它们。图:A-0001, G-0010, C-0100, U-1000,其他-0000。

因此,对于每个基础,在选择,转换和扩展数据特征后,其输入特征可以被视为(N.+5.)-dimensions vector, whereN.表示递归神经网络的最大递归值,即序列所在数据集的最大长度。

模型的输入是三维数组X[一世jK.,第一个维度I表示一世- 数据集中的序列,值范围为1到batch_size;第二个维度j代表j-TH.一定序列的基础,其值范围为1至N..第三维度K.代表K.基础的 - 基本的特征,值范围为1到(N.+ 5)。其中batch_size表示模型每次训练样本的个数,本实验的值为200。

模型的输出是一个二维数组y\(y \ left [{i,j} \右] = 0 \)意味着(一世+1)base in the (一世+ 1)-th序列不与任何碱基配对,否则表示(j+1)-TH.base and the\(y \ left [{i,j} \右] \)- 在(一世+1)-TH.sequence are paired.

双向递归gru.

GRU是一种改进的算法,它克服了传统的递归神经网络不能很好地处理长距离依赖的缺点[28.29.].该算法添加了两个门,即更新门和复位门,其表达式如EQ所示。(2)。

$ $ \左\{{\开始{数组}{l * {20}} {r_ {t} =σ\ \离开({W_ {xr}间{t} + W_{人力资源}h_ {t - 1} + b_ {r}} \右)}\ hfill \ \ {z_ {t} =σ\ \离开({W_ {XZ}间{t} + W_{赫兹}h_ {t - 1} + b_ {z}} \右)}\ hfill \ \ {\ widetilde {{h_ {t}}} = \双曲正切\离开({W_ {xh}间{t} + W_ {hh} \离开({r_ {t} \ * h_ {t - 1}} \右)+ h_ {b}} \右)}\ hfill \ \ {h_ {t} = z_ {t}\ \ * h_ {t - 1} +左({1 - z_ {t}} \) \ * \ widetilde {{h_ {t}}}} \ hfill \ \ \{数组}}结束\ $ $
(2)

他们之中,X输入的是模型,而本文中的是三维阵列吗X[一世jK.]如前所述。每个基的输入特征对应一个递归循环,递归循环的总数是最大序列长度N.R.表示重置门,它可以决定丢弃哪些信息以及添加哪些新信息,Z.表示一个更新门,用于确定先前信息被丢弃的程度,以及\(\tilde{h}\)H表示新的隐藏状态和当前隐藏状态。Σ和Tanh分别代表Sigmoid函数和Tanh函数,这是模型需要培训和遵循的参数。图形抽象如图2所示。6.

图6
图6.

格勒乌结构

考虑到RNA二级结构的形成是碱基之间氢键相互作用形成的结构,RNA序列中碱基前后的序列信息会对二级结构产生一定的影响,因此,本实验选择双向递归神经网络模型进行训练。双向递归神经网络是将前向学习递归神经网络和后向学习递归神经网络结合起来的复合递归神经网络。计算过程如式(3.)。

$$ h_ {t} = \ optrightarrow {{h_ {t}}} + \ overleftrarrow {{h_ {t}}} $$
(3)

双向复发性神经网络的图形抽象如图2所示。7..重量W1.W6.在该图中分别表示向前和后向隐藏层的输入,向前和向后隐藏层到隐藏层本身,以及向输出层的向前和向后隐藏层。

图7
图7.

双向递归神经网络

可变长度双向递归GRU

因为每个RNA序列的长度不一致,所以传统的截断长序列或简单地完成短序列的方式将导致序列信息的丢失,导致信息浪费,或者将冗余信息添加到序列中,都是其中对RNA二级结构的预测具有一定的负面影响[30.31.32.].因此,在本文中,引入了标志向量以在数据预处理阶段的短序列上进行零填充处理,但在训练阶段,当为每个基部计算损耗函数时,将滤除填充部分。因此,不仅利用了序列的所有有效信息,而且还不允许填充冗余信息来干扰测试[33.].序列交叉熵的计算过程m在可变长度双向递归GRU模型中,如EQS所示。(4.) - (6.)。

$$ cross \ _loss_ {m} = \ frac {{\ mathop \ sum \ nolimits_ {i = 1} ^ {n} flag \ left [i \ light] \ cdot \,lock_ {m}}} {{\ mathop\ sum \ nolimits_ {i = 1} ^ {n} flag \ left [i \ light]}} $$
(4)
$$ flag \ left [i \ light] = \ left \ {{\ begin {array} {1,} \ zhill&{i \ le n} \ zhill \\ {0,} \填写&{n
(5)
$$ lost_ {m} = - \ mathop \ sum \ limits_ {j = 1} ^ {n + 1} y_ {{\ left [{i,j} \ recten]}}} \ cdot \,\ log \ left({Y \ left [{i,j} \右]} \右)$$
(6)

“操作员在哪里?”\ \ cdot \ ()“表示矢量的相应位置的乘法。

从方程。(5.),可以发现什么时候N.<一世N.旗帜[一世]的值为0,这使得\(flag\left[I \right] \cdot \,loss_{m}\)也需要一个值0,即参与完成的基础不会影响损失函数的值\(交叉\ _loss_ {m} \)

VLDB GRU.

由于RNA链中的配对碱基和未配对基部之间的比率为2:3 [34.35.[在该实验的多分类处理模式中,将秒省给出每个碱基的配对数,因此属于每个类别的基数的数量的比率为2 / N:2 / N:...:2 / n:3 [36.37.38.].这是一个严重的不平衡样本,模型倾向于将更多的基础分类为“未配对”的类别,以获得更高的准确性[39.40].为了避免模型落入这种局部最佳的模型,本文为每个基部设置了重量向量。如果基础是单个基础,并且没有与其配对的基础,则它被分配1,否则,它被分配给基座所在的序列中的所有基础的总和。因此,某个序列M的交叉熵的计算过程在EQS中示出。(7.) 和 (8.)。VLDB GRU模型的训练算法如表所示1

$ {{mathop \sum \nolimits_{i = 1}^{n} flag\left[i \right] \cdot \,weight [i \right] \cdot \,loss_{m}}{{mathop \sum \nolimits_{i = 1}^{n} flag\left[i \right] \cdot \,weight [i \right]}}$
(7)
$$weight\left[i\right]=\left\{\begin{array}{*{20}l}{1,}\hfill&{y\\left[{i,0}\right]\ne 0}\hfill\\{\mathop\sum\limits{i=1}{n}y\[i,0],}\hfill y&{y\[i,0]=0}\hfill$$
(8)

在哪里yy_表示模型预测某个类别和样本标签的概率。这旗帜向量表示该位置是否有一个基数,1表示存在,0表示不存在。N.是序列的长度。y_是一系列的n *N.+1)。什么时候y_[我,J.]等于1,这意味着(一世+1) th base and the (j)Th基部是配对的,否则这意味着它们不配对。什么时候y_等于1,这意味着(一世+1)TH.base is not paired with any base.

Xy_在表格中1分别表示基的输入特征和基的实标签L.[一世]对应于EQ的损耗功能。(7.)。

模型参数设置

模型将与每个基座相对应的特征向量映射到一组n维矢量,其用作双向GRU模型的输入。双向GRU模型的输出之后是两个完全连接层和一个输出层,最终分类数据。同时,神经网络可能落入过拟合,因此添加了辍学层以解决这个问题。模型的整体设计框架如图4所示。8.

图8
图8.

模型总体框架

在本文中设计的VLDB GLU模型中,可变长度意味着要预测的RNA序列的长度是不一致的。因此,我们选择每个数据集中的最大序列长度作为GRU递归的数量。Many experiments show that when the number of GRU hidden layer neurons is selected to be 50, the number of all connected layer neurons is selected to be 150, the learning rate is set to be 0.1, and the maximum number of iterations is set to be2000年,结果更好。实验结果如图1和图2所示。9.10.,11.,其中y轴代表预测精度率,以及X轴表示完整连接层的层数的设置值,隐藏层的层数,以及学习率。

图9
图9.

每个索引与完整连接层之间的关系

图10
图10.

每个索引和隐藏层之间的关系

图11
图11.

各种指标与学习率之间的关系

可用性数据和材料

支持本文结论的提取数据包含在文章中。可以从数据集中访问数据集http://eie.usts.edu.cn/prj/currentdata/index.html.

缩写

VLDB GRU:

可变长度动态双向选通循环单元

支持向量机:

支持矢量机器

LSTM:

长射门记忆

参考

  1. 1。

    Liao Z,Wang X,Chen X,Zou Q.机器学习方法预测和鉴定Krüppel样转录因子。梳理化学高吞吐量屏幕。2017; 20(7):594-602。

    中科院文章谷歌学者

  2. 2。

    麦卡斯基尔JS。RNA二级结构的平衡配分函数和碱基对结合概率。生物聚合物。2010;29(6):1105 - 19所示。

    谷歌学者

  3. 3.

    Mali P,Yang L,Esvelt Km,等。通过CAS9进行RNA引导人类基因组工程。科学。2013; 339(6121):823-6。

    中科院文章谷歌学者

  4. 4.

    廖Z,黄Y,岳X,陆H,宣平,Ju Y.利用新的基于机器学习的支持向量机和GBDT方法对γ-氨基丁酸a型受体进行电子预测。生物医学研究杂志,2016;2016:2375268。

    PubMed.公共医学中心谷歌学者

  5. 5。

    周问,李G,左年代,et al。丁酸钠诱导结直肠癌细胞生长抑制的分子基础的RNA测序分析。BioMed Res Int. 2019;2019:1 - 11。

    谷歌学者

  6. 6.

    Shi S,张XL,Zhao XL等。利用多群辅助量子遗传算法预测RNA二级结构。哼哼。2019; 84(1):1-8。

    中科院文章谷歌学者

  7. 7.

    Akiyama M,Sakakibara Y,等.结合热力学模型的RNA二级结构预测的最大边际训练.生物信息基础计算生物学杂志.2018;16(6):1840025。

    文章谷歌学者

  8. 8.

    基于化学反应的RNA结构预测。:智能。2019;49(2):352 - 75。

    文章谷歌学者

  9. 9

    李军,徐超,梁红,等。RGRNA:基于茎替换和生长的RNA二级结构预测。生物工程学报。2017;20(12):1-12。

    中科院文章谷歌学者

  10. 10。

    格鲁佐j-ps,ouangraoua a。Alifrereefold:一种对准的方法来预测来自同源RNA序列的二次结构。生物信息学。2018; 34(13):I70-8。

    中科院文章谷歌学者

  11. 11.

    Bellaousov S,Mathews DH。ProBknot:快速预测RNA二级结构,包括伪通知。RNA。2010; 16(10):1870-80。

    中科院文章谷歌学者

  12. 12.

    廖志强,王旭,林东,邹青。靶向人DEPDC7基因的RNAi重组慢病毒载体的构建与鉴定。计算机与生命科学。2017;9(3):350-6。

    中科院文章谷歌学者

  13. 13。

    吴H,李H,姜M等。通过增强的K型方式鉴定高质量的蛋白质结构模型。BioMed Res Int。2017; 2017(18):1-9。

    谷歌学者

  14. 14。

    等。RNA解旋酶RIG-I在双链RNA诱导的先天性抗病毒反应中具有重要作用。Nat Immunol。2004;5(7):730 - 7。

    中科院文章谷歌学者

  15. 15.

    Brueffer C,Vallonchristersson J,Grabau D等人。摘要P4-09-03:关于RNA排序的基于RNA测序的临床价值,用于预测五种常规乳腺癌生物标志物:基于人口的多中心SCAR-B研究的报告。癌症res。2018; 78(4补充):P4-09-03-P4-09-03。

    谷歌学者

  16. 16。

    廖泽,王X,曾y,邹琦SCI批准。2016; 6:39655。

    中科院文章谷歌学者

  17. 17

    Sabarinathan R,Anthon C,Gorodkin J,Seemann SE.多重序列比对增强了RNA结构的边界定义.基因.2018;9(12):604。

    文章谷歌学者

  18. 18

    丁颖,唐军,郭峰。基于多重信息整合的药物靶间相互作用识别。正科学。2017;418 - 419:546 - 60。

    文章谷歌学者

  19. 19

    路透社记者Mathews DH报道。RNA结构:用于RNA二级结构预测和分析的软件。BMC Bioinf。2010;11(1):129。

    文章谷歌学者

  20. 20.

    引用本文:任志强,王志强,王志强,等。HotKnots:包括假结在内的RNA二级结构的启发式预测。RNA- a Publ RNA Soc. 2005;11(10): 1494-504。

    中科院文章谷歌学者

  21. 21。

    吴勇,史斌,丁旭,等。通过整合自由能模型和实验探测数据的约束,改进了对RNA二级结构的预测。nuclear Acids Res. 2015;15:15。

    谷歌学者

  22. 22。

    Trapnell C,Roberts A,Goff L,等。TopHat和袖扣RNA-seq实验的差异基因和转录表达分析。Nat协议。2012;7(3):562-78。

    中科院文章谷歌学者

  23. 23。

    Liao Z,Li D,王X,Li L,Zou Q.癌症诊断来自机器学习方法的ISOMIR表达。Curr Bioinf。2018; 13(1):57-63。

    文章谷歌学者

  24. 24。

    赵y,王j,zeng c等人。评估RNA二级结构的基础配对和拓扑中的译码。Biophys Rep。2018; 4(3):123-32。

    中科院文章谷歌学者

  25. 25。

    沈宇,唐军,郭发。通过将进化和理化信息整合到周氏通用PseAAC中来鉴定蛋白质亚细胞定位。理论生物学杂志。2019;462:230–9。

    中科院文章谷歌学者

  26. 26。

    鲁瓦,唐y,吴H,黄鹤,傅q,秋j,李h。通过基于能量基滤波器的自适应深度经常性神经网络预测RNA二级结构。BMC Bioinf。2019; 20(4):1-10。

    谷歌学者

  27. 27。

    马修斯DH。利用RNA二级结构划分函数确定由自由能最小化预测的碱基对的置信度。RNA。2004; 10(8): 1178 - 90。

    中科院文章谷歌学者

  28. 28。

    Günaye,Altun K.交换状态控制CNN:一种使用CNN具有多变量非线性的复杂系统的替代方法。int j bifur chaos。2018; 28(6):1830019。

    文章谷歌学者

  29. 29

    哪种统计显著性检验最能检测癌组织中oncomiRNAs ?一个探索性分析。Oncotarget。2016;7(51):85613。

    文章谷歌学者

  30. 30.

    王X,Shang QL,MA JX,Liu Sx,王CX,MA C.通过短发夹RNA敲击的补体因子B抑制大鼠激光诱导的脉络膜新生血管形成。int J Ophthalmol。2020; 13(03):382-9。

    文章谷歌学者

  31. 31.

    Legendre A,天使E,Tahi F. Bi-目标整数编程RNA二级结构预测伪通知。BMC Bioinf。2018; 19(1):13。

    文章谷歌学者

  32. 32.

    基于随机森林分类的蛋白质候选结构排序。BMC Bioinf。2019;20(2):1 - 3。

    谷歌学者

  33. 33。

    吴H,杨R,傅Q,陈家,鲁W,李海。用钢筋学习预测2D-HP蛋白折叠的全状态空间。BMC Bioinf。2019; 20(3):1-11。

    谷歌学者

  34. 34。

    Jabbari H,Condon A.一种快速稳健的迭代算法,用于预测RNA伪麻醉二次结构。BMC Bioinf。2014; 15(1):1-17。

    文章谷歌学者

  35. 35。

    吴浩,黄洪,卢伟,等。通过随机森林分类对接近本地的候选蛋白质结构进行排序。BMC Bioinf。2019;20(25):683。

    中科院文章谷歌学者

  36. 36。

    吴H,杨R,傅Q等。用钢筋学习预测2D-HP蛋白折叠的研究。BMC Bioinf。2019; 20(25):685。

    中科院文章谷歌学者

  37. 37。

    关键词:膜蛋白,多变量信息融合,Hilbert-Schmidt独立准则Neurocomputing。2020;383:257 - 69。

    文章谷歌学者

  38. 38。

    沈聪,丁勇,唐健,宋健,郭菲.基于序列信息的多尺度局部平均块识别DNA-蛋白质结合位点.分子.2017;22(12):2079。

    文章谷歌学者

  39. 39。

    廖泽,万S,他,Zou Q.杂交蛋白特征小GTP酶的分类和先进的机器学习技术。Curr Bioinf。2018; 13(5):492-500。

    中科院文章谷歌学者

  40. 40。

    Liao Z,王X,王X,Li L,Lin D. DepdC7抑制肝癌细胞中细胞增殖,迁移和侵袭。oncol lett。2017; 14(6):7332-8。

    PubMed.公共医学中心谷歌学者

下载参考

致谢

作者承认并感谢匿名审查员的建议,允许改进我们的稿件。

关于这个补充剂

本文已作为一部分发布欧宝娱乐合法吗BMC生物信息学卷22补充3,2021:2019年智能计算国际会议的会议记录(ICIC 2019):生物信息学。市民可于//www.christinemj.com/articles/supplements/volume-22-supplement-3

资金

该工作得到了中国国家自然科学基金(62073231,61672357,61672371,61876217,61876217,61876271),江苏333人才项目和苏州研究项目(DZXX-010)(SYG201704)和安徽省重点实验室研究项目(IBBE2018KX09)。出版成本由上述基础和项目的补助金提供资金。资金机构在研究,收集,分析,解释稿件的研究,收集,分析,解释方面没有发挥任何作用。

作者信息

从属关系

作者

贡献

WL提出了原始想法。YC和HW设计了框架和实验。WL,YC和HW执行了实验和主要数据分析。WL和YC写了稿件。YD,ZS,YZ,HL和QF修改了代码和手稿。所有作者都致力于稿件。所有作者阅读并认可的终稿。

作者信息

威诚鲁:硕士学位。他的主要研究兴趣包括机器学习,嵌入式系统和应用。

闫曹:硕士候选人。她的主要研究兴趣包括机器学习,深入学习。

吴洪杰:博士,主要研究方向为机器学习、并行编程、蛋白质结构、功能预测和基因表达网络。目前从事深层结构学习、膜和GPCR相关预测。

丁一杰:1986年生,博士,研究方向:生物信息学。

郑伟歌:1995年出生,是一名硕士的学生,其研究方向是建立智能。

余张:出生于1989年,拥有硕士学位,她的研究方向是智能物流。

傅启明:博士,主要研究方向为强化学习、模式识别和建筑节能。

Haiou Li:Ph.D.,其研究方向是生物信息,大数据技术及其应用。

相应的作者

对应到洪杰吴

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

作者声明他们没有相互竞争的利益。

附加信息

出版说明

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过交叉标记验证货币和真实性

引用这篇文章

鲁,W.,Cao,Y.,Wu,H.等等。双向复发神经网络预测RNA二级结构的研究。欧宝娱乐合法吗22,431(2021)。https://doi.org/10.1186/s12859-021-04332-z.

下载引用

关键词

  • 经常性神经网络
  • RNA二级结构预测
  • 伪通知