跳过主要内容

PRPI-SC:用于预测植物LNCRNA蛋白质相互作用的集合深度学习模型

摘要

背景

植物长期非编码RNA(LNCRNA)主要通过与RNA结合蛋白(RBP)的相互作用来发挥重要作用。要了解LNCRNA的功能,基本方法是鉴定与LNCRNA相互作用的类型的蛋白质。但是,在计算和估算RBP类型时,互动的模型或规则是一个重大挑战。

结果

在本研究中,我们提出了一个集成深度学习模型,以预测植物lncrna -蛋白质相互作用,利用堆叠降噪自编码器和卷积神经网络基于序列和结构信息,命名为PRPI-SC。PRPI-SC根据rna和蛋白质的k-mer特征预测lncrna和蛋白质之间的相互作用。实验证明效果良好拟南芥蒂利亚纳Zea Mays.数据集(ATH948和ZEA22133)。ATH948和ZEA22133数据集的准确率分别为88.9%和82.6%。PRPI-SC在一些公共RNA蛋白相互作用数据集上也表现良好。

结论

PRPI-SC准确地预测植物LNCRNA和蛋白质之间的相互作用,这在研究植物LNCRNA的功能和表达方面起着引导作用。同时,PRPI-SC对非植物数据具有强大的泛化能力和良好的预测效果。

背景

长的非编码RNA(LNCRNA)是一种具有特殊功能在真核细胞中的RNA分子[1].LNCRNA是非蛋白质编码转录物和人口众多,长度超过200nt。它们在核或细胞质中广泛存在。研究人员发现,LNCRNA通过与染色质修饰的复合物和转录因子相互作用来调节多个关键生物过程[23.4.].相互作用与生物的重要活动相关[5.6.7.8.].许多关键的细胞过程,如信号转导,染色体复制,物料输送,有丝分裂,转录和翻译,都连接到lncRNAs和蛋白质[之间的相互作用9.1011].虽然lncRNAs的对基因表达的调节作用是无可争议的,一些研究已经在功能和lncRNAs的机制来完成。由于lncRNAs的调节性能,需要的蛋白质分子的协调,有必要找出lncRNAs和蛋白质分子之间的相互作用。

大部分研究工作集中在人和动物的lncRNA与蛋白质的相互作用上,而对植物的研究较少。与动物和人类相比,植物RNA的同源性较差。转录后水平上的基因表达调控主要是由RNA结合中含有明确序列基序的蛋白质实现的。传播最广泛的基序是RNA识别基序(RRM)和K同源结构域(KH)。拟南芥的基因组编码了196个含有rrm的蛋白质,比秀丽隐杆线虫和黑腹果蝇的基因组更复杂。此外,拟南芥基因组包含26个KH结构域蛋白。大多数含有rrm的拟南芥蛋白可以根据与已知后生动物或拟南芥蛋白的相似性分为结构和/或功能组。大约有50%的拟南芥rrm蛋白在后生动物中没有明显的同源性,对于大多数预测为后生动物同源蛋白的蛋白,没有实验数据来证实这一点。此外,大多数拟南芥RRM蛋白和所有KH蛋白的功能尚不清楚。然而,在拟南芥中较高的rna结合蛋白的复杂性可能解释了观察到的植物和后生动物之间mRNA成熟的差异[12].

有很多可用的lncRNA的数据库,但大部分都集中在人类和脊椎动物。从植物数据库包括:NONCODE [13],pnrd数据库[14], PLncDB数据库[15].这些LCNRNA在引导生殖发育,生长,应力反应,染色体修饰和蛋白质相互作用方面发挥了重要作用。

lncrna与蛋白质之间的相互作用是普遍存在的。只有少数传统方法,如x射线衍射[16,核磁共振[17,电子显微术[18],中子散射[19],交联免疫沉淀[20.]和mirna作为异构网络中的介质[21]已经被用来检测蛋白质复合物的结构数据。这是由于实验成本高、时间长、测试过程复杂等缺点造成的。先进的高通量测序技术使研究人员能够快速获取大量转录组和蛋白质组信息,包括RNA蛋白相互作用(RPI)的实时分析。然而,传统的实验有其局限性,如它们只用于特定的蛋白质、rna或蛋白质- rna复合物。因此,机器学习被广泛应用于生物信息学中,如基于给定的lncrna进行多标签分类和疾病预测[22和识别RNA伪嘌呤位点[23].Muppirala等人[24]提出了RPISeq,通过联合三联特征(joint triad feature, CTF)喂养RNA和蛋白质的序列编码载体[25]到随机森林(RF)和支持向量机(SVM)进行预测。卢等人[26]创建一个名为lncPro方法,该方法是基于Fisher线性判别方法,并使用二级结构,氢键,和范德华倾向作为输入的功能。IPminer使用堆叠的自动编码器(SAE)并预测RF分类器的RNA蛋白质相互作用[27].Yi等人[28]提出RPI-SAN模型,利用深度学习堆叠自编码网络挖掘RNA和蛋白质序列中隐藏的高级特征,并将其输入RF模型中预测ncRNA结合蛋白。传统的机器学习方法是手工提取特征,如根据物理化学特征或生物功能构建和提取特征。特征选择的好坏直接影响模型预测的性能。深度学习方法只需要选择合适的编码方法,不需要构建特征,因此更加适用。

由于研究人员必须通过传统的机器学习模型手动收集特征,因此它们不太可能准确地定位原始数据之间的隐藏关系。尽管如此,深度学习提供了解决方案。具有多层神经网络模型架构[2930.31]深度学习使得能够自动提取数据集的抽象功能。深度学习在图像分析中表现出其他常用的机器学习方法[32,语音识别和信号处理[33].它也被广泛应用于生物信息学[3435].例如,深度学习已经成功应用于预测拼接模式[36],乳腺癌微钙质歧视乳腺癌[37]和蛋白相互作用网络的重建[38].与其他序列方法相比,深度学习自动学习RNA和蛋白质分子的序列特征,发现序列之间的特定相关性[39通过学习实际隐藏的先进功能上的原始数据],抑制噪音。此外,随着人工引入的噪声对一些深层次的学习模式,过度拟合下降,这种模式的推广能力和稳健性得到改善。

集成学习被认为是国家的最先进的解决方案,很多机器学习的挑战[4041].这样的方法来提高通过训练多个模型,并结合他们的预测单一模型的预测性能。集成学习也被广泛使用在生物信息学领域,如miRNA的疾病协会[的预测42].

在本文中,我们提出了一种基于序列和结构的集合模型,用于预测使用堆积的去噪AutoEncoder(SDAE)和卷积神经网络(CNN)的植物LNCRNA蛋白相互作用,命名为PRPI-SC。架构如图1所示。1.从LNCRNA和蛋白质中提取序列和结构特征[23].根据蛋白质分子的理化性质,将20种蛋白质氨基酸分为7组[43],嵌入到矩阵中,利用SDAE和CNN提取特征。在这两个模块完成预测后,对结果进行整合,得到最终结果。在植物数据集和其他常见rna蛋白数据集上测试了PRPI-SC的性能,并与其他方法进行了比较。结果表明,PRPI-SC在植物数据集上具有良好的性能,在精度和其他评价指标上取得了最好的结果。PRPI-SC可以有效预测植物lncRNA与蛋白质的相互作用。在公共数据集上的实验表明,该方法具有良好的泛化能力和较强的鲁棒性。

图1
图1

prpi-sc的流程图

结果

的结构信息的影响

为了探究添加的二级结构信息是否对模型的最终结果有积极的影响,我们在ATH948数据集上进行了实验。结果如表所示1

表1是否在ATH948数据集上添加结构信息比较(%)

根据实验结果,准确度,精密度,特异性所添加的二级结构信息,这证明该结构信息可以补充序列信息,提高了模型的预测性能后分别增加了0.1%,0.2%,和0.7%。

PRPI-SC不同模块之间的性能比较

PRPI-SC结合了两个基本预测模块,SDAE和CNN。我们比较了数据集ATH948上的每个模块,结果如图4所示。2.CNN和SDAE有自己的优势,在不同的指标,但整体模块,PRPI-SC比单个模块更好。它表明我们的合奏的策略是有效的。

图2
图2.

不同预测模块的性能比较

植物lncRNA-蛋白质数据集性能比较

在我们的数据集中,我们将PRPI-SC与其他的RPI预测方法如IPMiner、RPISeq和lncPro进行了比较,准确率如图所示。3..在 [24[作者,提出了用于预测RNA-蛋白质相互作用的RPISEQ-RF和RPISEQ-SVM,并且RPISEQ-RF在大多数数据集上比RPISEQ-SVM更好地执行。因此,在这里,我们仅将PrPI-SC与RPISEQ-RF进行了比较。PRPI-SC在我们的两个工厂数据集中实现了良好的结果。它达到了最佳结果,对准确性,精度和特异性以及敏感性的第二次结果。在ZEA22133数据集上,PRPI-SC的准确性高于IPminer的13.9%,这是一个很大的改善,精确和特异性达到99.9%。基于合成结果,PRPI-SC预测了植物LNCRNA-蛋白质的相互作用,具有高精度,高精度,在其他RPI预测方法之前。详细结果显示在表格中2

图3
图3.

不同方法在ATH948和ZEA22133数据集上的精度比较

表2不同方法在ATH948和ZEA22133数据集上的性能比较(%)

其他公布的RNA蛋白质数据集的性能比较

为了测试PRPI-SC的稳健性,我们将其与其他公开的RNA蛋白质数据集上的其他RPI预测方法进行比较,并且在图2中示出了精度。4..在RPI2241和RPI369数据集,PRPI-SC实现在其它性能指标最高的精度,灵敏度和MCC,以及第二最佳。在RPI1807数据集,PRPI-SC实现的97.0%的最高准确度和93.8%的最高MCC,类似于RPISeq-RF方法。RPI488数据集的表现比较平均,但性能指标并没有与其他方法显著不同。这是可以理解的,因为没有预测方法或深的学习模式可以处理所有的预测问题,或适应于所有数据集。性能指标的详细结果列于表3.

图4
图4.

公共数据集上不同方法的准确性比较

表3公共数据集上不同方法性能比较(%)

讨论

集合深度学习模型PRPI-SC利用了两个不同的预测模块,并提供了更全面的预测结果。CNN Architecture具有更强大的拟合能力,用于序列和RNA和蛋白质的序列和结构信息,提取高级功能更好。与基于SDAE的架构相比,CNN架构在高级特征表示中执行更好。SDAE具有很强的降噪功能,可以有效地消除来自噪声数据的干扰,在工厂数据集中更常见。与先前的方法相比,PRPI-SC在预测植物RPI方面表现出良好的性能。

在训练深度学习神经网络时,我们通常希望得到与数据吻合良好的最佳泛化性能。然而,所有的深度学习神经网络结构都容易发生过拟合。当训练集中的网络性能较好,错误率越来越低时,某一时刻网络在测试集中的性能开始恶化。模型的泛化能力通常是通过模型在验证集上的性能来评估的。当模型在训练集上表现良好而在验证集上表现较差时,我们认为模型存在过拟合。

为了减少过度装箱,早期停止方法被广泛使用。它计算在培训期间验证集上的模型的性能。当验证集上模型的性能开始下降时,停止培训以避免过度装备的问题。为了进一步减少过度装备的影响,我们将丢弃到0.5 [44].

与处理其他问题(图像识别、文本处理等)的深度学习模型相比,除了ZEA22133之外,我们的RPI数据集相对较小,这是深度学习模型的不足之处。除了数据量小,负对的选择也是一个值得考虑的问题。在ATH948, ZEA22133, RPI369, RPI2241中,负对是在排除正对后通过随机匹配产生的,这可能会导致负对上的数据分布不均匀,影响最终结果。在今后的工作中,我们还将重点研究如何在小样本数据集中优化模型,以及如何生成更合理的负对。

结论

在本研究中,我们提出一种集成深度学习模型PRPI-SC,用于输入编码的RNA和蛋白质的序列和结构信息,并使用SDAE和CNN等深度学习模块生成综合的预测结果。

加入结构信息之后,该模型的整体性能得到了改善,这表明二级结构信息起到补充作用,以序列信息和有助于提高的RPI问题的预测结果。

PRPI-SC在植物数据集上表现得非常好,并且在大多数性能指标中优于其他方法,例如准确性。在Zea22133数据集中,精度提高了13.9%。这表明PRPI-SC可以有效地预测植物的RPI相互作用并达到预期的结果。拟南芥是二榫肌的代表,和Zea Mays.是单圈子的代表。这个型号有很好的影响拟南芥Zea Mays.数据集,显示它可以进一步扩展到其他工厂数据。PRPI-SC还在其他混合物种的RPI数据集上显示出良好的预测能力,这表明它具有良好的泛化能力,并且可以满足不同的需求。

方法

数据集

我们创建了两个lncRNA-protein相互作用数据集,ATH948和ZEA22133,代表拟南芥蒂利亚纳Zea Mays.,分别。首先,我们从PlncRNADB下载数据[45]并使用CD-prot [46]工具消除蛋白质和lncRNA序列相似性均大于90%的冗余序列,从而降低序列相似性和实验偏差。由于没有经过生物学实验验证的非相互作用对,我们通过将蛋白质与lncrna配对并去除现有的正对,在剩余数据中随机选择相同数量的负对[23].利用该方法,我们获得了由35条蛋白质链和109条lncRNA链组成的ATH948数据集,其中948对相互作用对和948对非相互作用对。同样,我们获得了ZEA22133数据集,包含42条蛋白链和1704条lncRNA链,其中22133对相互作用链和22123对非相互作用链。由于植物lncRNA的同源性较差,我们不能混合不同种类的植物数据,以避免深度学习模型提取错误的特征,影响预测的准确性。我们发现这两个数据集包含少量的lncRNA和蛋白链,但它们产生大量的相互作用对,这可能会造成噪声,增加特征提取的难度。具体情况见表4.

表4实验数据集

为了测试PRPI-SC的稳健性,我们收集了以往研究的其他rna蛋白数据集,如RPI1807 [47], RPI369 [23],RPI2241 [23]和RPI488 [27].这四个数据集根据最小原子距离标准,使得如果蛋白质原子和RNA原子之间的距离小于规定的距离阈值,则蛋白质和RNA对被认为是相互作用对构成。它们都是由多品种RNA-蛋白质样品,包括动物,植物和人类的混合物,和RNA样品的长度变化。

我们使用不同的方法来预测RNA和蛋白质的结构信息。对于RNA,我们使用Viennarna包中的rnafold计划[48]计算具有最小自由能的RNA的二次结构信息,其可以用“。”表示。和 ”()”。对于蛋白质,我们使用网络服务器SOPMA [49来预测结构。上传蛋白质序列,预测经典三形结构,包括α螺旋,β表和线圈。

序列信息处理

RNA和蛋白质序列不能直接作为深度学习模型的输入,序列编码方法的选择对模型的性能有很大的影响。由于数据集中RNA和蛋白质序列的长度差异较大(20-3000),一些常用的数字矩阵编码方法(如一次性编码)不适用于RNA和蛋白质序列,使得矩阵过于庞大和稀疏。因此,我们使用k-mer [27]来编码输入序列和结构信息,以确保所生成的数字向量的长度为一致的。

对于RNA序列,通常方法是提取RNA序列的4-MER频率特征(每个序列由A,C,G,T)提取,以获得4 * 4 * 4 * 4 = 256个尺寸特征。每个特征值是RNA序列中4-MEL核苷酸的归一化频率,即AAAA ... CATC ... TTTT。为了充分提取RNA的序列特征,我们添加了1-3mer功能,以形成总共340维功能。对于蛋白质序列,现有的研究表明,结合残留物更可能形成具有某些性质的氨基酸。基于氨基酸的物理化学性质和氨基酸的相互作用,将20种氨基酸分为7个类别。它们包括{val,gly,Ala} {Phe,Pro,Leu,Ile} {Ser,Tyr,Met,Thr} {HIS,ASN,TPR,GLN} {arg,Lys} {glu,asp}和{cys}.根据上述规则,我们将蛋白质序列分成七组,提取蛋白质三聚体的3-MER特征,得到7 * 7 * 7 = 343尺寸特征。同样,我们补充了1-2MET功能以形成399维功能。如果K-MEL特征提取方法的k值变大,则会导致特征向量中的零太多,并影响预测模型的影响。这也是大多数文章所采用的方法。

有关的结构信息的处理中,我们采用了类似于序列信息,其被添加到输入模型作为补充信息的计算方法。对于蛋白质结构,我们提取1-3聚合物的频率(α螺旋,β折叠和二级结构,以获得39维特征的线圈);对于RNA的结构,我们提取1-4聚合物的频率(点和支架)的二级结构,以获得30维特征。这些二级结构信息的特征与那些从以前的序列信息中提取以获得的438维特征和370维特征RNA编码矢量的编码蛋白的载体进行了整合。

在去噪autoencoder

自动编码器(AE)属于无监督学习,不需要标记训练样本。当自动编码器学习输入样本时,其训练目标是根据目标表达式重构输入信号。因此,在训练中,输出往往设置为输入本身。AE结构可分为两部分:编码器和解码器。编码器从输入向量映射变换X以输出表示y.典型的表达是:

{Wx + b}} / * * * * * * * * *
(1)

在哪里S.是一种非线性函数,如秒形。W.从输入层到中间层的链接权重是多少B.是中间层的偏置。解码器映射的输出表示y返回到输入空间并重建向量Z..典型形式为:

$ $ z = s \离开({W ^ y + b ^{{\ '}}{{\ '}}} \右)$ $
(2)

在哪里S.是一种非线性函数,如秒形。W.'是从中间层至输出层链路权重,B.'是输出层的偏差,Z.被视为预测X.一般来说,Z.不是输入变量的精确重建X,它只能接近X最大程度。

去噪AutoEncoders(DAE)具有与传统AE相同的结构,但噪声被添加到采样输入中。其学习目标是重建污染输入的纯输入。目的是在输入数据中过滤噪声,以避免发生过度拟合以增强模型的泛化能力。

如图1所示。5.与传统的声发射信号不同y是由受噪声污染的信号重建的吗Xˆ。一般来说,添加噪声有两种方法:一种是添加与输入数据分布相同的高斯噪声,另一种是将输入向量的分量设为0,并具有一定的概率。通过计算yZ.用损坏的数据X并遍历有错误Z.和原来的X,网络就会学习到损坏的数据。每一次样品X训练,不同的X被生成。

图5
图5.

去噪自编码器的流程图

为了获得更高级的特征表示,将DAE以深度网络结构的形式逐层堆叠,形成一个由DAE顶部和底部连接的模型结构,即SDAE [50].训练时,前一层的输出作为后一层的纯输入,逐层进行训练。学习过程如图所示。6.

图6
图6.

SDAE的计算过程。一种DAE第一层的培训过程。B.第一层的输出作为第二层的输入。C在多层深网络中重复培训

数字6.a为DAE的第一层。这个函数Fθ是用来降噪的输入X.数字6.B表示第一层的输出作为第二层的样本输入,编码函数Fθ(2)第二层的被训练。整个深网络的训练过程被重复,如图所示。6.C。

模型设计

我们设计了一个深刻的学习框架,PRPI-SC,到地址植物lncRNA-蛋白质相互作用的问题。编码部分后,CNN和SDAE提取从输入功能和形成高电平表示。最后,将合奏模块集成了两个基本模块的输出,以形成PRPI-SC的整体结构。

在CNN模块中,首先通过CNN分析RNA和蛋白质输入载体,形成两个相似的序列嵌入水平。然后,一个三层全连接部分嵌入两个序列作为输入并进行交叉预测。每个序列嵌入部分都有三个卷积层。在两个卷积层之间,采用最大池化层来降低表示维数并引入噪声不变性。在最后一个卷积层之后,输出的二维张量被压平,并进一步作为全连通层的输入。然后,在表示法中嵌入两个RNA和蛋白质序列。最后,最后一层的输出是预测结果,由后面的集成模块进一步集成。

在SDAE模块中,首先利用SDAE分别对RNA和蛋白质输入载体进行测序,生成两个序列嵌入层。然后,三层全连接部分将两个序列连接为输入并进行交叉预测。通过对两个三层SDAE部分进行降维和高阶特征提取,得到RNA和蛋白质的序列嵌入表示。最后,一个三层全连接部分将前两个序列一起插入第一层作为输入,并在第三层预测特定rna -蛋白对的相互作用。

最后的集成模块将CNN模块和SDAE模块的预测连接起来作为输入张量,对给定的lncrna -蛋白对产生了更全面的预测。两个基本模块和集成模块在其最后一层使用softmax激活函数进行二进制预测,并使用反向传播算法最小化二进制交叉熵损失函数。分别采用Adam和SGD两种优化方法对每个模块进行训练,其中Adam先对模块进行快速收敛,然后SGD对模块进行微调。在无监督的三层SAE预训练过程中,采用贪婪分层训练方法对其参数进行优化。为了避免过拟合问题,还采用了dropout和early stopped技术。

模型性能评价

在本研究中,我们将蛋白质和lncRNA对分为相互作用和非相互作用。我们遵循广泛使用的评价指标,包括分类精度(Acc)、精度(Pre)、敏感性(Sn)、特异性(Sp)和马修斯相关系数(MCC),分别定义如下:

$$ {\ text {acc}} = \ frac {{{\ text {tp}}} {{\ text {tn}}}}}} {{\ text {tn}} + {\ text {tn}} + {\ text {fp}} + {\ text {fn}}}}} $$
(3)
$$ {\文本{预}} = \压裂{{{\文本{TP}}}} {{{\文本{TP}} + {\文本{FP}}}} $$
(4)
$ ${\文本{Sn}} = \压裂{{{文本\ {TP}}}} {{{{TP}} \文本+{\文本{FN}}}} $ $
(5)
$$ {\文本{SP}} = \压裂{{{\文本{TN}}}} {{{\文本{TN}} + {\文本{FP}}}} $$
(6)
$ ${\文本{MCC}} = \压裂{{文本{TP}}{\ \{\文本{TN}} -{\文本{TP}} \ *{\文本{FN}}}}{{\√6{\离开({{\文本{TP}} +{\文本{FP}}} \) \离开({{\文本{TP}} +{\文本{FN}}} \) \离开({{\文本{TN}} +{\文本{FP}}} \) \离开({{\文本{TN}} +{\文本{FN}}} \右)}}}$ $
(7)

其中TP、TN、FP、FN分别为真阳性、真阴性、假阳性、假阴性。

可用性数据和材料

PRPI-SC的源代码和所使用的数据集可在https://github.com/zhr818789/PRPI-SC.PlncRNADB数据集从http://bis.zju.edu.cn/PlncRNADB/

缩写

AE:

autoencoder.

CD-HIT:

具有容差高的群集数据库

有线电视新闻网:

卷积神经网络

CTF:

联合黑社会特征

DAE:

去噪autoencoder

lncRNA:

长期非编码RNA

KH:

k同源性

RBP:

RNA结合蛋白

RF:

随机森林

RPI:

RNA蛋白质相互作用

RRM:

RNA识别主题

SAE:

堆叠auto-encoder

萨德:

在去噪autoencoder

SGD:

随机梯度下降

支持向量机:

支持矢量机器

参考

  1. 1.

    引用本文Okazaki Y, Furuno M, Kasukawa T, Adachi J, Bono H, Kondo S, et al.。基于60,770条全长cdna功能注释的小鼠转录组分析自然。2002;420(6915):563 - 73。

    PubMed文章公共医学中心谷歌学者

  2. 2.

    Morlando M,Ballarino M,Fatica A,Bozzoni I.长不用RNA在基因表达的表观遗传控制中的作用。ChemMedchem。2014; 9(3):505-10。

    中科院PubMed文章谷歌学者

  3. 3.

    KITAGAWA M,KITAGAWA K,Kotake Y,Niida H,ohhata T.长期非编码RNA的细胞周期调节。细胞mol寿命。2013; 70(24):4785-94。

    中科院PubMed公共医学中心文章谷歌学者

  4. 4.

    周X,崔Ĵ,孟杰,栾Y.相互作用和植物逆境条件下的非编码RNA之间的联系。Al Appl Genet。2020; 133:3235-48。

    中科院PubMed文章谷歌学者

  5. 5.

    陈勇,陈志强,陈志强。蛋白质家族与RNA识别。272年2月j . 2005;(9): 2088 - 97。

    中科院PubMed文章公共医学中心谷歌学者

  6. 6.

    Cooper Ta,WAN L,Dreyfuss G.RNA和疾病。细胞。2012; 136(4):777-93。

    文章中科院谷歌学者

  7. 7.

    徐志强,张志强,张志强,等。rna结合蛋白在人类遗传疾病中的作用。趋势麝猫。2008;24(8):416 - 25所示。

    中科院PubMed文章公共医学中心谷歌学者

  8. 8.

    陈X,Sun Yz,Guan Nn,Qu J,Huang Za,Zhu Zx等。LNCRNA功能预测和功能相似性计算的计算模型。简短的Funct基因组学。2019; 18(1):58-82。

    中科院PubMed文章谷歌学者

  9. 9.

    rna结合蛋白:高效功能的模块化设计。细胞生物学杂志。2007;8(6):479-90。

    中科院文章谷歌学者

  10. 10。

    张L,张C,高R,羊R,在与各种蛋白质序列的属性组合使用集成分类适体 - 蛋白相互作用对乐曲Q.预测。BMC生物素。2016; 17:225-38。

    文章中科院谷歌学者

  11. 11.

    Gawronski AR,UHL M,张Y,林YY,Niknafs Ys,Ramnarine VR等。MECHRNA:预测RNA-RNA和RNA蛋白相互作用的LNCRNA机制。生物信息学。2018; 34(18):3101-10。

    中科院PubMed公共医学中心文章谷歌学者

  12. 12.

    Zdravko JL,Andrea B.基因组分析:RNA识别基序(RRM)和K同源性(KH)域RNA结合蛋白来自开花植物拟南芥。核酸RES。2002; 30(3):623-35。

    文章谷歌学者

  13. 13.

    解C,元Ĵ,李H,李男,召G,卜d,等。NONCODEv4:探索的长非编码RNA基因的世界。核酸RES。2016; 44:1161-6。

    文章中科院谷歌学者

  14. 14.

    易旭,张志,凌云,徐伟,苏哲。PNRD:植物非编码RNA数据库。核酸学报2015;43:982-9。

    文章中科院谷歌学者

  15. 15.

    金杰,刘俊,王鹤,黄兰,蔡恩。PLNCDB:工厂长期非编码RNA数据库。生物信息学。2013; 29(8):1068-71。

    中科院PubMed公共医学中心文章谷歌学者

  16. 16.

    基于RNA、蛋白质和蛋白质复合物的小角度x射线散射。生物物理学报2007;36:307-27。

    中科院文章谷歌学者

  17. 17.

    利用核磁共振波谱技术研究蛋白质- rna复合物的大小。ChemBioChem。2005; 6(9): 1578 - 84。

    中科院PubMed文章公共医学中心谷歌学者

  18. 18.

    利用三维电子显微镜观察麻疹病毒核衣壳中核蛋白- rna的定位。J微生物学报。2011;85(3):1391 - 5。

    中科院PubMed文章公共医学中心谷歌学者

  19. 19.

    加贝尔F.小角中子散射蛋白质-RNA复合的结构生物学。酶学方法。2015; 558(1):391-415。

    中科院文章谷歌学者

  20. 20。

    Shema MC,Tenneti K,Kutluay SB。用于研究调节病毒复制的蛋白质RNA相互作用的夹子。方法。2019年。https://doi.org/10.1016/j.ymeth.2019.11.011

    文章谷歌学者

  21. 21。

    关键词:非均质网络模型,非均质网络模型,lncRNA-protein, mirna麝猫。2020;10:1341。

    PubMed公共医学中心文章中科院谷歌学者

  22. 22。

    王炜,戴QY,李锋,熊Y,魏DQ。MLCDForest:深林疾病预测长非编码RNA的多标签分类。简短生物形式。2021; 22(3):1-11。

    中科院谷歌学者

  23. 23。

    穆勇,张锐,王磊,刘旭东。iPseU-Layer:基于层状集成模型的RNA伪嘌呤位点识别。Interdiscip Sci。2020;12(2):193 - 203。

    中科院PubMed文章公共医学中心谷歌学者

  24. 24.

    利用序列信息预测rna -蛋白质相互作用。BMC Bioinform。2011;12:489。

    中科院文章谷歌学者

  25. 25.

    沉杰,张俊,罗X,朱武,yu k,陈k等。仅基于序列信息预测蛋白质 - 蛋白质相互作用。进程Natl Acad Sci USA。2007; 104(11):4337-41。

    中科院文章谷歌学者

  26. 26.

    鲁Q,任S,吕男,张勇,朱d,张X等。长的非编码RNA和蛋白质之间的关联的计算机预测。BMC基因组学。2013; 14:651-61。

    中科院PubMed公共医学中心文章谷歌学者

  27. 27.

    潘X,范YX,严杰,沉HB。IPMiner:隐藏的ncRNA - 蛋白质相互作用序列模式挖掘具有用于精确计算预测堆叠自动编码器。BMC基因组学。2016; 17(1):582-96。

    PubMed公共医学中心文章中科院谷歌学者

  28. 28.

    易慧聪,尤志,黄东升,李旭,江涛,李丽萍。一个深度学习框架,用于使用进化信息的ncrna -蛋白相互作用的稳健和准确预测。Mol therna - nucleacids . 2018; 11:337-44。

    中科院文章谷歌学者

  29. 29.

    Bengio Y,库维尔A,文森特P.表示学习:回顾和新的观点。IEEE跨模式肛门。2013; 35(8):1798-828。

    文章谷歌学者

  30. 30.

    Hinton GE, Salakhutdinov RR。用神经网络降维数据。科学。2006;313(5786):504 - 7。

    中科院文章谷歌学者

  31. 31。

    LeCun Y,Bengio Y,韩丁G.深度学习。自然。2015; 521(7553):436-44。

    中科院文章谷歌学者

  32. 32。

    Litjens G,KOOI T,Bejnordi BE,SETIO AAA,琼皮楼Ghafoorian M等人。在医学图像分析深度学习的调查。MED图像分析。2017; 42:60-88。

    PubMed文章公共医学中心谷歌学者

  33. 33。

    邓升,俞D.深度学习:方法和应用。发现趋势的信号处理。2014; 7(3-4):197-387。

    文章谷歌学者

  34. 34。

    萧y,吴j,林z,赵x。基于深度学习的多模型集合方法,用于癌症预测。计算方法Prog Bio。2018; 153:1-9。

    文章谷歌学者

  35. 35。

    基于集成深度神经网络的蛋白质相互作用预测。Neurocomputing。2019;324:10-9。

    文章谷歌学者

  36. 36.

    Leung Mkk,Xiong Hy,Lee Lj,Frey Bj。组织监管拼接代码的深度学习。生物信息学。2014; 30(12):121-9。

    文章中科院谷歌学者

  37. 37.

    王J,Yang X,Cai H,Tan W,Jin C,Li L.深入学习对乳房X线摄影的乳腺癌歧视。SCI REP。2016; 6:27327。

    中科院PubMed公共医学中心文章谷歌学者

  38. 38.

    李楼朱楼凌X,刘问:蛋白质相互作用网络改造通过与注意机制合奏深度学习。前生物生物科技。2020; 8:390。

    PubMed公共医学中心文章谷歌学者

  39. 39.

    李旭东,李晓东,李晓东,等。用于解码基因调控的rna结合基序的概要。大自然。2013;499(7457):172 - 7。

    中科院PubMed公共医学中心文章谷歌学者

  40. 40。

    库克KB,休斯TR,莫里斯QD。蛋白质- rna相互作用的高通量表征。功能基因组学。2015;14(1):74-89。

    中科院PubMed文章公共医学中心谷歌学者

  41. 41。

    Sagi O,Rokach L.集合学习:一项调查。电线数据最小知识。2018; 8(4):E1249。

    谷歌学者

  42. 42。

    陈X,周z,zh ay。ELLPMDA:对miRNA疾病关联预测的集合学习和链接预测。RNA Biol。2018; 15(6):807-18。

    PubMed公共医学中心谷歌学者

  43. 43。

    王家,张L,贾L,任y,yu G.蛋白质 - 蛋白质相互作用预测使用氨基酸序列的新局部联合三联描述符。int j mol sci。2017; 18:2373。

    公共医学中心文章中科院谷歌学者

  44. 44。

    达尔GE,Sainath TN,韩丁GE。为提高LVCSR深层神经网络使用整流线及辍学。在:关于声学,语音和信号处理国际会议;2013. p。8609-13。

  45. 45。

    白y,Dai x,ye t,张p,xu y,gong x等。PLNCRNADB:植物LNCRNA和LNCRNA-RBP蛋白质相互作用的储存。Curr Bioinform。2019; 14(7):621-7。

    中科院文章谷歌学者

  46. 46。

    黄Y,牛B,高Y,富升,李W. CD-HIT套件:集群和比较生物序列的Web服务器。生物信息学。2010; 26(5):680-2。

    中科院PubMed公共医学中心文章谷歌学者

  47. 47。

    Suresh V,Liu L,Adjeroh D,Zhou X.RPI-Pred:使用序列和结构信息预测NCRNA-蛋白质相互作用。核酸RES。2015; 43(3):1370-9。

    中科院PubMed公共医学中心文章谷歌学者

  48. 48.

    Lorenz R, Bernhart SH, Siederdissen CHZ, Tafer H, Stadler CFPF, Hofacker IL. vienna package 2.0。acta mathematica sinica, 2011;6:26。

    PubMed公共医学中心文章谷歌学者

  49. 49.

    SOPMA:通过对多个序列的一致预测,在蛋白质二级结构预测方面有了显著的改进。中国生物医学工程学报。1995;11(6):681-4。

    中科院PubMed谷歌学者

  50. 50。

    文森特P,Larochelle H,Lajoie I,Bengio Y,Manzagol Pa。堆积的去噪自动化器:使用当地去噪标准学习深度网络中的有用表示。J Mach Learn Res。2010; 11:3371-408。

    谷歌学者

下载参考

确认

不适用。

关于这个补充剂

这篇文章已作为BMC生物信息学第22卷增刊3,2021的一部分:生物信息学:智能计算的欧宝娱乐合法吗2019国际会议(ICIC 2019)的诉讼。补充的完整内容可在线提供//www.christinemj.com/articles/supplements/volume-22-supplement-3

资金

国家自然科学基金资助项目(No. 61872055)。国家自然科学基金项目(no . 61872055, no . 31872116)。资助机构在研究的设计、数据的收集、分析和解释以及手稿的撰写中没有发挥作用。

作者信息

隶属关系

作者

贡献

HZ, YL和JM对实验进行了构思、设计和结果分析。HZ, JSW和JM构思、设计了方法并撰写了手稿。所有作者阅读并批准了最终的手稿。

通讯作者

对应到小君孟

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

周,H.,Wekesa,J.S.,六安,Y.等等。PRPI-SC:用于预测植物lncrna -蛋白质相互作用的集成深度学习模型。欧宝娱乐合法吗22,415(2021)。https://doi.org/10.1186/s12859-021-04328-9

下载引用

关键词

  • lncRNA-蛋白
  • K-Mer的
  • 在去噪autoencoder
  • 卷积神经网络