跳转到主要内容

EDLMFC:具有用于NCRNA蛋白质相互作用预测的多尺度特征组合的集合深度学习框架

抽象的

背景

非编码RNA (ncRNA)与蛋白质的相互作用在各种生理和病理过程中发挥着重要作用。用于预测ncrna -蛋白相互作用的实验方法耗时费力。因此,对精确有效地预测ncrna -蛋白相互作用的计算方法的需求越来越大。

结果

在这项工作中,我们提出了一种基于集成深度学习的方法EDLMFC,利用多尺度特征(包括初级序列特征、二级结构特征和三级结构特征)组合预测ncrna -蛋白质相互作用。使用联合k-mer提取蛋白质/ncRNA序列特征,整合三级结构特征,然后输入集成深度学习模型,它将卷积神经网络(CNN)和双向长短期记忆网络(BLSTM)结合起来学习支配性生物信息,以捕获CNN识别的特征之间的长期依赖性。与其他最先进的五倍交叉验证方法相比,EDLMFC在RPI1807、NPInter v2.0和RPI488数据集上的准确率分别为93.8%、89.7%和86.1%。独立测试的结果表明EDLMFC可以有效预测不同生物潜在的ncrna -蛋白相互作用。此外,EDLMFC还被证明能够成功预测小家鼠ncrna -蛋白网络中的中枢ncrna和蛋白。

结论

总的来说,我们提出的EDLMFC方法提高了ncRNA -蛋白相互作用预测的准确性,有望为ncRNA功能研究提供一些有益的指导。EDLMFC的源代码和用于本工作的数据集可在以下网站获得https://github.com/JingjingWang-87/EDLMFC

同行评审报告

背景

2001年的基因组测序表明,只有2%的RNA编码蛋白质,98%的RNA不用于蛋白质[12],称为非编码RNA(NCRNA)。研究表明,NCRNA通过与RNA结合蛋白(RBP)相互作用而与基本生物过程密切相关[3.4.],如翻译[5.),拼接6.],染色质重塑[7.],基因调控[8.,以及许多其他的生活活动和功能[9.10.11.12.]。此外,NCRNA患有癌症和其他复杂疾病[13.14.15.16.17.18.]。因此,准确预测ncrna -蛋白相互作用(ncrpi)对于了解ncrna的调控功能和疾病发病机制至关重要。

高通量实验技术(RIP芯片[19.], HITS-CLIP [20.], PAR-CLIP [21.等)和其他分辨复杂结构的实验技术(x射线晶体衍射(x射线)[22.],核磁共振(NMR)[23.,电子低温显微镜(cryoo - em) [24.]等)已被开发用于揭示ncrpi。然而,实验方法费时费力[25.]。因此,发展预测ncrpi的计算方法的需求越来越大。

根据他们使用的特征,预测ncrpi的计算方法可以分为两类:作为输入的序列特征和作为输入的结构特征。对于基于序列特征的方法,很多研究使用机器学习或深度学习方法学习特征,仅基于初级序列预测ncrpi。例如,Muppirala等人提出了一种名为RPISeq的模型,该模型仅使用主要序列特征,使用随机森林(RF)或支持向量机(SVM)作为分类器进行预测[26.]。Pan等人提出了一种称为IPMiner的堆叠集成模型[27.[],分别从蛋白质和ncRNA的3-mer和4-mer频率学习初级序列特征。然后,Dai等人设计了一种新的方法,CFRP [28.[],提出将ncRNA与蛋白质一级序列的传统k-mer特征进行非线性变换生成复杂特征来表征ncRNA -蛋白质相互作用。选择RF来减少复杂特征的维度,并实施ncrna -蛋白质相互作用(ncRPI)预测任务。此外,Wang等人利用深度卷积神经网络(CNN)从RNA和蛋白质序列中学习高级特征,并将其输入极限学习机(ELM)进行分类[29.]。此外,我们组设计了dm - rpi分类器,该分类器集成了SVM、RF和CNN,通过分别学习蛋白质和ncRNAs的3-mer和4-mer频率的判别特征,对ncrpi进行分类[30.]。此外,LightGBM、rpiCOOL、rifse、RPI-SAN、LPI-CNNCP等也进行了基于主序列的ncRPI预测[31.32.33.34.35.]。

对于基于结构特征的方法,除了序列特征外,常用的结构衍生特征还包括二级结构序列、理化性质等。Bellucci等人提出了catRAPID [36.37.],这是基于蛋白质和长链非编码rna (long non-coding RNAs, lncRNAs)的理化特性,包括二级结构、氢键和范德瓦尔斯倾向。Lu等人提出了lncPro [38.],使用与Bellucci和Fisher线性判别方法相同的输入特征来实现LNCRNA和蛋白质相互作用预测。然后,Suresh等人。提出的RPI-pred [39.]组合NCRNA和蛋白质的主要序列和三级结构信息,以预测NCRPIS。最近,Peng等人。设计了一个分层深度学习框架,Rpiter [40[,通过改进的联合三合会特征编码方法添加了更多的主要序列信息和序列结构信息,这提高了NCRPI的分类性能。此外,范等人。被认为是伪核苷酸/氨基酸组合物,并通过与五个广泛的学习系统分类器集成逻辑回归来设计新的计算方法LPI-BLS [41],执行比其他最先进的方法更好的分类性能。

在上述研究中,涉及高阶三维结构特征的研究还很少。我们小组发现结构特征在rna结合位点预测中起着重要作用,这些结构特征反映了结合位点周围的性质、界面保守残基的聚类性质以及结合倾向[42]。我们认为结构特征也可用于预测NCRPIS。此外,绝大多数这些都依赖于浅机器学习技术来实现分类任务,例如Fisher线性判别,RF,SVM和Logistic回归:LNCPro采用Fisher线性判别;RPI-SEQ采用RF和SVM;和LPI-BLS采用逻辑回归。然而,深度学习提供了一种更有效地学习来自输入的方法,并形成更准确的预测的高级表示。一个原因是越来越多的训练样本可以从高通量测序技术中得出,这对于训练深度学习模型非常有益。另一个是基于深度的基于学习的方法(特别是CNN),其用于分析埋入数据的空间结构。和双向长短期存储器网络(BLSTM)是广泛使用的经常性神经网络(RNN),其中存储器单元可以学习对顺序数据的长期依赖性。目前,CNN和BLSTM已广泛应用于计算生物学,并在各种生物序列分析问题中取得了卓越的性能[43],如DNA功能[44, rna -蛋白质结合位点[45和蛋白质- rna结合偏好预测[46]。

因此,我们提出了一种基于多尺度特征组合的预测ncrpi的方法EDLMFC,该方法不仅利用了ncRNAs和蛋白质的主要序列特征,还利用了结构特征,通过集成深度学习模型预测ncrpi。这些特征是通过分层网络学习的,包括CNN和BLSTM层。综合结果表明,EDLMFC在ncRPI预测中具有最佳的分类性能。

结果

具有现有最先进方法的EDLMFC的性能比较

为了评估EDLMFC的性能,我们将我们的方法与其他三种最先进的方法进行了比较。由于RPI-PRED的工作链接不可用,因此LNCPRO仅提供了在其数据集上培训的预测模型的源代码。因此,我们选择了RPITER,IPMINER和CFRP,以分别为RPI1807,NPINTER V2.0和RPI488数据集的比较分别为5倍交叉验证(5CV)。七种性能度量:精度(ACC),真正的阳性率(TPR),真正的负率(TNR),阳性预测值(PPV),F1分数(F1),Matthews相关系数(MCC),以及曲线下的区域(接收器操作特性(ROC)的AUC用于全面评估上述四种方法。RPI1807,NPINTER V2.0和RPI488数据集的实验结果如图4所示。1分别得了。详细结果均列于表中1

图。1
图1

不同NCRPI预测方法的性能比较。一个RPI1807数据集的性能比较。bNPInter v2.0数据集的性能比较。cRPI488数据集的性能比较

表1 EDLMFC与其他NCRPI预测方法在RPI1807,NPINTER V2.0和RPI488上的性能比较

从无花果。1A,EDLMFC实现了最高的ACC,TNR,PPV,F1和MCC。如表所示1,我们可以看到EDLMFC分别产生93.8%的ACC,分别比RPiter,IPminer和CFRP高0.3%,0.3%和1.0%。5CV下ACC的标准偏差小于RPTer和CFRP。EDLMFC的TNR分别为84.5%,分别比Rpiter,Ipminer和CFRP高1.8%,7.7%和7.1%。EDLMFC的PPV分别为94.9%,分别比Rpiter,IPminer和CFRP高0.6%,2.2%和2.2%。EDLMFC的F1分别为95.9%,分别高于Rpiter,Ipminer和CFRP的0.2%,0.1%和0.7%。EDLMFC的MCC分别为83.3%,分别比Rpiter,Ipminer和CFRP高出0.9%,0.7%和3.6%。虽然EDLMFC的TPR低于IPMINTER的2.3%,但AUC比RPITER低1.0%,EDLMFC方法通常比两种方法更好。因此,与上述三种方法相比,我们的方法EDLMFC在RPI1807数据集上预测NCRPIS具有卓越的性能。

从无花果。1b, EDLMFC优于NPInter v2.0数据集上7个性能指标上的所有方法。从无花果。1c, EDLMFC在RPI488数据集上实现了最高的ACC、TNR、PPV、F1、MCC和AUC。结果表明,本文提出的基于深度学习和多尺度特征相结合的ncrpi预测方法是一种有效的方法。

EDLMFC在独立测试中的性能

进一步验证EDLMFC区分ncRNAs是否与蛋白质相互作用的能力。我们使用RPI1807数据集来训练我们的模型,并在NPInter v2.0数据集上验证它。两个处理过的数据集之间没有重叠。经过处理的NPInter v2.0数据集包含1943个相互作用对,可分为6种生物:智人、小家鼠、酿酒酵母、秀丽隐杆线虫、黑腹果蝇和大肠杆菌分别通过EDLMFC分别测试的740,229,693,33,46,46和202的相互作用对的数量。如表所示2,EDLMFC预测631,217,632,31,41和188的6个生物上的正确数量的相互作用对,ACC率为85%,95%,91%,94%,89%和93%,分别。在独立的NPInter v2.0数据集上,我们最终预测了正确数量的NCRNA蛋白对为1740,整个ACC为90%。

表2 EDLMFC对NPInter v2.0版本6种生物的独立检测结果

分析不同特征组合策略

我们采用ncrna和蛋白质的三种特征构建EDLMFC模型,包括序列特征、二级结构特征和三级结构特征。分析三种特征的贡献,七种不同的特征组合:序列、二级结构、三级结构、序列与二级结构、序列与三级结构、二级结构与三级结构,所有特征都作为模型的分类性能实验输入。7种不同特征组合作为输入在RPI1807和NPInter v2.0上测试的ROC曲线如图所示。2答和图。2b,分别。表中列出了5CV下七个性能指标的结果3.

图2
figure2

不同特征组合策略的AUC比较。一个RPI1807数据集的AUC比较。bNPInter v2.0数据集的AUC比较。输入的所有特征、序列伴有二级结构、序列伴有三级结构、只有序列、二级结构伴有三级结构、只有二级结构、只有三级结构的ROC曲线分别用红色、蓝色、绿色、品红、橙色、紫色和黑色表示。最大AUC代表模型的最佳性能

表3 RPI1807和NPInter v2.0考虑的不同特征组合在5CV下的结果

从无花果。2在RPI1807和NPinter V2.0数据集上,仅作为输入的二次结构仅具有略低的AUC,而不是仅作为输入和显着高于仅作为输入的三级结构的序列。因此,序列是NCRPIS中最重要的特征;以下是预测的二级结构,然后是三级结构。当将两个特征的任何组合发送到模型中时,我们发现其AUC值高于两个功能之一。此外,模型的AUC值最高,当输入所有功能时。因此,我们可以得出结论,所有功能都包含有用的信息,同时,作为输入,它们相互补充,使模型更好地预测性能。

EDLMFC在ncrna -蛋白网络构建中的应用

为了直观地看到有多少相互作用被正确预测,我们进一步使用EDLMFC的独立测试结果来构建ncrna -蛋白网络。在这里,我们采用了一个名为Cytoscape的软件[474849]对于Mus Musculus网络聚类。对于NPInter v2.0数据集的亩肌肉,我们正确预测了217个相互作用的217,ACC高达95%。如图1所示。3.,我们发现小家鼠的ncrpi包含hub蛋白(一种与多种RNA相互作用的蛋白)和hub ncRNAs(一种与多种蛋白质相互作用的RNA) [50]。P84104和Q8VE97轮毂蛋白具有最大的相互作用,并且都被认为是丝氨酸或精氨酸,具有丰富的剪接因子3 [51]。特别是P84104 hub蛋白是选择性剪接过程中特异性促进外显子包涵体的剪接因子。YTHDC1是一种rna结合蛋白,能够识别并结合包含n6 -甲基腺苷(m6A)的rna,与YTHDC1的相互作用促进SRSF3被招募到m6A位点附近的mrna结合元件,导致选择性剪接过程中的外显子包涵[5253]。Q8VE97 hub蛋白在pre-mRNA剪接过程中扮演选择性剪接位点选择的角色。抑制MAPT/Tau第10外显子的剪接[54]。因此,构建ncrna -蛋白网络有助于识别关键蛋白和ncrna的重要功能和通路,这将有利于各种医学和药学研究[55]。

图3.
图3

基于EDLMFC预测的相互作用对构建的小家鼠肌网络。绿色和蓝色的椭圆形节点分别代表ncRNA和蛋白质。灰色边缘和红色边缘分别表示对ncrpi的正确预测和错误预测

讨论

在本研究中,我们提出了一种基于多尺度特征组合的计算方法EDLMFC,通过结合CNN和BLSTM的集成深度学习来预测ncrpi。在RPI1807、NPInter v2.0和RPI488数据集上与其他三种最先进的分类方法相比,EDLMFC在ncRPI预测中具有最好的分类性能。这主要是由于以下原因:

  1. 1。

    使用多尺度特征,其不仅包括序列特征信息而且包括结构信息。不同特征组合的结果表明,序列特征是最重要的,其次是二级结构特征和三级结构特征。所有功能都包含有用的信息,因此当所有功能用作预测的输入时,该模型的分类性能最佳。

  2. 2。

    利用联合k-mer法编码ncRNAs和蛋白质的序列特征,考虑多种k-mer特征,从而更准确、全面地表达蛋白质和ncRNAs。

  3. 3.

    CNN用于挖掘蛋白质和NCRNA的隐藏的抽象高水平特征,然后进入BLSTM以捕获它们的远程依赖性,并且采用三层完全连接的层来预测NCRPIS。

虽然EDLMFC在NCRPI预测中实现了更好的性能,但仍有一些需要注意的限制。与其他基于深度学习的方法一样,它就像一个黑匣子,它自动学习蛋白质和NCRNA的特征,并使我们无法理解生物学的预测。此外,NCRNA二级结构预测,点RNA的方法可以仅预测长度不超过500个核苷酸的RNA。因此,我们的作品主要预测NCRNA之间的相互作用,长度少于500个核苷酸和蛋白质。在未来的工作中,我们将考虑设计更先进的神经网络模型,以学习具有生物洞察的高级抽象特征,并选择更准确的二级结构预测方法,以更准确,有效地预测NCRPIS。

结论

ncrpi的预测有助于理解各种基本生物学过程和疾病的分子机制。许多计算方法已被提出为ncRPI预测。然而,此前只有少数研究考虑了ncrna和蛋白质的高阶结构特征,绝大多数研究仅使用浅层机器学习构建分类器进行预测。在这项工作中,我们提出了一种基于CNN和BLSTM的计算方法,通过从多尺度特征中学习高级抽象特征来预测ncrpi。为了获得尽可能多的蛋白质和ncrna的信息,我们不仅利用了初级序列特征、二级结构序列特征,还利用了三级结构特征,并采用了联合k-mer方法,通过扩展k的范围提取了multiple-mers特征。我们采用BLSTM捕获CNN学习到的ncRNAs/蛋白质的主要特征之间的长期依赖关系,并将它们发送到全连接层,预测它们是否存在相互作用关系。在RPI1807、NPInter v2.0和RPI488数据集上,与其他三种最先进的5CV下方法相比,EDLMFC的性能提高了0.1% ~ 7.7%。NPInter v2.0划分的6个生物之间的独立检验整体ACC值为90%,说明集成深度学习框架能够揭示和学习高层次的隐藏信息,提高预测性能。此外,根据对不同特征组合策略的分析,我们可以得出所有的特征都包含有用的信息。当多个特征输入模型时,它们相互补充,使模型获得更好的预测性能。 In conclusion, EDLMFC method can be a useful tool for predicting unknown ncRPIs.

方法

基准数据集

RPI1807中配对样品,NCRNA和蛋白质的主要序列数据从前一项研究下载了RPI1807,NPINTER V2.0和RPI488中的[40]。RPI1807通过解析提供RNA蛋白质复合物和蛋白质-RNA界面的核酸数据库(NAD)提取了可能的相互作用对,该核酸数据库和蛋白质-RNA接口组成的总共包括1078个链条和3131个蛋白质链[31.]。在数据预处理中,EMBOSS针程序已用于去除具有高序列相似性(cutoff≥30%)的蛋白质和RNA链,然后通过距离阈值进一步区分原子间的相互作用(cutoff = 3.40 Å),这是合理和足够涵盖“强”和“中等”氢键和富含能量的范德瓦尔斯接触[5657]。在删除少于15个核苷酸的RNA序列和蛋白质序列的少于25个氨基酸后,它含有1807个正对和1436个阴性对。NPInter V2.0是从NPInter数据库获得的,其中通过实验验证的非分量RNA(TrNAS和RRNA)和生物分子(蛋白质,RNA和DNA)之间的功能相互作用。58]。此外,由于NPInter数据库只包含交互作用(主要是物理交互作用)对,而缺乏非交互作用对作为训练模型的负样本,通过将阳性样本中的ncrna和蛋白质随机配对,并进一步抛弃相似的已知相互作用对,产生相同数量的非相互作用对[26.27.[](如果存在P2与P1、R2与R1的序列同源性≥40%、R2与R1的序列同源性≥80%的相互作用对R1 - P1,则丢弃随机生成的一对R2 - P2)。RPI488是一个lncrna -蛋白相互作用数据集,从PDB数据库下载18个ncrna -蛋白复合物[27.]。用距离阈值(5 Å)来区分原子间的相互作用。CD-HIT工具(59]去除序列相似性高(cut-off≥90%)的蛋白质和RNA链。剔除冗余后,RPI488数据集包含488对lncrna -蛋白对,其中相互作用的243对,非相互作用的245对。

此外,我们使用了ncRNA二级结构预测方法SPOT-RNA,该方法是通过最大长度为500个核苷酸的rna训练的。因此,一级序列超过500个核苷酸的ncRNAs被删除。超过500个核苷酸的ncRNA -蛋白配对样本在删除ncRNA样本的基础上进一步删除。然后,根据被删除的配对样本删除未与ncRNAs配对的蛋白一级序列。最后,RPI1807包含652对阳性和221对阴性,NPInter v2.0包含1943对阳性和1943对阴性。RPI488包含43对阳性和233对阴性。原始集和处理集的样本信息如表所示4.。由于在加工后RPI488数据集中的正面和阴性样品数量之间的差距较大。将阴性样品随机分成5组,以形成5个亚群。作为RPI488的结果,拍摄了5个子集的平均结果。5个子集的细节列于附加文件中1:表S1。

表4本研究中使用的三个原始和处理的NCRPI数据集

特征提取

基于点RNA的特征

通过SPOT-RNA预测ncRNA的二级结构[6061]。我们通过下载它来本地化他们的工作https://github.com/jaswindersingh2/SPOT-RNA/。SPOT-RNA用一个宏观二级结构来表示RSS,二级结构是一级序列中每个核苷酸的结构类型的7个单字符标识符。式中,S =杆,H =发夹环,M =多环,I =内环,B =凸起,X =外环,E =结束。因此,ncrna的每个二级结构序列都可以用7个字母的字母表来表示。

基于蜘蛛3的特征

对于蛋白质二级结构预测,我们从服务器本地化了SPIDER3http://www.sparks-lab.org/server/spider3/(62其中三个经典的蛋白质二级结构(α-螺旋结构、β-片状结构和螺旋结构)代表蛋白质一级序列中的每个氨基酸。此外,SPIDER3还可用于预测三级结构:溶剂可及表面积(ASA)、接触数(CN)、上半球曝光(hse α up)、下半球曝光(hse α down) [62]。我们计算了每个蛋白质样品中所有氨基酸的这些三级结构的平均值。

界面倾向

残基和核苷酸之间的界面倾向(IP) [63,我们使用了我们团队改进的作品[63],考虑了rna和蛋白质的二级结构信息,通过评分得到其残基核苷酸倾向性(60 × 8)。在这里,我们计算了配对样本中所有核苷酸与氨基酸结合偏好的平均值。

序列编码

为了将NCRNA和蛋白质序列输入深入学习或传统机器学习模型,需要将序列数据编码为数字向量。通过使用简单的K-MER:3-MER频率特征为NCRNA的蛋白质和4-MER频率特征提取NCRNA和蛋白质序列特征的大多数现有研究27.30.32.35.39.]。对于蛋白质,基于偶极矩和侧链体积可以将20个氨基酸分为七组:\({g} _ {1} \)= {A、G V},\({g} _ {2} \)={I, L, F, P},\ ({G} _ {3} \)={Y, M, T, S},\ ({G} _ {4} \)= {h,n,q,w},\ ({G} _ {5} \)= {R K},\ ({G} _ {6} \)= {D E}\ ({G} _ {7} \)= {C} [39.]。然后,每个蛋白质序列都可以用七个字母来表示。因此,一个蛋白质序列可以用343 ({7} \ (^ {3} \))元素通过计算3-mer频率。对于ncRNA,使用四个核糖核苷酸(A, U, G, C),一个ncRNA序列可以表示为256(\ ({4} ^ {4} \))元素。

我们采用联合k-mer方法提取更多的特征信息,将ncRNA的k-mer频率编码过程中的k范围扩大到1-4,将蛋白的k- 3范围扩大到1-4。也就是说,对于ncRNA,我们不仅考虑了4-mer的频率信息,还考虑了1-mer、2-mer和3-mer。与4-mer类似,ncRNAs的3-mer也可以用64(\({4} ^ {3} \))元素;2-MER的NCRNA可以表示为数字向量,其中16(\({4} ^ {2} \))元素;NCRNA的1-MER可以表示为具有4的数字矢量(\({4} ^ {1} \))元素。如图1所示。4.A,行和柱对应于由四种核糖核苷酸(A,U,G,C)和每个NCRNA的主要序列组成的各种K-MET。然后,可以通过二进制矩阵表示NCRNA的主要序列,然后将其转换成带340的数字矢量(\({\ sum} _ {k = 1} ^ {4} {4} ^ {k} \)通过计算每种K-MER频率来计算元素。类似于图。4.B,使用七种结构类型(S,H,M,I,B,X,E),NCRNA的二级结构序列可以表示为具有2800(\({\总和}_ {k = 1} ^ {4} {7} ^ {k} \))元素。因此,将IP与3141 (\({\总和}_ {k = 1} ^ {4} {{4} ^ {k} + 7} ^ {k} + 1 \))元素。对于蛋白质,我们考虑了1-mer、2-mer和3-mer频率信息,将一级序列由简化的7个字母字母表示,二级结构序列由三个经典二级结构(α-螺旋、β-sheet和coil)表示,三级结构(IP、ASA、CN、hse α up和hse α down)用443 (\({\总和}_ {k = 1} ^ {3} {{7} ^ {k} + 3} ^ {k} + 5 \))元素。

图4.
装具

一个由联合k-mer表示的ncRNAs的主要序列。b结合k-mer表示ncRNAs的二级结构序列

性能指标

我们采用5CV来评估EDLMFC和其他方法的七种广泛使用的指标。由于训练程序的随机效应,5CV重复10次。从10次预测的性能度量的平均值被用作最终预测,并且在附加文件中列出了三个数据集上的EDLMFC的10个结果1S2-S4:表。ROC的ACC、TPR、TNR、PPV、F1、MCC、AUC公式如下:

$ $ ACC = \压裂{TP + TN} {TP + TN + FP + FN} $ $
(1)
$ $ TPR = \压裂{TP} {TP + FN} $ $
(2)
$ $ TNR = \压裂{TN} {TN + FP} $ $
(3)
PPV $ $ = \压裂{TP} {TP + FP} $ $
(4)
$ $ MCC = \压裂{TP \ * TN-FP \ * FN}{\√6 {(TP + FP) (TP + FN) (TN + FP) (TN + FN)}} $ $
(5)
$$ f1 = \ frac {2 \ times tpr \ times ppv} {tpr + ppv} $$
(6)

其中TP、FP、TN、FN分别为真阳性、假阳性、真阴性、假阴性的数量。ACC反映了分类器对整个样本的判别能力。TPR反映了预测阳性样本的能力。TNR反映了预测阴性样本的能力。PPV表示区分实际阳性样本的能力。MCC反映了正样本和负样本数量不平衡时分类模型的分类性能。F1是综合考虑TPR和PPV的综合指标。AUC用于评价分类模型的性能。

模型设计

我们采用联合K-MEC编码主要序列和二次结构序列特征,合并IP和IP,ASA,HSE-UP,HSE-DOWN,分别为NCRNA和蛋白质,形成3141和443维特征列vectors。然后,集合深度学习框架自动完成了其余的工作。具体地,NCRNA和蛋白质的两个编码特征柱载体分别被送入分层网络,包括CNN和BLSTM层。然后,从BLSTM层的两个输出的连接向量被接合为完全连接层的输入。最后,集合模块在最后一层使用softmax激活函数来制作二进制预测。所提出的框架的细节如图2所示。5.

图5.
figure5

提出的EDLMFC的工作流程

CNN由多个图层组成,包括输入层,卷积层,最大池层,全连接层和输出层[64]。其中卷积层包括激活操作,最大池化层包括批归一化操作。在卷积层中,假设\ ({} ^ {[l]} \)特征图是什么\(l \ mathrm {th} \)层,可以描述为:

$ ${一}^ {[l]} = f \离开({一}^{\离开[l正确\]}\ otimes {W} ^{左\ [l正确\]}+ {b} ^{\离开[l正确\]}\右)$ $
(7)

在哪里\ ({W} ^ {[l]} \)的卷积核的权矩阵是\(l \ mathrm {th} \)层,操作符\ \ otimes \ ()代表卷积操作,\({b} ^ {[l]} \)是偏移量矢量,还有偏移量\ (f \左(x \) \)是激活功能。

卷积运算后,使用一种常用的激活函数矫正线性单元(activation function correction linear unit, ReLU)对卷积层的输出进行稀疏处理,可以加快有监督的列车过程,并将收敛速度保持在稳定状态,避免梯度消失问题[65]。假设\ (\ mathrm {ReLU} \)是激活层,其公式定义为:

$$ relu = \ left \ {{\ begin {array} {* {20} l} {x,} \ zhill&{if \,x> 0} \ hilfil \\ {0,} \ hifil&{if \,x \ le 0} \ hilfil \\ \ end {array}} \ \ rittle。$$
(8)

其次是卷积层,最大池层用于根据某些规则来对特征图进行采样,以减少参数和计算,同时保持主要特征。假设\ ({} ^ {[l]} \)为池化层,其公式为:

$ ${一}^ {[l]} =抽样\离开({一}^{左\[正确l - 1 \]} \右)$ $
(9)

最大池化操作后,批处理归一化(BN) [66[]操作减少内部协变量移位,帮助训练设计的深度网络。

LSTM是一种广泛使用的带有记忆细胞的RNN [67[哪个在任意时间上存储信息,允许网络在顺序数据中学习长期依赖性。三个非线性门控单元(输入,输出和忘记)通过时间步骤控制信息流。每个门都获得与输入神经元相似的输入。此外,每个门具有激活功能[68],其正向机制表示为:

(10)

在哪里Wb表示重量和偏差,σ\ (\ \)表示Logistic Sigmoid函数,\ \ (*)表示点乘法,

figurea

分别表示输入门,忘记门和输出门。\({x} ^ {<\ mathrm {t}>}是\)当前步长t的输入数据,\ ({} ^ {< t - 1 >} \)是上一步t−1的隐藏状态。\({c} ^ {} \)为上一步t−1时的细胞状态,\ ({c} ^ {< t >} \)为当前步长t时的细胞状态,\({a} ^ {} \)在当前步骤t的隐藏状态,等于输出吗\ ({y} ^ {< t >} \)在当前。

我们使用了Variant的BLSTM,它由两个并行LSTM组成:一个输入序列向前,另一个输入序列反转[69,捕获CNN从一级序列、二级结构序列和三级结构中提取的高级抽象特征之间的长期依赖关系。

为了有效预测ncrpi,我们结合BLSTM设计了一个基于三层CNN的训练模型。两个相似的集成神经网络部分分别对ncRNA和蛋白质输入向量进行分析,采用一层全连通层形成两个特征向量。然后,由三层全连通的特征向量串接作为输入,进行交互预测。集成深度学习框架中的主要参数,包括层数、过滤器大小、核大小、学习率、退出率、BLSTM隐藏大小和全连接大小,都进行了调整,以最大化从训练集随机选择的验证集上的MCC。对于蛋白质分析的集合神经网络,各参数取值如下:层数:3层;过滤尺寸:45、64、86;内核大小:6,6,6;辍学率:0.2、0.2、0.2;BLSTM隐藏尺寸:45;fully-connection大小:64; For ensemble neural network of analyzing ncRNAs, the values of parameters are the same as the ones for analyzing proteins, except for kernel sizes which are 6, 5, and 5. In the end, the three-layer fully-connected with 128, 64, and 2 neurons, respectively, and the dropout with 0.25 and 0.3. Adam [70[随机梯度下降(SGD)[71[连续采用培训每个部分,其中亚当拥有学习速率0.001首先给出模块快速收敛,然后使用学习速率0.005的SGD用于微调模块之后进行微调。此外,我们使用了反向传播算法[72为了最小化二进制交叉熵的损失函数,也采用了正则化[73]和早停[74避免过度装备的算法。我们的模型由Keras2.2.5库实施。

数据和材料的可用性

EDLMFC的源代码和用于本工作的数据集可在以下网站获得https://github.com/JingjingWang-87/EDLMFC

缩写

RBPs:

rna结合蛋白

NCRNA:

非编码RNA

NCRPI:

非编码RNA蛋白质相互作用

ncRNAs:

非编码rna

NCRPIS:

非编码RNA蛋白相互作用

x射线:

x射线晶体衍射

NMR:

核磁共振

低温电子显微镜:

电子cryo-microscopy

CNN:

卷积神经网络

BLSTM:

双向长短期内存网络

RNN:

经常性神经网络

RSS:

RNA二级结构

IP:

界面倾向

作为一个:

溶剂可及表面积

CN:

联系电话

HSE-UP:

一个上半球形曝光

HSEα(:

下半球曝光

射频:

随机森林

支持向量机:

支持向量机

榆树:

极端的学习机器

lncRNAs:

长非编码rna

NAD:

核酸数据库

5的简历:

5倍交叉验证

ACC:

精度

TPR:

真阳性率

TNR:

真阴性率

PPV:

阳性预测值

外国游客1:

F1分数

世纪挑战集团:

马修斯相关系数

AUC:

接收器下的区域操作特征曲线

鹏:

接收器操作特征

relu:

线性整流函数

BN:

批正常化

SGD:

随机梯度下降法

参考

  1. 1。

    知识S,Morris kV。非编码RNA和反义RNA。大自然的垃圾或宝藏?生物chimie。2011; 93(11):1922-7。

    CASPubMedpmed中央文章谷歌学术搜索

  2. 2。

    Kaikkonen MU, Lam MTY, Glass CK。非编码rna调控基因表达和表观遗传学。Cardiovasc杂志2011;90(3):430 - 40。

    CASPubMedpmed中央文章谷歌学术搜索

  3. 3.

    rna -蛋白质相互作用的研究。基因组医学杂志。2014;15(1):401。

    PubMedpmed中央文章谷歌学术搜索

  4. 4.

    Ramanathan M, Porter DF, Khavari PA。研究rna -蛋白质相互作用的方法(vol. 16, p. 225, 2019)。Nat方法。2019;16(4):351。

    CASPubMed文章谷歌学术搜索

  5. 5.

    Djebali S, Davis CA, Merkel A, Dobin A, Lassmann T, Mortazavi A, Tanzer A, Lagarde J, Lin W, Schlesinger F,等。人类细胞的转录概况。大自然。2012;489 (7414):101 - 8。

    CASPubMedpmed中央文章谷歌学术搜索

  6. 6.

    orom ua,derrien t,beringer m,gumireddy k,gardini a,bussotti g,lai f,zytnicki m,notredame c,huang q等。在人体细胞中具有增强剂样功能的长度非编码RNA。细胞。2010; 143(1):46-58。

    CASPubMedpmed中央文章谷歌学术搜索

  7. 7.

    Guttman M,Amit I,Garber M,法国C,Lin MF,Feldser D,Huarte M,Zuk O,Carey BW,Cassady JP等。染色质签名揭示了哺乳动物中高度保守的大型非编码RNA。自然。2009; 458(7235):223-7。

    CASPubMedpmed中央文章谷歌学术搜索

  8. 8.

    Huarte M,Guttman M,Feldser D,Garber M,Koziol MJ,Kenzelmann-Broz D,Khalil Am,Zuk O,Amit I,Rabani M等。P53诱导的大型非基因非编码RNA在P53反应中介导全局基因抑制。细胞。2010; 142(3):409-19。

    CASPubMedpmed中央文章谷歌学术搜索

  9. 9.

    [14]张凯,张国华,张国华,等。双链rna结合蛋白在细菌耐药中的作用。生物医学工程学报,2014,27(4):549 - 554。J Exp Bot. 2019;70(5): 1627-38

    CASPubMed文章谷歌学术搜索

  10. 10.

    杨勇,文磊,朱辉。长链非编码RNA的主要合作蛋白的研究。细胞Biosci。2015;5(1):59。

    PubMedpmed中央文章CAS谷歌学术搜索

  11. 11.

    元L,Zhu L,Gu,Zhou X,Zhang Y,Huang Z,Huang D.基于非谐波的惩罚和稀疏回归的EQTL映射。IEEE ACM Trans Comput Biol。2017; 14(5):1154-64。

    文章谷歌学术搜索

  12. 12.

    袁磊,黄丹,网络引导的关联映射方法从DNA甲基化到疾病。中国科学(d辑:地球科学),2019;

    文章CAS谷歌学术搜索

  13. 13。

    Kitagawa M,Kotake Y,Ohhata T.长期非编码RNA参与癌症发育和细胞命运的决定。Curr药物目标。2012; 13(13):1616-21。

    CASPubMed文章谷歌学术搜索

  14. 14。

    朱义,卞X,ye d,姚x,张某,戴b,张h,沉玉。微阵列揭示的膀胱癌的长度非数性RNA表达特征。oncol lett。2014; 7(4):1197-202。

    CASPubMedpmed中央文章谷歌学术搜索

  15. 15.

    陈旭,闫春春,张旭,尤振龙,非编码rna与复杂疾病:从实验结果到计算模型。短暂的Bioinform。2017;18(4):558 - 76。

    CASPubMed谷歌学术搜索

  16. 16.

    Faghihi MA, Modarresi F, Khalil AM, Wood DE, Sahagan BG, Morgan TE, Finch CE, Laurent GSI, Kenny PJ, Wahlestedt C.非编码RNA的表达在阿尔茨海默病中升高,并驱动β -分泌酶的快速前导调节。Nat医学。2008;14(7):723 - 30。

    CASPubMedpmed中央文章谷歌学术搜索

  17. 17.

    关键词:膀胱肿瘤,共表达网络,融合策略,基因挖掘BMC基因组学。2015;163:S4。

    文章CAS谷歌学术搜索

  18. 18.

    元L,Guo L,Yuan C,Zhang Y,Han K,Nandi Ak,Honig B,Huang D.基因调节网络推理的多OMICS数据集成及应用于乳腺癌。IEEE ACM Trans Comput Biol。2019; 16(3):782-91。

    文章谷歌学术搜索

  19. 19.

    引用本文:Ray D, Kazan H, Chan ET, Castillo LP, Chaudhry S, Talukder S, Blencowe BJ, Morris Q, Hughes r . RNA结合蛋白的RNA识别特异性的快速和系统分析。生物科技Nat》。2009;27(7):135 - 667。

    文章CAS谷歌学术搜索

  20. 20.

    Keene JD, Komisarow JM, Friedersdorf MB. RIP-chip:从细胞提取物中分离和鉴定核糖核蛋白复合物的mrna, microRNAs和蛋白质成分。Nat Protoc。2006;1(1):302 - 7。

    CASPubMed文章谷歌学术搜索

  21. 21.

    [10]张建平,张建平,张建平,等。基于神经网络的人工神经网络的研究进展[J] .中国生物医学工程学报,2015,33(3):549 - 554。通过PAR-CLIP在转录组范围内鉴定rna结合蛋白和MicroRNA靶位点。细胞。2010;141(1):129 - 41。

    CASPubMedpmed中央文章谷歌学术搜索

  22. 22.

    好的,谢谢。RNA和RNA -蛋白质复合物的结晶。方法。2004;34(3):408 - 14所示。

    CASPubMed文章谷歌学术搜索

  23. 23.

    Scott Lg,Hennig M. RNA结构通过NMR测定。方法Mol Biol。2008; 452:29-61。

    CASPubMed文章谷歌学术搜索

  24. 24。

    Jin P, Bulkley D, Guo Y, Zhang W, Guo Z, Huynh W, Wu S, Meltzer S, Cheng T, Jan LY, et al. .机械转导通道NOMPC的电镜结构。大自然。2017;547(7661):118 - 22所示。

    CASPubMedpmed中央文章谷歌学术搜索

  25. 25。

    朱磊,郭伟,邓生,黄栋:基于凸松弛对相互作用张量分解的ChIP-Seq数据分析。中国生物医学工程学报。2016;13(1):55-63。

    文章谷歌学术搜索

  26. 26。

    Muppirala UK,Honavar Vg,Dobbs D.仅使用序列信息预测RNA蛋白质相互作用。BMC生物素。2011; 12:489。

    CAS文章谷歌学术搜索

  27. 27.

    Pan X, Fan Y, Yan J, Shen H. IPMiner: hidden ncRNA-protein interaction sequential pattern mining with stacked autoencoder, accurate computational prediction。BMC基因组学。2016;17(1):582。

    PubMedpmed中央文章CAS谷歌学术搜索

  28. 28.

    Dai Q, Guo M, Duan X, Teng Z, Fu Y.构建计算预测ncrna -蛋白相互作用的复杂特征。麝猫。2019;10:18。

    CASPubMedpmed中央文章谷歌学术搜索

  29. 29.

    关键词:高速ELM学习深度卷积神经网络特征编码蛋白质- rna相互作用IEEE ACM Trans Comput Biol. 2020;17(3): 972-80。

    CAS文章谷歌学术搜索

  30. 30.

    诚思,张立,谭茹,龚W,李c,张X.dm-rpis:预测使用堆叠合奏策略的Ncra-蛋白相互作用。计算Biol Chem。2019; 83:107088。

    CASPubMed文章谷歌学术搜索

  31. 31.

    Zhan Z,你Z,Li L,Zhou Y,yi H.精确预测NCRNA蛋白的相互作用从序列和进化信息的整合。前群体。2018; 9:458。

    CASPubMedpmed中央文章谷歌学术搜索

  32. 32.

    akbaripur - elahabad M, Zahiri J, Rafeh R, Eslami M, Azari M. rpiCOOL:一种利用随机森林检测硅rna -蛋白质相互作用的工具。中国生物医学杂志2016;402:1-8。

    CASPubMed文章谷歌学术搜索

  33. 33.

    Wang L ., Yan X ., Liu M ., Song K ., Sun X ., Pan W. deep convolutional neural network and feature selection ensemble method for RNA-protein互作预测。中国科学(d辑:地球科学),2019;

    CASPubMed文章谷歌学术搜索

  34. 34.

    关键词:LPI-CNNCP,复制-填充技巧,卷积神经网络,lncrna -蛋白相互作用学生物化学肛门。2020;601:113767。

    CASPubMed文章谷歌学术搜索

  35. 35.

    一种基于进化信息的ncrna -蛋白相互作用的深度学习框架。化学学报,2018;11:37 - 44。

    CAS文章谷歌学术搜索

  36. 36。

    Bellucci M,Agostini F,Masin M,Tartaglia GG。预测具有长非编码RNA的蛋白质缔合。NAT方法。2011; 8(6):444-5。

    CASPubMed文章谷歌学术搜索

  37. 37。

    Agostiini F,Zanzoni A,Klus P,Marchese D,Cirillo D,Tartaglia GG。catrapid常规:用于大规模预测蛋白质RNA相互作用的网络服务器。生物信息学。2013; 29(22):2928-30。

    CASPubMedpmed中央文章谷歌学术搜索

  38. 38。

    吕强,任世民,张勇,朱东,张新民,李涛。长链非编码rna与蛋白质关系的计算预测。BMC基因组学。2013;14:651。

    CASPubMedpmed中央文章谷歌学术搜索

  39. 39.

    苏雷西V,刘林,Adjeroh D . RPI-Pred:利用序列和结构信息预测ncrna -蛋白相互作用。3 .中国科学院大学学报(自然科学版);

    CASPubMed文章谷歌学术搜索

  40. 40.

    1 .彭超,韩生,张辉,李玉龙:一种用于ncrna -蛋白相互作用预测的分层深度学习框架。中国科学:分子生物学杂志,2019;

    CASpmed中央文章谷歌学术搜索

  41. 41.

    风扇X,张S.LPI-BLS:预测与广泛的学习系统的堆叠合奏分类器的LNCRNA蛋白质相互作用。神经关键词。2019; 370:88-93。

    文章谷歌学术搜索

  42. 42.

    Liu Y, Gong W, Zhao Y, Deng X, Li C. aPRBind:基于序列和I-TASSER模型的卷积神经网络学习结构特征的蛋白质- rna界面预测。生物信息学。2020;2020:a747。

    文章谷歌学术搜索

  43. 43.

    Alipanahi B, Delong A, Weirauch MT, Frey BJ。通过深度学习来预测DNA和rna结合蛋白的序列特异性。生物科技Nat》。2015;33(8):831。

    CASPubMed文章pmed中央谷歌学术搜索

  44. 44.

    关键词:深度神经网络,卷积神经网络,深度神经网络,DNA序列核酸研究进展。2016;44(11):e107。

    PubMed文章CAS谷歌学术搜索

  45. 45.

    关键词:深度卷积神经网络,rna -蛋白质结合位点,基序,局部卷积神经网络生物信息学。2018;34(20):3427 - 36。

    CASPubMed文章谷歌学术搜索

  46. 46.

    一种学习内在蛋白质- rna结合偏好的深度神经网络方法。生物信息学。2018;34(17):638 - 46。

    文章CAS谷歌学术搜索

  47. 47.

    Cline Ms,Smoot M,Cerami E,Kuchinsky A,Landys N,工人C,Christmas R,Avila-Campilo I,Cross B等,Gross B等人。使用Cytoscape整合生物网络和基因表达数据。NAT PROTOC。2007; 2(10):2366-82。

    CASPubMedpmed中央文章谷歌学术搜索

  48. 48。

    Shannon P,Markeil A,Ozier O,Baliga NS,Wang J.Cytoscape:用于生物分子交互网络的集成模型的软件环境。Genome Res。2003; 13(11):2498-504。

    CASPubMedpmed中央文章谷歌学术搜索

  49. 49。

    Otasek D,Morris Jh,Bouas J,Pico Ar,Demchak B.Cytoscape自动化:基于工作流的网络分析赋予了赋予了赋予的网络分析。基因组Biol。2019; 20(1):185。

    PubMedpmed中央文章谷歌学术搜索

  50. 50.

    邓树华,朱磊,黄德民。一种基于两阶段几何的蛋白质-蛋白质网络不可靠链接修剪方法。中国科学(d辑:地球科学)(英文版)。

    谷歌学术搜索

  51. 51.

    Deligio JT,Stevens Sc,Nazario-Munoz GS,Macknight HP,Doe Kk,Chalfant Ce,Park Ma。富含丝氨酸/精氨酸的剪接因子3调节细胞质多腺苷酸元结合蛋白的替代拼接2.摩尔癌RES。2019; 17(9):1920-30。

    CASPubMedpmed中央文章谷歌学术搜索

  52. 52.

    Hansen Gm,Markesich DC,Burnett MB,朱Q,Dionne Km,Richter LJ,Finnell Rh,Sands At,Zambrowicz BP,Abuin A. C57BL / 6N小鼠胚胎干细胞中的大规模基因诱捕。Genome Res。2008; 18(10):1670-9。

    CASPubMedpmed中央文章谷歌学术搜索

  53. 53.

    Manley JL,Krainer AR。丝氨酸/精氨酸富含蛋白质剪接因子(SR蛋白)的理性命名法。基因开发。2010; 24(11):1073-4。

    CASPubMed文章谷歌学术搜索

  54. 54.

    Guo H,Li Y,Luo M,Lin S,Chen J,MA,Gu Y,Jiang Z,Gui Y.SrSF4基因启动子谐波响应元件的结合抑制了其在小鼠Sertoli细胞中的表达。mol sold dev。2015; 82(12):976-85。

    CASPubMed文章谷歌学术搜索

  55. 55.

    邓S,朱L,黄D。通过基因共表达网络预测与宫颈癌相关的枢纽基因。IEEE ACM Trans Comput Biol。2016; 13(1):27-35。

    CAS文章谷歌学术搜索

  56. 56.

    EMBOSS:欧洲分子生物学开放软件套件。趋势麝猫。2000;16(6):276 - 7。

    CASPubMed文章谷歌学术搜索

  57. 57.

    Rajagopal S, Vishveshwara S。2月j . 2005; 272(8): 1819 - 32。

    CASPubMed文章谷歌学术搜索

  58. 58.

    滕X,陈X,薛h,唐y,张p,kang q,郝y,陈r,zhao y,他s。npinter v4.0:ncra n互动的集成数据库。Nucl酸res。2019; 48(D1):D160-5。

    谷歌学术搜索

  59. 59.

    黄勇,牛斌,高勇,傅磊,李伟。一种生物序列聚类和比较的web服务器。生物信息学,2010,26(5):680 - 2。

    CASPubMedpmed中央文章谷歌学术搜索

  60. 60.

    辛格J,Hanson J,Paliwal K,周Y. RNA二级结构预测使用二维深度神经网络的集合和转移学习。NAT Communce。2019; 10(1):5407。

    PubMedpmed中央文章CAS谷歌学术搜索

  61. 61.

    [10]黄丽萍,黄晓华,邓丹,等。bpRNA在RNA二级结构分析中的应用。中国生物医学工程学报,2014,34(4):549 - 554。中国科学院学报(自然科学版),2018;

    CASPubMed文章谷歌学术搜索

  62. 62.

    关键词:长-短期记忆,双向递推神经网络,非局部相互作用,蛋白质二级结构,主链角,接触数,溶剂可及性生物信息学。2017;33(18):2842 - 9。

    CASPubMed文章谷歌学术搜索

  63. 63.

    李世克,曹磅,苏Jg,杨yx,王cx。具有考虑鉴别蛋白质RNA对接诱饵的结构信息的新残留核苷酸倾向电位。蛋白质。2012; 80(1):14-24。

    CASPubMed文章谷歌学术搜索

  64. 64.

    Zhang J,Chen Q,Liu B.IDRBP_MMC:基于多标签学习模型和基于主题卷积神经网络识别DNA结合蛋白和RNA结合蛋白。J Mol Biol。2020; 432(22):5860-75。

    CASPubMed文章谷歌学术搜索

  65. 65.

    刘志军,刘建军,刘志军。深度稀疏整流神经网络。北京:科学出版社。J Mach Learn Res. 2011; 15:315-23。

    谷歌学术搜索

  66. 66.

    王世,穆罕默德·康,洪俊,桑凯阿,张捷。基于参数relu,辍学和批量归一化的卷积神经网络通过污染物识别。神经计算机应用。2018; 32(3SI):665-80。

    谷歌学术搜索

  67. 67.

    周J,Troyanskaya OG。基于深度学习的序列模型的非分量变体预测效应。NAT方法。2015; 12(10):931-4。

    CASPubMedpmed中央文章谷歌学术搜索

  68. 68.

    关键词:深度卷积神经网络,蛋白质二级结构预测,深度不对称卷积长短期记忆欧宝娱乐合法吗BMC生物信息学。2019;20(1):341。

    PubMedpmed中央文章CAS谷歌学术搜索

  69. 69.

    李斌,李斌,刘倩,艾冬。基于深度学习的长链非编码rna预测。生物医学工程学报,2017,36(4):529 - 534。基因巴塞尔。2019;10(4):273。

    CASpmed中央文章谷歌学术搜索

  70. 70.

    Kingma D,Ba J. Adam:一种随机优化的方法。2014年。arXiv: 1412.6980

  71. 71.

    一种随机近似方法。《数学学报》1951;22(3):400-7。

    文章谷歌学术搜索

  72. 72.

    基于反向传播误差的学习方法。大自然。1986;323(6088):533 - 6。

    文章谷歌学术搜索

  73. 73.

    Srivastava n,Hinton G,Krizhevsky A,Sutskever I,Salakhutdinov R.辍学:防止神经网络从过度装箱中的一种简单的方法。J Mach Learn Res。2014; 15:1929-58。

    谷歌学术搜索

  74. 74.

    Lecun Y, Bottou L, Orr GB。神经网络:交易技巧。中国科学院院刊。2012;41(7):658。

    谷歌学术搜索

下载参考

确认

我们感谢所有员工的员工,为他们的努力和那些帮助我们在我们工作过程中的人。

资金

我们感谢北京自然科学基金(2202002号)和中国自然科学基金会项目(21173014)的财务支持。

作者信息

从属关系

作者

贡献

JJW设计了该方法,准备了数据集,实现了实验,并写了稿件;ypz构思了算法;WKG解决了工作技术问题;yl修改了稿件;MW调整了手稿格式;XQH整理了参考;JJT引导工作创意并修改了稿件;每个人都终于审查了手稿。

相应的作者

对应于Jianjun谭

伦理宣言

参与的伦理批准和同意

不适用。

同意出版

不适用。

利益争夺

两位作者声明,他们没有相互竞争的利益。

额外的信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

额外的文件1。表S1

:5个子集划分为已加工的RPI488数据集。表S2:在RPI488数据集上运行10次后,EDLMFC的结果为5CV。表S3:在RPI1807数据集中运行10次后,EDLMFC的结果为5CV。表S4:在NPInter v2.0数据集上运行10次,5CV下EDLMFC的结果。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的知识共享许可中,除非在材料的信用额度中另有说明。如果文章的内容不包括在知识共享许可中,并且您的预期用途不被法定规定允许或超过允许的用途,您将需要直接获得版权所有者的许可。如欲查阅本牌照的副本,请浏览http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

王,J.,赵,Y.,龚,W。et al。EDLMFC:融合多尺度特征的集成深度学习框架,用于ncrna -蛋白相互作用预测。欧宝娱乐合法吗22日,133(2021)。https://doi.org/10.1186/s12859-021-04069-9

下载引用

关键字

  • NCRNA-蛋白质相互作用
  • 多尺度特征组合
  • 联合K-mer
  • 合奏深度学习
  • 独立测试
  • ncRNA-protein网络
\