跳过主要内容

集成多OMICS数据的机器学习框架预测癌症相关的LNCRNA

抽象的

背景

LNCRNA(长编码RNA)是一种非编码RNA分子,具有比200个核苷酸的转录长度长。LNCRNA一直是癌症诊断和预后的新候选生物标志物。然而,难以发现LNCRNA和复杂疾病之间的真实关联机制。多OMICS数据的前所未有的丰富富集和机器学习技术的快速发展为我们提供了设计机器学习框架来研究LNCRNA和复杂疾病之间的关系。

结果

在本文中,我们提出了一种新的机器学习方法,即LGDLDA(基于LNCRNA-疾病协会网络的LNCRNA疾病关联预测),用于疾病相关的LNCRNA关联预测的基于多OMICS数据,机器学习方法和神经网络邻域信息聚合。首先,LGDLDA分别计算LNCRNA,基因和疾病的相似性矩阵,并通过LNCRNA表达谱,LNCRNA-miRNA相互作用基质和LNCRNA-蛋白质相互作用基质计算LNCRNA之间的相似性。通过计算LNCRNA-基因关联基质和基因疾病缔合基质,获得基因相似性基质,通过计算疾病本体,疾病 - miRNA关联矩阵和高斯相互作用核相似性获得疾病相似性基质。其次,LGDLDA通过使用神经网络的非线性特征学习将邻域信息集成在相似度矩阵中。第三,LGDLDA使用嵌入节点表示来近似观察到的矩阵。最后,LGDLDA排名候选LNCRNA病对,然后选择潜在的疾病相关的LNCRNA。

结论

与LNCRNA疾病预测方法相比,我们提出的方法考虑了更关键的信息并获得了相关的癌症相关的LNCRNA预测。随机分割数据实验结果表明,LGDLDA的稳定性优于IDHI-MIRW,NCPLDA,LNCDISAP和NCPHLDA。结果对不同仿真数据集的结果表明,LGDLDA可以准确且有效地预测与疾病相关的LNCRNA。此外,我们将该方法应用于包括胃癌,结直肠癌和乳腺癌的三种真实癌症数据,以预测潜在的癌症相关的LNCRNA。

同行评审报告

背景

长链非编码RNA (Long non-coding RNAs, lncRNAs)是一种转录本长度超过200个核苷酸的非编码RNA分子[ob体育开户 ob体育开户 ].许多研究证实人类基因组含有大量的LNCRNA [ob体育开户 ].许多证据表明,在RNA的形式中,LNCRNA调节多水平(例如,表观遗传调控,基因组剪接,基因组印记,转录激活,转录激活,转录激活,转录激活,转录后调节的表达水平[4.5.6.ob体育开户 ].LNCrNA的异常表达参与肿瘤的增殖,凋亡,血管生成和转移[ob体育开户 ob体育开户 ].LNCRNA与复杂疾病的诊断,预后和预防和治疗密切相关[ob体育开户 ].LNCRNA已成为癌症诊断和预后的新候选生物标志物[ob体育开户 ].

关于疾病相关lncRNA的实验验证信息逐渐增多。大量的数据库已经出版。LncRNADisease数据库包含3000个lncrna -疾病关联[ob体育开户 ].Lnc2Cancer数据库收集了1500个lncRNA-cancer条目[ob体育开户 ].此外,研究人员构建了与NONCODE相关的LNCRNA相关数据库[ob体育开户 ],lncrnadb [ob体育开户 ],lncipedia [ob体育开户 ],lncactdb [ob体育开户 ].虽然近年来LNCRNA的研究进展了迅速,但大多数LNCRNA的功能仍然不清楚。已经开发了生物信息学计算方法以预测用于生物实验验证的潜在的LNCRNA疾病关联。计算方法可以大大降低寻找新疾病相关的LNCRNA的实验成本和时间[ob体育开户 ob体育开户 ].

与疾病相关的lncrna预测方法可以分为基于网络的方法和基于机器学习的方法。生物系统是一个包含不同分子的高度复杂的异构网络。基于网络的方法利用多种特征,包括(但不限于)lncRNA功能相似性、lncRNA-基因关联、基因-基因相互作用、基因-疾病关联和分子相似性来构建lncRNA相似网络,或lncRNA-疾病异质性网络。然后使用网络模型分析方法(如传播算法和随机游走理论)预测潜在的lncrna与疾病的关联[ob体育开户 ].RWRLNCD构建了一个统一的网络,包括疾病相似性网络,LNCRNA功能相似性网络和疾病-LNCRNA关联网络。该方法使用随机步行与重启(RWR)方法预测潜在的LNCRNA-疾病协会[ob体育开户 ].RWRHLD添加了与lncRNA相互作用的miRNA信息,进一步提高了lncRNA疾病预测方法的准确性[ob体育开户 ].LNCRDNETFLFL使用流算法以基于多OMICS网络预测LNCRNA疾病关联[ob体育开户 ].然而,已知的lncrna与疾病的关联数据仍然不足,在没有已知lncrna信息的情况下,这些方法无法应用于相关疾病的预测。为了避免上述问题,研究者尝试结合已知的致病基因- mirna关联数据、miRNA-lncRNA关联数据等数据来预测lncrna与疾病的关联。lncrpricnet使用多种特征,包括表型-基因关系和基因-基因相互作用,构建多层次复合网络,然后使用相似度评分预测lncrna -疾病关联[ob体育开户 ].Ganegoda等人提出了一种模型,通过整合已知的癌症相关lncrna信息和包括基因组、调控和转录bios数据在内的多组数据,预测潜在的疾病相关lncrna [ob体育开户 ].

最近,许多基于机器学习算法的生物信息学计算模型被提出,以发现潜在的lncrna与疾病的关联。Lu等人使用归纳矩阵补全和主成分分析预测潜在的lncrna与疾病的关联[ob体育开户 ].基于对现有研究的综述,陈等。提出了一个假设,其功能相似的LNCRNA倾向于在类似疾病中异常表达,并开发了一种基于Laplacian规则的最小二乘法(命名LRSLDA)的半监控机器学习框架。不幸的是,该方法有效地选择了多个参数[ob体育开户 ].Wang等人。使用的LNCRNA相似性数据和疾病相似性数据训练装袋支持向量机(SVM)分类器,并且训练的SVM被实现为Web服务器以预测潜在的疾病相关的LNCRNA [ob体育开户 ].You等人提出了一种名为LDASR的方法,通过使用协同过滤和旋转森林来预测潜在的lncrna疾病关联[ob体育开户 ].这些方法取得了良好的效果。虽然近年来lncRNA的研究进展迅速,但遗憾的是,这些方法往往使用未经修改的传统机器学习方法,所使用的组学数据也仅限于两到三种类型。近年来,lncrna与疾病之间相关组学数据的积累以及机器学习和深度学习技术的发展,为研究者使用监督学习模型预测疾病相关的lncrna提供了更好的机会。

与此同时,现代医学研究证明了生物因素(例如,miRNA,蛋白质和基因)的交替可以直接或间接地影响疾病。早期的研究表明,通过控制各种转录后方法来调节基因表达的RNA蛋白质相互作用。LNCRNA通过募集调节综合体调节RNA蛋白质相互作用[ob体育开户 ob体育开户 ],文献表明许多lncrna也起到调节基因表达的作用[ob体育开户 ].Wang等报道lncrna - mirna -疾病互动网络可能是生物医学研究领域的一大补充[ob体育开户 ].刘等。据报道,LNCRNA结合蛋白在许多疾病的发展中发挥着关键作用[ob体育开户 ].累积的mirna与疾病的相关性可用于疾病治疗[ob体育开户 ].考虑lncrna调控基因和生物因子调控疾病的机制,为获得更多关于lncrna与疾病关联的信息提供了更好的机会。

受当前表现良好的神经网络技术的启发[ob体育开户 ob体育开户 [我们试图使用多个OMICS相似矩阵,神经网络邻域信息聚集和训练的监督学习模型,以提取来自LNCRNA-Gene-疾病协会网络的关联特征,以预测与疾病相关的LNCRNA。在本文中,我们提出了一种名为LGDLDA的新机器学习框架(基于LNCRNA-疾病关联网络的LNCRNA疾病关联预测),用于疾病相关的LNCRNA关联预测的多OMICS功能相似性数据,机器学习方法和神经网络邻域信息聚合。我们从三个数据库中收集数据Lncrnadisease v2.0 [ob体育开户 ],lnc2cancer [ob体育开户 ]和MNDR v2.0数据库[ob体育开户 ]单独,然后将这三个数据组合成一个数据。该组合数据中的疾病不包括胃癌,乳腺癌和前列腺癌。附加文件ob体育开户 :图S1提供了疾病- lncrna关联实例的数据处理流程。该组合数据包含6000个疾病- lncrna关联实例,其中4000个关联实例用于培训,2000个关联实例用于验证。首先,LGDLDA通过lncRNA表达谱矩阵、lncRNA- mirna相互作用矩阵和lncRNA-蛋白相互作用矩阵计算lncRNA之间的相似性。通过计算lncrna -基因关联得到基因相似矩阵。

基质和基因疾病结合基质。通过计算疾病本体,疾病 - miRNA关联矩阵和高斯相互作用核相似性获得疾病相似性基质。其次,LGDLDA通过使用神经网络的非线性特征学习集成了邻里信息。第三,LGDLDA使用嵌入节点表示来近似观察到的矩阵。最后,LGDLDA排名候选LNCRNA病对,然后选择潜在的疾病相关的LNCRNA。稳定性测试结果表明,LGDLDA更加稳健,模拟数据实验表明,LGDLDA在预测LNCRNA疾病协会方面表现优于四种最先进的方法。LGDLDA可以有效地预测潜在的癌症相关的LNCRNA,并为生物实验验证提供更多候选者。最近的文献支持的大多数预测的癌症相关的LNCRNA。

结果

在结果部分,我们所做的工作描述如下:首先,我们使用随机分裂样本来观察每种方法的稳健性。其次,在一个小型lncRNA-disease关联模拟网络上,将LGDLDA与四种著名的lncRNA-disease关联预测方法进行比较。四种最先进的方法包括NCPLDA [ob体育开户 ],Idhi-mirw [ob体育开户 ],lncdisap [ob体育开户 ]和ncphlda [ob体育开户 ].最后,LGDLDA应用于三种真正的癌症样本,以预测潜在的疾病相关的LNCRNA。

方法稳定性比较

在将LGDLDA与四个着名的LNCRNA-疾病关联预测方法进行比较小数据之前,我们需要评估这些方法的稳定性。我们通常将设置成两部分的数据随机划分为:ω1和ω2。在第一步中,基于训练集ω1,我们选择不同的参数并确定具有良好性能的参数配置。在第二步中,我们预期所选择的参数配置可以在ω2中具有精确的预测。我们在小型LNCRNA疾病关联模拟网络上进行了该实验,该试验含有356℃,354个疾病,132个基因,736个已知的LNCRNA-基因关联,462个基因疾病关联和2169名已知的LNCRNA疾病协会实例[ob体育开户 ].ω1含有1446个LNCRNA-Gene缔合物,ω2含有723个LNCRNA-基因协会的情况。可能有两个问题需要考虑:(i)随机分割样本中的随机性是否会影响方法的稳定性?(ii)是LGDLDA的稳定性比NCPLDA更好[ob体育开户 ],Idhi-mirw [ob体育开户 ],lncdisap [ob体育开户 ]和ncphlda [ob体育开户 ]?

为了解决这两个问题,我们观察了在两个实验中的方法的表现。在第一个实验中,我们在某个综合数据集上执行了10个随机分裂。对于每个随机分割的数据集,我们在数据集和计算的AUC值上运行LGDLDA。10实现的AUC值如图4所示。ob体育开户 .实验结果见图。ob体育开户 显示随机分区策略对方法性能影响不大。在第二个实验中,我们在某个综合数据集上执行了50个随机分裂。对于每个随机划分的数据集,我们在数据集和计算的AUC值上运行了每种方法。基于我们对这些AUC值进行了这些实验,我们计算了最低,第一四分位数,中值,第三个四分位数和最大值和绘制盒子。图中的盒子图。ob体育开户 表明LGDLDA的稳定性优于IDHI-MIRW,NCPLDA,LNCDISAP和NCPHLDA。我们还执行了10个随机分裂实验和50个随机分割实验,在数据集上具有10%不正确的数据。DataSet上的10个实现的AUC值显示在附加文件中ob体育开户 :图。S2。从50个随机分割的框图在数据集上有10%不正确数据的数据集显示在附加文件中ob体育开户 :图。S3。

图。1
图1

10实现的AUC值

图2
figure2

LGDLDA、IDHI-MIRW、NCPLDA、LncDisAP和NCPHLDA的箱形图

与小型模拟数据集的四种最先进方法的比较

In this section, we compared LGDLDA with four famous methods (i.e., NCPLDA, IDHI-MIRW, LncDisAP and NCPHLDA) on a small lncRNA-disease association simulation network which contains 356 lncRNAs, 354 diseases, 132 genes, 736 known lncRNA-gene associations, 462 gene-disease associations and 2169 known lncRNA-disease associations from breast cancer [ob体育开户 ].LncDisAP [ob体育开户 ]和idhi-mirw [ob体育开户 ]是基于多个生物数据集和RWR算法的预测方法。NCPHLDA [ob体育开户 ]及NCPLDA [ob体育开户 ]是基于网络的方法。我们在具有英特尔I9-10900X CPU和512 G RAM的计算机上执行了这些实验。

为避免小型LNCRNA-疾病关联仿真网络,有利于我们自己的模型,我们在不含基因相关信息的数据上运行每种方法(即,没有基因,LNCRNA-基因关联和基因疾病关联的数据)。数字ob体育开户 显示LGDLDA的ROC和相应的AUC值和四种竞争方法。如图1所示。ob体育开户 , LGDLDA在AUC值上优于其他四种方法。LGDLDA的AUC为0.926,分别比IDHI-MIRW、NCPLDA、LncDisAP和NCPHLDA高0.035、0.096、0.163和0.116。我们还在包含基因信息的数据上运行每一种方法。数字ob体育开户 显示LGDLDA的ROCS和AUC值和四种竞争方法。如图1所示。ob体育开户 , LGDLDA在AUC值上优于其他四种方法。LGDLDA的AUC为0.935,分别比IDHI-MIRW,NCPLDA,LNCDISAP和NCPHLDA高0.067,0.134,0.205和0.131。考虑到我们经常将方法应用于不完整的数据集,我们随机删除20%的数据并运行每种方法。LGDLDA和其他四种方法的ROCS和AUC值如图4所示。ob体育开户 .LGDLDA在AUC方面取得了比其他四种方法更好的性能。LGDLDA的AUC分别为0.880,分别比IDHI-MIRW,NCPLDA,LNCDISAP和NCPHLDA高0.034,0.088,0.053和0.208。虽然我们的方法LGDLDA受到不完整数据的影响,但它比其他四种方法更好。与四种最先进的方法相比,不同仿真数据集的结果表明,LGDLDA可以准确且有效地预测与疾病相关的LNCRNA。

图3.
图3

LGDLDA,IDHI-MIRW,NCPLDA,LNCDISAP和NCPHLDA的ROCS和相应的AUC值,不包含与基因相关信息的数据

图4.
装具

LGDLDA,IDHI-MIRW,NCPLDA,LNCDISAP和NCPHLDA的ROCS和相应的AUC值对包含基因信息的数据

图5.
figure5

LGDLDA,IDHI-MIRW,NCPLDA,LNCDISAP和NCPHLDA的ROCS和相应的AUC值,具有缺少部分信息的数据

为了观察是否有必要包含每个组数据,我们在组数据缺失部分的数据集上进行实验,记录下AUC值,并与完整的多组数据集上的实验结果进行比较。实验结果见附加文件ob体育开户 :表S1。

应用于癌症数据和潜在的LNCRNA病关联分析

在本节中,我们将LGDLDA应用于真实的癌症数据,包括胃癌、结直肠癌和乳腺癌。对于一个特定的疾病,所有已知的相关lncrna都是真实的标签,其他的lncrna都是疾病的候选者。受Guo等人工作的启发[ob体育开户 [我们在LNCrnadisease数据库V2.0,DISGENET和LNCACTDB中使用了相关信息,以培训LGDLDA和其他数据库,包括CRLNCRNA [ob体育开户 ],Mndr v2.0,lncrnawiki [ob体育开户 ]和Lnc2Cancer,用于验证结果。我们将LGDLDA应用于真实的癌症数据,并将lncrna与疾病的关联评分从大到小进行排序,然后确定每个癌症的前15个潜在相关的lncrna。

胃癌是世界上第二常见的癌症[ob体育开户 ob体育开户 ].积累的证据表明,许多LNCRNA在胃癌中具有失调[ob体育开户 ob体育开户 ].有必要使用计算方法来预测癌症相关的LNCRNA。在胃癌研究中,我们使用从数据库中的1352个关联和基因相关关联作为阳性样本。我们将数据库中随机选择了与否定样本相同的样本。我们通过从其他数据库中提取胃癌相关的LNCRNA来构建测试数据。最近的文献支持15个潜在的胃癌相关的LNCRNA。表中显示了这15个癌症相关的LNCRNA的确认数据库和支持文献ob体育开户 和附加文件ob体育开户 :表S2分别。例如,Xu等人。[ob体育开户 ]发现ZFAS1的过度表达与淋巴结转移和TNM分期显着相关。ZFAS1的过表达导致对细胞循环过程的控制丧失,这反过来促进胃癌细胞的增殖和迁移。刘等。报道,LNCRNA H19在胃癌细胞系中异常高度表达。Zai等人。据报道,活化的DANCR促进胃癌细胞的增殖和侵袭[ob体育开户 ].LncRNA HOXA11-AS通过调控染色质修饰因子LSD1和DNMT1促进胃癌的侵袭和增殖[ob体育开户 ].大量的研究表明,LNCRNA可用作治疗胃癌的生物标志物[ob体育开户 ].

表1 LGDLDA预测前15位胃癌相关lncrna的确认数据库

乳腺癌是女性最常见的恶性肿瘤和癌症死因的第二个主要原因[ob体育开户 ob体育开户 ].如果我们尽早检测到癌症相关的LNCRNA并早期干预,它将大大降低乳腺癌的发生率。最近的文献支持15个潜在的乳腺癌相关的LNCRNA。确认的数据库和支持这15个与癌症相关的LNCRNA的支持文献在附加文件中显示ob体育开户 :表S3和附加文件ob体育开户 :表S4分别。例如,杨等人。发现LNCRNA BCRT1的过表达可以促进巨噬细胞的M2偏振,从而加速乳腺癌的发育[ob体育开户 ].Schiemann报告称,LNCRNA Borg调节TRIM28的转录抑制活性,以引发潜在的乳腺癌细胞的迁移和侵袭[ob体育开户 ].Spector等人。据报道,LNCRNA Matar25通过调节Tensin1基因的表达来影响乳腺癌细胞的增殖和转移[ob体育开户 ].

前列腺癌是男性第二大常见癌症,也是全球第五大死亡原因[ob体育开户 ob体育开户 ].最近的文献支持15个潜在的前列腺癌相关的LNCRNA中。确认的数据库和支持这15个与癌症相关的LNCRNA的支持文献在附加文件中显示ob体育开户 :表S5和附加文件ob体育开户 :表S6。例如,Zhao等人[ob体育开户 据报道,AnRil的过度表达促进了前列腺癌细胞的增殖和迁移。李等人。据报道,LNCRNA SNHG1通过对MIR-199A-3P进行负面调节MIR-199A-3P来增强CDK7的表达和促进前列腺癌中的细胞增殖ob体育开户 ].张等人。据报道,LNCRNA气体5的雄激素减少转录物可以促进前列腺癌的增殖[ob体育开户 ].

讨论

在研究中,我们发现许多潜在的癌症相关的LNCRNA。大多数潜在协会LNCRNA由最近的文献支持。在未来的生物实验中,找到新潜在的LNCRNA和疾病之间的关联机制是有趣的。

如图1所示。ob体育开户 ,这是我们所提出的方法LGDLDA发现的子网。子网络包含一些确认的LNCRNA,PSORS1C3,PTCSC2和UCC尚未报道。我们假设快速增加的生物数据带来更多信息(例如,LNC2癌症和LNCactDB),而LGDLA与非线性映射相结合可以更准确地捕获多OMICS数据中的复杂特征。

图6
figure6

LNCRNA-基因乳腺癌(BC)网络的子网

应该注意的是,在仅在顶部基因上关注的方法LgDLDA是最糟糕的一种(FPR <0.05或较小的FPR <0.1)。也许,这不是专注于“顶部预测”时最好的方法。我们认为这是因为数据集太小而且影响了方法的性能。我们提出了两种想法来提高LGDLDA的表现。第一个想法,我们使用温暖的开始策略。我们将LGDLA应用于类似的训练数据集以获得良好的性能参数集β,然后进一步优化训练集上的参数集β以提高LGDLDA的性能。第二个想法,我们使用稳定选择策略。我们多次运行lgdlda以获得多个结果,然后使用稳定选择策略平均这些结果,以消除由小型数据集引起的过度过度的风险。

最后,LNCRNA和疾病之间的真实关联机制比我们所承担的要复杂得多。例如,LNCRNA和复杂疾病之间的关系将随时间变化。我们将尝试设计新的机器学习框架,以同时分析关联数据和时间动态数据。

结论

在本文中,我们提出了一种新颖的机器学习框架,即LGDLDA,通过集成多OMICS数据的分析来查找与癌症相关的LNCRNA。首先,LGDLDA分别计算LNCRNA,基因和病的相似性矩阵。LGDLDA通过LNCRNA表达谱,LNCRNA-miRNA相互作用基质和LNCRNA-蛋白质相互作用基质计算LNCRNA之间的相似性。通过计算LNCRNA-基因缔合基质和基因疾病结合基质,LGDLDA获得基因相似性基质。通过计算疾病本体,疾病-MiRNA关联矩阵和高斯相互作用核相似性,LGDLDA获得疾病相似性矩阵。其次,LGDLDA通过使用神经网络的非线性特征学习将邻域信息集成在相似度矩阵中。第三,LGDLDA使用嵌入节点表示来近似观察到的矩阵。最后,LGDLDA排名候选LNCRNA病对,然后选择潜在的疾病相关的LNCRNA。LGDLDA包括生物网络拓扑的先验知识,包括LNCRNA相似性网络,LNCRNA-基因协会网络,基因疾病协会网络,疾病语义相似性网络和LNCRNA-疾病协会网络。在该框架中,使用深度学习模型来生成特征矩阵。 In model optimization, the final optimization problem is a popular matrix completion problem, which can be solved using convex optimization methods. In summary, the method considers more critical information and obtains the performance improvement cancer-related lncRNA predictions.

方法和材料

LGDLDA概述

在本节中,我们将介绍LGDLDA方法中的主要步骤。(1) lgcrda使用多个关联相似矩阵(包括lncRNA功能相似性、基因-疾病关联、疾病相似性、lncRNA-疾病关联、lncRNA-基因关联矩阵)构建lncRNA-基因-疾病关联网络。(2) LGDLDA基于第一步生成的矩阵,使用关联相似度矩阵结合神经网络计算lncrna与疾病的邻域信息,并将其嵌入到低维空间节点表示中。(3)受NNHLDA中重构矩阵算法的启发[ob体育开户 LGDLDA使用低维空间节点表示来生成投影矩阵以近似于观察到的矩阵,并在优化损耗功能中尽可能多地学习原始矩阵中的信息。(4)LGDLDA对学习关联矩阵中的元素进行排序,并选择顶部值以预测与疾病相关的LNCRNA。数字ob体育开户 显示LGDLDA方法的流程图。

图7
figure7

LGDLDA的流程图。(1) LGDLDA使用多个关联相似矩阵构建lncrna -基因-疾病关联网络。(2) LGDLDA基于第一步生成的矩阵,使用关联相似度矩阵结合神经网络计算lncrna与疾病的邻域信息,并将其嵌入到低维空间节点表示中。(3) LGDLDA利用嵌入表示生成重构矩阵以逼近原始矩阵,并在损耗函数的优化中尽可能多地学习原始矩阵中的信息。(4) LGDLDA对学习到的关联矩阵中的元素进行排序,选择最高的值预测与癌症相关的lncrna

数据集

在本段中,我们将介绍下一个使用的数学公式。\(s \在r ^ {{m \ times m}} \)用于表示LNCRNA功能相似性矩阵和(R^{{n \times n}}\)用于表示疾病相似性矩阵,其中M和N分别表示LNCRNA和疾病的数量。\(r ^ {{m \ times n}} \)代表LNCRNA疾病关联基质,行代表LNCRNA和柱用于表示疾病。对于每个条目一种ij一种, 的价值一种ij等于1如果疾病j与lncrna相关一世;否则,一种ij等于0.让(A_{{lg}} \在R^{{m \times k}}\)为lncrna -基因关联矩阵和\(在r ^ {{k \ times n}}中的一个_ {{gd}} \)代表基因疾病协会矩阵,在哪里K.代表基因的数量。

lgcrda在计算lncRNA的功能相似网络时,使用了lncRNA表达谱矩阵、lncRNA-蛋白功能关联矩阵和lncRNA- mirna关联矩阵。LGDLDA利用疾病信息、蛋白-疾病关联矩阵和mirna -疾病关联矩阵计算疾病相似度网络。所有的lncrna和疾病都用标准的对应id标注。

在张等人的工作之后。关于数据收集[ob体育开户 LGDLA使用来自Embl-Ebi的LNCRNA表达数据。LNCRNA-miRNA和LNCRNA-蛋白数据来自三个数据库,包括Starbase V2.0 [ob体育开户 ],npinter v3.0 [ob体育开户 ]和RAID v2.0 [ob体育开户 ].疾病 - miRNA关联数据和疾病 - 基因关联数据来自HMDD V3.0数据库[ob体育开户 ]及DisGeNet资料库[ob体育开户 ] 分别。LNCRNA-疾病关联数据来自LNCRNADisease v2.0 [ob体育开户 ],lnc2cancer [ob体育开户 ]和MNDR v2.0数据库[ob体育开户 ].基因- lncrna关联数据来自LncACTdb [ob体育开户 ].本文中使用了所有这三个数据集的组合进行训练和验证。组合和处理的过程显示在附加文件中ob体育开户 :图S1。结合的数据招募了6000个lncRNA-disease关联实例,其中有1724个lncrna和140种疾病。

构建LNCRNA /疾病相似性网络

由于Pearson相关系数容易受到异常值的影响,且异常值不可避免地会被包含在数据中,所以我们使用双权中相关(BM)系数[ob体育开户 ob体育开户 ].与Pearson相关系数相比,BM系数可以更准确地计算相关性。我们计算了LNCRNA之间的BM系数并构建了LNCRNA相似性加权网络LNCSM1。BM值的范围为-1至1.相关性越强,BM的绝对值越大。

径向基函数(RBF)高斯核函数应用于LNCRNA-miRNA相互作用以获得高斯互动谱核相似性[ob体育开户 ],构建lncRNA相似性加权网络LncSm2。相似度网络可以定义为:

$$ s _ {{lm}} \ left({i,j} \ light)= exp \ left({ - \ alpha _ {{l1}}左\ | {gip _ {{lm}}(l_ {i}) - GIP _ {{{lm}}(l_ {j})} \ \ \ | ^ {2}} \右)$$
(1)
$ $ \α_ {{l1}} = \α_ {{l1}} ^{\ '} \离开({\压裂{1}{{N_ {l}}} \ \和nolimits_ {{i = 1}} ^ {{N_ {l}}}{\左\ | {GIP_ {{lm}} (l_{我})}\右\ | ^{2}}}\右)$ $
(2)

在哪里吉普LM.L.一世)表示LNCRNA-miRNA相互作用曲线,吉普LM.L.一世)是二元载体,其中1表示LNCRNA之间的相互作用L.一世和miRNA和0代表缺席,α.L.权系数是用来调节内核带宽的参数吗\ \(α_ {l} ^ {\ '} \)凭经验设定为0.5NL.表示lncrnas的总数。

类似于基于LNCRNA-miRNA相互作用的高斯相似性计算方法,通过相同的方法计算LNCRNA对的基于LNCRNA-蛋白质相互作用的高斯相互作用。吉普LP.L.一世)表示LNCRNA-蛋白质相互作用曲线,吉普LP.L.一世)是二元载体。借助上述方法,我们构建了相似度网络LNCSM3。

我们首先使用R包“DOSE”来计算疾病之间的相关系数[ob体育开户 ob体育开户 ].然后,我们可以建立一个加权疾病相似网络DisSm1。我们使用疾病mirna关联来计算疾病间高斯相互作用谱的核相似性D.一世D.j,构建加权疾病相似度相关网络DisSm2。

$ $ S_ {{dm}} \离开({i, j} \右)= Exp(左- \α_ {d} \ \ | {GIP_ {{dm}} (d_{我})——GIP_ {{dm}} (d_ {j})} \右\ | ^ {2})$ $
(3)
$ $ \α_ {d} = \α_ {d} ^{\ '} \离开({\压裂{1}{{N_ {d}}} \ \ nolimits_总和{{i = 1}} ^ {{N_ {d}}}{\左\ | {GIP_ {{dm}} (d_{我})}\右\ | ^{2}}}\右)$ $
(4)

在哪里吉普DM.D.一世)表示疾病- mirna相互作用概况,吉普DM.D.一世)是二元载体。

构建LNCRNA /疾病拓扑相似度网络

为了克服由相似性网络的融合引起的信息丢失(即,LNCSM1,LNCSM2和LNCSM3或vistm1和vistm2),采用网络扩散的思想来生成拓扑相似度网络。张等人的工作。[ob体育开户 [将RWR应用于每个相似性网络以构建拓扑相似度网络。RWR算法是一种广泛使用的复杂生物网络分析方法[ob体育开户 ob体育开户 ob体育开户 ].构建LNCRNA /疾病拓扑相似度网络的细节显示在附加文件中ob体育开户 LTS.表示lncRNA相似网络lncttsn,和DTS.代表疾病相似性网络DISTSN。

节点嵌入

对于代表异构网络中的LNCRNA或疾病的节点,其特征信息可以从与其相关的邻居信息总结。例如,LNCRNA的特征可以从相关的LNCRNA,基因和疾病中汇总。因此,我们可以使用足够的相关信息(相关的LNCRNA,基因和疾病信息)来准确地代表LNCRNA的特征。聚合可以定义如下:

$ $ \{对齐}开始lnce_{我}^ {\ '}& = concat \离开({lnce_{}, \ \和limits_ {{j = 1}} ^ {m} {LTS ^{\ '} \左\ {{i, j} \右\}\ cdot \σ_{{你}}^ {j}}} \。左四。{+ \总和\ limits_ {{j = 1}} ^ {n}{一个^{\ '}}\左\ {{i, j} \右\}\ cdot \σ_ {{ld}} ^ {j} + \总和\ limits_ {{j = 1}} ^ {k}{现代{{lg}} ^{\ '} \左\ {{i, j} \右\}}\ cdot \σ_ {{lg}} ^ {j}} \) \ \ \{对齐}$ $
(5)
$$ \ begin {senugent} dise_ {i} ^ {\ prime}&= sconat \ left({dise_ {i},\ sum \ limits _ {{j = 1}} ^ {n} {dts ^ {\ prime}\左\ {{i,j} \右\} \ cdot \ sigma _ {{dd}} ^ {{dd}}} \ \ \\&\ quad \ left。{+ \ sum \ limits _ {{j =1}} ^ {m} {a ^ {{t \ prime}}}左\ {{i,j} \右\} \ cdot \ sigma _ {{dl}} ^ {j} + \ sum \ limits_{{j = 1}} ^ {k} {a _ {{gd}} ^ {{t \ prime}} \ left \ {{i,j} \ right \}} \ cdot \ sigma _ {{gd}}^ {j}} \右)\\ \ end {aligned} $$
(6)
$$ \ begin {senugented} gee_ {i} ^ {\ prime}&= sconat \ left({gee_ {i},+ \ sum \ limits _ {{j = 1}} ^ {m} {a _ {{lg}^ {{t \ prime}}} \左\ {{i,j} \右\} \ cdot \ sigma _ {{lg}} ^ {{lg}} ^ {j}} \ leve。\\&\ quad \ left。{+ \ sum \ limits _ {{j = 1}} ^ {n} {a _ {{gd}} ^ {\ prime} \ left \ {{i,j} \ right \}} \ cdot \ sigma _ {{gd}} ^ {j}} \ \ \\ \ end {aligned} $$
(7)

在哪里\ (lnce_{我}^{\ '}\在R ^ {{2 d}} \)\(is_ {i} ^ {\ prime} \ in r ^ {{2d}} \)\(gee_ {i} ^ {\ prime} \在r ^ {{2d}} \)是嵌入的lncran.一世疾病一世g一世, 分别。LNCRNA,疾病和基因节点的初始表示(\(lnce_ {i} \在r ^ {d} \)\(在r ^ {d} \中is \)在R ^ \ (gee_{我}\ d {} \))是随机设置的。通过考虑节点的邻居信息和自己的功能,我们可以获得每个节点的网络拓扑功能信息,然后计算该节点的特征向量。

通过使用非线性激活函数,神经网络获得更强大的特征表达能力。曾等人的工作。[ob体育开户 ],激活功能\(\ sigma \ left [\ cdot \右] \)(Relu(x)= max(x,0))可以定义如下:

$ $ \σ_ {{xy}} ^ {j} =σ\ \离开({\眉题{{ye_ {j}}} \ cdot W_ {{xy}} + b} \右)$ $
(8)

在哪里W.B.表示神经网络中的参数。节点嵌入在低维向量中并标准化:

$$ e_ {i} ^ {{\ prime \ prime}} = \ frac {{\ sigma \ left({e_ {i} ^ {\ prime} \ cdot w_ {0} + b_ {0}}右)}} {{\ left \ |{\ sigma \ left({e_ {i} ^ {\ prime} \ cdot w_ {0} + b_ {0}}} \ light \ | _ {2}}} $$
(9)

在哪里\ (e_{我}^ {{\ ' \ '}}\)代表\(lnce_ {i} ^ {{\ prime \ prime}} \)\(dise_ {i} ^ {{\ prime \ prime}} \)要么\ (gee_{我}^ {{\ ' \ '}}\).因此,我们使用单层神经网络来非线性地改变节点的表示并获得了新的嵌入表示。

培训和评估

在机器学习中,模型包含很多参数,我们需要利用训练数据通过训练优化来确定参数的最优值。优化目标是使预测值与目标值(即损失函数)之间的差值尽可能小。重构矩阵与原始信息矩阵之间的信息损失函数可定义为:

$ ${对齐}& \ \开始mathop{\分钟}\ limits_ {{W, b, E}} \总和{\离开({留下\ \ {{i, j} \右\}- lnce_{我}^ {{\ ' \ '}}E_ {{ld1}} ^{我}E_ {{ld2}} ^ {{j ^ {T}}} dise_ {j} ^ {{\ ' \ ' T}}} \右)^ {2}}{\ kern 1 pt} \ \ & \四+ \总和\离开({LTS \ \ {{i, j} \右\}- lnce_{我}^ {{\ ' \ '}}E_{{你}}^{我}E_{{你}}^ {{jT}} lnce_ {j} ^ {{\ ' \ 'T}}} \右)^{2}\ \ & \四{\ kern 1 pt} + \总和\离开({DTS \左\ {{i, j} \右\}- dise_{我}^ {{\ ' \ '}}E_ {{dd}} ^{我}E_ {{dd}} ^ {{jT}} dise_ {j} ^ {{\ ' \ ' T}}} \右)^{2}\ \ & \四文本结构为{+}}{\ \{\左总和({现代{{lg}} \左\ {{i, j} \右\}- lnce_{我}^ {{\ ' \ '}}E_ {{lg1}} ^{我}E_ {{lg2}} ^ {{jT}} gee_ {j} ^ {{\ ' \ ' T}}}\右)^ {2}}{\ kern 1 pt} \ \ & \四+ \总和{\离开({现代{{gd}} \左\ {{i, j} \右\}- gee_{我}^ {{\ ' \ '}}E_ {{gd1}} ^{我}E_{{阻止gd2}} ^ {{jT}} dise_ {j} ^ {{\ ' \ ' T}}} \右)^{2}}\ \ \{对齐}$ $
(10)

在哪里(E \in R^{{p \乘q}}\)是信息映射矩阵,可以从嵌入的节点信息表示中提取节点的主要特征。矩阵EE.T.用于强制执行恢复的对称性。

由于该方法中的函数都是可微的,我们可以使用梯度下降法逐步迭代求解,得到最小损失函数和模型参数值。LGDLDA采用梯度下降法训练模型参数。训练后,重构矩阵中的元素可以预测每个关联得分。分数越高,表明潜在关联存在的可能性越大:

$$ a \ left \ {{i,j} \ light \} _ {{rescoved}} = lnce_ {i} ^ {{\ prime \ prime}} e_ {{ld1}} e_ {{ld1}} ^ {} e_ {} e_ {{ld2}} ^ {{j ^ {t}}} dise_ {j} ^ {{\ prime \ prime t}} $$
(11)

从这个意义上说,最终优化问题是一个流行的矩阵补全问题,可以用凸优化方法来解决。

评估方法和指标

为了能够公平地评估这些方法的性能,我们对已验证的lncRNA-disease关联数据进行了LOOCV (Leave-One-Out cross validation)。给定一个疾病D.一世,每个已知的疾病相关的LNCRNA被遗漏作为测试样品,同时使用其他疾病相关的LNCRNA作为训练样品。所有无关紧要的LNCRNA都构成候选样品。测试样品是阳性样品,而其他样品是阴性样品。在预测的关联矩阵中,LGDLDA关于LNCRNA和疾病之间的有效关联大于阈值的元素。我们使用真正的阳性率(TPR)和假阳性率(FPR)来计算曲线下的面积(AUC)。

可用性数据和材料

LGDLDA软件可用https://github.com/nathanyl/lgdlda_method.,如欲索取本研究资料,请联络Yuanlindc@126.com..在当前研究期间使用和/或分析的数据集可从相应的参考中获得。

参考

  1. 1.

    长链非编码RNA生物发生和功能的独特特征。Nat Rev Genet。2016; 17(1): 47。

    CASPubMed文章谷歌学者

  2. 2。

    lncrna的历史、发现和分类。Long Non - Coding RNA Biol. 2017;

    谷歌学者

  3. 3.

    Kopp F,Mendell JT。长度非划分RNA的功能分类和实验解剖。细胞。2018; 172(3):393-407。

    CASPubMedpmed中央文章谷歌学者

  4. 4.

    Neve B,Jonckheere N,Vincent A,Van Seuningen I. LNCRNA的表观遗传调节:概述集中在结肠直肠癌中的UCA1。癌症。2018; 10(11):440。

    CASpmed中央文章PubMed谷歌学者

  5. 5.

    龙y,王x,youmans dt,cech tr。LNCRNA如何调节转录?科学adv。2017; 3(9):eaao2110。

    文章CAS谷歌学者

  6. 6.

    何R-Z,罗德x,莫Y-Y。lncrna在癌症转录后调控中的新角色。基因说。2019;6(1):6。

    CASPubMedpmed中央文章谷歌学者

  7. 7.

    C.-h.郑,L.元,W. Sha,Z.-L。基于Biweight相关性和最大Clique的Sun,基因差异共同表达分析。p。S3。

  8. 8.

    Botti G,Collina F,Scognamiglio G,Aquino G,Cerrone M,Liguori G,Gigantino V,Malzone Mg,Comperile M.LNCrna HotaIr多态性与不同肿瘤类型的癌症敏感性。Curr药物目标。2018; 19(10):1220-6。

    CASPubMed文章谷歌学者

  9. 9.

    Peng W-X,Koirala P,Mo Y-Y.LNCRNA介导的癌细胞信号传导调节。oncogene。2017; 36(41):5661-7。

    CASPubMedpmed中央文章谷歌学者

  10. 10.

    SIMION V,HAEMMIG S,FEINBERG MW。血管生物学和疾病中的LNCRNA。Vascul Pharmacol。2019; 114:145-56。

    CASPubMed文章谷歌学者

  11. 11.

    张Y,唐L. LNCRNA在癌症治疗和诊断中的应用。最近的PAT抗癌药物发现。2018; 13(3):292-301。

    CASPubMed文章谷歌学者

  12. 12.

    陈克,王Z,王D,邱C,刘米,陈X,张Q,燕克,崔Q.lncrnadisease:一种用于长期非编码RNA相关疾病的数据库。核酸RES。2012; 41(D1):D983-6。

    PubMedpmed中央文章CAS谷歌学者

  13. 13。

    宁生,张军,王平,智华,王军,刘艳,高艳,郭敏,岳敏,王磊。Lnc2Cancer:人工筛选的与多种人类癌症相关的lncrna。核酸Res. 2016;44(D1): D980-5。

    CASPubMed文章谷歌学者

  14. 14.

    李赵Y, H,方年代,康Y,吴W,郝Y, Z,但D,太阳N,张MQ。NONCODE 2016:长链非编码rna信息丰富且有价值的数据源。44(D1): D203-8。

    CASPubMed文章谷歌学者

  15. 15.

    Amaral PP, Clark MB, Gascoigne DK, Dinger ME, Mattick JS。lncRNAdb:长链非编码rna参考数据库。核酸学报2011;39(sup1): D146-51。

    CASPubMed文章谷歌学者

  16. 16.

    Volders P-J, Helsens K, Wang X, Menten B, Martens L, Gevaert K, Vandesompele J, Mestdagh P. LNCipedia:人类lncRNA转录本序列和结构注释数据库。核酸Res. 2013;41(D1): D246-51。

    CASPubMed文章谷歌学者

  17. 17.

    王P,宁S,张y,李河,ye j,zhao,zhi h,王t,guo z,li x.鉴定Lncrna相关的竞争三胞胎揭示癌症的全球模式和预后标志物。核酸RES。2015; 43(7):3478-89。

    CASPubMedpmed中央文章谷歌学者

  18. 18.

    信号b,光泽bs,dening me。函数预测的计算方法及长度非编码RNA的表征。趋势类型。2016; 32(10):620-37。

    CASPubMed文章谷歌学者

  19. 19.

    魏鹏杰,张东,夏军,郑春华。LNDriver:基于基因-基因相互作用网络,整合突变和表达数据,识别驱动基因。欧宝娱乐合法吗BMC生物信息学。2016;17(17):467。

    PubMedpmed中央文章CAS谷歌学者

  20. 20。

    陈X,谢D,Zhao Q,你Z-H。MicroRNA和复杂疾病:从实验结果到计算模型。简短生物形式。2019; 20(2):515-39。

    CASPubMed文章谷歌学者

  21. 21。

    Sun J,Shi H,Wang Z,张C,刘L,王L,他W,Hao D,Liu S,周M.基于LNCrNA功能相似性网络随机步行模型推断新的LNCrNA疾病关联。mol Biosyst。2014; 10(8):2074-81。

    CASPubMed文章谷歌学者

  22. 22.

    周M,王X,李杰,郝D,王Z,Shi H,Han L,周H,Sun J.在异构LNCRNA和疾病网络上行走候选疾病相关的长期非编码RNA。mol Biosyst。2015; 11(3):760-9。

    CASPubMed文章谷歌学者

  23. 23.

    张俊,张Z,陈泽,邓兰。多种异构网络进行多种异构网络,用于新型LNCRNA疾病协会推断。IEEE / ACM反式计算BIOL BIOINF。2017; 16(2):396-406。

    文章谷歌学者

  24. 24.

    姚Q,吴L,Li J,L.广阳,Y. Sun,Z.Li,S. He,F. Feng,H. Li和Y. Li,H.全球优先考虑疾病候选LNCRNA通过多级复合网络。SCI REP。2017; 7:39516。

    CASPubMedpmed中央文章谷歌学者

  25. 25。

    李敏,王伟,冯强。基于异质性网络模型的基因间非编码RNA关联研究。纳米生物技术。2015;14(2):175-83。

    文章谷歌学者

  26. 26.

    吕C,杨米,罗F,吴F-X,Li M,Pan Y,Li Y,Wang J.基于归纳矩阵完成的LNCRNA疾病关联预测。生物信息学。2018; 34(19):3357-64。

    CASPubMed文章谷歌学者

  27. 27.

    陈旭,闫国英。基于lncRNA表达谱的新型人类lncRNA与疾病的关联推断。生物信息学。2013;29(20):2617 - 24。

    CASPubMed文章谷歌学者

  28. 28.

    LAN W,Li M,Zhao K,Liu J,Wu F-X,Pan Y,Wang J.LDAP:LNCRNA疾病关联预测的Web服务器。生物信息学。2017; 33(3):458-60。

    CASPubMed谷歌学者

  29. 29.

    郭z-h,你z-h,王y-b,yi h-c,chen z-h。一种基于学习的LNCRNA-疾病关联识别鉴定相似性信息和旋转林的方法。荒谬。2019; 19:786-95。

    CASPubMedpmed中央文章谷歌学者

  30. 30。

    Engreitz JM, Haines JE, Perez EM, Munson G, Chen J, Kane M, McDonel PE, Guttman M, Lander ES。lncRNA启动子、转录和剪接对基因表达的局部调控。大自然。2016;539(7629):452 - 5。

    CASPubMedpmed中央文章谷歌学者

  31. 31。

    王克克,杨yw,刘b,三山A,cor米曼r,陈y,lajoie br,protacio a,flynn ra,gupta ra。长度非编码RNA保持活性染色质以协调归属性基因表达。欧宝直播官网app自然。2011; 472(7341):120-4。

    CASPubMedpmed中央文章谷歌学者

  32. 32。

    Øromua,derrien t,beringer m,gumireddy k,gardini a,bussotti g,lai f,zytnicki m,notredame c,huang q.长的非码rnas在人体细胞中具有增强剂样功能。细胞。2010; 143(1):46-58。

    PubMedpmed中央文章CAS谷歌学者

  33. 33。

    王L,Xuan Z,Zhou S,Kuang L,PEI T.一种基于LNCrNA-miRNA - 疾病交互式网络预测LNCRNA疾病关联的新模型。Curr Bioinform。2019; 14(3):269-78。

    CAS文章谷歌学者

  34. 34.

    赵Q,Liang D,Hu H,Ren G,刘H.RWLPAP:随机步行,用于LNCRNA - 蛋白质关联预测。蛋白质pept。2018; 25(9):830-7。

    CASPubMed文章谷歌学者

  35. 35.

    Z-H,Huang Z-A,Zhu Z,Yan G-Y,Li Z-W,Wen Z,Chen X.PBMDA:一种新颖且有效的途径基于途径的MiRNA疾病关联预测计算模型。PLOS计算BIOL。2017; 13(3):1005455。

    文章CAS谷歌学者

  36. 36.

    陈慧琴,张学军,曾学军,宋涛,A. Rodríguez-Patón,基于邻域信息聚合的神经网络lncrna与疾病关联预测,pp. 175-178。

  37. 37。

    袁l,黄d-s。从DNA甲基化到疾病的网络引导的关联映射方法。SCI批准。2019; 9(1):1-16。

    谷歌学者

  38. 38.

    宝Z,杨Z,黄Z,周y,Cui Q,Dong D.LNCrnadisease 2.0:长期非编码RNA相关疾病的更新数据库。核酸RES。2019; 47(D1):D1034-7。

    CASPubMed文章谷歌学者

  39. 39.

    崔t,张l,黄y,yi y,tan p,zhao,hu y,xu l,li e,王d. mndr v2。0:哺乳动物中NCRNA病关联的更新资源。核酸RES。2018; 46(D1):D371-4。

    CASPubMed谷歌学者

  40. 40。

    李国栋,罗建军,梁超,肖强,丁鹏,张勇。基于网络一致性投影的lncrna与疾病相关性预测。IEEE访问。2019;7:58849-56。

    文章谷歌学者

  41. 41。

    风扇X-N,张S-W,Zhang S-Y,Zhu K,Lu S.通过与RWR算法的多样化异构信息来源集成了LNCRNA疾病关联的预测。BMC Bioinf。2019; 20(1):87。

    文章谷歌学者

  42. 42。

    王Y,Juan L,Peng J,Zang T,Wang Y.LNCDISAP:基于多种生物数据集的LNCRNA疾病关联预测计算模型。BMC生物素。2019; 20(16):1-11。

    谷歌学者

  43. 43。

    张H,梁Y,彭C,韩S,杜W,Li Y.预测利用网络拓扑相似性的基于深度挖掘异构网络的LNCRNA疾病关联。数学biosci。2019; 315。

  44. 44。

    王j,张x,陈文,李杰,刘c.crlncrna:具有临床病理学和分子特征的功能实验证据的手动策划癌症相关的长期非编码RNA数据库。BMC Med Genom。2018; 11(6):114。

    CAS文章谷歌学者

  45. 45。

    马磊,李爱华,邹东,徐晓霞,夏丽,于军,王志强,张志强。LncRNAWiki:社区知识在人类长链非编码rna协同筛选中的应用。核酸Res. 2015;43(D1): D187-92。

    CASPubMed文章谷歌学者

  46. 46.

    网络CGA。人乳腺肿瘤的综合分子肖像。自然。2012; 490(7418):61。

    文章CAS谷歌学者

  47. 47.

    L.元,C。 -郑,J.-f.xia,D.-s.黄色,基于模块的差分共表表达分析方法2型糖尿病。生物医学Res Int,2015年,2015年。

  48. 48.

    方X-y,潘H-F,Leng R-X,YE D-Q。长期非编码RNA:对胃癌的新洞察力。癌症吧。2015; 356(2):357-66。

    CASPubMed文章谷歌学者

  49. 49。

    袁l,zhu l,guo w-l,周x,张y,黄z,黄d-s。基于非谐波惩罚的低级表示和eqtl映射的稀疏回归。IEEE / ACM反式计算BIOL BIOINF。2016; 14(5):1154-64。

    文章谷歌学者

  50. 50.

    潘·梁,梁某,傅m,黄紫红,李x,张文,张p,钱h,姜p-c,xu w-r。外泌体介导的长非编码RNA ZFA1的转移促进了胃癌进展。J Cancer Res Clin incol。2017; 143(6):991-1004。

    CASPubMed文章谷歌学者

  51. 51.

    引用本文:Mao Z, Li H, Du B, Cui K, Xing Y, Zhao X, Zai S. LncRNA DANCR通过抑制LncRNA - let促进胃癌细胞的迁移和侵袭。Biosci众议员2017;37:6。

    文章CAS谷歌学者

  52. 52。

    Sun M,Nie F,Wang Y,Zhang Z,Hou J,He D,Xie M,Xu L,De W,Wang Z.LNCrna Hoxa11-因为通过染色体修饰因子PRC2,LSD1,促进胃癌的增殖和侵袭。和dnmt1。可以res。2016; 76(21):6299-310。

    CAS文章谷歌学者

  53. 53。

    Liu H, Zhang Z, Wu N, Guo H, Zhang H, Fan D, Nie Y, Liu Y. Integrative analysis of dysregulation lncrna associated ceRNA network揭示功能性lncrna在胃癌中的作用。基因。2018;9(6):303。

    pmed中央文章CASPubMed谷歌学者

  54. 54。

    V.G.Vogel,乳腺癌的流行病学,乳房,207-218。E4。elsevier,2018年。

  55. 55。

    GE S-G,夏家,沙W,郑C-H。基于多角形数据综合模型的癌细胞亚型发现。IEEE / ACM反式计算BIOL BIOINF。2016; 14(5):1115-21。

    文章谷歌学者

  56. 56。

    梁Y,歌曲X,李义,陈B,赵W,王L,张H,刘y,韩D,张N.LNCrna bcrt1通过靶向miR-1303 / ptbp3轴来促进乳腺癌进展。莫癌。2020; 19:1-20。

    文章谷歌学者

  57. 57。

    Gooding AJ, Zhang B, Jahanbani FK, Gilmore HL, Chang JC, Valadkhan S, Schiemann WP。lncRNA BORG驱动乳腺癌转移和复发。Sci众议员2017;7(1):队。

    CAS文章谷歌学者

  58. 58。

    Chang K- c, Diermeier SD, Allen TY, Brine LD, Russo S, Bhatia S, Alsudani H, Kostroff K, Bhuiya T, Brogi E. MaTAR25 lncRNA调节Tensin1基因影响乳腺癌进展。Nat Commun。2020;11(1):-。

    CAS文章谷歌学者

  59. 59.

    前列腺癌的流行病学。地球科学进展。2019;10(2):63。

    CASPubMedpmed中央文章谷歌学者

  60. 60。

    L.元,C.-A。元,D.-S.黄,FAACOSE:一种用于检测SNP简介的快速自适应蚁群优化算法,复杂性,2017年,2017年。

  61. 61。

    赵B, Lu Y-L杨Y,胡锦涛是,白Y,李r q,张G-Y,李J, Bi北京市,杨是。lncRNA ANRIL过表达通过调节let-7a/TGF-β1/Smad信号通路促进前列腺癌细胞的增殖和迁移。癌症Biomark。2018;21(3):613 - 20。

    CASPubMedpmed中央文章谷歌学者

  62. 62.

    李杰,张Z,熊,郭C,江t,曾L,李G,王J.SnHG1 LNCrNA对MiR-19A-3P进行了负调节,增强CDK7表达,促进前列腺癌中细胞增殖。Biochem Biophys Res Communce。2017; 487(1):146-52。

    CASPubMed文章谷歌学者

  63. 63.

    王冬,张鹏,吴华,万旭,李永华。LncRNA GAS5的雄激素下调转录本促进前列腺癌增殖。PLoS ONE。2017; 12 (8): e0182305。

    PubMedpmed中央文章CAS谷歌学者

  64. 64。

    李建辉,刘胜,周辉,曲丽华,杨建辉。母星v2。0:从大规模CLIP-Seq数据中解码miRNA-ceRNA、miRNA-ncRNA、蛋白- rna相互作用网络。42(D1): D92-7。

    CASPubMedpmed中央文章谷歌学者

  65. 65。

    郝颖,吴伟,李海华,袁军,罗建军,赵颖,陈锐,NPInter v3。0:非编码rna相关相互作用的升级数据库,数据库,2016年,2016年。

  66. 66。

    易y,赵y,李c,张l,黄鹤,李y,刘l,侯p,cui t,tan p. raid v2。0:跨生物体的RNA相关相互作用的更新资源。核酸RES。2017; 45(D1):D115-8。

    CASPubMed文章谷歌学者

  67. 67。

    黄志强,史军,高勇,崔超,张胜,李军,周勇,崔强。HMDD v3。0:实验支持的人类微小rna与疾病关联的数据库。核酸Res. 2019;47(D1): D1013-7。

    CASPubMed文章谷歌学者

  68. 68。

    J.Piñero,à。Bravo, N. Queralt-Rosinach, A. Gutiérrez-Sacristán, J. Deu-Pons, E. Centeno, J. García-García, F. Sanz, L. I. Furlong, DisGeNET: a comprehensive platform integrating information on human disease-associated genes and variants,核酸的研究,GKW943,2016。

  69. 69。

    王P,李X,高y,guo q,王y,fang y,ma x,zhi h,周d,shen w. lncactdb 2.0:从低通量实验策划的实验支持的Cerna交互的更新数据库.核酸RES。2019; 47(D1):D121-7。

    CASPubMed文章谷歌学者

  70. 70。

    Langfelder P,Horvath S. Fast R用于强大的相关性和分层群集。j stat softw。2012; 46:11。

    文章谷歌学者

  71. 71。

    元L,GUO L-H,元C-A,张Y,韩k,南迪AK,HONG B,Huang D-S。基因调节网络推理和应用于乳腺癌的多OMICS数据的整合。IEEE / ACM反式计算BIOL BIOINF。2018; 16(3):782-91。

    文章谷歌学者

  72. 72。

    用于预测药物靶点相互作用的高斯相互作用谱核。生物信息学。2011;27(21):3036 - 43。

    PubMed文章CAS谷歌学者

  73. 73。

    yu g,王l-g,yan g-r,他q-y。剂量:疾病本体语义和富集分析的R / Biocuconductor包。生物信息学。2015; 31(4):608-9。

    CASPubMed文章谷歌学者

  74. 74.

    李茹,龚B,陈X,刘T,吴C,张F,李c,李X,饶S,李X.Doxim:基于疾病本体论的疾病的相似性。BMC生物素。2011; 12(1):266。

    文章谷歌学者

  75. 75.

    罗y,赵x,周j,阳j,张y,kuang w,peng j,陈l,zeng j。一种网络集成方法,用于药物 - 目标交互预测与异构信息的计算药物重新定位。NAT Communce。2017; 8(1):1-13。

    文章CAS谷歌学者

  76. 76.

    GligorijevićV,Barot M,Bonneau R. Deepnf:蛋白质功能预测的深网络融合。生物信息学。2018; 34(22):3873-81。

    PubMedpmed中央文章CAS谷歌学者

下载参考

确认

不适用。

资金

中国国家重点研发计划支持这项工作(授予No.209yfb1404700,2018aaa0100100),由中国国家自然科学基金(第62002189号)的赠款提供支持,支持山东省自然科学基金,中国(No.ZR2020QF038),并由国家自然科学基金(授予No.61861146002,61732012,61932008)部分支持。

作者信息

隶属关系

作者

贡献

L.Y.构思了这个方法。L.Y.和Z.S.设计了该方法。L.Y.进行了实验并撰写了主要的手稿文本。J.Z.和T.S.准备了无花果。ob体育开户 ob体育开户 ob体育开户 .所有作者阅读并认可的终稿。

通讯作者

对应于甄申

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

作者声明没有竞争利益。

额外的信息

出版商\ Primes注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1:图S1

.疾病-LNCRNA协会实例的数据处理程序。图S2.DataSet上的10个实现的AUC值,具有10%不正确的数据。图S3.箱形图来自50个随机分割实验,数据集有10%的错误数据。表S1.在缺乏一些组学数据的数据集上的实验结果。表S2.LGDLDA预测的前15名胃癌相关LNCRNA的支持文献。表S3.LGDLDA预测的前15位乳腺癌相关lncrna的确认数据库。表S4.LGDLDA预测的前15名乳腺癌相关LNCRNA的支持文献。表S5.LGDLA预测的前15名前列腺癌症相关的LNCRNA的确诊数据库。表S6.LGDLDA预测的前15名前列腺癌相关LNCRNA的支持文献。表S7.每个矩阵使用的数据集摘要。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

袁磊,赵军,孙涛。等等。一个整合多组学数据的机器学习框架预测癌症相关的lncrna。欧宝娱乐合法吗22,332(2021)。https://doi.org/10.1186/s12859-021-04256-8

下载引用

关键词

  • LncRNA
  • 多OMICS数据
  • 机器学习
  • 神经网络
  • 节点嵌入
  • 癌症