跳到主要内容

Smalf:基于堆叠的AutoEncoder和XGBoost的miRNA-疾病关联预测

抽象的

背景

识别miRNA和疾病关联有助于我们从分子水平理解疾病的作用机制。然而,它通常是盲目的,耗时的,小规模的基础上的生物实验。因此,开发预测未知miRNA和疾病关联的计算方法变得越来越重要。

结果

在这项工作中,我们开发了一个称为SMALF的计算框架来预测未知的mirna -疾病关联。SMALF首先利用堆叠自编码器从原始miRNA-疾病关联矩阵中学习miRNA潜在特征和疾病潜在特征。然后,通过整合miRNA功能相似性、miRNA潜在特征、疾病语义相似性和疾病潜在特征,得到表征miRNA-disease的特征向量。最后,利用XGBoost预测未知的mirna -疾病关联。我们实施交叉验证实验。与其他最先进的方法相比,SAMLF获得了最好的AUC值。我们还构建了三个案例研究,包括肝细胞癌、结肠癌和乳腺癌。结果显示,在前十名预测miRNAs中,分别有10、10和9个在MNDR v3.0和miRCancer中得到验证。

结论

综合实验结果表明,Smalf在鉴定未知的miRNA疾病协会方面是有效的。

同行评审报告

背景

人体细胞含有各种非编码RNA。microRNA(miRNA)是一组短的非编码RNA,长度为约20-25个核苷酸,在生物体的各种生物过程中起重要作用[1]。1993年,在elegans中发现了第一个miRNA Lin-4 [2]。然而,这一发现在当时并没有引起研究人员的注意,人们还把miRNAs看作是“暗物质”。现在,已经在动物、植物、病毒和人类中发现了大量的miRNAs。越来越多的证据表明,miRNAs参与了细胞增殖、细胞分裂、细胞死亡、细胞分化、造血和神经发育[3.]。

此外,通过影响mRNA的翻译,已经鉴定了MIRNA来调节转录后的基因表达[4.[这意味着通过影响基因表达,MiRNA的失调可以与各种疾病相关。研究验证了miRNA与疾病密切相关[5.6.]。例如,慢性淋巴细胞白血病(CLL)通过在B细胞中控制抗透露性B细胞淋巴瘤蛋白Bcl-2来源MiR-15和miR-16 [7.]。IORIO提出了MIR-21,miR-125b,miR-145和miR-155的异常表达参与人乳腺癌[8.]。Kozaki观察到口腔鳞状细胞癌(OSCC)与以下mirna相关。miR-34b、miR-137、miR-193a和miR-203被异常的DNA甲基化沉默[9.]。胶质母细胞瘤多形性(GBM)的发病机制被证明与miR-21的失调有关[10.]。此外,miR-9、miR-29a和miR-29b-1调控的APP和BACE1表达降低可能会增加阿尔茨海默病的发生[11.]。基于以上研究,预测mirna -疾病相关性显然是一个有价值的研究领域。它有助于人们更好地了解疾病的发病机制,对疾病的预防和诊断具有重要意义。

在早期的研究中,研究人员使用传统的生物学实验来识别mirna -疾病的关联,这些实验昂贵、耗时、费力,而且很容易失败。在这些研究中,仍然收集了大量的生物数据集。因此,建立高效、高精度的计算模型来预测microrna与疾病的关系是非常必要的。目前,机器学习、深度学习以及结合上述算法的方法被广泛应用于提出的计算模型中,主要依赖于具有相似功能的miRNAs与类似疾病几乎相关的假设[12.]。例如,Chen等人[13.]建立了一个名为RWRMDA的随机散步的计算模型,以揭示miRNA-疾病协会。Xuan等人[14.[]提出了一种基于网络的MIDP模型,该模型考虑了不同类别网络节点的先验信息和结构,有效地降低了噪声数据的负面影响,性能优于Chen的RWRMDA模型[13.]。陈等。改进了他们的原创作品,以创建一个新的模型,grmda [15.],在miRNA,疾病和关联图中同步使用图表回归,同时与偏最小二乘组合以降低噪声。江等人。[16.]提出ICFMDA,通过相似度矩阵调整miRNA和疾病的二部网络的权重来揭示miRNA和疾病之间的未知关系,实现协同过滤算法来相互推荐miRNA或疾病。你等人。17.]提出了PBMDA算法,利用miRNA与疾病的相似性作为子图构造异构图,采用深度优先搜索算法遍历图的路径,寻找miRNA与疾病之间可能的联系。

上述方法通常基于图表预测miRNA和疾病之间的关系。这种方式可以有效地挖掘miRNA和疾病之间的潜在,深度座位,未知的关系,从miRNA和疾病之间的现有关系,并且使用图表可以更清楚地了解miRNA和疾病之间的联系。然而,基于图表的方法很容易偏向具有许多已知关联的miRNA或疾病。对于具有少数已知关联的疾病,他们难以完全获得准确的MiRNA候选,因为稀疏链路限制信息传播。同时,随着机器学习和深度学习的春天,越来越多的机器学习和深度学习算法用于miRNA疾病预测。姚等人。[18.]使用随机林进行功能选择,并选择前100个功能以使用随机森林回归来进行MiRNA和疾病之间的连接。郑等人。[19.]提出了一种基于机器学习的MLMDA模型,采用深度自编码神经网络提取特征,采用随机森林分类器推断miRNA-disease交互作用。赵等人[20.]在数据处理中利用k-means聚类平衡正样本和负样本,提出了通过迭代弱分类器、决策树的boosting算法实现的ABMDA,以提高分类精度,了解潜在的miRNA-disease交互作用。Wang等人[21.]首先将miRNA序列信息与miRNA和疾病相似度相结合提取特征,并应用logistic树模型对miRNA和疾病的关系进行分类,AUC值为90.54%。Zhou等人[22.]构建了一个新的模型GBDT-LR,利用GDBT有效地提取潜在特征,并通过logistic回归对疾病- mirna相互作用进行评分。Zhang et al。23.]从疾病与miRNA的相似矩阵和关联矩阵中得到两个剪接矩阵,然后采用两个变分自编码器预测未知miRNA与疾病的相互作用。Xuan等人[24.]提出了由CNN构建的CNNMDA,分别从miRNA和疾病之间的关联中学习两个嵌入层获得的局部和全局特征,从而揭示miRNA和疾病之间的关系。陈等人[25.]介绍了一种模型,可以轻松地扩展到称为LRSSLMDA的更高尺寸数据集,由拉普拉斯法规和L1-Norm实现,以优化疾病与miRNA之间可能的连接的功能。Fu等人。[26.]实现了DeepMDA,它使用堆叠的AutoEncoder来提取特征,并应用3层神经网络以识别miRNA和疾病之间的连接。李等人。[27.]呈现MCMDA使用SVT算法来完成基质以获得更新的miRNA疾病协会基质以预测miRNA和疾病连接。赵等人[28.]基于已建立的miRNA-disease关联,提出了Spy和Super Cluster策略来揭示疾病与miRNA之间的相互作用。此外,Luo等人[29.]提出KPLMS通过将MiRNA和疾病通过Kronecker产品结合到整个空间并使用规则的最小二乘来预测miRNA疾病相互作用来揭示miRNA和疾病的潜在连接。此外,由Gong等人提出的新型模型。[30.]利用随机森林训练从mirna -疾病关联矩阵和疾病描述图中获得的特征,用于mirna -疾病关联预测。

我们可以将mirna -疾病关联预测作为mirna -疾病推荐系统。mirna -疾病关联矩阵下隐藏着复杂的潜在因素。发现这些潜在的因素可以帮助准确预测mirna -疾病的关联。因此,我们提出了一种从原始mirna -疾病关联矩阵中提取潜在特征的新方法。在这项工作中,我们开发了一个称为SMALF的计算框架,利用堆叠的自动编码器和XGBoost,通过集成潜在特征和相似性来推断未知的mirna -疾病关联。堆叠式自编码器是一种可以从输入信息中提取潜在特征的无监督学习模型[31.]。XGBoost是升压算法的代表,它可以通过集成许多弱分类器来产生强大的分类器来有效提高分类效果[32.]。首先,我们使用堆叠的自身偏移,从原始miRNA疾病协会基质中提取miRNA潜在特征和疾病潜在特征。接下来,级联潜在特征和相似性以获得特征向量。最后,采用XGBoost模型来完成分类预测。为了评估Smalf的性能,我们执行交叉验证实验。Smalf的AUC达到0.9503,远高于其他模型。同时,预测肝细胞癌,结肠癌和乳腺癌的前10名miRNA分别在其他数据库中验证了10,10和9。总而言之,Smalf可以有效地预测miRNA疾病协会。

结果和讨论

基于五倍交叉验证的SMALF性能

在本节中,为了验证Smalf来推断未知的miRNA-疾病协会的能力,我们在我们的实验中采用了五倍的交叉验证。DataSet随机分为五个子集,然后选择四个子集进行培训和一个用于测试的子集。重复此过程,直到所有子集都用于测试集。在分类问题中,ROC曲线是评估模型性能的重要方法。ROC曲线的水平坐标是假阳性速率(FPR),并且垂直坐标是真正的阳性速率(TPR).FPR和TPR由以下公式给出:

$ $ \{对齐}开始玻璃钢= &{}\压裂{{\ mathrm {{FP}}}} {{TN + FP}} \{对齐}$ $
(1)
$$ \ {开始对准} TPR = {} \压裂{{\ mathrm {{TP}}}} {{TP + FN}} \ {端对齐} $$
(2)
图1
图1

基于五倍交叉验证的SMALF的ROC曲线

式中,TP、TN分别为正确识别出的mirna -疾病关联对和非关联对的数量;FP和FN分别是被错误识别的mirna -疾病关联对和非关联对的数量。本文选取AUC值作为主要评价指标。AUC值为ROC曲线下的面积,其值在0 ~ 1之间。我们可以把AUC看作是一个检验中阳性样本排名高于阴性样本的概率。一般来说,如果一个模型具有良好的性能,它的AUC通常也很高。

数字1显示了基于五倍交叉验证的SMALF的性能。我们可以从图中看到。1, SMALF的AUCs分别为0.9534、0.9529、0、9496、0.9437、0.9521。平均AUC值为0.9503。结果表明,SMALF在推断未知mirna -疾病关联方面具有良好的性能。

分析潜在特征的维度

在Smalf中,我们使用堆叠的autoencoders从原始miRNA疾病协会矩阵获得潜在特征。如果潜在特征的维度太短,则该模型不能完全学习miRNA和疾病之间的关联。如果潜在特征的维度太长,则会增加过度的风险。在本节中,为了研究模型上潜在特征的维度的影响,我们将潜在特征的维度设定为8,16,32,64,128进行实验比较。

表1 AUC,AUPR,精度,召回,F1_Score和不同尺寸潜在特征的准确性

实验结果见表1。从表格1,我们可以看到,当潜特征维数为64时,模型达到最优AUC值。因此,在本研究中,我们将潜在特征的维数设置为64。

分析特征向量的效果

如何构建特征向量来代表每个mirna -疾病在推断未知mirna -疾病关联方面具有重要作用。在SMALF中,我们结合相似数据和潜在特征来代表每个mirna疾病。为了验证我们的联合策略是否有助于推断未知的mirna -疾病关联,我们设计了三组实验。第一组实验仅使用相似度数据,直接整合miRNA功能相似度和疾病语义相似度。我们在第二组实验中只使用了潜特征,直接整合了miRNA和疾病的潜特征。第三组实验使用了相似数据和潜在特征,这与SMALF相同。

图2
figure2

使用不同特征向量的结果直方图

表2使用不同特征向量的AUC、AUPR、Precision、Recall、F1_score和Accuracy

结果如表所示2和无花果。2,采用相似数据、仅采用潜特征、结合相似数据和潜特征的模型的auc分别为0.9161、0.9467、0.9503。综上所述,结合相似数据和潜在特征推断mirna -疾病的潜在关联比仅仅使用相似数据或潜在特征得到更好的性能。

比较不同的分类器

Smalf通过使用XGBoost分类器对HMDD2.0进行良好。本节选择了几种典型的分类器(Adaboost,随机森林,SVM)进行实验比较。adaboost通过集成多个弱分类器来获得强大的分类器,在许多字段中实现良好的性能。随机森林集成了各种决策树,最终输出值是通过在这些决策树上投票来确定的。SVM是一种经典的两级分类模型,通过最大化两个异构类之间的间隔来实现分类。SVM在许多分类问题上取得了优异的结果。在Adaboost算法中,我们选择判定分类树作为弱分类器,其中树的最大深度为10,最小化样本拆分为5.剩余参数值是默认值。在RF算法中,我们将树的最大深度设置为10,最大功能为100.剩余参数值默认。在SVM算法中,我们利用RBF内核并将C到50设置为50.在XGBoost算法中,我们将树的数量设置为1000,学习率为0.1。剩下的参数值是默认值。

图3.
图3

不同分类器下SMALF的ROC曲线

表3四种分类器的AUC、AUPR、Precision、Recall、F1_score和Accuracy

桌子3.和无花果。3.展示这些分类器的性能。从无花果。3.,我们可以看到Adaboost,随机森林,SVM,XGBoost分类器的AUC分别为0.9334,0.9191,0.9357和0.9503。实验结果表明,XGBoost达到了比其他三分类器更高的AUC值。计算miRNA功能相似性和疾病语义相似性,由于缺乏生物数据,在相似性数据中存在缺失值。与其他分类器相比,XGBoost算法更简单且有效地处理缺失值。一般来说,XGBoost分类器比Smalf的其他分类器更适合。

与最先进的方法进行比较

为了进一步评估SMALF的预测能力,我们将SMALF与其他7种计算方法(GBDT-LR [22.], LMTRDA [21.],ABMDA [20.], RFMDA [33.],ICFMDA [16.], GRMDA [15.], MCMDA [27.])。GDBT-LR首先整合了疾病相似性和miRNA相似性来代表miRNA疾病。然后,应用GDBT提取新的特征。最后,利用LR模型预测mirna -疾病关联。LMTRDA集成了miRNA序列相似性、miRNA功能相似性和疾病语义相似性。作者创造性地使用跳gram算法来计算miRNA序列相似性。最后,LMTRDA利用logistic模型树实现mirna -疾病关联预测。ABMDA利用增强算法集成了许多决策树来挖掘mirna -疾病关联。为了准确计算miRNA与疾病的相似度,RFMDA融合了各种信息,利用随机森林实现miRNA与疾病关联的预测。ICFMDA实现了一个协作过滤算法,以建议miRNA或疾病彼此。GRMDA同步使用miRNA、疾病和关联图的图回归来推断miRNA与疾病的关联。 MCMDA predicts miRNA and disease association by using the SVT algorithm to obtain an updated miRNA-disease association matrix.

图4
装具

具有不同计算方法的AUC和AUPR的直方图

表4 8种计算方法的AUC、AUPR、Precision、Recall、F1_score和Accuracy

桌子4.和无花果。4.给出了SMALF和其他7种计算方法的实验结果。SMALF模型的AUC值最高,比次优模型(GBDT-LR)高2.29%。SMALF之所以能取得如此好的结果,不仅是由于使用了相似数据,而且还使用了潜在特征。

讨论

为了探讨Smalf在实际应用中推断未知的miRNA疾病相互作用的性能,我们选择了三种常见疾病(肝细胞癌,结肠癌和乳腺癌,以进行案例研究。在特定的疾病研究中,我们消除了与这种疾病相关的所有miRNA。Then we utilized SMALF to predict the remaining miRNAs’ score, getting the top 10 candidate miRNAs of this disease. Finally, we verify them by searching them in MNDR v3.0 [34.]和mircancer [35.]。

表5最前的10个预测的miRNA,其可能与肝细胞癌有关
表6可能与结肠癌相关的前10个预测mirna
表7可能与乳腺癌相关的前10个预测mirna

我们研究的第一个疾病是肝细胞癌。肝细胞癌是一种死亡率很高的原发性肝癌。[36.肝细胞癌仍然是世界范围内最常见和最具侵袭性的人类恶性肿瘤之一[37.38.]。对于肝细胞癌,我们移除214个与之相关的mirna (hsa-let-7a, hsa-mir-101, hsa-mir-103a等)。剩下的281个候选mirna被发送到SMALF进行预测。结果如表所示5.。从我们的研究结果来看,在MNDR V3.0或MiRcancer中确认了关于肝细胞癌的所有前十名miRNA候选者。

我们研究的第二种疾病是结肠癌。结肠癌在40到50岁的人群中发病率很高[39.]。结肠癌在早期阶段没有症状,因此错过诊断是简单的。对于结肠癌,我们去除与其相关的4 miRNA(HSA-MIR-106A,HSA-MIR-145,HSA-MIR-126,HSA-MIR-17)。剩下的491名候选miRNA被发送到Smalf进行预测。结果如表所示6.。我们的研究结果显示,所有关于结肠癌的前十位候选miRNA都在MNDR v3.0或miRCancer中得到了验证。

我们研究的第三种疾病是乳腺癌。自20世纪70年代以来,患乳腺癌的人数不断增加,现在已成为影响女性身心健康的常见癌症[40]。我们删除了202个与乳腺癌相关的mirna (has-mir-1245a, has-mir-1245b, has-mir-1258等)。乳腺癌有293个候选mirna。结果如表所示7.。我们的研究结果显示,关于乳腺癌的前10个候选miRNA中有9个在MNDR v3.0或miRCancer中得到了证实。值得注意的是,生物学实验尚未验证hsa-mir-487b。它可能与乳腺癌有关。

结论

发现未知的mirna -疾病关联对于我们在分子水平上理解疾病的发病机制至关重要。然而,以生物学实验为基础的方法来发现未知的mirna -疾病关联仍然非常有限。因此,使用计算方法来预测未知的mirna -疾病关联变得越来越重要。我们开发了一种结合相似性数据和潜在特征的计算方法SMALF。SMALF首先利用堆叠自编码器从原始mirna -疾病关联矩阵中提取mirna和疾病潜在特征。然后,将miRNA功能相似性、疾病语义相似性、miRNA潜在特征、疾病潜在特征综合,生成代表miRNA-disease的特征向量。最后,SMALF利用XGBoost算法得到预测结果。我们进行了5次交叉验证实验。SMALF得到的AUC值为0.9503,远远高于其他许多计算方法。此外,案例研究也表明SMALF可以有效推断未知miRNA-disease的相互作用。 However, our work still has some room for improvement. Due to the lack of negative samples, we select unknown miRNA-disease associations as negative samples. There may be false negatives in these negative samples, which may also impact the experimental results. Therefore, finding reliable negative samples will help further improve the performance of the model.

方法

问题描述

研究人员利用许多生物实验来确认疾病疾病关联,并通过点击人类疾病和生物分子之间的潜在联系,这可以有效地提高人类疾病的预防,诊断和治疗。如何有效,准确地挖掘miRNA和疾病之间的潜在关系是我们想要突破的。现有的大多数研究基于HMDD V2.0提供的miRNA疾病数据库[41.]。为了提取现有的miRNA疾病关联的潜在特征,通过构建邻接矩阵Y来鉴定已知的关联。本文的研究任务是在已知的miRNA-疾病缔合基质中发现未观察到的潜在连接(在基质Y中为0)。

人体miRNA-疾病协会

为了表达miRNA与疾病的关系,我们构建了miRNA与疾病相互作用的邻接矩阵Y。如果miRNA m(i)和disease d(j)在这个矩阵中有已知的关联,则将矩阵对应位置的Y(i,j)的值设为1,否则设为0。值得注意的是,在这种关联中,0矩阵并不表明miRNA与疾病之间没有关系。它只表明潜在的链接还没有被发现。为了获得理想的实验结果,有必要选择miRNA-disease相关性的阳性和阴性样本。在实验中,我们使用了与Zhou等人相同的mirna -疾病关联[22.]。及其5430个阳性样本和5418个阴性样本。数据集的统计信息如表所示8.

表8构造数据集的统计信息

miRNA功能相似性

根据以前的研究结果,难以发现miRNA功能相似性往往更可能与表型类似的疾病相关。可以计算miRNA功能相似度分数[42.]。我们可以构造一个邻接矩阵FS(m(i),m (j))来指出具有记录的miRNAs之间的有用的相似性。

疾病语义相似性

灵感来自以前的研究,网格数据库(http://www.ncbi.nlm.nih.gov/),它被广泛用于获取疾病相关数据,并被提取来构造有向无环图(DAG)。对于给定的D, DAG(D) = (D, T, E),其中T(D)表示D及其所有祖先节点组成的节点集,以及父节点。由子节点直接连接的边被定义为E(D)。最后,如轩等[43.],D(疾病)到D(语义值)的值可以定义为:

$$ \ begined {对齐} \ left \ {\ begin {array} {d {1_d} \ left(d \ light)= 1 {{\,}}如果{{\,}} d =d} \\ {d {1_d} \ left(d \ light)= max \ left \ {\三角形{{{*}} d {1 _ {{\ rm d}}​​}左({{{{{\ text{d}} ^ {\ prime}}}}}; {\文本{的}} \ {\文本{d}}}}} \右\} {{\,\}} {\文本{如果}} {{\,}} {\文本{d}} {{\,}} \ ne {{\,}} d} \ end {array} \ rothing。\结束{对齐} $$
(3)

在哪里\三角形(\ \)是语义贡献衰减因子。轩等表示值\三角形(\ \)至0.5,疾病D至其本身的贡献值是1,并且其他疾病的价值随着距离而减少。从上述语义值的公式:

$$ \ begin {对齐} dv \ left(d \ light)= \ mathop \ sum \ limits _ {d \在t \ left(d \ over)} {d_d} \ left(d \ over)\ ent {对齐$$
(4)

如果两种疾病可以共享更多的DAGs,则可以获得更高的语义相似值。因此,两种疾病之间的语义相似度评分SS为:

$$ \ begin {对齐} ss \ left({d \ left(i \ light),d \ left(j \右)} \ =右)= \ frac {{\ mathop \ sum \ nolimits _ {t \ in t\ left({d \ left(i \右)} \右)\ cap t \ left({d \ left(j \右)} \右)} \ left({{d_ {d \ left(i \ little}}}左(t \右)+ {d_ {d \ left(j \ light)}}左(t \ over)}} \ lex)}} {{dv \ left({d \ left(i \右)} \右)+ dv \ left({d \ left(j \ revent)} \ revent)}}}}}} \结束{对齐} $$
(5)

用于mirna和疾病潜在特征的堆叠自动编码器

在由人miRNA疾病关联构建的邻接矩阵Y中,已知的5430 miRNA疾病关联仅占所有疾病-MiRNA的2.8%。为了更好地代表这些稀疏的原始简单数据,堆叠的AutoEncoder提取了MiRNA和疾病的高维和稀疏原始特征载体中所含的潜在关系。

自动编码器(AE)是一种无监督学习方法。其目的是在输入无标记数据的基础上,通过训练得到数据经过压缩后的降维特征表达式。自编码器是由编码器和解码器两个子网络组成的人工神经网络[44.]。在这篇文章中,我们使用堆栈编码器来提取mirna疾病的潜在关联。堆叠式自编码器是多个自编码器的级联,即包含多个隐藏层来完成对原始特征逐层提取信息的任务。堆叠式自动编码器序列训练多个AE层。在第一次AE训练完成后,将其编码器的输出作为第二次AE的输入,以此为基础,最终得到一个更具有代表性的低维潜在特征。

图5
figure5

我们提出的预测miRNA疾病的概述方法.Smalf由四部分组成:步骤1,我们分解miRNA疾病矩阵y进入miRNA原始特征m和疾病的原始特征\ (D ^ T \)。步骤2,我们利用堆叠的AutoEncoders从原始功能中学习miRNA和疾病的潜在特征m\ (D ^ T \)。步骤3,整合miRNA功能相似性,miRNA潜在特征,疾病语义相似性和疾病潜在特征产生代表miRNA疾病的特征载体。步骤4,使用XGBoost算法预测miRNA疾病关联

SMALF模型

在本节中,我们将详细介绍Smalf模型施工过程,并显示图2中的整体过程。5.

步骤1:矩阵分解

关于原始矩阵Y作为输入,每行Y是miRNA的原始特征,每列是疾病的原始特征。在分解miRNA和疾病的原始特征载体,M(i)和d(j)中,标有1的一个表示存在相关性,并且标有0的彼此表示存在不观察室的相关性。将miRNA疾病协会分解为m和\ (D ^ T \)

$$ \ begin {对齐} y \;= \; m {d ^ t} \结束{对齐} $$
(6)

在那里\(m,d ^ t \在y ^ {m * n} \)是一个实矩阵。在我们的研究中,\ (M_i \)\ (D_j ^ T \)分别作为m(i)和d(j)的原始特征向量。

第2步:通过堆叠的AutoEncoders提取潜在功能

在我们的AutoEncoder中,编码器H1接受MiRNA中的原始特征M,编码器H2接受来自疾病的原始特征D.\ (D ^ T \)作为输入,定义第i个训练样本\(x_i = m \)在H1中的m;定义H2第j训练样本\ (x_j = m \)编码器H从低维码Z中提取特征。公式如下:

$$\begin{align}&{h_i}^{\left(l \right)}\;= \; {f_e} \离开({{W ^ l} {h_i} ^{\离开({l - 1} \右)}+ {b l ^}} \) \{对齐}$ $
(7)
$ $ \开始{对齐}和{z_i} = {W ^ L} {h_i} ^{\离开({L - 1} \右)}+ {b L ^} \{对齐}$ $
(8)

在哪里\ (l ={1,…,l} \),我们将L设为2,这意味着使用两个隐藏层,\(h_i ^ {(l)} \)是l-th隐藏的图层,\ (h_i ^ {(0)} \)代表输入\ (x_i \)\(w ^ l \)权重矩阵是和吗l \ b \ (^)是第l层的偏差,激活函数\(f_e(。)\)可以通过培训有效调整投入。

解码器的目的是重建输入\ (x_i \)尽可能来自潜在特征\ (z_i \)编码器的输出。其定义公式如下:

$ $ \开始{对齐}和{h_i} ^{\左(左、右)}\ mathrm {{\;}} = \ mathrm {{\;}} {f_d} \离开({{W ^ l} {h_i} ^{\离开({l - 1} \右)}+ {b l ^}} \) \{对齐}$ $
(9)
$$ \ begined {senugented}&{\ hat {x} _i} = {g_d} \ left({{w ^ l} {h_i} ^ {\ left({l - 1} \右)} + {b ^l}} \右)\结束{对齐} $$
(10)

在哪里\(f_d(。)\)\(g_d(。)\)分别表示激活函数和双曲正切函数。在哪里\(f_d(。)\)\(g_d(。)\)分别表示激活函数和双曲正切函数。

最后,损失函数为所有样本重构误差之和,其表达式为:

$ $ \{对齐}开始L \; \离开({\开始{数组}{* {20}{c}} {x}和{\帽子{x}} \结束{数组}}\右)= \;\ mathop \ \和限制_ {i = 1} ^ n{{| |}} \离开({{x_i} -{\帽子{x}} _i} \ ) {{|}}{{{|}}^ 2} \;+ \; \λ\ mathrm {{| |}} {J_h} \离开({{x_i}} \) \ mathrm {{|}} {\ mathrm{{|}} ^ 2} \{对齐}$ $
(11)

其中第一项损耗是损耗的平方,第二项是雅可比矩阵的规格化\ (J_h (x_i) \)\λ(\ \)是一个hyperparameter。堆叠式自编码器将迭代更新网络中每个节点的参数,使损耗最小化。通过反向传播迭代法进行训练,这一步也称为微调。经过连续的微调,使损耗达到最小,得到了自编码器的最优解。此时,潜在特征z是低维高密度的特征向量\ (M_i \)\ (D_j ^ T \)通过我们需要的miRNA和疾病稀疏特征压缩。

步骤3:结合潜在特征和相似特征

到目前为止,我们已经获得了64维miRNA和疾病潜伏特征向量\ (M_i \)\ (D_j ^ T \)采用堆叠自编码器提取,分别连接495维miRNA功能相似性特征\(fs_i \)和383维疾病语义相似性特征\(ss_j \)为559维miRNA新特征和447维疾病新特征的新载体。

$ $ \{对齐}开始miRNA_{新}= &{}\离开[{\开始{数组}{* {20}{c}} {{M_i}} \ \ {FS_i} \结束{数组}}\右]\{对齐}$ $
(12)
$$ \ begined {aligned} dis_ {new} =&{} \ left [{\ begin {array} {* {20} {c}} {{d_j}}} {{d_j} ^ t} \\ {ss_j} \ neg {array}} \右] \结束{对齐} $$
(13)

然后将这两个向量连接起来,得到一个新的向量用于模型预测。

$ $ \{对齐}开始Vec_{新}= \离开[{\开始{数组}{* {20}{c}} {miRNA_{新}}\ \ {Dis_{新}}\结束{数组}}\右]\{对齐}$ $
(14)

步骤4:通过XGBoost预测新的特征向量

XGBoost精确分类它包含渐变迭代所包含的弱分类器[45.]。在本文中,我们预测XGBoost模型中的新数据中miRNA疾病级联的新功能,它使用级联\ (Vec_{新}\)作为输入,通过训练得到其最佳梯度回归树。XGBoost模型包含K个决策树,\ (f_k \)表示第k个决策树,和特征向量\(vec_ {new \ _i} \)被视为输入\ (x_i \),最后得到如下公式的预测结果:

$$ \ begined {aligned} \ hat {y} _i ^ {\ left(t \ revent)} = \ mathop \ sum \ limits left({{x_i}} \ rectle)= \帽子{y} _i ^ {\ left({t-1} \右)} + {f_k} \ left({{x_i}} \右)\结束{aligned} $$
(15)

在哪里\ \(帽子{y} _i ^ {(t)} \)表示第j个分类器的分类结果,为了使目标函数的损失最小化,XGBoost算法每次迭代都会在原模型上增加一个新的函数。并使用函数\(\ omega(f_t)\)控制第t子树的复杂度。

$$ begin{align}\ Omega \left({{f_t}} \right) = \gamma T + \frac{1}{2}\lambda \mathop \sum \limits _{j = 1}^T w_j^2 \end{align}$$
(16)

其中T为叶节点数,\(w_j \)为每个叶节点的得分,\γ(\ \)\λ(\ \)控制复杂性比例和通过调整这两个超参数可以防止过度拟合现象的近似数目。此外,XGBoost还使用二阶泰勒扩展来优化目标函数。T-Th迭代的目标函数如下:

$ ${对齐}\ \开始开始{数组}{* {20}{l}} {obj ^ {(t)}} = \ mathop \ \限制和_ {i = 0} ^ m \离开[{{f_t} \离开({{x_i}} \右){g_i} + \压裂{1}{2}{{\离开({{f_t} \离开({{x_i}} \右)}\右)}^ 2}{h_i}} \右]+ \ω\离开({{f_t}} \) \ \ \, {g_i} = \压裂{{l \ \偏左({{y_i}, {y} \帽子_i ^{\离开({t - 1} \右)}}\右)}}{{\部分{y} \帽子_i ^{\离开({t - 1} \右)}}},\;{h_i} = \压裂{{{\部分^ 2}l \离开({{y_i}, {y} \帽子_i ^{\离开({t - 1} \右)}}\右)}}{{\部分{{\离开({{y} \帽子_i ^{\离开({t - 1} \右)}}\右)}^ 2}}}\结束数组{}\{对齐}$ $
(17)

在哪里L.(。)是迭代T-1的均方误差功能,因为\ (f_i (x_i) \)最终会被赋给子树中的叶子,而它的值还可以用叶子的权值来表示吗\(w_j \)

$ ${对齐}\ \开始开始{数组}{* {20}{l}} {obj ^ {(t)}} = \ mathop \ \限制和_ {j = 1} ^ t [{w_j} \ {G_j} + \压裂{1}{2}w_ {j} ^ {2} ({{H_j} + \λ}))+ \伽马t \ \ {{\,}} {G_j} = \ mathop \ \和限制_{我\ {I_j}} {G_j}, {H_j} = \ mathop \ \和限制_{我\ {I_j}} {H_j} \结束数组{}\{对齐}$ $
(18)

在哪里\(i_j \)表示叶j中包含的样本集。上述公式的迭代培训可以有效地符合新的miRNA疾病特征并获得最佳预测模型。在新测试集中遍历所有数据,将融合特征向量置入最佳Smalf模型,并获得每个潜在的miRNA疾病的得分预测值。

数据资料的可用性

目前研究中使用的数据和代码可用于:https://github.com/dayunliu/smalf。

缩写

XGBoost:

极端梯度提升

鹏:

Rceiver运行特性

TPR:

真阳性率

FPR:

假阳性率

AUC:

ROC曲线下面积

演算法:

自适应增强

支持向量机:

支持向量机

射频:

随机森林

GBDT:

梯度增强决策树

表演:

有向无环图

参考文献

  1. 1。

    Ambros V. micrornas:具有巨大潜力的微小调节因子。细胞。2001;107(7):823 - 6。

    中科院文章谷歌学者

  2. 2。

    秀丽隐杆线虫异慢性基因lin-4与lin-14具有反义互补性。细胞。1993;75(5):843 - 54。

    中科院文章谷歌学者

  3. 3.

    Ambros V.动物微rna的功能。大自然。2004;431(7006):350 - 5。

    中科院文章谷歌学者

  4. 4.

    Bartel DP。微rna:基因组学、生物发生、机制和功能。细胞。2004;116(2):281 - 97。

    中科院文章谷歌学者

  5. 5。

    Erson A, Petty E. Micrornas在发展和疾病中的作用。麝猫。2008;74(4):296 - 306。

    中科院文章谷歌学者

  6. 6.

    Lynam-Lennon N,Maher SG,Reynolds JV。microrna在癌症和细胞凋亡中的作用。BIOL REV. 2009; 84(1):55-71。

    文章谷歌学者

  7. 7.

    Calin Ga,Dumitru CD,Shimizu M,Bichi R,Zupo S,Noch E,Aldler H,Rattan S,Keating M,Rai K,等。在慢性淋巴细胞白血病13 Q14常常缺失和下调微RNA基因MIR15和MIR16。PROC NATL ACAD SCI。2002; 99(24):15524-9。

    中科院文章谷歌学者

  8. 8.

    Iorio MV, Ferracin M, Liu C-G, Veronese A, Spizzo R, Sabbioni S, Magri E, Pedriali M, Fabbri M, Campiglio M,等。人类乳腺癌中Microrna基因表达失调。可以研究》2005;65(16):7065 - 70。

    中科院文章谷歌学者

  9. 9.

    Kozaki K-I,Imoto I,Mogi S,Omura K,Inazawa J.肿瘤抑制microRNA探索在口腔癌中的DNA高甲基化沉默。可以res。2008; 68(7):2094-105。

    中科院文章谷歌学者

  10. 10。

    Mir-21在胶质母细胞瘤发病机制中起关键作用。细胞生物学杂志。2018;119(2):1285-90。

    中科院文章谷歌学者

  11. 11.

    在散发性阿尔茨海默病中,microrna集群mir-29a/b-1的丢失与bac1 /β分泌酶表达的增加相关。自然科学学报,2008;

    文章谷歌学者

  12. 12.

    陈X,谢D,Zhao Q,你Z-H。MicroRNA和复杂疾病:从实验结果到计算模型。简短生物形式。2019; 20(2):515-39。

    中科院文章谷歌学者

  13. 13。

    陈X,刘m-x,yan g-y。RWRMDA:预测新型人类微小疾病协会。mol Biosyst。2012; 8(10):2792-8。

    中科院文章谷歌学者

  14. 14。

    轩P,韩克,郭y,李j,李x,zhong y,zhang z,ding J.基于随机步行的潜在疾病相关微大罗车的预测。生物信息学。2015; 31(11):1805-15。

    中科院文章谷歌学者

  15. 15。

    陈X,杨j-r,guan n-n,li j-q。GRMDA:miRNA疾病协会预测的图表回归。前面的physiol。2018; 9:92。

    文章谷歌学者

  16. 16。

    江益,刘湾,余路,闫C,卞H.预测与协同过滤的miRNA疾病联合。神经素信息学。2018; 16(3-4):363-72。

    文章谷歌学者

  17. 17.

    关键词:mirna-disease关联预测,Pbmda,路径模型公共科学图书馆。2017;13(3):1005455。

    文章谷歌学者

  18. 18.

    姚D,詹X,郭C-K。一种改进的基于随机森林的计算模型用于预测新的mirna-疾病关联。BMC Bioinform。2019;20(1):624。

    中科院文章谷歌学者

  19. 19.

    郑凯,尤志华,王玲,周勇,李丽萍,李志伟。Mlmda:一种通过整合异构信息源预测和验证microrna-disease相关性的机器学习方法。中华医学杂志。2019;17(1):260。

    文章谷歌学者

  20. 20.

    赵Y,陈X,尹J。基于自适应提升的计算模型预测潜在的miRNA疾病关联。生物信息学。2019; 35(22):4730-8。

    中科院文章谷歌学者

  21. 21.

    王磊,尤志华,陈晓,李艳梅,董永宁,李丽萍,郑坤:基于多源序列信息和相似性融合的logistic模型树预测mirna-disease关联。PLoS compput biology . 2019;15(3):1006865。

    文章谷歌学者

  22. 22。

    关键词:mirna,疾病相关性,梯度推进决策树,logistic回归生物化学。2020;85:107200。

    中科院文章谷歌学者

  23. 23。

    张L,陈X,YIN J.通过与变形自动化器的小说无监督深度学习框架预测潜在的miRNA疾病协会。细胞。2019; 8(9):1040。

    中科院文章谷歌学者

  24. 24。

    关键词:神经网络,疾病相关mirnas,卷积神经网络,表达学习国际分子科学杂志。2019;20(15):3648。

    中科院文章谷歌学者

  25. 25。

    陈晓,黄磊:基于拉普拉斯正则化稀疏子空间学习的mirna-disease关联预测。公共科学图书馆。2017;13(12):1005912。

    文章谷歌学者

  26. 26。

    基于深度集成模型的mirna-disease关联预测。Sci众议员2017;7(1):1-13。

    文章谷歌学者

  27. 27。

    李杰Q,荣Z-h,陈X,yan g-y,z-h。MCMDA:miRNA疾病关联预测的矩阵完成。oncotarget。2017; 8(13):21187。

    文章谷歌学者

  28. 28。

    赵Q,谢D,刘H,王F,闫G-y,Chen X. SSCMDA:miRNA疾病关联预测的间谍和超级群体策略。oncotarget。2018; 9(2):1826。

    文章谷歌学者

  29. 29.

    罗杰,小Q,梁C,丁P.使用基于异构OMICS数据的Kronecker规则化最小二乘预测MicroRNA疾病关联。IEEE访问。2017; 5:2503-13。

    文章谷歌学者

  30. 30.

    龚y,Niu Y,张W,Li X.一种基于网络嵌入的多种信息集成方法,用于MiRNA疾病关联预测。BMC生物素。2019; 20(1):468。

    文章谷歌学者

  31. 31.

    在一项基于4d患者数据的无监督特征学习和多器官检测的初步研究中,Shin H-C, Orton MR, Collins DJ, Doran SJ, Leach MO. stack - autoencoders for non - supervised feature learning and multiple organ detection in a pilot study。IEEE transpattern Anal Mach intel . 2012;35(8): 193043。

    文章谷歌学者

  32. 32.

    Chen T,Guestrin C. XGBoost:可伸缩的树升压系统。在:2016年第22届ACM SIGKDD国际知识发现和数据矿业会议;785-94。

  33. 33.

    邢春春。基于随机森林的人类mirna-disease关联推理。分子治疗核酸2018。

  34. 34.

    宁玲,崔涛,郑斌,王宁,罗娟,杨斌,杜敏,程军,窦勇,王东东。Mndr v3.0:增加哺乳动物ncrna -疾病知识库的覆盖与注释。核酸研究2020。

  35. 35。

    谢B,丁Q,韩H,Wu D. Mircancer:由文学挖掘构建的MicroRNA-癌症协会数据库。生物信息学。2013年。

  36. 36。

    近30年来非酒精性脂肪性肝病组织病理学诊断标准的转变国际肝病杂志。2014。

  37. 37。

    辛文伟,霍迪,吴春春,等。人肝细胞癌分子机制的研究进展。毒理学。2002;181(1 - 3):43-7。

    谷歌学者

  38. 38。

    Parkin DM, Bray MF, Ferlay MJ, Pisani P.全球癌症统计,2002。中国癌症杂志。2005;55(2):74。

    文章谷歌学者

  39. 39。

    结直肠癌的全球负担:综述。Updat Surg. 2016; 68(1): 7 - 11。

    文章谷歌学者

  40. 40.

    李国强,刘国强,李国强。全球癌症统计。中国癌症杂志。2011;6(2):169-90。

    谷歌学者

  41. 41.

    杨L,邱C,Jian T,Geng B,Yang J,Jiang T,Cui Q. HMDD v2.0:一种实验支持的人类微窝年和疾病协会的数据库。核酸RES。(D1),1070,2014。

  42. 42.

    崔琦基于微rna相关疾病推断人类微rna功能相似性和功能网络。生物信息学,2010,26(13):1644 - 50。

    文章谷歌学者

  43. 43.

    轩P,韩克,郭M,郭y,黄玉。基于加权K大多数相似邻居的人类疾病预测。Plos一个。2013; 8(8):70204。

    文章谷歌学者

  44. 44.

    关键词:mirna,疾病关联,深度自编码,Aemda生物信息学》2020。

  45. 45.

    关键词:乳腺癌,MIRNA,表达谱,多层网络分析《公共科学图书馆•综合》。2019;14(4)。

下载参考

致谢

感谢中南大学计算机科学与工程学院实验中心为我们提供的计算资源。

资金

基金资助:国家自然科学基金资助项目(No. 61972422)。出版经费由国家自然科学基金资助,资助项目编号:61972422。

作者信息

从属关系

作者

贡献

LD和dyl构思了预测方法。丁,YBH和WJN写了纸张.ld和Dyl开发了计算机程序。YBH,WJN和JXZ分析了结果并修改了纸张。所有作者阅读并认可的终稿。

相应的作者

对应到Lei邓

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

作者们宣称他们没有相互竞争的利益。

额外的信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的创作共用许可中,除非在材料的信用线中另有说明。如果材料没有包含在文章的创作共用许可证中,而您的预期使用不被法律法规允许或超过允许的使用,您将需要直接获得版权持有人的许可。如欲浏览本许可证的副本,请浏览http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

重印和权限

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

刘东,黄勇,聂伟。et al。Smalf:基于堆叠的AutoEncoder和XGBoost的miRNA-疾病关联预测。欧宝娱乐合法吗22日,219(2021)。https://doi.org/10.1186/s12859-021-04135-2

下载引用

关键字

  • miRNA-疾病协会
  • 堆积的autoencoder.
  • 潜在的功能
  • XGBoost
\