跳转到主要内容

CarSite-II:基于基于K-means相似度的欠采样和合成少数过采样技术的羰基化位点识别综合分类算法

抽象的

背景

羰基化是翻译后改性的非酶促不可逆的蛋白质,并且是指由反应性氧物质攻击的氨基酸残基的侧链,最终转化为羰基产物。研究表明,由反应性氧物质引起的蛋白质羰基化参与了衰老,神经变性疾病,炎症,糖尿病,肌萎缩侧面硬化,亨廷顿氏病和肿瘤的病因生理过程。目前用于预测羰基化位点的实验方法昂贵,耗时,蛋白质处理能力有限。蛋白质翻译后修饰中羰基化残基位置的计算预测增强了蛋白质的功能表征。

结果

本研究开发了一种综合分类算法CarSite-II,用于识别K、P、R和T羰基位点。采用基于K-means相似度的欠采样重采样方法和合成少数过采样技术(SMOTE-KSU)平衡K、P、R和T羰基化训练样本的比例。其次,综合分类器系统Rotation Forest利用“支持向量机”子分类将三种类型的特征空间划分为若干子集。CarSite-II了马修的相关系数(MCC)的值0.2287 / 0.3125 / 0.2787/0.2814,误判率的值0.2628 / 0.1084 / 0.1383/0.1313,假阴性率的值为0.2252 / 0.0205 / 0.0976/0.0608 K / P / R / T羰基化网站十倍交叉验证,分别。在我们的独立测试数据集上,CarSite-II的MCC值为0.6358/0.2910/0.4629/0.3685,K/P/R/T羰基化位点的假阳性率为0.0165/0.0203/0.0188/0.0094,假阴性率为0.1026/0.1875/0.2037/0.3333。结果表明,CarSite-II的性能明显优于现有的所有预测工具。

结论

结果表明,CarSite-II的性能优于现有的5个程序,并显示了SMOTE-KSU重采样方法和积分算法的有效性。为了方便实验科学家,CarSite-II的web工具可以在http://47.100.136.41:8081/

背景

蛋白质羰基化是氧化应激过程中一种不可逆的化学修饰,是指氨基酸残基侧链被活性氧自由基攻击,最终转化为羰基产物[1]。通过羰基化修饰蛋白质会引起蛋白质结构的改变,使其失去原有的生物学功能,最终导致细胞和组织功能障碍和机体的病理生理变化。长期以来,蛋白质羰基化水平只是作为衡量蛋白质氧化损伤程度的指标来评价生物机体的氧化程度。然而,研究表明活性氧引起的蛋白羰基化参与了衰老、凋亡和各种神经退行性疾病的病因和病理生理过程。

在不同疾病诱导的氧化应激下,羰基化对蛋白质具有一定的选择性,即,一些蛋白质是易于羰基化的,而其他蛋白质不易羰基化[1]。以细胞骨架为例,胶质纤维状酸性蛋白(GFAP)是最容易受到多发性硬化症中氧化损伤的蛋白质[2,匹克氏病[3.,和老化[4]。它的羰基化水平升高,然而,它在老年痴呆症患者中降低[4]。此外,在阿尔茨海默病的另一种细胞骨架分子的β-肌动蛋白羰基化水平增加[4]多发性硬化[2]但老龄化的减少。

蛋白质羰基化作用后产生的,它不能修复身体的抗氧化防御机制,它会随着时间慢慢积累,导致关键酶的改变或失去功能在不同的信号通路,然后引发一系列疾病相关蛋白质羰基化反应:衰老、神经退行性疾病(如阿尔茨海默氏病、帕金森病和多发性硬化症)、炎症、糖尿病和肿瘤(如子宫肌瘤、恶性前列腺癌和乳腺癌)。这些都表明,蛋白羰基化修饰不仅是细胞氧化程度的标志,而且还参与了疾病的病理生理过程。

出于以下原因,有必要开发用于预测羰基化位点的计算方法。(1)由于羰基化位点是羰基化蛋白的功能变化或缺失的决定性因素,因此羰基化位点的鉴定及其在蛋白质中的作用对于了解蛋白质羰基化过程和相关发病机制至关重要,以及目前的实验方法用于鉴定羰基化位点是昂贵的,耗时的,蛋白质加工能力的限制。蛋白质翻译后修饰中羰基化残基位置的计算预测增强了蛋白质的功能表征。(2)对蛋白质羰基化位点的相应预测和分析可以给实验研究人员进行预先实验评估,使其意识到靶蛋白上的发生概率和相应数量的羰基化位点,从而允许更具靶向实验。(3)为了揭示疾病的病理生理过程(衰老,神经变性疾病,炎症,糖尿病,肿瘤等),对蛋白质羰基化位点的预测是深入了解生物功能和发展有效药物的重要性。因此,利用清晰的界面建立一个在线预测平台并易于识别羰基化位点是非常重要的。

值得注意的是,只有四种类型的残留物对羰基化特别敏感,它们是赖氨酸(K),脯氨酸(P),精氨酸(R)和苏氨酸(T)残留物[5]。在过去几年中,已经提出了一系列计算方法和工具来鉴定羰基化蛋白和位点[5,6,7,8,9,10.,11.,12.,13.]。然而,与蛋白质中其他翻译后修饰位点(PTMs)相比,蛋白质羰基化位点的预测性能仍不令人满意。因此,为了满足现代发展高效高通量计算工具的要求,超氧化仍需向前迈进一步,提高羰基化位点的预测性能。

本研究引入基于K-means相似度的欠采样(KSU)和合成少数过采样技术(SMOTE),分别构建K、P、R和T羰基修饰位点的平衡训练数据集。打(14.]利用实验验证的正训练样本合成K、P、R、T羰基化位点(正训练样本),利用KSU剔除对分类影响不大的信息较少的样本和冗余样本。将KSU和SMOTE相结合的重采样方法被方便地命名为SMOTE-KSU。在利用SMOTE-KSU重采样方法构造正、负训练样本的基础上,开发了一种新的计算预测工具。该工具名为CarSite-II,通过基于距离的残差(distance-based residue, DR)特征提取策略和基于旋转森林集成算法的“支持向量机(support vector machine, SVM)”子分类来区分羰基化位点和非羰基化位点。通过十倍交叉验证和独立检验得到的相关结果表明,CarSite-II的预测性能明显优于现有的预测工具。数字1显示用于构建k / p / r / t羰基化站点的四种最佳模型的流程图,Carsite-II。图。1为了提高K/P/R/T羰基化位点的预测精度,主要包括以下四个部分:(1)构建蛋白质羰基化训练和测试数据集。(2)采用基于距离的残留特征提取策略,构建K/P/R/T羰基化样品。(3)采用KSU欠采样方法和SMOTE过采样技术平衡训练数据集。(4)采用十倍交叉验证方法选择最优模型。

图1
图1

CarSite-II的概念框架

结果

羰基化位点的氨基酸组成

为了探讨羰基化和非羰基化位点中氨基酸残基分布的特异性特异性差异,将训练样本提交给PLOGO Web服务器[15.](https://plogo.uconn.edu/),四个羰基化残基的序列标识如图所示。2。我们可以从图中看到。2−6,赖氨酸(K)位置,−5−4−3−2−1 K羰基化网站序列标识明显的过多,精氨酸(R)在位置−5−4−3−2−1 R羰基化网站序列标识明显的过多,脯氨酸在P (P)没有明显的过多羰基化网站标志序列,−3和-2位置的苏氨酸(T)在T羰基化位点序列标识中明显过多。

图2
图2.

四个羰基化残基的序列标志在正负训练数据集中。一个Lys (K)的序列log。b精氨酸序列的对数(R)。c脯氨酸序列日志(P)。d雷罗琳的序列日志(t)

平衡训练数据集,选择DR和轮作林的最优参数

中描述的材料与方法,对训练数据集中的每个序列进行DR编码,利用SMOTE过采样和KSU欠采样对训练数据集进行重采样,使正、负训练样本大小相同。我们计算了样本数量(N)从阴性样品中除去或在根据下面的公式重新采样过程中添加到正样品中[16]:

$ $ N =圆\离开[{\离开({k_ {1} \ * n_{0}} \右)- \离开({k_ {0} \ * n_{1}} \右)}\正确),$ $
(1)

在哪里\(k_{0} = 0.5,k_{1} = 0.5\), 和\ (n_ {0} \)或者\ (n_ {1} \)表示负训练样本和正训练样本中包含的序列数量。因此,NK/P/R/T羰基化位点分别为13189/11128/11323/ 12040。

采用SVM对旋转森林算法进行子分类,将旋转森林算法的参数设置为:K范围为300 ~ 400,间隔为10,子分类器的数量设置为5个。K/P/R/T羰基化位点10倍交叉验证的具体结果列在附加文件中1:可绥净(SubTable1.1-Subtable1.4。K / P / R / T羰基化位点的预测性能10倍交叉验证)。我们可以从套房中看到(subtable1.1-subtable1.4。K / P / R / T羰基化站点的预测性能10倍交叉验证)\(d_{MAX} = 3,K = 400\), K羰基化数据集可以得到最好的预测结果。而\(d_{MAX} = 2,K = 400\),\(d_{MAX} = 1,K = 400\),\(d_{MAX} = 3,K = 400\), P/R/T羰基化数据集分别得到最佳预测结果。为提高羰基化位点的预测性能,利用以上选择的参数构建K/P/R/T羰基化位点的最终集成预测模型。基于十倍交叉验证的旋转森林综合算法对K/P/R/T羰基化位点的预测性能如图所示。3.

图3
图3.

十倍交叉验证对K/P/R/T羰基化位点的预测性能。一个K羰基化位点的预测性能。bR羰基化位点的预测性能。cP羰基化位点的预测性能。dT羰基化位点的预测性能

我们可以从图中看到。3.,而旋转森林综合算法的子集数为400 (K/P/R/T), Sn、Sp、Acc、MCC均达到最佳值。在无花果。3.,其中Sn、Sp、Acc、MCC、AUC、G-mean分别表示三个特征(DR(1)、DR(2)、DR(3))基于所选子集数的Sn、Sp、Acc、MCC、AUC和G-mean平均值。例如,当K = 300数量的子集,评估指标Sn = (0.7520 + 0.7228 + 0.7375) / 3 = 0.7374, Sp = (0.7268 + 0.7124 + 0.7228) / 3 = 0.7207, Acc = (0.7279 + 0.7128 + 0.7233) / 3 = 0.7213, MCC = (0.2129 + 0.1906 + 0.2038) / 3 = 0.2024, AUC = (0.8150 + 0.7963 + 0.8002) / 3 = 0.8038, andG-mean =(0.7393 + 0.7176 + 0.7301) / 3 = 0.7290。

重采样方法的有效性

利用独立测试的相关预测结果来阐明我们对斯法特 - KSU重采采样方法结合的有效性。比较结果列于表中1对于不重新采样,仅对阳性序列进行扫描,仅用于负序列,并为训练数据集进行粉碎ksu重新采样。

表1不同重采样方法对我们独立的测试数据的比较

我们发现基于SMOTE-KSU重采样方法的CarSite-II的性能最好,K/P/R/T羰基化位点MCC分别为0.6358/0.2910/0.4629/0.3685。KSU欠采样对K羰基化位点的预测效果次之,Sn值为70.94%。K/P/R/T羰基化位点的非重采样、SMOTE过采样和P/R/T羰基化位点的KSU欠采样均小于50%。主要原因可能是训练数据的不平衡。K羰基化位点训练正样本与训练负样本的比值分别超过1:22(618:13807)、1:43(618:26995)、1:1.9(13807:26995),分别对应于KSU欠采样、不重采样和SMOTE过采样。对于KSU欠采样、未重采样和SMOTE过采样,P/R/T羰基化位点训练的正样本和负样本之间的比值也有很大的不同(即训练数据集极度不平衡)。因此,我们没有进一步考虑它们。

为了进一步观察比较性能,图中给出了我们独立测试数据集上K/P/R/T羰基化位点不同重采样方法的ROC曲线比较。4

图4
图4.

不同重采样方法K/P/R/T羰基化位点的ROC曲线比较。一个K羰基化数据集不同重采样方法的比较。bR羰基化数据集不同重采样方法的比较。c不同重采样方法对P羰基化数据集的比较。d用于T羰基化数据集不同重采样方法的比较

与其他预测方法进行比较并讨论

为了更好的测试和验证CarSite-II的性能,我们在独立测试中将CarSite-II与目前可用的三个程序进行了比较。第一个预测工具CarSPred,基于四种特征和带有加权支持向量机的mRMR特征选择算法[7]。2016年,Lv等基于三种特征和加权支持向量机的IFS特征选择算法[7]构建预测工具carpred.y [9]。在我们之前的工作中,我们使用单边选择欠采样算法平衡训练数据集,并将四种特征提取策略与支持向量机混合组合构建工具CarSite [13.]。

在用于构建上述三个目前可用程序的数据集和用于每种方法的预测阈值方面,使用CARPRED使用266K / 119R / 116T / 114P人羰基化位点和1802K / 754R / 702T / 716P人非羰基化位点构建该工具和使用34k / 17 / 5t / 12p羰基化位点和147k / 93r / 30t / 76p从人和其他哺乳动物的非羰基化位点构成测试数据集,并且可以将确定阈值分配给0的任何值默认设置为0.5。CARSPRED.Y使用86K / 56R / 44T / 59P羰基化位点和536K / 363R / 271T / 358P非羰基化位点从酵母蛋白构建训练模型,并且测定阈值与CARPRED相同。Carsite使用带有Carpred的相同的Cabonylation蛋白,阈值设定为0.5。在这项研究中,我们使用0.5的阈值来进行相关的比较。

CarSite-II与CarSPred进行比较。Y, CarSPred和CarSite。确定羰基化位点的相关结果见表2。我们可以从桌子看2尽管Sp通过Carsite-II的SP值低于K羰基化位点的Carpred的0.45%,但是Sn的值高约85.47%。Carsite-II分别获得了K / P / R / T羰基化位点89.74%,81.25%,79.63%和66.67%的最佳Sn,这通常导致18.8%,12.5%,24.07%和8.34%和58.97关于第二和第三次最佳分类剂,%,25%,53.7%和33.34%的改善。就另一种评价标准,MCC,CARITE-II分别获得了0.6358,0.2910,0.4629和0.3685的最佳MCC,分别用于K,P,R和T羰基化位点。Carsite分别获得了k,p,r和t羰基化位点的0.2203,0.0785,0.0806和0.0840的第二个最佳MCC。Carpred.y获得了0.1083,0.0773,0.0735和0.0765的第三次最佳MCC。

表2 Carsite-II与我们独立的测试集中的其他所有可用预测器的比较

此外,由于PTMPred友好地提供了原始训练数据集[6], CarSpred [7], iCar-PseCp [8]及CarSite [13.], CarSite-II与这些方法进行了十倍交叉验证,结果列在他们的著作中。如表所示3.,Carsite-II明显优于PTMPRED,CARPRED,ICAR-PSECP和CARSITE。

表3基于同一250个羰基化蛋白的十倍交叉验证的其他方法的Carary-II的比较

同时,我们使用了威尔柯逊签名的等级测试来验证表中的不同方法1和表格2。相关结果列于附加文件2:子表2所示。K/P/R/T羰基化位点的Wilcoxon符号级。零假设的双侧检验,即x-y来自一个在5%显著性水平上中位数为零的分布。正如我们可以从附加文件中看到的2:副标题2. k / p / r / t羰基化位点的威尔科克朗标志等级,H是所有1.换句话说,它表明在5%的显着性水平下拒绝零假设。

这些结果表明,CarSite-II是目前所有可用工具的一个显著改进。

讨论

蛋白质羰基化是蛋白质氧化损伤的一种,它本身是氧化应激过程中不可逆的化学修饰,是指氨基酸残基的侧链被活性氧自由基攻击,最终转化为羰基产物[1]。通过羰基化修饰蛋白质会引起蛋白质结构的改变,使其失去原有的生物学功能,最终导致细胞和组织功能障碍和机体的病理生理变化。Nabeshi和他的团队的研究表明,纯化的Cu,Zn-SOD的羰基改性通过与H的反应增加2O2。因此,Cu,Zn-SOD对氧化损伤的逐渐积累可能导致防御系统对SAMP8中氧化应激的功能障碍,具有更高的氧化状态,导致衰老的加速度。此外,HCNP-PP的羰基改性可以参与与SAMP8中脑中的大脑中的学习和记忆的恶化相关的病理生理改变,[17]。

结论

在目前的研究中,提出了一种新的重采样方法,Smote-Ksu,平衡小型和大型样品的大小。根据烟道-KSU重采样,DR的最佳参数,k,p,R和T羰基化位点的平衡数据集分别根据十倍交叉验证的相关结果选择。此后,我们应用了大多数投票策略来开发基于旋转林综合算法的综合预测轨道II。结果表明,CarSite-II的性能优于现有的5个程序,并显示了SMOTE-KSU重采样方法和积分算法的有效性。由于深度学习在序列分析中发挥着重要的补充作用,因此我们可以构建深度学习预测模型,以更好地识别未来的工作中的羰基化位点。我们未来的工作旨在将这项工作扩展到其他生物信息学序列识别。为了方便实验科学家,我们有一个Web服务器指南有关如何使用Carsite-II Web工具获取所需结果,而无需遵循仅在开发Web工具的完整性的复杂数学方程式Carsite-II。详细步骤显示在附加文件中3.:子表3所示。服务器向导。

材料与方法

数据收集和预处理

从CarbonylDB [18[目前的研究,它是唯一存在羰基化蛋白或位点的现有数据库或资源。从CarbonyldB,我们在468人蛋白质中收集了685,178,211和208实验验证的K,P,R和T羰基化位点作为阳性样品,而剩余的42523K,35302P,33050R和34774T羰基化位点同一468人类蛋白质被视为阴性样品以构建训练数据集。与此同时,CD-击中[19]作为去除冗余样本的软件。在40%的分界点,445个羰基化的人类蛋白被保留。随后,将445个羰基化蛋白中一些识别度高的羰基化位点去除,以达到70%的识别截止。最后,共收集618K、162P、204R、191T羰基化位点(正训练样本)和26995K、22418P、22849R、24271T非羰基化位点(负训练样本)。

此外,为了避免训练数据集的过拟合导致高估预测性能,并评估所提模型的真实预测性能,构建了一个独立的测试集。通过收集CarbonylDB中大鼠、酵母和小鼠的蛋白质构建独立的测试装置[18](298只大鼠蛋白,239酵母蛋白和90只小鼠蛋白)和CD-per19]用来去除多余的蛋白质和样本。在40%鉴定截止时,277个大鼠蛋白、222个酵母蛋白和76个小鼠蛋白被保留。随后,cd-hit-2d [19]用于控制训练数据集和测试数据集之间以及测试数据集内部的同源性。在40%鉴定的截止点,保留了223个大鼠蛋白、209个酵母蛋白和42个小鼠蛋白。然后,将保留的三种羰基化蛋白中一些识别度较高的羰基化位点去除,共收集到117K, 16P, 54R, 24T的羰基化位点。对于阴性测试样本的采集,在过滤出鉴定率为30%的片段后,最终的阴性测试数据集包含7439K、5318P、5966R、6507T非羰基位点。最后,独立测试集包含117 K、16P、54R、24T羰基位点和7439K、5318P、5966R、6507T非羰基位点。表格4显示训练数据集和独立测试数据集的具体统计。

表4 K/P/R/T羰基化样品和非羰基化样品汇总

基于距离的残差特征提取策略

刘等人提出的博士。[20.],将羰基化和非羰基化蛋白序列转化为有效的数值向量。给定一个蛋白质序列R用L氨基酸残基,即

$$ r = r_ {1} r_ {2} \ ldots r_ {i} \ ldots r_ {l - 1} r_ {l} $$
(2)

在哪里\(r_ {i} \)代表将氨基酸残基定位在给定的蛋白质序列上。的DR度量R可定义为:

$$ f _ {{d_ {max}}} \ left(r \ rote)= \ left [{d_ {0} \ left(r \ revent),d_ {1} \ left(r \ recte),\ ldots,d_ {k} \ left(r \ rother),\ ldots,d _ {{d_ {max}}}左(r \ over)} \ revally] $$
(3)

维度的维度\(f _ {{d_ {max}}} \ left(r \ rother)\)\(20 + 20 \times 20 \times d_{MAX}\),其中20种指示20种Naïve氨基酸残基:

$ $ D_ {k} \离开(R \右)= \ \{{_{{左\ [{T_ {AA}识别^ {k} \左(R \右)、T_ {AC}识别^ {k} \离开(R \右)\ ldots T_ {YY}识别^ {k} \左(右、右)}\右]\离开(le D_ le k{1 \ \{马克斯}}\右)}}^{{左\ [{T_{一}识别^{0}\左(R \右)、T_ {C}识别^{0}\离开(R \右)\ ldots T_ {Y}识别^{0}\左(右、右)}\右]\离开(k ={0} \右)}}}\ $ $
(4)

\(i \ in \ left \ {{a,c,d,e,f,g,h,i,k,l,m,n,p,q,r,s,t,v,w,y}\正确的\}\),(T_{i}^{0} \左(R \右)\)有氨基酸残留吗, 和(T_{ij}^{d} \左(R \右)\)是氨基酸残基对(,j)。\ (d_{马克斯}\)代表氨基酸残基对之间的最大距离(,j),在本研究中,我们分别设为1、2、3。

为了让研究者进一步了解将羰基化或非羰基化蛋白质序列转化为有效数值向量的具体过程,图中给出了生成DR特征向量的具体过程。5

图5
图5.

DR特征向量的生成过程

重采样方法

合成少数民族过采样技术

SMOTE算法是最常用的过采样方法[21,22,23]。SMOTE算法的主要思想是将合成例子沿着连接现有罕见例子的线段放置[14.]。我们简要介绍以下内容:

给定一个正训练样本\(X\),并寻找它\ (k \)最近邻的例子(通常设为5),假设过采样比为\ (N \),然后\ (N \)样本从其\ (k \)最近邻的例子。进行随机线性插值\(X\)\(y_ {j} \ left({j = 1,2,\ ldots,n} \右)\)创造一个新的稀有样本\(p_ {j} \)根据公式(5):

$ $ P_ {j} = X +兰德\离开({0,1}\右)* \离开({Y_ {j} - X} \右),\四j = 1, 2 \ ldots: $ $
(5)

在哪里兰德\ \(左({0,1}\)\)表示该区间内产生的随机数\(\ left({0,1} \右)\)。对于SMOTE算法的具体说明,请参阅参考文献[14.]。

Kmeans相似性的基于underAppling

基于能够去除冗余样本的新方法,在本研究中提出了KSU [16,24]。KSU的主要思想是在负面训练样本之间找出相似性。详细步骤如下:

  1. 1。

    首先,使负训练样本的收敛化为k使用K-means聚类算法(我们设置为k在这项研究中= 6)。

  2. 2.

    然后,对于每一组负训练样本,设\(a \ in {\ mathbb {r}} ^ {n \ times d} \)表明了所有阴性样本k-th群集,\ (d \)提取的特征的维数是多少\ (n \)表示所有阴性样本的数量k-th群集。正常化矩阵的所有列\(a \ in {\ mathbb {r}} ^ {n \ times d} \)并获得变换矩阵\(\ pi \),元素在th行和j-第i列可以表示为:

    $$ \ pi_ {i,t} = \ frac {{a_ {i,t}} {{\ max_ {1 \ le j \ le n} \ left \ {{a_ {j,t}} \ \ \}}},\ quad i = 1,2,\ ldots,n,\,t = 1,2,\ ldots,d $$
    (6)
  3. 3.

    计算变换矩阵的每两行之间的距离\(\ pi \)得到一个对称的平方距离矩阵\ (D_ {1} \),元素在pth行和-第i列可以表示为:

    $ $ D_ {{1 _ {p, q}}} = \压裂{1}{n} \离开({\π^ {p} - \π^ {q}} \右)。\左({\pi^{p} - \pi^{q}} \右)^{T}$$
    (7)

    在哪里\(\ pi ^ {p})\ \(π^ {q} \)的所有元素组成的向量pth和矩阵的第n行\(\ pi \),分别。很明显,这些元素位于对称方阵的主对角线上\ (D_ {1} \)为零。因为这个矩阵\ (D_ {1} \)是一个对称矩阵,只有矩阵的上三角形\ (D_ {1} \)被认为是下面的,和\ (D_ {1} \)被定义为不相似的矩阵

  4. 4.

    元素越小\ (D_ {{1 _ {p, q}}} \),样品“相似”越“相似”\(a_ {p} \)\(现代{q} \)。基于该相似性指数和在中,重新排列样品的夫妇N最相似的样品夫妇,我们随机选择了其中一个样品来消除。

旋转林一体化算法

Rodriguez等人首先提出了旋转森林集成算法。[25]。他们的目标是为数据的噪声和旋转开发一个强大的综合学习算法。旋转森林集成算法的基本思想是基于随机森林的,我们利用它来构建集成预测模型。算法如下:在数据集中\(x = [x_ {1},\ ldots x_ {n}] ^ {t} \)包含n特征,X是一个N × n具有样本大小的矩阵N,构成功能集F,\(Y = [y_{1}, \ldots y_{n}]^{T}\)是对应的标签。算法中有两个重要的参数需要定义:特征子集的个数K,以及集成系统中分类器的个数l。在一个综合的分类系统中,一般包括\(l = d_ {1},\ ldots d_ {l} \)子分类器。具体算法描述如下。

第一步,特性集\ \ (F)被随机分为K子集,每个子集包含 = n/K特征。为简单,一般设置K作为一个因素n

第二步,\ (f {ij} \)是个j用于训练子分类器的 - 要素子集\(d_ {i} \)。对应于每个特性子集\ (f {ij} \),\(间{ij} \)样本的子集是否包含特性\ (f {ij} \)\(X\)。采用bootstrap重采样技术\(间{ij} \),随机重复抽取75%的样本,形成新的bootstrap样本集\(间{ij} ^ {\ '} \)。然后进行主成分分析\(间{ij} ^ {\ '} \),并记录生成的系数矩阵(现代\ (C_ {ij} = {ij} ^ {(1)}, \ ldots现代{ij} ^ {{(M_ {k})}}] \)。值得注意的是,可能的特征值为零,导致le M \ (M_ {j} \ \)。对特征子集而不是完整数据集进行线性变换的目的是避免构造具有相同系数矩阵的子分类器。

第三步,构造稀疏的“旋转”矩阵\(r_ {i} \)具有所获得的系数矩阵\ (C_ {ij} \):

$$ r_ {i} = \ left [{\ begin {array} {c_ {20} l} {c_ {i1}} \ zhill&0 \ hefill&\ cdots \ hilfl&0 \ hilel \\ 0 \填写&{C_ {I2}} \填写&\ cdots \填写&0 \填写\\ \\ \ \ vdots \ hefil&\ vdots \ hefill&\ vdots \ hefill&\ vdots \ hefill \\ 0 \填写&0 \ el \ cdots\填写&{c_ {ik}} \ hefill \\ \ end {array}}右] $$
(8)

因为引导过程会扰乱数据顺序,以便计算子类assifer的训练集\(d_ {i} \),矩阵中的每一列\(r_ {i} \)需要根据原始功能集重新排序。重新排序后获得的旋转矩阵表示为(R_{i}^{\alpha}\ in {\mathbb{R}}^{N \times N}\)。对于子类assifer\(d_ {i} \),旋转变换后的训练集为(X^{\素数}= XR_{i}^{\alpha}\)

第四步,在分类阶段,新样本\(X\)还需要进行旋转变换,而旋转变换后的新样本是(x^{\prime} = xR_{i}^{\alpha}\)。我们让\(d_{ij} \左({xR_{i}^{\alpha}} \右)\)是子堆放器\(d_ {i} \)以确定样本的概率\(X\)属于类1或类2,将样本赋给某类的可信度为:

$ $ \ mu_ {j} \左(x \右)= \压裂{1}{1}\总和{d_ {ij} \离开({xR_{我}^{\α}}\右)}\ \四j = 1, 2 $ $
(9)

样本\(X\)判断它属于其所属的类别,以最高可信度,在哪里\ (L \)表示子类分类器的数量,1或2表示属于正面或负面的样本。

在本研究中,我们将支持向量机作为旋转森林综合算法的子分类器。

构建和评价模型

为了进一步提高预测羰基化和非羰基化位点的性能,通过使用大多数投票策略来整合亚类划分剂的预测结果来利用旋转森林集成算法。The performance of CarSite-II was evaluated using the following six measurements: Sensitivity (Sn), Specificity (Sp), Accuracy (Acc), Matthew’s correlation coefficient (MCC), geometric mean (G-mean) and the area under the receiver operating characteristic curves (AUC), which were defined as follows:

$$Sn = 1 - \frac{{N_{-}^{+}}{{N^{+}}}$$
(10)
$$Sp = 1 - \frac{{N_{+}^{{-}}{{N^{-}}}$$
(11)
$$ acc = 1 - \ frac {{n_ { - } ^ {+} + n_ {+} ^ { - }} {{n ^ {+}} {{n ^ {+} + n ^ { - }} $$
(12)
$$ mcc = \ frac {{1 - \ left({\ frac {{n_ {{n_ {} ^ {+} +} ^} ^ { - }} {n ^ {+}} {{n ^ {+} + n ^ { - } - }}}}}}}} {{\ sqrt {\ left({1 + \ frac {{n_ {+} ^ { - } - n_ { - } ^ {+}} {{n ^ {+}}}} \右)\ lef({1 + \ frac {{n_ { - } ^ {+} - n_ {+} ^ { - }}}} \ rectle)}}}}}}}}}}}}}$$
(13)
$$G - mean = \sqrt {Sn \times Sp}$$
(14)
$$ auc = \ frac {{\ sum \ nolimits_ {i = 1} ^ {{n ^ {+}} {\ sum \ nolimits_ {j = 1} ^ {{n ^ { - }}} {u \左({F_ {I} ^ {+},{F_}Ĵ^ { - }} \右)}}}} {{N ^ {+} \次数N ^ { - }}} $$
(15)

其中,

$$ u \ left({\ ovline {x},\ tilde {x}} \ lext)= \ left \ {{\ begin {array} {* {20} l} {1,} \ hefill&{\ overline{x}> \ tilde {x}} \ \填写\\ {0,} \填写&{否则} \ \ \ \ \\ \ \ of {array}} \ rition。$$

在这里\ (N ^ {+} \)代表羰基化序列的大小,而\(n_ { - } ^ {+} \)表明羰基化序列的总数被错误地预测为非羰基化序列;\ (N ^ {-} \)表示非羰基化序列的个数,而\ (N _{ + }^{\_}\)是非羰基化序列的总数,其被错误地预测为羰基化序列,f{我}\ (^ {+}\)比分是多少阳性样本,和f {j} \ (^ {-} \)比分是多少j负样本。

数据和材料的可用性

本研究期间生成的所有数据以及可用于在本地下载和在本地运行的算法http://47.100.136.41:8081/Dataset.或者它的附加文件。

缩写

SMOTE-KSU:

基于k均值相似度的欠采样和合成少数过采样技术

世纪挑战集团:

马修的相关系数

博士:

基于距离的残渣

支持向量机:

支持矢量机器

k:

利斯河

接待员:

精氨酸

P:

脯氨酸

师:

苏氨素

参考

  1. 1。

    郑j,bizzozozero oa。传统的活性羰基清除剂不会防止急性谷胱甘肽耗尽诱导的脑蛋白的羰基化。自由基res。2010; 44(3):258。

    CAS文章谷歌学者

  2. 2.

    Bizzozo oa。多发性硬化症患者的脑白质和灰质的蛋白质羰基化升高。Neurosci Res。2005; 81(5):687-95。

    CAS文章谷歌学者

  3. 3.

    Muntan G, Dalf E, Martínez A,等。胶质纤维酸性蛋白是皮克病中糖氧化和脂氧化损伤的主要靶点。Neurochem。2010;99(1):177 - 85。

    文章谷歌学者

  4. 4.

    等。阿尔茨海默病和衰老脑胶质纤维酸性蛋白的蛋白质组学分析。一般说,2005;20(3):858 - 70。

    CAS文章谷歌学者

  5. 5.

    Maisonneuve E, Ducret A, Khoueiry P,等。控制选择性蛋白质羰基化的规则。PLoS ONE。2009; 4 (10): e7269-e7269。

    文章谷歌学者

  6. 6.

    徐勇,王旭,王勇,等。用核方法预测氨基酸序列的翻译后修饰位点。中国生物医学工程杂志。2014;344:78-87。

    文章谷歌学者

  7. 7.

    LV H,Han J,等。CARERED:用于预测人蛋白的羰基化位点的计算工具。PLoS ONE。2014; 9(10):E111478。

    文章谷歌学者

  8. 8.

    贾茹,刘Z,小X等。icar-psecp:通过蒙特卡洛采样鉴定蛋白质中的羰基化位点,并将序列耦合效应掺入一般pseaac。oncotarget。2016; 7(23):34558-70。

    文章谷歌学者

  9. 9.

    LV HQ,Liu J,Han JQ等人。预测酵母蛋白羰基化位点的计算方法。genet mol res。2016; 15(2):15028006。

    文章谷歌学者

  10. 10。

    Hasan Mam,Li J,Ahmad S等人。Predar-indination:使用支持向量机的蛋白质中的羰基化位点预测,具有解决数据不平衡问题。肛门生物化学。2017; 525:107-13。

    CAS文章谷歌学者

  11. 11.

    翁松林,黄凯,Kaunang FJ,等。基于位置特异性氨基酸组成和物理化学特征的蛋白质羰基化位点的研究和鉴定。BMC Bioinf。2017;18 (S3): 66。

    文章谷歌学者

  12. 12.

    Kao Hj,Weng Sl,Huang Ky等。MDD-CARB:一种用于鉴定蛋白质羰基化位点的组合模型。BMC SYST BIOL。2017; 11(S7):137。

    文章谷歌学者

  13. 13.

    Zuo Y,Jia C. Carsite:基于单面选择重采样方法鉴定人蛋白的羰基化位点。mol Biosyst。2017年。https://do.org/10.1039/c7mb00363c

    文章PubMed谷歌学者

  14. 14.

    Chawla NV, Bowyer KW, Hall LO等。SMOTE:合成少数过采样技术。中国生物医学工程学报(英文版);2011;

    谷歌学者

  15. 15.

    O 'Shea JP, Chou MF, Quader SA,等pLogo:一种可视化序列母题的概率方法。Nat方法。2013;10(12):1211。

    CAS文章谷歌学者

  16. 16.

    Cateni S,Colla V,Vannucci M.一种在实际问题中重新采样不平衡数据集的方法,用于真实问题。神经关键词。2014; 135:32-41。

    文章谷歌学者

  17. 17.

    Nabeshi H,Oikawa S,Inoue S等人。蛋白质羰基作为衰老加速小鼠氧化损伤指标的蛋白质组学分析。免费Radic Res。2006; 40(11):1173-81。

    CAS文章谷歌学者

  18. 18.

    Rao R,Shyama P等人。CarbonyLDB:蛋白质羰基化位点的策划数据资源。生物信息学。2018; 34:2518-20。

    CAS文章谷歌学者

  19. 19.

    黄Y,Niu B,Gao Y等。CD-HIT套件:用于聚类和比较生物序列的Web服务器。生物信息学。2010; 26(5):680-2。

    CAS文章谷歌学者

  20. 20。

    刘斌,徐杰,邹青,等。利用Top-n-gram和残基对之间的距离进行蛋白质远程同源性检测。BMC Bioinf。2014;15 (S2): S3。

    文章谷歌学者

  21. 21。

    贾C,Zuo Y. S-硫化:基于重采样单面选择缺乏采样合成少数群体过采样技术捕获S-磺化位点的敏感预测因子。J Worl Biol。2017年;84-89。

  22. 22。

    刘铮,肖旭,邱文荣,等。idna -甲基:通过伪三核苷酸组成确定DNA甲基化位点。学生物化学肛门。2015;474:69 - 77。

    CAS文章谷歌学者

  23. 23。

    Xiao X, et al. iDrug-Target:通过基准数据集优化方法预测细胞网络中药物化合物和靶蛋白之间的相互作用。生物化学学报。2015;33(10):1-13。

    文章谷歌学者

  24. 24.

    科拉v,matarese n,reyneri lm。一种指出数据库中的异常输入输出模式的方法,具有监督学习规则的神经模糊系统。2009;第5个Isdea。

  25. 25.

    Juan Jr,Kuncheva Li,Alonso CJ。旋转森林:一个新的分类器集合方法。IEEE Trans模式肛门。2006; 28(10):1619-30。

    文章谷歌学者

下载参考

确认

不适用。

资金

国家重点研发计划(no . 2017YFE0130600);国家自然科学基金资助项目(no . 61772441,61872309, 62072384,62072385)。关键词:岩石力学,岩石力学,数值模拟,数值模拟资助机构没有参与CarSite-II的设计、数据分析和手稿的撰写。

作者信息

隶属关系

作者

贡献

ZY设计了这项研究并写了稿件。LJY构建了网页。ZXX,ZQ和LXR阅读了手稿并提供了修订的建议。所有作者阅读并认可的终稿。

相应的作者

对应于湘乡市曾或者刘荣刘

道德声明

伦理批准并同意参与

该研究不需要伦理批准。

同意出版

不适用。

相互竞争的利益

作者们宣称他们没有相互竞争的利益。

附加信息

出版商的注意

欧宝体育黑玩家《自然》杂志对已出版的地图和附属机构的管辖权主张保持中立。

补充信息

附加文件1:

可持续(Subtable1.1-SubTable1.4。K / P / R / T羰基化位点的预测性能10倍交叉验证)。

附加文件2:

Subtable 2. k / p / r / t羰基化位点的Wilcoxon Signde等级。

附加文件3:

subtable 3. Web-Server指南。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的创作共用许可中,除非在材料的信用线中另有说明。如果材料没有包含在文章的创作共用许可证中,而您的预期使用不被法律法规允许或超过允许的使用,您将需要直接获得版权持有人的许可。如欲浏览本许可证的副本,请浏览http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

左勇,林静,曾晓明。et al。CarSite-II:基于基于K-means相似度的欠采样和合成少数过采样技术的羰基化位点识别综合分类算法。欧宝娱乐合法吗22,216(2021)。https://doi.org/10.1186/s12859-021-04134-3

下载引用

关键字

  • 羰基化反应
  • 蛋白质翻译后修改
  • k - means相似性欠采样
  • 集成分类器
  • 旋转森林
\