跳过主要内容

基于条件沃瑟斯坦生成对抗网络的多种蛋白赖氨酸修饰位点的预测和分析

摘要

背景

蛋白质翻译后修饰(PTM)是研究蛋白质功能机制的关键问题。随着蛋白质组学技术的快速发展,已经产生了大量的蛋白质序列数据,这凸显了蛋白质中PTMS的深入研究和分析的重要性。

方法

我们提出了一个新的多分类机器学习管道MultiLyGAN身份七种赖氨酸修饰位点。使用八个不同的顺序和五个结构的施工方法,1497个有效特征通过Pearson相关系数的滤波后仍然存在。为了解决数据不平衡问题,有条件剖成对抗性网络(CGAN)和条件瓦瑟斯坦剖成对抗性网(CWGAN),两个有影响力的深层生成方法进行利用,并进行比较,产生的各类用较少的样本新样本。最后,随机森林算法被用来预测七类。

结果

在十倍交叉验证中,精度(Acc)和Matthews相关系数(MCC)分别为0.8589和0.8376。在独立检验中,Acc和MCC分别为0.8549和0.8330。结果表明,CWGAN较好地解决了现有数据不平衡问题,稳定了训练误差。另外,累积的特征重要性分析报告CKSAAP、PWM和结构特征是三种最重要的特征编码方案。MultiLyGAN可以在https://github.com/Lab-Xu/MultiLyGAN

结论

在所有实验中,CWGAN都大大提高了预测性能。从CKSAAP、PWM和结构方案中提取的特征信息量最大,对PTM预测贡献最大。

背景

作为体内的常见发生,蛋白翻译修饰(PTM)在调节各种生理过程和功能方面发挥着重要作用。PTM是指在MRNA翻译成蛋白质中的蛋白质上单个氨基酸残基的共价修饰的方法[1].然而,信息的不足限制了PTMs分析的深入。近几十年来,蛋白质组学技术的进步和蛋白质序列“大数据”的发展,为蛋白质本质的实质性研究提供了基础。尽管高通量生物技术在蛋白质PTM的鉴定和分析方面取得了巨大的成就,但传统的方法不仅成本高,而且对结构和功能之间的关系理解不充分。因此,开发可靠、高效的修正预测和分析计算方法具有十分重要的意义。

或者,蛋白质的赖氨酸修饰(周期性肢体运动障碍),流行PTM类型,其中出现在活性ε氨基蛋白质中特定的赖氨酸残基的基团并且是用于编排各种生物过程的关键。到目前为止,一系列的计算预测工具被开发出来。这些预测首先采用特征施工方法,包括序列和物理化学性质。然后,机器学习算法被采用来训练模型。约为七种类型赖氨酸修饰的位点的预测公布如下:(1)乙酰化:NetAcet [2),桶(3.], BRABSB-PHKA [4.], PSKAcePred [5.], LAceP [6.],N-Ace[7.],ASEB [8.],ProAcePred [9.]和迪帕塞特[10.];(2)糖基化:GlyNN [11.],PreGly [12.], Gly-PseAAC [13.],Glypre [14.], BPB_GlySite [15.]和iProtGly-SS [16.];(3)琥珀酰化:SucPred [17.],isuc-pseaac [18.], iSuc-PseOpt [19.],加法[20.], SuccinSite [21.] Psuc-Lys [22.], SSEvol-Suc [23.]和PSuccE [24.];(4)泛素:UBPRED [25.], CKSAAP_UbSite [26.],ubipRober [27],Ubinet [28]还有迪普比[29];(5)SUMO:SUMOpre [30.],召唤[31]及参见umo [32];(6)甲基化:automotif服务器[33],玛莎[34)和PSSMe [35];(7)丙二酰化:MaloPred [36]还有Mal Lys[37].但是,这些工具不能对所有潜在的赖氨酸修饰PTMs进行分类,只关注单一类型,限制了挖掘更多信息的可能性,忽略了多个PTMs之间的相互联系。

数据不平衡问题的特征在于通过广泛发散类别的预测偏差,因此最小化偏差对于PTM预测中的下游探索至关重要。在这里,我们的目标是利用深度生成方法来解决问题。2014年,Goodfellow等人。首先提出了生成的对抗性网(GaN)[38].GAN取得了巨大的成功,直接激发了研究者对图像生成和修复的兴趣。后来广泛应用于各个领域,特别是图像处理和自然语言处理[39].基于深度学习思想的常见生成模型包括VAE (Variational Auto Encoding)、GAN和GAN的变异模型(conditional generative confrontation network, CGAN) [40]:添加标签信息以及Wasserstein Generative Adversarial Network WGAN [41:完全解决了GAN训练不稳定的问题)。为了充分利用这两种优势,本文将CGAN和WGAN集成在一起,构建了具有强大数据不平衡处理能力的CWGAN。

为了进一步研究潜在的机制和功能的关系,一些具体的修改,随机森林被用作分类和解释功能的重要性。整个管道MultiLyGAN示于图。1一个。

图1
图1

一种多种蛋白质修饰位点的鉴定管道。B.内七种类型的翻译后修饰,包括乙酰化(S1),糖基化(S2),Malonylation(S3),甲基化(S4),琥珀酰化(S5)样品的粒度分布,SUMO化(S6)和泛素化(S7)

结果

交叉验证结果

在多分类问题中,精度(Acc)、混淆熵(CEN)、马修斯相关系数(MCC)和交叉验证错误率(EC)和独立的测试误差率(E一世)可以测量以评估统计模型性能(详细信息显示在附加文件中:S4).在本工作中,4/5的样本作为训练样本(用于训练模型和交叉验证测量),另外1/5作为独立的测试集。经过8种序列编码方案和5种结构编码方案,共有2359个特征。特征内部的高相关性可能会削弱预测性能,导致预测精度低,增加训练难度和过拟合风险。因此,我们计算每个特征与标签之间的皮尔逊相关系数(Pearson correlation coefficient, PCC),并丢弃PCC绝对值大于0.5的特征。

在训练样本的十倍交叉验证中,PCC后Acc增加了5%;MCC上升0.057;欧洲标准化委员会C显著降低(表1).PCC后的剩余特征发挥了更有效的作用,说明删除的特征对预测结果有负面影响。CGAN后性能明显提高,MCC达到0.8114,ECCGAN后降低了近2倍于表1

表1 PCC、CGAN和CWGAN后10倍交叉验证结果比较

与表中的CGAN进行比较1,对CWGAN后的各项指标均进行了改进,说明添加Wasserstein距离后生成网络模型的预测性能更好。Acc达到0.8589;MCC是0.8376;岑和EC用其它方案,这表明在CWGAN平衡数据的能力强相比最小。另外,我们分析可能有相似的序列的特征或不同赖氨酸修饰类型中的结构特征。桌子1在附加文件中:S3.和无花果。2显示了十倍交叉验证结果的混淆矩阵。S内的样本1(乙酰化)很容易预测为S7.(泛素化);S内的样本2(糖基化)倾向于分类为S7.和s1;一些样本标记为S3.(Malonylation)被错预测作为S1,S.7.和s5.(琥珀酰化);样品标记为S4.(甲基化)被特别错误地预测为S1; 标记为S的样品5.很容易被错误地预测为S1;样品的年代6.(SUMO)被错误原谅了1和s7.;和s7.很容易被误预测为S1.因此,乙酰化序列与其他修饰的相似性最大,说明其功能可能与其他类型的修饰相关联。Sumoylation (S6.)和泛素化(s7.)很容易混淆,这进一步表明了这两个过程之间的序列或功能性相关性。

图2
图2.

真实预测标签气泡图十倍交叉验证。气泡大小描述了实际样品的预测数量。(Python 3.8)

桌子23.显示了CWGAN前后各类别的预测结果。值得注意的是,CWGAN后,Sn值显著增加,预测的假阴性率大大降低。对于各类别的均衡AUC值,均有较大的增加,CWGAN表现出最佳的预测性能。数字3.在训练数据中使用PCC、CGAN和CWGAN演示了每种修改的综合性能。为了验证基于不同方法的预测AUC是否显著,我们使用了DeLong检验,一种可以比较两条相关ROC曲线AUC的非参数检验。从桌子上2在附加文件中:S3.那we underscored that PCC + CWGAN + RF was significantly better than RF and PCC + RF, and for S1,S.2,S.4.,及6.,PCC + CWAN + RF明显优于PCC + CGAN + RF。在s中没有统计上更好的表现3.,S.5.,及7.与PCC相比显示 + CWGAN + 带PCC的射频 + CGAN + 射频。

表2在CWGAN之前十倍交叉验证各变形例的评价
表3 CWGAN后10倍交叉验证对每个修改的评价
图3
图3.

PCC、CGAN和CWGAN后,采用随机森林进行十倍交叉验证,得到7种修改类型的ROC曲线。以真阳性率(灵敏度)为纵坐标,假阳性率为横坐标。绿色、黄色、紫色和红色分别表示随机森林(RF)分类(基线)、带PCC筛选的RF、带PCC筛选的RF和带CGAN增强的RF、带PCC筛选的RF和带CWGAN增强的RF。乙酰化(S1)、糖化(S2)、丙二酰化(S3)、甲基化(S4)、琥珀酰化(S5)、sumo酰化(S6)和泛素化(S7)。(Python 3.8)

独立的测试结果

仿形独立数据集正交于训练集,结果在表4.与培训结果一致(表1),这说明我们的预测的稳健性。另外,现实和预测的赖氨酸修饰类型阐明了相似的机制常数随交叉验证的结果,其中提供给通知不同类型之间的可能功能性的连接的有效方法(图4., 桌子3.在附加文件中:S3.).Acc值为0.8549,MCC值为0.8330,CEN值为0.2250,E值一世为0.1451。桌子5.6.证明CWGAN后而不CWGAN相比每个修改类型的更好的预测性能。数字5.每个修改的枚举ROC曲线和高AUC的曲线表明,多样化的人为看不见数据覆盖了出色的预测能力。在没有增强数据的情况下只有RF和RF,PCC + CWAN + RF存在显着改善(表4.在附加文件中:S3.).对于S.1和s3., PCC + CWGAN + RF比PCC + CGAN + RF具有更精确的预测。CWGAN和CGAN在其余类型中没有区别。

表4比较后PCC,CGAN和CWGAN独立测试结果
图4
图4.

独立测试的实数预测标签气泡图。气泡大小表示实际样品的预测数量。(Python 3.8)

表5 CWGAN前独立试验每次修改的评价
表6 CWAN后的独立测试的每种改进的评估
图5
图5.

独立试验中七种修正类型的ROC曲线。以真阳性率(灵敏度)为纵坐标,假阳性率为横坐标。绿色、黄色、紫色和红色分别表示随机森林(RF)分类(基线)、带PCC筛选的RF、带PCC筛选的RF和带CGAN增强的RF、带PCC筛选的RF和带CWGAN增强的RF。乙酰化(S1)、糖化(S2)、丙二酰化(S3)、甲基化(S4)、琥珀酰化(S5)、sumo酰化(S6)和泛素化(S7)。(Python 3.8)

我们调查了一个案例研究,以区分两个容易被错误分类的混淆修改,这在我们的文章中得到了说明。例如,泛素化和乙酰化(图。2),他们有直接竞争[42],质谱分析成功地支持了两种plm相互对立的作用[43].此外,建议最近的文章中更复杂的串扰机制透露指细胞周期调控[44]. 因此,两个PLM调控的信号通路可能影响蛋白质的功能,可能导致难以识别。因此,检测真实标签至关重要。根据图。1额外的文件:S3.,我们展示了详细的错误预测结果,每条线的厚度与错误分类样本的数量成正比。在CWGAN的帮助下,对标记为泛素化的片段错误归类为乙酰化的情况有明显改善。

数据扩充结果

除了预测性能的提高,我们评估CGAN和CWGAN在神经网络训练损耗的变化。本文采用的平均距离甘培训后评估的模拟数据。首先,所有的真实数据的平均值计算。其次,模拟数据的平均值和为每个类别(变形例)作为距离(图2中的实际数据之间计算的欧几里得距离。6.一种)。CGAN的距离均大于0.1,而6类CWGAN的距离分别为0.03以下,这表明CWGAN的合成数据更类似于原始的实际数据。CGAN的距离忽高忽低,而CWGAN的是不同类别的稳定。

图6
图6.

一种6类CGAN与CWGAN的距离比较。计算了模拟数据与实际数据的平均值之间的欧氏距离。使用CGAN的距离都在0.1以上,而6类使用CWGAN的距离都在0.03以下,说明使用CWGAN辅助的模拟数据更接近原始真实数据。P.值由双侧Mann-Whitney计算测试。B.损失VS迭代绘制CGAN和CWGAN的。损失迭代图反映的不同算法的迭代过程,这证明了CWGAN训练过程是更均匀的稳定性。(Python 3.8)

我们在50,000次迭代期间计算了发电机(光泽)的丢失和鉴别器(DLOSS)的丢失,以比较两种算法的优缺点。训练中的光泽和dloss cgan和CWAN上的乙酰化改性(S1)如图所示。6.b,其中上子图是CWGAN损耗坐标的放大图。在早期的迭代中,CGAN的Gloss和Dloss往往在500个迭代中发生很大的变化。但在后期的迭代中出现了长时间的波动,最终没有收敛。相比之下,CWGAN的Gloss和Dloss相对均匀,经过25000次迭代后不再发生变化。综上所述,我们证实了在CWGAN训练过程中可以获得更稳定、更收敛的增强数据。其他六种修饰的结果与乙酰化相似。

要作证CWAN是否与传统的过采样方法相比具有一流的性能,我们将合成少数群体过采样技术(SMOTE)应用于相同的结果进行相同的步骤。十倍的交叉验证和独立的粉碎矩阵低于CWGAN,高于NO-AUGMENTATION(表7.14.),这意味着不平衡的数据类型实际上会导致更差的结果,而与SMOTE相比,CWGAN给出了更精确的预测。

在十倍交叉验证和独立的测试SMOTE表7性能

讨论

特征分析

RF给出了1497维特征的重要性顺序。根据重要性程度,前9个最重要的特征来自pwm编码方案。不同氨基酸出现在序列片段不同位置的频率存在显著差异,这提供了重要的信息。图中总结了不同编码方案的累积重要性。7..粘性蛋白的重要性为0,其不提供识别信息;CKSAAP,PWM和结构特征是三个最重要的指标(图。7.一种)。数字7.b显示CKSAAP中三个最重要氨基酸的边缘。Y**A、D**Q、V*A在片段中起关键作用,差异显著。数字7.C显示PWM中前五个氨基酸的位置信息。在不同类别期间,+ 4,+ 7,+ 2,1和-4个位置的氨基酸频率信息也有显着不同。数字7.D显示了五个氨基酸结构信息的累积重要性。CN显示没有贡献,而角度显示出最大的累积贡献。在分析之后,发现结构编码方案中的前三个特征来自二次结构(SS),表明SS在识别中发挥着重要作用。

图7
图7.

一种特征重要性排名表总结了不同功能的建筑方法。一种表明CKSAAP、PWM和结构编码是三种信息量最大的方法;FoldAmyloid编码的重要性为0,它不提供任何标识信息。剩下的三幅图像是CKSAAP中最重要的三个氨基酸空间组合(b), PWM中前5位氨基酸的位置信息(c),以及五个签名结构信息的累积重要性(d)

与其他现有方法进行比较

为了验证MultiLyGAN的表现,我们的模型与MusiteDeep的比较[45]。MusiteDeep是一种基于深度学习的预测器,可以识别多个PTMs,包括13个PTMs,其中5个是赖氨酸修饰的(入组蛋白和修饰位点的数量比较见表)5.额外的文件:S3.).我们测试了四个plm,这些plm也在MusiteDeep中讨论过。使用上述相同的独立数据集,我们在Table中分析了它们的性能8..在识别所有四种类型的plm时,我们的方法优于MusiteDeep。MusiteDeep各修饰类型的Sp明显高于Sn,说明对真正修饰类型的检测能力较低,我们的方法改善了这一点。

表8 MusiteDeep与MultiLyGAN的性能比较

结论

在这项工作中,我们提出了一个新的管道来预测7种类型的修改位点,其中GAN被用来解决数据不平衡问题。我们将多标签预测问题转化为多类预测问题。综合8种不同序列和5种结构信息编码方案,构建了2340个维度特征。最后通过PCC特征提取得到1497个维度特征。通过CWGAN生成的仿真数据更接近真实数据。CWGAN的Acc值为0.8549,MCC值为0.8330,CEN值为0.2250,E一世为0.1451,优于CGAN。与此同时,CWGAN在7项修改中的表现均优于CGAN。

方法

方法概述

如图所示。1一个,我们提出了一个集成的协议包括数据预处理,特征结构,降维,样品扩增和分类,这实现7赖氨酸修饰类型的分层。肽片段,然后通过丢弃同源序列的制备,在数据预处理模块结束了。随后,大量的顺序和结构签名被付出在特征结构模块每个样品,在这之后,我们使用Pearson相关系数(PCC),以获得在一个较低的维子空间主要特征。为了最小化不均衡的问题的影响,少数类容易发生错误分类,条件剖成对抗性网络(CGAN)和条件瓦瑟斯坦剖成对抗性网络(CWGAN)中进行。最后,我们建立了随机森林(RF)分类身份的7种亚型,并通过精度(ACC),混乱熵(CEN),马修斯相关系数(MCC),交叉验证错误率(E测得的多分类模型性能C)和独立的测试误差率(E一世)(详情见附加档案:S4).MultiLyGAN包括PCC,CWGAN和RF的。

数据预处理

我们从CPLM2.0数据库中收集了18种赖氨酸修饰样品[46],共有来自53,501个蛋白的总共284,780种改性位点。修饰的类型是泛素化,乙酰化,琥珀酰化,丙二酰化,雄性糖化,糖化,甲基化,谷核化,丙酰化,克拉豆蔻蛋白化,蛹,丁酰基化,甲醛,膦化,羟基化,2-羟基异丁酰基化,萘酰化和羧化。通过滑动窗技术获得肽片段,在上赖氨酸氨基酸中具有长度≥8(窗口尺寸)L.= 17)。为了减少冗余和偏差,去除序列相似度高(40%或更多的成对序列同一性)的片段。删除同源性后,我们得到46个2-羟基异丁基,3273个乙酰化,38个丁基化,16个羧基化,29个巴豆酰化,143个甲酰化,402个戊二酰化,1454个糖化,19个羟基化,1467个丙二酰化,1208个甲基化,37个泛素酰化,108个磷酸甘油基化,223个丙酰化,169个糊化,1855个琥珀酰化,1302和3468个以赖氨酸为中心的泛素化片段。这些数据总共包含18种不同的修改类型。

我们用相同的ID,网站和片段合并的数据。十八类型的修饰有助于理论上218.每个片段的标签类型。数据整合后,共有58个方案,其中一个标签18个,两个标签28个,三个标签12个。样本少于500个的标签被删除。剩下的样本是单标签数据,包括Ubiq(3253)、Ace(3194)、Succ(1692)、Glyca(1416)、Malon(1253)、Sumo(1213)和Meth(1172)。由于特征构建包含每个氨基酸的结构信息,我们丢弃了长度小于17的片段。最后,我们获得了Ubiq(3185)、Ace(3114)、Succ(1645)、Glyca(1399)、Malon(1224)、Sumo(1174)和Meth(1147)。每种类型的详细数据如图所示。1b和表6.在附加文件中:S3.

按照字母顺序,S1被定为王牌,S2作为甘草,s3.马龙,年代4.冰毒,年代5.Succ,年代6.相扑和S7.作为UBIQ。因此,总数据集S可以定义为:

$ $ S ={年代}_{1}{年代}_{2}\ \杯杯{年代}_{3}\杯{年代}_{4}{\杯年代}_{5}{年代}_{6}\ \杯杯{年代}_ {7}$ $
(1)

功能建设

序列的特性

aaindex [4748]

选择14种具体的物理和化学性质来构建特征。每个氨基酸获得一个14维载体(L.是片段的长度):

$ $ \离开({f \离开(1 \右),{}f \左(右2 \),\ ldots \ ldots, {} f \离开({14 l} \右)}\右),$ $
(2)

CKSAAP [49]

氨基酸对之间的边界K是0,1和2。如果这对氨基酸是AA, CKSAAP就是AA, AXA和AXXA,其中X是任何氨基酸。数字1、2、3、…表示氨基酸,按字母A、C、D、…、y排列。

$ $ \离开(f \左(\ mathrm{1, 0}, 1 \右),\点,f \离开(\ mathrm{20日0},20 \右),f \离开(\ mathrm}{1, 1, 1 \右),\点,f \离开(\ mathrm{20日1},20 \右),f \离开(\ mathrm{1,2}, 1 \右),\点,f \离开(\ mathrm{20, 2}, 20 \) \右),$ $
(3)

每个边距有400个尺寸K.得到(0,1和2)的值,和一个1200维向量。

PWM [5051]

通过类别计算位置重量矩阵,以获得每个位置的氨基酸的频率信息。根据以上描述,样品片段的总长度是L.,则每个样本可以编码为L.- 维护载体:

\ \离开(\离开(1 \右),f \左(右2 \),\ \点点,f \左(L \) \右)\).(4).

简化字母表[5253]

减小的字母代码8被选择,并且每个氨基酸被编码为通过酸,碱性,芳族,酰胺,小羟基,硫,脂族1和族2。因此,长度为L的样品被编码的8维矢量一种s a vector of 8 × L.

$ $ \离开(\离开(1 \右),f \左(右2 \),\ \点点,f \左(8 l \) \右),$ $
(5)

Confomyloid [54]

使用http://antares.protres.ru/fold-amyloid/预测样品的淀粉样蛋白区域和最终获得L.- 维护载体:

\ \离开(\离开(1 \右),f \左(右2 \),\ \点点,f \左(L \) \右)\).(6).

是(5.55]

在BE(二进制编码)下,每个氨基酸被编码成一个20维的二进制矢量,结果是20 ×L.- 维护载体:

$ $ \离开(\离开(1 \右),f \左(右2 \),\ \点点,f \左(20 l \) \右)$ $
(7)

PC-PSEAAC [5657]

选择λ=L.-1 = 17–1 = 16, ω = 0.05,理化性质 = [‘亲水性“,”疏水性“,”质量“]。每个肽片段最终获得一个(20 + L.-1) - 二维载体:

$ $ \离开(\离开(1 \右),f \左(右2 \),\点,f \离开(20 \右),f(20 + 1) \点,f (20 + l - 1) \右),$ $
(8)

SC-PseAAC [5758]

选择λ=L.-1 = 17-1 = 16, ω = 0.05,物理化学性质=['亲水','疏水']。每个蛋白片段最终获得一个(20 + 2(L.-1) - 尺寸矢量:

$$左(f \ left(1 \右),f \左(2 \右),\ dots,f \左(20 \右),f(20 + 1)\ dots,f(20 + 2(l-1))\右)。$$
(9)

结构特性

Spider3-单身[59]适用LSTM-BRNN来预测可接近的表面积(ASA),二次结构(SS),骨干扭转角(φ,ψ,θ,τ),半球形曝光(HSE)和触点(CN),其具有总共19个产出。第一个是asa;接下来的3个节点(SS,Q3)是螺旋(H),链(E)和线圈(C);接下来的8(SS,Q8)是310.-螺旋(G),α-螺旋(H),\π(\ \)- Helix(I),\(\ beta \)桥(B),\(\ beta \)链(E),\(\ beta \)-turn(t),弯曲(s)和线圈(c);接下来的4是φ,ψ,θ和τ;接下来的2是HSE-UP和HSE-DOWN,最后输出代码是CN。SS产生11维矢量;ASA是1-D;φ,ψ,θ,τ是4-d;HSE是2-D(HSE-UP,HSE-DOWN);和CN是1-D。因此,我们收集了19岁L.每种蛋白质片段的二维载体。将序列和结构特征组合,将每种肽翻译成2359维载体(见表7.在附加文件中:S3.).

样本增大

CGAN

GAN在生成模型的训练中表现出了优异的性能。然而,在GAN中,生成模型没有控制,生成的数据完全是随机的,没有任何类别信息,不可能处理不平衡问题。幸运的是,CGAN模型被提议通过将模型设置为附加信息(如类标签)来指导数据生成过程。将GAN扩展到条件模型的一种简单方法是将生成器和鉴别器都限定在一些额外的信息y上。CGAN的优化函数如下:

$ $ L = \暗流{D} {\ mathrm{马克斯}}({E} _ {x \ sim {P} _{数据}(x)} \离开[logD \左右(x y | \) \] + {E} _ {z \ sim {P} _ {G} \离开(z \右)}[\ mathrm{日志}(一维(G \左(z | y \右)))))$ $
(10)

CWGAN

我们使用CWGAN (Conditional Wasserstein Generative Adversarial Network, CGAN under Wasserstein’s method)模型,将CGAN与Wasserstein’s距离相结合。GAN算法的目标是学习生成器的最佳参数,以最小化真实分布之间的JS发散\ ({P} _{数据}\左(x \) \)和模拟分布\({p} _ {g} \ left(x \右)\).然而,这两个分布通常在样本空间中没有重叠,这使得它们的JS发散始终等于LOG2并导致发电机参数的0梯度。由于0梯度,GaN很难提高发电机的性能。因此,已经提出了更好的方法来测量分布之间的分歧,称为Wassersein的距离。当Wasserstein的距离在条件GaN中使用时,CWGan即使是训练也可以开始训练\ ({P} _{数据}\左(x \) \)\({p} _ {g} \ left(x \右)\)没有交集。CWGAN的优化函数如下:

$$ L = \底流{d} {\ mathrm {MAX}}({E} _ {X \ SIM {P} _ {数据}(X)} d \左右(x | Y \右侧) - {E}_ {Z \ SIM {P} _ {G} \左(Z \右)} d(G \左(Z | Y \右))$$
(11)

对于生成器,输入包括先验噪声分布z和通过一次热编码方法嵌入的七维矢量的分类标签y。这个网络有几个主要的改进。CWGAN删除了D的最后一层的s型函数,G和D的损失函数不再使用对数变换。而是使用clip函数对函数进行更新,并用RMSProp优化方法替换Adam。与普通WGAN输出生成样本相对于真实样本的发散度不同,CWGAN中的鉴别器进一步增加了生成样本是否与条件信息匹配的估计。因此,CWGAN可以生成具有特定类别的样本。

以第七类数据的样本量为参考,对其他六类数据进行CWGAN模拟,模拟数据与生成的第七类数据一致。CWGAN的参数调整和CWGAN的最终参数如附加文件的表8和表9所示:S3..我们对CWGAN的训练数据整合了PCC筛选后的7种类型的样本,包括12888个样本,1497个特征。在CWGAN之后,产生了71个一级、1786 -级、1961年三级、2038年四级、1540年五级和2011年六级仿真数据。共生成9407个模拟样本数据集。

随机森林(Random forest, RF)是一种流行的机器学习bagging方法。RF参数见附加文件表10:S3.

测量的性能

两分类和Multiclassification系统指标均附加文件:S4

数据和材料的可用性

从CPLM2.0数据库中检索到18种赖氨酸修饰样品[46]由作者刘泽贤博士和薛宇博士(http://cplm.biocuckoo.org/).

缩写

铝:

蛋白质翻译后修改

甘:

生成对抗网络

cgan:

条件生成式对抗网络

CWGAN:

条件瓦瑟斯坦生成对抗网络

Acc:

精度

CEN:

混乱的熵

MCC:

马修斯相关系数

射频:

随机森林

E.一世

独立测试错误率

E.C

交叉验证出错率

PCC:

皮尔逊相关系数

参考文献

  1. 1。

    王锐,王G.蛋白修饰和自噬激活。Adv Exp Med Biol。2019; 1206:237-59。

    中科院PubMed文章公共医学中心谷歌学术搜索

  2. 2。

    n端乙酰化位点的预测。生物信息学。2005;21(7):1269 - 70。

    中科院PubMed文章公共医学中心谷歌学术搜索

  3. 3.

    李根蟠,薛Y,金C,王梅,Nepsilon乙酰化对贝叶斯判别法实施内部赖氨酸姚X.预测。Biochem Biophys Res Communce。2006; 350(4):818-24。

    中科院PubMed公共医学中心文章谷歌学术搜索

  4. 4.

    邵军,徐东,胡丽,关永文,王勇,孔旭,恩斯敏。系统分析人赖氨酸乙酰化蛋白,通过双相关自适应二项评分贝叶斯特征表示准确预测人赖氨酸乙酰化。摩尔Biosyst。2012;(11):2964 - 73。

    中科院PubMed文章公共医学中心谷歌学术搜索

  5. 5.

    Suo SB,邱杰德,Shi SP,Sun Xy,Huang Sy,Chen X,Liang RP。基于多个特征的蛋白质赖氨酸乙酰化的位置特异性分析和预测。PLoS ONE。2012; 7(11):E49108。

    中科院PubMed公共医学中心文章谷歌学术搜索

  6. 6.

    侯T,郑克,张P,贾俊,李茹,谢升,魏c,李玉。LaCep:使用Logistic回归分类器的赖氨酸乙酰化位点预测。PLoS ONE。2014; 9(2):E89575。

    PubMed公共医学中心文章中科院谷歌学术搜索

  7. 7.

    Lee Ty,Hsu JB,林FM,Chang Wc,HSU PC,Huang HD。N-ACE:使用溶剂可访问性和物理化学性质来鉴定蛋白质N-乙酰化位点。j计算化学。2010; 31(15):2759-71。

    中科院PubMed文章公共医学中心谷歌学术搜索

  8. 8.

    王力,杜毅,卢敏,李婷。ASEB:用于KAT特定乙酰化位点预测的web服务器。核酸Res 2012;40(Web服务器问题):W376–379。

  9. 9.

    陈刚,曹敏,罗凯,王磊,温鹏,史绍生。基于弹性网络特征优化的原核生物赖氨酸乙酰化位点预测。生物信息学。2018;34(23):3999 - 4006。

    中科院PubMed文章公共医学中心谷歌学术搜索

  10. 10.

    吴米,杨y,王h,徐y。一种更准确地召回已知的赖氨酸乙酰化位点的深度学习方法。BMC生物素。2019; 20(1):49。

    文章谷歌学术搜索

  11. 11.

    Johansen MB,Kiemer L,Brunak S.分析和预测哺乳动物蛋白质甘露治疗。糖生物学。2006; 16(9):844-53。

    中科院PubMed文章公共医学中心谷歌学术搜索

  12. 12.

    基于mRMR和IFS的蛋白质糖基化位点预测与分析。Biomed Res Int. 2015;2015:561547。

    PubMed公共医学中心谷歌学术搜索

  13. 13.

    徐勇,李丽,丁军,吴丽丽,麦光,周飞。Gly-PseAAC:通过序列分析鉴定蛋白质赖氨酸糖基化。基因。2017;602:1-7。

    中科院PubMed文章公共医学中心谷歌学术搜索

  14. 14.

    赵晓霞,赵晓霞,包立林,张勇,戴军,尹明明。基于支持向量机和多特征融合的Glypre在蛋白质糖基化位点预测中的应用。分子。2017;(11):1891。

    公共医学中心文章中科院谷歌学术搜索

  15. 15.

    基于双轮廓贝叶斯特征提取的赖氨酸糖基化位点预测。计算机生物化学。2017;71:98-103。

    中科院PubMed文章公共医学中心谷歌学术搜索

  16. 16.

    伊斯兰教MM,Saha S,Rahman MM,Shatabda S,Farid DM,Dehzangi A. iProtgly-SS:使用序列和基于结构的特征识别蛋白质糖化位点。蛋白质。2018; 86(7):777-89。

    中科院PubMed文章公共医学中心谷歌学术搜索

  17. 17.

    召X,宁Q,柴H,马Z.在使用迭代半监督学习技术蛋白琥珀酰化位点硅片识别准确。J Worl Biol。2015; 374:60-5。

    中科院PubMed文章公共医学中心谷歌学术搜索

  18. 18.

    徐Y,丁YX,丁Ĵ,雷YH,乌​​LY,邓纽约。iSuc-PseAAC:通过将肽位置特异性倾向预测蛋白质中的赖氨酸琥珀酰化。SCI代表2015年; 5:10184。

    PubMed公共医学中心文章谷歌学术搜索

  19. 19.

    贾杰,刘智,肖X,刘乙,周金川。iSuc PseOpt:通过将序列耦合效应纳入伪组分并优化不平衡训练数据集,识别蛋白质中的赖氨酸琥珀酰化位点。肛门生物化学。2016;497:48–56.

    中科院PubMed文章公共医学中心谷歌学术搜索

  20. 20。

    徐海东,史绍平,温鹏,邱建东。succinylation位点在线预测工具生物信息学,2015,31(23):3748 - 50。

    中科院PubMed公共医学中心谷歌学术搜索

  21. 21.

    Hasan mm,杨s,周y,mollah mn。琥珀色:通过利用氨基酸图案和性质来预测蛋白质琥珀酰化位点的计算工具。mol Biosyst。2016; 12(3):786-95。

    中科院PubMed文章公共医学中心谷歌学术搜索

  22. 22.

    Jia J, Liu Z, Xiao X, Liu B, Chou KC. psu - lys: ppseaac和ensemble random forest方法预测蛋白质中赖氨酸琥珀酰化位点。J Theor Biol. 2016; 394:223-30。

    中科院PubMed文章公共医学中心谷歌学术搜索

  23. 23。

    Dehzangi A,洛佩兹Y,拉尔SP,Taherzadeh G,萨塔尔A,角田T,通过经由螺旋结合的二级结构夏尔马A.改善琥珀酰化的预测精度,链和线圈,并且从轮廓双字母组进化信息。PLoS ONE。2018; 13(2):e0191900。

    PubMed公共医学中心文章中科院谷歌学术搜索

  24. 24。

    宁Q,召X,宝L,马Z,从使用合奏支持向量机的蛋白质序列召X.检测琥珀酰化位点。欧宝娱乐合法吗BMC生物信息学。2018; 19(1):237。

    PubMed公共医学中心文章中科院谷歌学术搜索

  25. 25.

    Radivojac P, Vacic V, Haynes C, Cocklin RR, Mohan A, Heyen JW, Goebl MG, Iakoucheva LM。蛋白质泛素化位点的鉴定、分析和预测。蛋白质。2010;78(2):365 - 80。

    中科院PubMed公共医学中心文章谷歌学术搜索

  26. 26.

    陈泽,陈yz,王XF,王C,闫兰,张Z。通过使用k-间隔氨基酸对的组成来预测泛素化位点。PLoS ONE。2011; 6(7):E22930。

    中科院PubMed公共医学中心文章谷歌学术搜索

  27. 27。

    陈旭,邱建东,施SP,索SB,黄SY,梁RP。结合关键位置和氨基酸残基特征,识别一般和物种特异性的泛素偶联位点。生物信息学)。2013;29(13):1614 - 22所示。

    中科院PubMed文章公共医学中心谷歌学术搜索

  28. 28.

    Nguyen VN,Huang Ky,Weng Jt,Lai Kr,Lee Ty:Ubinet:探索功能协会和蛋白质膨胀型蛋白质的监管网络的在线资源。数据库(牛津)2016。

  29. 29.

    关键词:蛋白质,泛素化位点,深度学习,深度学习BMC Bioinform。2019;20(1):86。

    文章谷歌学术搜索

  30. 30.

    徐杰,何y,强b,元j,peng x,pan xm。一种新的蛋白质序列高精度Sumoylation位点预测的方法。BMC生物素。2008; 9:8。

    文章中科院谷歌学术搜索

  31. 31。

    佩德里奥利PG、劳特B、张西德、罗杰斯R、艾奇森J、马图尼斯M、艾伯索尔德R。使用质谱和召唤模式识别软件自动识别苏木酰化位点。Nat方法。2006;3(7):533–9.

    中科院PubMed文章公共医学中心谷歌学术搜索

  32. 32。

    任军,高X,金Ç,朱男,王X,邵氏A,温家宝L,姚X,蛋白SUMO化的薛Y.系统研究:SUMOsp 2.0的位点特异性预测的发展。蛋白质组学。2009; 9(12):3409-12。

    中科院PubMed文章公共医学中心谷歌学术搜索

  33. 33.

    关键词:AutoMotif server,蛋白质,翻译后修饰,单残基生物信息学。2005;21(10):2525 - 7。

    中科院PubMed文章公共医学中心谷歌学术搜索

  34. 34.

    Shien DM,Lee Ty,Chang Wc,HSU JB,Horng JT,HSU PC,王Ty,Huang HD。掺入鉴定蛋白质甲基化位点的结构特征。j计算化学。2009; 30(9):1532-43。

    中科院PubMed文章公共医学中心谷歌学术搜索

  35. 35。

    温鹏鹏,施SP,徐浩东,王丽娜,邱建东。基于信息增益特征优化的物种特异性甲基化位点的准确硅预测。生物信息学。2016;32(20):3107 - 15所示。

    中科院PubMed文章公共医学中心谷歌学术搜索

  36. 36。

    王丽娜,施SP,徐海东,温鹏,邱金东。基于增强特征策略的物种特异性丙二酰化位点的计算预测。生物信息学。2017;33(10):1457 - 63。

    中科院PubMed公共医学中心谷歌学术搜索

  37. 37.

    徐Y,丁YX,丁Ĵ,吴LY,薛Y. MAL-赖氨酸:在集成的基于序列的功能与MRMR特征选择蛋白质中的赖氨酸malonylation位点预测。SCI代表2016; 6:38318。

    中科院PubMed公共医学中心文章谷歌学术搜索

  38. 38.

    古德费洛IJ,POUGET-阿巴迪Ĵ,米尔扎男,许B,沃德-法利d,Ozair S. A.库维尔Bengio Y:发电机密封对抗性网。进阶Neur在;2014. p。27。

    谷歌学术搜索

  39. 39.

    薛勇,高旭,曹军,刘铮,金超,温磊,姚鑫,任军。蛋白质磷酸化计算资源综述。畜牧兽医学报。2010;11(6):485-96。

    中科院PubMed文章公共医学中心谷歌学术搜索

  40. 40。

    Mirza M OS:有条件的生成对抗网。计算。SCI。2014; 2672-2680。

  41. 41。

    全TM,阮德泰,郑文武。使用循环损耗的生成对抗网络进行压缩感知MRI重建。IEEE跨医学成像。2018;37(6):1488–97.

    PubMed文章公共医学中心谷歌学术搜索

  42. 42。

    Tang X, Wen S, Zheng D ., Tucker L ., Cao L ., Pantazatos D ., Moss SF, Ramratnam B. n -末端乙酰化对drosha降解的抑制作用。PLoS ONE。2013; 8 (8): e72503。

    中科院PubMed公共医学中心文章谷歌学术搜索

  43. 43。

    Danielsen JM,Sylvestersen KB,Bekker-Jensen S,Szklarczyk D,Poulsen JW,Horn H,Jensen LJ,Mailand N,Nielsen ML。赖氨酸泛菌菌的质谱分析揭示了位点水平的滥交。Mol细胞蛋白质。2011; 10(3):3590。

    文章中科院谷歌学术搜索

  44. 44。

    刘X,肖W,王XD,Li Yf,Han J,Li Y.通过抑制普遍突出的乙酰转移酶GCN5促进α-管蛋白乙酰化,通过促进α-管蛋白乙酰化来调节G2 / m进展。J Biol Chem。2013; 288(51):36648-61。

    中科院PubMed公共医学中心文章谷歌学术搜索

  45. 45.

    王东,刘东,余池,等。MusiteDeep:一个基于深度学习的网络服务器,用于蛋白质翻译后修饰位点的预测和可视化。核酸Res. 2020;48: W140-6。

    中科院PubMed公共医学中心文章谷歌学术搜索

  46. 46.

    刘ZX,王镱,高TS,潘ZC,程H,杨天问,程ZY,郭AY,任军,薛Y. CPLM:蛋白质赖氨酸修改数据库。核酸RES。2014; 42(D1):D531-6。

    中科院PubMed文章公共医学中心谷歌学术搜索

  47. 47。

    一种预测蛋白质相互作用区域翻译后修饰位点定位的机器学习策略。BMC Bioinform。2016;17(1):307。

    文章中科院谷歌学术搜索

  48. 48。

    Su Mg,Huang Ky,Lu Ct,Kao Hj,Chang Yh,Lee Ty。零下:用于识别跨膜蛋白中的功能性后改性的DBPTM的新模块。核酸RES。2014; 42((数据库问题)):537-45。

    文章中科院谷歌学术搜索

  49. 49.

    武云QQG,郑W,张YP,阮JS,HU G.改进了种类的特异性赖氨酸乙酰化位点预测,基于各种特征套装。Plos 2016; 11(5)。

  50. 50。

    Kao HJ, wsl, Huang KY, Kaunang FJ, Hsu JBK, Huang CH, Lee TY: msd -carb:一种用于蛋白质羰基化位点识别的组合模型。2 . Bmc Syst Biol 2017;

  51. 51。

    张卫文,李泰雅,史德敏,徐建斌,洪振堂,徐pc,王天佑,黄浩德,潘瑞林。结合支持向量机识别蛋白质酪氨酸硫酸盐化位点。化学学报。2009;30(15):2526-37。

    中科院PubMed文章公共医学中心谷歌学术搜索

  52. 52。

    Wong Yh,Lee Ty,Liang HK,Huang Cm,Wang Ty,Yang Yh,Chu Ch,Huang HD,Ko Mt,Hwang JK:Kinasephos 2.0:一种用于识别基于序列和耦合图案的蛋白激酶特异性磷酸化位点的Web服务器.核酸研究2007; 35(Web服务器问题):W588-594。

  53. 53。

    余春春,陈永昌,卢春春,黄家杰。蛋白质亚细胞定位预测。蛋白质。2006;64(3):643 - 51。

    中科院PubMed文章公共医学中心谷歌学术搜索

  54. 54。

    SO, Lobanov MY, Galzitskaya OV。FoldAmyloid:一种从蛋白质序列预测淀粉样变区域的方法。生物信息学,2010,26(3):326 - 32。

    中科院PubMed文章公共医学中心谷歌学术搜索

  55. 55。

    Li TT,Du PF,Xu NF:通过整合来自不同来源的异质信息来识别人类激酶特异性蛋白磷酸化位点。普罗斯一体2010,5(11)。

  56. 56。

    利用伪氨基酸组成预测蛋白质细胞属性。蛋白质结构、功能与遗传。2001;43(3):246-55。

    中科院文章谷歌学术搜索

  57. 57.

    刘斌,刘楼王X,陈军,方升,周KC。PSE-in-One的:产生的DNA,RNA伪部件,和蛋白质序列的各种模式的web服务器。核酸RES。2015; 43(W1):W65-71。

    中科院PubMed公共医学中心文章谷歌学术搜索

  58. 58.

    Chou Kc。使用两亲性伪氨基酸组合物预测酶亚家族等级。生物信息学。2005; 21(1):10-9。

    中科院PubMed文章公共医学中心谷歌学术搜索

  59. 59。

    基于深度全序列学习的蛋白质二级结构和溶剂可及性预测。化学学报。2018;39(26):2210-6。

    中科院PubMed文章公共医学中心谷歌学术搜索

下载参考

确认

我们感谢匿名评论员,他们给了我们非常宝贵的建议。

资金

国家自然科学基金项目(no . 12071024);国家科技部项目(no . 2019AAA0105103)。关键词:岩石力学,数值模拟,数值模拟,数值模拟资助方在研究的设计、数据的收集、分析和解释以及手稿的撰写中没有任何作用。

作者信息

隶属关系

贡献

Y.X.和Y.Y.构思并设计了实验。Y.Y.和H.W.进行了实验和数据分析。w.l.、H.W.和Y.X.撰写了论文。s.w., Y.L.和X.W.对手稿进行了修改。所有的作者阅读并同意了最终的手稿。

通讯作者

对应到燕许

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

利益争夺

作者声明没有竞争的财务利益。

附加信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充资料

附加文件1. S1

:序列预处理。补充材料介绍了氨基酸窗口滑动技术和特征结构,将氨基酸序列转换为数字向量。

附加文件2. S2

: CWGAN生成模型。

额外的文件3。S3.

:补充表格。

额外的文件4。S4

:分类系统指标。

权利和权限

开放访问本文根据知识共享署名4.0国际许可证获得许可,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,前提是您给予原作者和来源适当的信任,提供知识共享许可证的链接,并说明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可证中,除非在材料信用额度中另有说明。如果文章的知识共享许可证中未包含材料,且您的预期用途未经法定法规许可或超出许可用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

李伟。基于条件沃瑟斯坦生成对抗网络的多种蛋白赖氨酸修饰位点的预测和分析。欧宝娱乐合法吗22,171(2021)。https://doi.org/10.1186/S12859-021-04101-Y.

下载引用

关键词

  • 翻译后修改
  • 深度学习
  • 生成的对抗网络
  • 随机森林
\