跳到主要内容

利用机器学习技术基于其物理化学性质的抗菌肽毒性预测

摘要

背景

抗菌肽是对抗日益增长的抗生素耐药性的有前途的工具。然而,尽管它们有许多优点,但对哺乳动物细胞的毒性是临床应用的一个关键障碍,需要解决。

结果

在这项研究中,通过使用最新的数据集,机器学习模型已经被成功训练来预测抗菌肽的毒性。对具有局部和全局特征的物理化学和语言学综合特征进行了特征选择,以识别抗菌肽毒性背后的关键特性。经过特征选择后,混合模型的召回率为0。876分,F1得分0分。849.

结论

该模型可用于临床应用中从AMP库中提取低毒AMP。另一方面,一些具有局部性质的特性,包括链形成位置和疏水残基在最终选择的特征表明,这些特性是肽性质的关键定义,在开发肽活性预测模型时应考虑。可执行代码可在https://git.io/JRZaT

同行评审报告

背景

抗菌肽(AMPs)是生物对抗微生物感染的古老防御工具[1].amp在长度、序列和结构上具有高度多样性。这种多样性表明,这些多肽对目标具有广泛的作用机制[2].与传统抗生素相比,抗菌肽具有广谱抗菌活性、对细菌细胞的选择性和罕见耐药性等优点[3.].尽管有这些好处,但amp对哺乳动物细胞的毒性仍然是开发amp的主要问题,也是其临床应用的主要障碍[4].

新抗菌肽的实验鉴定和开发既昂贵又耗时。因此,通过在合成前预测潜在AMP候选物的活性,开发计算模型对于快速分析潜在AMP候选物至关重要。此外,机器学习技术可用于挖掘AMPs生物功能背后的关键物理化学特性[5].

最近,许多研究都致力于利用机器学习技术开发预测模型,根据AMP候选序列对其进行分类[678910]2016年,Chaudhary等人[7开发了一种预测多肽溶血活性的工具。在他们的工作中使用的特征大多是基于语言的,涉及全球性质的物理化学性质。对于高溶血肽和低溶血肽的分类性能仍有改进的空间。在Kleandrova等人的另一项研究中[4],使用一组有限的Broto-Moreau自相关特征,以高精度同时预测抗菌活性和细胞毒性[11].

在这项工作中,我们的目标是通过在最新数据集上训练一个包含一系列特征的模型来预测amp的毒性,从而解决这两个问题。这里所采取的一般步骤如图所示。1.特征集包括物理化学和基于语言的属性,具有局部和全球性质。毒性背后最重要的特性也通过交叉验证和毒性和非毒性AMPs的分布距离分析来实现特征选择。

图1
图1

开发毒性预测模型和调查相关肽特性所采取的一般步骤

结果与讨论

为训练模型准备数据集

考虑从几个AMP数据库获取数据,但选择了DBAASP数据集。该数据库配备了应用程序可编程接口,目前仍在更新中,而大多数其他数据库已过时。DBAASP提供AMPs抗菌活性和毒性的最新实验数据。在使用此数据集之前,需要考虑多种因素。由于属性计算算法主要识别天然氨基酸,因此删除了许多含有非天然残基或D-氨基酸以及氨基和乙酰基以外的末端修饰的AMP记录。使用肽的分子量将所有以“µg/ml”为单位的浓度值转换为“µM”。这种转换是必要的,以便能够比较安培数,并根据标记规则对其进行标记。数据中提供了几种类型的毒性值,包括HC50、CC50和MIC。HC50、CC50和MIC毒性值的转换允许进行更准确的比较和标记,因为它基于肽活性浓度。完成这些过程后,数据集就可以进行标记和属性计算了。

有毒和无毒抗菌肽的特征分布分析

在计算所有特征并去除相关特征后,比较有毒和无毒AMPs之间的特征分布是否能发现明显的特征是一件有趣的事情。值得注意的是,数据集中的所有记录都是amp,因此它们在基本上所有类别的特征方面肯定有很多共同之处。对最终数据集应用t分布随机邻居嵌入(t-SNE)的结果(附加文件)1图S1)也可以看出,有毒amp和无毒amp具有非常相似的特征分布。采用Kullback-Leibler发散法,对所有1263个特征的毒性分布和非毒性分布进行比较。如图所示。2,虽然在大多数情况下,有毒和无毒amp的特征分布差异可以忽略不计,但在体内聚集倾向、归一化疏水性和埋藏残基组成等一些特性均表现出明显的分布。

图2
图2

在两组有毒和无毒amp之间计算每个特征的Kullback-Liebler距离值的直方图

有毒和无毒amp分类训练模型

为了建立鉴别有毒和无毒AMPs的模型,在此过程中进行了三步降维。每一步后,在训练集上对SVC、Linear SVC、Random Forest、KNN和hybrid模型进行训练和优化。使用受试者工作特征(ROC)曲线来确定和比较模型的性能。曲线下面积(Area Under The Curve, AUC)用来衡量分类器区分类的能力。AUC越高,性能越好。数字3.显示执行特征选择前的ROC结果。虚线显示完全随机分类器(AUC)的性能 = 0.5)。如图和表所示1, Random Forest和SVC模型的结果具有可比性,并取得了较高的AUC分数。

图3
图3

比较不同算法在特征选择前的ROC曲线

表1特征选择前不同算法曲线下面积比较

在这种情况下,重要的是最小化假无毒预测的数量,同时也防止模型将所有样本预测为有毒。因此,选择F1分数作为要优化的性能度量,因为它设法同时考虑召回(最小化假无毒)和精度(最大化真无毒)。数字4比较所有实现的算法的这些关键性能指标。其中SVC (RBF, c = 5, gamma = 0.03), SVC(多项式,c = 0.001, gamma = 0.2),随机森林和混合模型的效果优于线性SVC (c = 0.2), Naïve Bayes和KNN (k = 5)。考虑到这些结果,下文省略了Linear SVC, Naïve Bayes和KNN算法。与Chaudhary等人的工作相比[7在这里,我们能够实现大约9%的准确性提高模型。

图4
装具

通过对不同算法的比较,得出了特征选择前的分类性能指标

特征选择和模型性能

在这里,获得一个模型来区分有毒和无毒AMPs并不是我们的唯一目标。我们还想研究造成这种毒性差异的潜在特性。这些性质既可以基于肽的氨基酸序列,也可以具有物理化学性质。已经发表了许多利用基于序列的特性并成功预测肽功能的著作[78].然而,这些模型的性能很大程度上依赖于查询肽序列与数据库中被索引肽序列的相似性。考虑到只有很小一部分序列空间与已知amp具有足够的相似性(即使不考虑肽长度),这些模型在许多高通量应用(如肽设计)中具有值得商榷的性能。

理想情况下,一个基于肽毒性的精确物理化学性质的模型应该表现得足够好。然而,在我们的工作中,只有当提取的属性涵盖所有这些基本属性时,才会出现这种情况。尽管在许多作品中[12131415amp毒性的潜在特性已经被研究过,但对于这一现象仍有很多需要了解的地方。因此,为了尽可能地涵盖更多的性质,我们使用Propy包来计算肽的理化性质。另一方面,由于考虑到的物理化学性质可能没有足够的关于AMP活性的信息,基于序列的描述子也被计算得到一组全面的特征,并让模型在特征选择步骤中选择信息量最大的描述子。

为了获得可解释的特征数量,在去除相关特征后,分别采用L1-SVM和基于树的交叉验证特征选择方法进行特征选择。在这些步骤之后,1276个特性减少到90个特性(附加文件4:表S3,附加文件5:表S4)。数字5其中,随机森林(a)、SVC (RBF, c = 7, gamma = 0.35) (b)和SVC(多项式,c = 0.1, gamma = 0.55) (c)模型的ROC结果及对应的auc如表所示2.除SVC(多项式)外,特征选择没有显著的性能损失。这里,随机森林模型的AUC最高。

图5
figure5

随机森林的ROC表现(一个) SVC (RBF)模型(b)和SVC(多项式)模型(c特征选择后

表2特征选择前后随机森林和SVC模型的AUC性能比较

利用汉明距离对不同算法的性能与混合模型进行了比较,结果表明,不同算法的性能在0.0247和0.0883之间存在差异2:表S1)。最终模型的测试集结果如图所示。6.如图所示,尽管SVC(RBF)在特征选择前表现出更高的性能,混合模型在F1分数方面对所选特征表现得更好,这表明各种算法的组合也有助于实现更高的性能。考虑到该模型的应用,它有利于我们有一个预测假无毒AM的可能性最低的模型P同时仍然能够检测无毒AMP。至于性能指标,这种偏好主要反映在召回率和F1分数上,分别为0.849和0.849。混合模型在选择特征时没有表现出明显的性能损失。因此,可以得出结论,这些特征总体上具有eAMP毒性预测的重要信息。

图6
figure6

对比特征选择前后的分类结果

利用随机森林模型的特征重要属性,发现肽在体内的聚集倾向是肽毒性最显著的特征。计算这一特征背后的算法可以预测细胞物质存在时的多肽聚集倾向[16].有趣的是,在Kullback-Leibler距离结果中,这一特征值最高,表明它在有毒和无毒AMPs中分布最远(图1)。7a).极性残基的组成在最后90个特征中排名第二。根据定义,它是肽中的极性残基数(包括亮氨酸、亮氨酸、苯丙氨酸、色氨酸、胱氨酸、Met、Val和Tyr)除以总残基数。同样地,它也是Kullback-Leibler距离分析的五大特征之一。7b) 。

图7
figure7

计算的体内聚集倾向分布的比较(一个)极性残基组成(b)在有毒和无毒amp中

已在附加文件中显示并分类了所选特性的完整列表3.:表S2和附加文件4:表S3。这些特性大多是基于amp的物理化学性质,包括电荷、疏水性、极性、二级结构和溶剂可及性。这些属性中的许多都是基于属性的分布,并且独立于氨基酸组成,这表明属性对当地自然的重要性。沿着肽序列的部分距离必须遇到第一个具有高链形成倾向的残基(VIYCWFT)和第一个疏水残基(CLVIMFW),这是具有局部性质的性质。还有一些性质可以度量属于不同类别的每个可能组合的连续留数对的分数。例如,在极性和疏水性值上有相当大差异的相邻残基对的分数是最重要的性质。基于残基的分布,氨基酸组成相似的amp具有不同的属性值。这一结果证实,仅具有全局性质的特征,如从amp序列中获得的特征,不足以提供足够的信息来预测肽的活性。

结论

在这里,通过使用最新的数据集,我们开发了一个机器学习模型来预测抗菌肽的毒性,具有出色的性能。通过交叉验证进行特征选择,包括物理化学和基于语言的一组特征,以识别涉及抗菌肽毒性的关键特征。研究还表明,局部性质在肽功能中具有关键作用,因此需要在训练新模型时加以考虑。该模型可作为从AMP库中提取低毒AMP的工具。

方法

准备数据

所有AMP记录均来自抗菌肽活性和结构数据库(DBAASP) [17].已从数据库输入有定量溶血活性报告的记录。具有非自然残基(异常氨基酸,d -氨基酸)、c端修饰(不含基团)和n端修饰(不含乙酰基)的amp已被去除。此外,由于在这些长度范围内缺乏足够的例子,短于6个残基和长于50个残基的肽段也被从数据集中删除。用μg/mL的浓度值除以相应肽的分子量,再乘以1000,所有值均以μM为单位。AMPs的初始溶血活性浓度范围缩短为0.5-1000µM。此外,在最终的数据集中,对脂质双分子层无活性的多肽也被剔除。

使用肽浓度和裂解值,并基于附加文件5:表S4,为每条记录分配“有毒”和“无毒”标签,为训练分类模型准备数据。大多数amp有超过1个报道的溶血活性,所以这些肽可能有不同的标签。最终的数据集只包含有有毒或无毒标签的肽段。例如,如果某一肽在一份溶血报告中被证明是有毒的,而在另一份报告中是无毒的,则从数据集中删除该肽的所有记录。

特征提取

这里总共有1541个特征已经从肽序列中提取出来(附加文件)6:表S5)。免费的Propy python包[18],从氨基酸组成、二肽组成、自相关、伪氨基酸组成和序列顺序性质等类别中提取1527个特征。从DBAASP获得的数据中,每条记录都已经具有归一化疏水力矩、归一化疏水性、净电荷和等电点四种物理化学性质。无序性和电荷密度的计算类似于以前的工作[9].使用侵略者网络服务器计算体外和体内的聚集倾向[16]及TANGO软件[19),分别。平均亲水性、空间位阻、溶剂化、亲水性和两亲性使用AAIndex数据库的数据进行计算[20.](附加文件7).

训练机器学习模型

本文训练了基于径向基函数(RBF)和多项式核的支持向量分类器(SVC)、线性支持向量分类器(LSVC)、随机森林、Naïve贝叶斯和k -最近邻等模型来预测AMPs的毒性。同时训练了一个混合上述算法的投票分类器模型。火车集(80%)和测试集(20%)之间没有重叠,并且在类值上启用了分层参数(有毒或无毒)。所有培训均使用Scikit-learn进行[21Python库,具有十倍交叉验证。采用交叉验证的网格搜索方法,在列车集合上对所有模型进行优化,然后将最优模型用于测试集。模型性能的比较采用性能测量(包括精度、召回率、f1评分、准确性和AUC)和汉明距离。

特征选择策略

为了去除冗余或高度相关的特征,已经实现了多种特征选择方法。使用Mathematica软件计算出所有特征对之间的皮尔逊相关性[22].基于树的特征选择和基于l1的特征选择已经分别使用Scikit-Learn进行[21Python库。首先,将输入数据随机分成5个部分。每个部分都训练了分类器(随机森林分类器或线性支持向量分类器)。最后,在每个方法中,提取所有5个折叠的共有特征,以供进一步使用。

Kullback–Leibler距离

为了比较有毒和无毒amp在每个特征上的分布,Kullback-Leibler (KL)距离[23]的分布进行了计算和比较。Kullback-Leibler散度量化了给定变量的两个分布的差异。这里,独立于特征选择步骤,测量所有计算特征的KL Divergence。KL Divergence的计算方法如下:

$ $ {\ varvec {D}} _ {{{\ varvec {KL}}}} ({\ varvec {p}} | {|} {\ varvec {q}} {)} = \ mathop \总和\ limits_ {{{\ varvec{我}}= 1}}^ {{\ varvec {N}}} {\ varvec {p}} \离开({{\ varvec {x}} _ {{\ varvec{我}}}}\)\ cdot {\ varvec{日志}}\压裂{{{\ varvec {p}} \离开({{\ varvec {x}} _ {{\ varvec{我}}}}\右)}}{{{\ varvec {q}} \离开({{\ varvec {x}} _ {{\ varvec{我}}}}\右)}}$ $

其中p和q是变量x的两个概率分布.为了得到KL距离,我们计算KL Divergence两次,p和q交换值,每个变量的平均值报告为KL距离。

特征分布可视化

利用Scikit-learn软件包中的t-SNE方法,将AMP特征的高维空间(90)引入到2个组分中,可视化并比较有毒和无毒AMP的特征分布。

数据和材料的可用性

本文中包含了支持本文结论的数据集(AMP dataset.zip)https://git.io/JRZaT

缩写

放大器:

抗菌肽

SVC:

支持向量分类器

LSVC:

线性支持向量分类器

DBASP:

抗菌活性和肽结构数据库

AUC:

曲线下面积

中华民国:

接受者操作特性

吉隆坡:

Kullback-Leibler

t-SNE:

t分布随机邻居嵌入

径向基函数:

径向基函数

参考文献

  1. 1.

    抗菌肽在健康和疾病中的作用。中华医学杂志。2002;347(15):1199-200。

    文章谷歌学者

  2. 2.

    Lee TH,Hall KN,Aguilar MI.抗菌肽结构和作用机制:膜结构作用的焦点.Curr Top Med Chem.2016;16(1):25-39。

    中科院文章谷歌学者

  3. 3.

    抗菌和免疫调节应用的肽设计。生物聚合物。2013;100(6):572 - 83。

    中科院文章谷歌学者

  4. 4.

    Kleandrova VV, Ruso JM, Speck-Planche A, Dias Soeiro Cordeiro MN。使发现和虚拟筛选有效和安全的抗菌肽成为可能。同时预测抗菌活性和细胞毒性。ACS Comb Sci. 2016;18(8): 490-8。

    中科院文章谷歌学者

  5. 5.

    Lee EY, Lee MW, Fulan BM, Ferguson AL, Wong GC。机器学习能对抗菌肽做什么,抗菌肽能对机器学习做什么?接口的焦点。2017;7(6):20160153。

    文章谷歌学者

  6. 6.

    利用机器学习在未发现的肽序列空间中绘制膜活性。中国科学院院刊。2016;113(48):13588-93。

    中科院文章谷歌学者

  7. 7.

    Chaudhary K, Kumar R, Singh S, Tuknait A, Gautam A, Mathur D,等。用于计算肽溶血能力的web服务器和移动应用程序。Sci众议员2016;6:22843。

    中科院文章谷歌学者

  8. 8.

    Gupta S, Kapoor P, Chaudhary K, Gautam A, Kumar R, Raghava GP,等。在预测多肽和蛋白质的毒性的硅方法。PLoS ONE。2013; 8 (9): e73957。

    中科院文章谷歌学者

  9. 9.

    基于线性阳离子抗菌肽与膜相互作用特性的预测。acta Chem . Inf Model. 2014;54(5): 1512-23。

    中科院文章谷歌学者

  10. 10.

    Su X,Xu J,尹Y,权X,张H.基于多尺度卷积网络的抗菌肽鉴定.BMC Bioinform.2019;20(1):1-10。

    文章谷歌学者

  11. 11.

    分子描述符手册。霍博肯:威利;2008.

    谷歌学者

  12. 12.

    关键词:蜂毒蛋白,非对异构体,选择性裂解,哺乳动物细胞生物化学,1997;36(7):1826 - 35。

    中科院文章谷歌学者

  13. 13.

    抗菌肽与生物膜和模型膜的相互作用:活性的结构和电荷要求。Acta optica sinica(生物医学工程学报)1999;

    中科院文章谷歌学者

  14. 14.

    利用电荷修饰优化马甲素多肽的抗菌活性。2月。2001;501(2 - 3):146 - 50。

    中科院文章谷歌学者

  15. 15.

    周宏涛,郭天宇,蒋建昌,裴明杰,杨文涛,于宏昌,等。3 .王志强,王志强,王志强,等。一种新型抗菌肽的合成与应用。抗菌药物学报。2008;32(2):130-8。

    中科院文章谷歌学者

  16. 16

    引用本文:de Groot NS, Castillo V, Graña-Montes R, Ventura S.计算药物发现和设计。柏林:施普林格;2012.p . 199 - 220。

    谷歌学者

  17. 17

    郭戈拉泽,李志强,李志强,等。DBAASP:抗菌肽的结构和活性数据库。微生物学杂志。2014;357(1):63-8。

    中科院文章谷歌学者

  18. 18

    曹东升,徐庆生,梁永忠。proy:生成Chou的PseAAC各种模式的工具。生物信息学。2013;29(7):960 - 2。

    中科院文章谷歌学者

  19. 19

    徐志刚,李志刚,李志刚,等。蛋白质和多肽聚集的序列依赖和突变效应的预测。生物科技Nat》。2004;22(10):1302。

    中科院文章谷歌学者

  20. 20.

    Kawashima S,Kanehisa M.AAindex:氨基酸索引数据库.核酸研究2000;28(1):374。

    中科院文章谷歌学者

  21. 21.

    作者简介:陈志强,男,河北人,硕士研究生,主要从事生物医学工程研究。Scikit-learn: Python中的机器学习。J Mach Learn Res. 2011; 12:2825-30。

    谷歌学者

  22. 22.

    Wolfram研究I. Mathematica。伊利诺州香槟市;2020.

  23. 23.

    《信息理论与统计》,信使公司,1997年。

    谷歌学者

下载参考

确认

感谢德黑兰大学研究理事会的财政支持。

资金

不适用。

作者信息

从属关系

作者

贡献

H.K.和M.K.构思了这个想法。A.S.和B.B.以及M.K.参与了项目的规划和监督。H.K.执行了开发部分。所有作者都阅读并批准了最终手稿。

相应的作者

对应到Ali Akbar Saboury

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

作者声明他们没有相互竞争的利益。

额外的信息

出版说明

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充资料

附加文件1:图S1。

在最终数据集上应用t-SNE,并将维数从90降至2。

附加文件2:表S1。

混合动力与其他车型之间的汉明距离。

附加文件3:表S2。

最终特征在每个特征类别和子类别中的分布。

附加文件4:表S3。

按重要性排序的最终特征。

附加文件5:表S4。

有毒和无毒amp的标签规则。

附加文件6:表S5。

为每个肽计算的特征类别。

附加文件7。

AMP-Dataset.zip。这里用于训练模型的数据集。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

哈巴兹,H.,卡里米·贾法里,M.H.,萨博里,A.A。利用机器学习技术基于其物理化学性质的抗菌肽毒性预测。欧宝娱乐合法吗22日,549(2021)。https://doi.org/10.1186/s12859-021-04468-y

下载引用

关键词

  • 抗菌肽
  • 肽毒性
  • 机器学习
  • 物理化学性质