跳过主要内容

检测膜蛋白的综合方法

摘要

背景

膜蛋白是控制各种重要细胞功能的关键闸门。膜蛋白通常使用跨膜拓扑预测工具检测。虽然跨膜拓扑预测工具可以检测完整的膜蛋白,但它们不能检测表面结合蛋白。在这项研究中,我们专注于寻找区分所有类型膜蛋白的最佳技术。

结果

本研究首先证明了仅仅使用跨膜拓扑预测工具来检测所有类型的膜蛋白的缺点。然后,探讨了不同的特征提取技术结合不同的机器学习算法的性能。交叉验证和独立测试的实验结果表明,采用跨膜拓扑预测和位置特异性评分矩阵(ps - pssm)结果相结合的综合方法优化证据理论K.最近的邻居(OET-KNN)预测器产生最佳性能。

结论

的综合的方法优于国家的最先进的方法在精度和MCC,其中所述精度在独立测试达到了92.51%的方面,相比于由所述状态的最先进的实现的89.53%和79.42%的准确度方法。

背景

膜蛋白在运输、信号转导、粘附和代谢中发挥重要作用,是药物的主要靶点;目前fda批准的药物中超过一半以膜蛋白为靶点[1]. 膜蛋白由于其疏水表面和较差的构象稳定性,在结构和功能方面是最不具特征的蛋白质之一。区分膜蛋白有助于指导未来的实验,并提供有关这些蛋白功能的线索。

膜蛋白的一大类是跨膜蛋白。这些蛋白有一个或多个跨膜片段(TMSs)嵌入在脂质双分子层中,此外还有延伸到脂质双分子层两侧的水溶性区域的膜外亲水片段。嵌入的片段是可区分的,因为它们含有疏水特性的残基,与膜磷脂的疏水(非极性)尾部相互作用。其他种类的膜蛋白包括不延伸到脂双分子层疏水内部的表面结合蛋白;它们通常与膜表面的脂头基团结合或附着在其他跨膜蛋白上。与跨膜蛋白不同,表面结合蛋白如外周蛋白和脂锚蛋白没有tss;因此,它们很难与其他球状蛋白区分开来。

两个不同的方法,即跨膜拓扑预测和膜结构类型预测主要用于检测膜蛋白。虽然跨膜拓扑工具仅预测膜蛋白(跨膜蛋白)的子集,但由于可用的大量工具,它们比膜结构型预测工具更频繁地施加,并且由于跨膜蛋白构成主要类膜蛋白。然而,通过俯视其他类别的膜蛋白,基本信息丢失了。相比之下,膜结构型预测可用于检测所有类别的膜蛋白。在这项工作中,我们专注于检测各种类型的膜蛋白并回答这个问题:给定一个蛋白质序列Q,它是膜蛋白吗?

在预测所有类型的膜蛋白方面实现了最高总体性能的最先进的工具是Memtype-2L [2]和imm - 2lsaac [3.].Memtype-2L [2]已经使用了十多年,由于其简单而有效的方法,它保持了它的流行。MemType-2L通过使用伪位置特异性评分矩阵(Pse-PSSM)向量表示蛋白质样本并结合从个体优化证据中获得的结果来整合进化信息K.近邻(OET-KNN分类器)。与此相反,IMEM-2LSAAC使用分氨基酸组合物(SAAC),以从蛋白样品中提取特征,然后支持向量机(SVM)来训练预测器。

MemType-2L是唯一可用于预测所有类型膜蛋白的工具。当我们在一组新的膜蛋白上进行测试时,准确率仅达到80%,而原始论文中的估计准确率为92.7%。这是因为它从2006年开始接受可用蛋白质序列的培训;这一蛋白质序列格局已经发生了巨大的变化,从那时起,蛋白质序列条目的数量激增。因此,必须建立一个新的可访问工具,以容纳所有膜数据。

这项工作的主要贡献可以概括如下:

  • 我们建立了一种用于膜蛋白的新基准数据集(DS-M).

  • 对传统跨膜拓扑预测工具的性能进行了评价DS-M预测到所有类型的膜蛋白。

  • 我们比较了各种机器学习技术检测膜蛋白的性能;这个比较涉及到应用不同的特征提取技术来编码蛋白质序列,并选择合适的机器学习算法来使用提取的向量建立模型。

  • 我们介绍一种新的方法,TooT-M与所有其他方法相比,这集成了不同的技术,该技术实现了卓越的性能,包括最先进的方法。

跨膜拓扑预测

跨膜拓扑预测方法预测原代蛋白质序列中的TMS和它们各自的位置的数量。跨膜蛋白是跨越脂质双层的整体膜蛋白(Imms)并在膜的两侧具有暴露的部分。预期跨越膜的部分含有疏水性(非极性)氨基酸,而膜的任一侧的部分主要由亲水性(极性)氨基酸组成。TMS可以有\(\alpha\)- 雄辩或者\(\ beta \)-Barrel结构,所以预测方法被分类为\(\alpha\)-helix预测方法和\(\ beta \)桶状预测方法。

以前的预测方法仅取决于简单的测量,例如氨基酸的疏水性[4.].在“积极内部规则”中进行了重大改进[5.[von Heijne是由Von Heijne引入的,该观察结果来自脂质双层的含有积极带电氨基酸,例如精氨酸和赖氨酸,倾向于出现在脂质双层的细胞质侧。电流方法将疏水性分析和正内部规则与机器学习技术和进化信息相结合。

例如,膜蛋白结构和拓扑支持载体机Memsat-SVM方法[6.]2009年推出的,使用四个支持向量机(SVM)预测跨膜螺旋、内外环、重入螺旋和信号肽。此外,它还以序列图谱的形式包含许多同源蛋白质序列的进化信息。该方法输出按总似然排序的预测拓扑,并结合信号肽和重入螺旋预测。报告的TM螺旋的正确拓扑和位置的准确率为89%,TM螺旋的正确数量的准确率为95%。然而,最近使用实验数据的研究报告称,MEMSAT–SVM在不同数据集上进行评估时表现不佳[7.8.].

国家的最先进的方法使用来自不同的预测相结合的输出共识算法。膜蛋白拓扑结构(TOPCONS2)方法的共识预测[8.]基于基准数据集实现了最高报告的预测精度[9.].它成功地区分了球状和跨膜蛋白和跨膜区域和信号肽之间。此外,它非常有效,使其成为蛋白质组的分析。TOPCONS2方法将来自不同预测器的输出组合在不同的预测器中也可以预测信号肽(即,Philius [10.], PolyPhobius [11.], 章鱼 [12.],信号肽章鱼(SPOCTOPUS)[13.]和SCAMPI [14.])进入拓扑轮廓,其中每种残留物由四个值中的一个表示:信号肽,膜区(M),内膜(I)或外膜(O)。然后,使用隐藏的马尔可夫模型用于处理产生的配置文件并预测最高评分状态路径的最终拓扑。

关于\(\ beta \)-barrel膜蛋白预测,已经介绍了各种方法,例如结合统计施力的方法[15., k-最近邻方法[16.], 神经网络 [17.18.],隐藏的马尔可夫模型[19.20.21.22.],支持向量机[23.]和氨基酸组合物(AACS)[24.25.]. 与其他类型的机器学习技术相比,基于隐马尔可夫模型的方法在统计上具有显著的性能[26.].检测的主要方法\(\ beta \)-barrel外膜蛋白是HHOMP [27.],\(\ beta \)-桶状蛋白质章鱼(BOCTOPUS) [21.]和pred-tmbb2 [22.,在相同的数据集上,报告的MCCs分别为0.98、0.93和0.92。BOCTOPUS和HHomp技术比PRED-TMBB2慢得多[22.].

预测膜蛋白结构型

预测膜型的方法可以预测最多八种不同的膜蛋白质结构亚型,分类为单通类型I,II,III和IV;多摩卡斯跨膜;糖磷脂酰肌醇(GPI)-Achnered;脂质锚定;和外周膜蛋白。Butts等人的全面审查。[28.]详细阐明这些方法。通常,预测在两个阶段进行:第一阶段将蛋白质序列鉴定为膜或非膜,而第二阶段在特定膜蛋白亚型之间区分。本研究侧重于检测所有膜蛋白,无论其类型(第一阶段)如何。

在mem类型-2 [2]2007年,周和沈引入了预测器。它是一个两层预测器,使用第一层将查询蛋白识别为膜蛋白或非膜蛋白。然后,如果预测该蛋白质为膜蛋白,则第二层从八个类别中识别结构类型。MemType-2L预测器通过用Pse-PSSM向量表示蛋白质样本并结合OET-KNN分类器获得的结果,结合进化信息。该方法在膜检测层的总准确率为92.7%。第一层中报告的性能是通过在提供的数据集上应用jackknife测试获得的。

Butts等[29.介绍了一种预测所有类型膜蛋白的工具;它使用统计矩来提取来自蛋白质样品的特征,然后用背部化培训多层神经网络以预测膜蛋白。在从Chou和Shen的数据集上应用jackknife测试时,该工具的整体准确性为91.23%[2],其性能略低于MemType-2L预测器。

iMem-2LSAC由Arif等人于2017年推出[3.].IMEM-2LSAAC是使用第一层预测的查询蛋白是否是一种膜蛋白的两层预测器。然后,在膜蛋白质的情况下,它会继续到第二层,以确定所述结构的类别。它利用氨基酸组合物(SAAC)分割来提取蛋白质样品的特征,然后应用一个SVM来训练预测器。IMEM-2LSAAC在所述第一层上的数据集的应用折刀估计器时所获得的94.61%的总精度。

方法

数据集

Chou和Shen构建包含膜和非膜蛋白的最新公开的基准数据集[2[用于构建Memype-2L预测器。他们的数据集是收集的SWISS-PROT数据库版本51.0,发布于2006年10月6日。此外,他们消除了序列中80%或更多相似的蛋白质,以减少同源性偏差。Chou和Shen的数据集共包含15547个蛋白,其中膜蛋白7582个,非膜蛋白7965个。

由于生物数据库的规模迅速扩大,我们建立了一个新的更新数据集,DS-M.从中收集此数据集SWISS-PROT数据库。通过提取位于膜中的所有蛋白质,使用以下搜索查询来检索带注释的膜蛋白:

figurea

剩余的SWISS-PROT条目被指定为非膜蛋白。

通过遵守以下标准,过滤两个类中的序列:

  • 第1步:去除了有证据“从同源性推断”存在蛋白质的蛋白质序列。

  • 第2步:长度小于50个氨基酸的蛋白质序列被删除,因为它们可能是片段。

  • 第3步:有没有只基于计算的证据基因本体MF注释或注释(从电子注释推断,IEA)的蛋白质序列被排除在外。

  • 第四步:通过CD-PER去除具有超过60%的成对序列同一性的蛋白质序列[30.]计划避免任何同源偏见。

所有来自膜类的序列和随机选择的来自非膜类的序列用于形成基准数据集。数据被随机分为培训组(90%)和测试组(10%)。为了进一步限制训练集和测试集之间的同源性偏差,对测试集中的序列进行过滤,以确保没有序列与训练集中的任何序列具有超过30%的成对同一性。培训和测试数据集中的序列数量如表所示1

该数据集包含来自不同物种的标本,最序列来自何处智人(18%),拟南芥蒂利亚纳(14%),亩骶(11%),酿酒酵母酿酒酵母(8%)和酿酒非洲酒(6%)。

大约84%的膜数据有结构类型注释。无花果。1表示注释蛋白质,约75%是跨膜蛋白(单或多支配),而剩余部分是外周,脂质锚定或GPI锚定的蛋白质。

图1
图1

膜结构类型

图2
图2

接收机工作特性分析。每个模型的受试者工作特征(ROC)曲线和曲线下面积(AUC)得分使用一种OET-KNN;B.资讯;C支持向量机;D.GBM;E.rf logarithms.

图3
图3

从50个分类器中选择最优成分分类器。两人一组(Xy),X表示最优特性集中排名靠前的组件的数量,和y指使用那些实现的准确度X组件。当倒数组分的数量为3,5,15,11,1,用于OET-KNN V50-,KNN V50-,SVM - ,SVM,GBM和基于RF的集合时,精度达到峰值

图4
装具

从500个分类器中选择最优成分分类器。两人一组(Xy),X表示最优特性集中排名靠前的组件的数量,和y指使用那些实现的准确度X组件。OET-KNN V500和KNN V500组合的最佳特征数分别为20和21。随着选票的增加,性能开始恶化。总的来说,研究结果表明选择性投票这种方法优于传统方法全体投票方法

图5
figure5

与其他最先进的方法进行比较DS-M数据集

图6
figure6

接收机工作特性分析。ROC曲线和曲线下面积(AUC)得分为TooT-M和最先进的方法DS-M数据集

表1膜数据集DS-M

拓扑预测工具

如果检测到至少一个TMS的蛋白质被认为是膜蛋白。关于\(\alpha\)-螺旋跨膜蛋白,应用三种工具。第一,TOPCONS2[8.[是否被认为是最先进的方法,并且已知其能够将信号肽与跨膜区域区分开,TOPCONS2通过其可用的Web服务器获得。第二个工具是hmmtop [31],是文献中常用的高效工具,HMMTOP结果也是通过其web服务器获得的。第三个工具是TMHMM [32[还常用于文献中,其结果是从其Web服务器获得的。

表2各模型的LOOCV性能
表3的表演全体投票主数据集合的集合分类器
表4性能的选择性投票主数据集合的集合分类器

关于\(\ beta \)-桶跨膜蛋白,我们应用了PRED-TMBB2[22.],其显示相当的性能的状态下的最先进的\(\ beta \)-barrel预测器,但在运行时方面更有效[22.[Pred-TMBB2的结果从可用的Web服务器获得。

蛋白质序列编码

在建立数据集之后,有必要找到用于训练预测引擎的蛋白质序列的最佳表示。通常,有两个选项:顺序或离散表示[2].在顺序表示中,样品蛋白通过其氨基酸序列表示,然后在相似的基于搜索的工具使用诸如BLAST [33].依赖于相似性的主要缺点是,当具有相同功能的蛋白质共享低序列相似性时,它失败。在离散表示中,样品蛋白由一组离散数表示,这通常是特征工程的结果。在这项研究中,我们使用AAC,PAAC和PSEAAC基线组合物编码蛋白质序列。此外,我们应用PSE-PSSM和SAAC如下所述。

表5训练数据集上的跨膜拓扑预测性能
表6TooT-MLooocv性能
表7与其他最先进的方法相比DS-M数据集
表8对DS1数据集中的IMEM-2LSAAC预测器比较
表9与DS2 DataSet上的Memype-2L预测器比较

氨基酸组成(AAC)

AAC是每个氨基酸的归一化出现频率。所有20种天然氨基酸的馏分计算公式为:

$$\begin{aligned}c_i=\frac{F_i}{L}\qquad i=(1,2,3,ldots,20)\end{aligned}$$
(1)

在哪里\ (F_i \)是频率\(i {\ mathrm {th}} \)氨基酸和L.为序列的长度。每个蛋白质的AAC表示为大小为20的矢量,如下所示:

$$ \ begined {对齐} aac(p)= \ left [c_ {1},c_ {2},c_ {3},\ ldots,c_ {20} \右] \ neg {aligned} $$
(2)

在哪里\(c_ {i})它的成分是\(i {\ mathrm {th}} \)氨基酸。

对氨基酸组成(PAAC)

PAAC比AAC更有优势,因为它封装了氨基酸的比例和顺序的信息。它被用来量化序列中氨基酸残基对的偏好。PAAC的计算方法如下:

$ $ \{对齐}开始d_ {i, j} = \压裂f {i, j} {} {l - 1} \ qquad i, j =(1、2、3 \ ldots 20) \{对齐}$ $
(3)

在哪里\(f_ {i,j} \)是频率\(i {\ mathrm {th}} \)\(j {\ mathrm {th}} \)一对(二肽)的氨基酸和L.为序列的长度。与AAC类似,PAAC表示为大小为400的向量,如下所示:

$ $ \{对齐}开始PAAC左(P) = \ [d_ {1 1}, d_ {1,2}, d_ {1,3}, \ ldots d_{20、20}\右]\{对齐}$ $
(4)

在哪里\(d_ {i,j} \)是蛋白质的二肽组成\(i {\ mathrm {th}} \)\(j {\ mathrm {th}} \)氨基酸。

伪氨基酸组合物(PseAAC)

PSEAAC由Chou 2001年提出[34[与传统AAC相比,在预测质量方面表现出显着改善。PSEAAC是常规AAC的20个组分的组合和包含一些生物化学特性的一组序列顺序相关因子。鉴于长度的蛋白质序列L.

$$ \ begin {对齐} r_1 r_2 r_3 r_4 \ ldots r_l \ neg {aligned} $$
(5)

定义一组称为序列序相关因子的描述符:

$$ \ begin {senugented} \ left \ {\ begin {array} {c} \ theta _1 = \ displaystyle \ frac {1} {l-1} \ sum _ {i = 1} ^ {l-1} ^Theta(r_i,r_ {i + 1})\\ \ theta _2 = \ displaystyle \ frac {1} {l-2} \ sum _ {i = 1} ^ {l-2} \ theta(r_i,r_ {I + 2})\\ \ theta _3 = \ displaystyle \ frac {1} {l-3} \ sum _ {i = 1} ^ {l-3} \ theta(r_i,r_ {i + 3})\\。\\。\\。\\ \ theta _ \ lambda = \ displaystyle \ frac {1} {l- \ lambda} \ sum _ {i = 1} ^ {l- \ lambda} \ theta(r_i,r_ {i + lambda})\\\结束{array} \右。\结束{对齐} $$
(6)

参数\(\ lambda \)被选为如此\((\ lambda . 相关函数由下式给出:

$$\begin{aligned}{\begin{matrix}\Theta(R_i,R_j)=&{}\displaystyle\frac{1}{3}\left\{[H_1(R_j)-H_1(R_i)]^2+[H_2(R_j)-H_2(R_i)]^2\右。\&{\左。+[M(ruj)-M(rui)]^2\right\}\end{matrix}}\end{aligned}$$
(7)

在哪里\(h_1(r_i)\)是疏水性值,\(H_2(R_i)\)是亲水性值,并且(m(r_i)\)是氨基酸的侧链质量\(r_i \).这些量由原疏水性值、原亲水性值和原侧链质量换算成标准换算公式如下:

$$ \ begined {对齐} h_1(r_i)= \ frac {h ^ \ circ_1(r_i) - \ displaystyle \ frac {1} {20} \ sum _ {k = 1} ^ {20} h ^ \ cir_1(r_k)} {\ sqrt {\ displaystyle \ frac {\ displaystyle \ sum _ {y = 1} ^ {20} \ left [h ^ \ cirt_1(r_y) - \ frac {1} {20} \ sum_ {k = 1} ^ {20} h ^ \ cir _1(r_k)\ revally] ^ 2} {20}}} \ neg {aligned} $$
(8)

在哪里\(香港法例第1号第1条)是氨基酸的原始疏水性值\(r_i \)可以从坦福德的作品中提取[35];\(H ^ \ CIRC _2(R_I)\)\ (M ^ \中国保监会(R_i) \)转换为\(H_2(R_i)\)(m(r_i)\)分别以同样的方式。原来的亲水性值\(H ^ \ CIRC _2(R_I)\)为氨基酸\(r_i \)可从Hopp and Woods获得[36].质量\ (M ^ \中国保监会(R_i) \)\(r_i \)氨基酸侧链可以从任何生物化学教科书获得。PSEAAC表示为大小的矢量\((20 + \拉姆达)\)如下:

$$\begin{aligned}PseAAC(P)=\left[\displaystyle s{1}、\ldots、s{20}、s{21}、\ldots、s{20+\lambda}\ right]\end{aligned}$$
(9)

在哪里\ (s_{我}\)是伪AAC如下:

$ $ \{对齐}开始s_{我}= \左\{\开始{数组}{cc} \ displaystyle \压裂{f_i}{\总和_ {r = 1} ^ {20} f_r + \ω\总和_ {j = 1} ^{\λ}\θ_j}和{}1 le 20 \ le我\ \ \ \ displaystyle \压裂{\ω\θ_ {i-20}}{\总和_ {r = 1} ^ {20} f_r + \ω\总和_ {j = 1} ^{\λ}\θ_j}和{}le 20 + 20 <我\ \λ\{数组}\右结束。\结束{对齐} $$
(10)

在哪里\ ({f_i} \)是的归一化出现频度伊思蛋白质序列中的氨基酸,\(θ_j \ \)是个\(j {\ mathrm {th}} \)从等式6计算的顺序相关因子,和\(\欧米加\)是序列顺序效应的权重因子。权重因子\(\欧米加\)相对于常规AAC组分对额外的PSEAAC组件进行重量。用户可以为权重因子选择0.05到0.7的任何值。由chou给出的默认值为0.05 [34]在本研究中应用。

伪位置特定评分矩阵(Pse PSSM)

我们采用了Chou和Shen [2]蛋白编码策略,Pse-PSSM。ps - pssm是通过首先执行位置特定迭代BLAST (PSI-BLAST)建立的[33寻找蛋白质序列P.使用SWISS-PROT数据库(3次迭代,e值截止值为0.001)并检索PSSM配置文件:

{{1\右箭头1}{{{{{{{{{{}}{{{{{{{{{{{}}}}{{{{{{}}}}{{{{{{{}}}}{{{{{{}}}}}{{{{{{}}}}{{{{{}}}}{{{{{{{{{}}}}}{{{{{{{{{{{{{}}}}}}}}}}{{{{{{}}}}}}}}}{{{{{{{{{{{{}}}}}}}}}}}}}}{{{{{{{{{}}}}}}}}}}}}}}}}}}}}}{{{{{{{{{{{}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}{i\rightarrow 3}&{}\quad\dots&{}\quad E{i\rightarrow20} \\\vdots&{}\quad\vdots&{}\quad\vdots&{}\quad&{}\quad&{}\vdots\\E{L\rightarrow 1}&{}\quad E{L\rightarrow 2}&{}\quad E{L\rightarrow 3}&{}\quad\dots&{quad E{L\rightarrow 20}\end{bmatrix}\end{$$
(11)

\(P_{PSSM}\)L.行(蛋白质序列中每个位置的一行P.)和20列(每种氨基酸各一列)。每个元素我\ \ (E_ {rightarrow j} \)表示该组中氨基酸替换的分数\(i {\ mathrm {th}} \)蛋白质序列到类型的氨基酸的位置j在进化过程中。由于PSSM中的列数取决于蛋白质序列的长度P., Pse-PSSM首先对PSSM评分进行标准化,使其在20个氨基酸上的平均值为0,然后使用下面的uniform size vector表示蛋白质序列P.

$$ \ {开始对准} P_ {PSE-PSSM} ^ {\拉姆达} = [\划线{E} _1,\划线{E} _2,\ ldots,\划线{E} _ {20},G_1 ^ {\拉姆达},G_2 ^ {\拉姆达},\ ldots,G_ {20} ^ {\拉姆达}] \ {端对齐} $$
(12)

在哪里\(\眉题{E} _j \)\ (G_j ^{\λ}\)定义如下:

$$ \ begined {对齐} \ overline {e} _j =&{} \ frac {1} {l} {l} {l} {l} {i = 1} e_ {i \ lightarrow j} \ qquad(j = 1,2,\ ldots 20)\结束{对齐} $$
(13)
$$ \ begined {aligned} g_j ^ {\ lambda} =&{} \ frac {1} {l- \ lambda} \ sum ^ {l- \ lambda} _ {i = 1} [e_ {i \ lightarrow j} - e_ {(i + \ lambda)\ lightarrow j}] ^ 2 \ qquad(j = 1,2,\ ldots 20)\结束{对齐} $$
(14)

\(\ lambda \)被选为如此\((\ lambda . 因为我们的数据集中最短的蛋白质是50个氨基酸,所以我们考虑了所有的蛋白质\(\ lambda \ in(0,\ ldots,49)\)并且单独评估每个编码的性能。

分解氨基酸组成(SAAC)

SAAC的概念最早由Hayat等人报道[37]. 这一概念背后的动机是,有时最重要的信息隐藏在片段中,当计算整个序列的AAC时,这些信息可能被噪声、无关信息掩盖。SAAC是iMem-2LSAAC使用的序列编码,iMem-2LSAAC是最先进的膜蛋白预测因子[3.].

在SAAC中,将蛋白质序列分成段,并且分别为每个段计算AAC。在这里,我们遵循对IMEM-2LSAAC描述的相同分区[3.]:将序列分为三个部分,即N末端的前25个氨基酸,C末端的最后25个氨基酸,以及这些部分之间的区域。然后通过尺寸60的载体表示每种蛋白质,如下:

$$ \ begined {对齐} saac(p)= \ left [c_ {1} ^ {n},c_ {2} ^ {n},\ ldots c_ {20} ^ {n},c_ {1},c_C_ \ LDOTS C_ {20},C_ {2} ^ {C},\ LDOTS C_ {20} ^ {C} \ oft] \ END {对齐} $$
(15)

在哪里\(c_i^{N}\)\(c_i \), 和\(c_i^{c}\)是该事件的标准化发生频率\(i {\ mathrm {th}} \)氨基酸在N末端,分别在两个末端和C末端段之间。

机器学习算法

K-最近邻(KNN)

KNN是一种简单有效的分类算法。它是一种基于实例的学习,其中所有计算都会被推迟直到预测时间。KNN算法基于训练集向量中的大多数KNN表示的类别为未分类对象X分配了一个类。如果k = 1,则对象X的类将是其最近邻居的类。k的选择是KNN预测引擎质量的关键;我们发现该表现开始恶化\ (K > 10 \).我们还发现,融合了10个单独分类器的结果,在哪里\(k \ in(1,\ ldots,10)\)通过多数表决,获得了最高精度,并被KNN模型采用。我们应用了由图书馆R.(7.3-15版)。

优化证据理论k-最近邻(OET-KNN)

OET-KNN算法是对传统KNN算法的改进,在统计预测方面表现出了很强的能力[38]. 它已被最强大的膜预测器MemType-2L使用。OET-KNN算法基于Dempster-Shafer信念函数理论[38],其中待分类模式中的每个邻居被视为支持关于该对象的类成员的某些假设的证据。与KNN算法一样,任何构造的OET-KNN模型都是多个OET-KNN分类器的集合,每个分类器的值不同\(k \ in(1,\ ldots,10)\).最后一个班级是通过多数投票决定的。我们使用OET-KNN算法实现R.evclass版本库(1.1.1)。

支持向量机(SVM)

支持向量机是一种强大的机器学习工具,用于许多生物预测工具。支持向量机的目标是通过在不同类别之间寻找合适的决策边界来解决分类问题。对于非线性可分数据,核技巧可以用来将非线性数据转换到高维空间,在高维空间中,与坐标的显式计算相比,可以高效地找到最优边界,计算成本更低。我们使用的支持向量机与径向基函数(RBF)核实现R.e1071图书馆(1.6-8版)。C和C的最佳组合\γ(\ \)通过利用网格搜索方法来确定参数。

梯度增压机(GBM)

GBM的是机器学习技术,通过组装弱预测模型,通常决策树产生很强的模型。他们使用梯度通过基于以往机型的不足之处反复训练新车型助推。虽然生物的预测并不普遍适用,GBM中已经被证明是受欢迎的机器学习竞赛网站Kaggle(kaggle.com)上最强大的技术之一。在这里,我们使用了XGBoost.库(0.81.0.1版本),它是一种快速,在有效地执行梯度升压框架的R.

随机森林(RF)

RF是对于通过合成多个不相关的决策树操作监督学习的集成方法。我们的目标是提高精确度,依靠决策模型,而不是单一的一个集合避免过度拟合。

我们将RF算法应用于实施招待器[39]封装(6.0-86版本)中R..通过网格搜索方法确定的变量随机采样作为在每个分裂(mtry)候选的数量。

集成分类器

所有投票

\(C_ {I} ^ {ML} \)是使用机器学习算法ML构建的分类器\ (\ \){KNN,OET-KNN,SVM,GBM,RF},其中蛋白质样本由PSE-PSSM表示,\(\ lambda = i \)\(ⅰ\在(0,\ ldots,49)\);每个分类器都是如机械学习算法中所述构造。

此外,让我们\(c_ {i,k} ^ {ml} \)是使用机器学习算法ML构建的分类器\ (\ \){KNN, OET-KNN},其中蛋白样本以Pse-PSSM表示\(\ lambda = i \)\(ⅰ\在(0,\ ldots,49)\);和参数K是指邻居平等的数K.\(k \in (1, \ldots, 10)\)

全体投票,我们评估了以下七种不同的组合:

  • 基于svm合奏:从基于50个SVM的分类器获得结果(\ (C_ {0} ^ {SVM}, C_ {1} ^ {SVM} \点C_ {49} ^ {SVM} \))并且将它们组合通过投票机制,其中,接收最多选票的类是由集成分类选择。

  • 基于GBM的合奏:从50个基于GBM的分类器中获得结果(\(C{0}{GBM},C{1}{GBM}\dots C{49}{GBM}\))并通过与上述相同的投票机制将其合并。

  • 基于RF的合奏:从50个基于RF的分类器中获得结果(\(C{0}{RF},C{1}{RF}\dots C{49}{RF}\))并通过与上述相同的投票机制将其合并。

  • 基于KNN V50的合奏:从50个基于KNN的集成分类器中获得结果(\ (C_{0} ^{资讯},C_{1} ^{资讯}\点C_{49} ^{资讯}\))并通过相同的投票机制结合它们。

  • 基于KNN V500的集合式:从500个基于knn的分类器中获得结果(50代表不同的值\(\ lambda \)乘以10的不同值K.;\(c_ {0,1} ^ {knn},c_ {0,2} ^ {knn} \ dots c_ {49,10} ^ {knn} \))并通过相同的投票机制结合它们。

  • 基于OET-KNN V50的集成:获得从50基于OET-KNN-集成分类结果(\ (C_ {0} ^ {OET-KNN}, C_ {1} ^ {OET-KNN} \点C_ {49} ^ {OET-KNN} \))并通过相同的投票机制结合它们。

  • OET-KNN V500-based合奏:获得500个基于OET-KNN的分类器的结果(50用于不同的值\(\ lambda \)乘以10的不同值K.;\(C{0,1}^{OET-KNN},C{0,2}^{OET-KNN}\dots\)\ (C_{49岁10}^ {OET-KNN} \))并且将它们组合通过相同的投票机制;这是mem类型-2L方法[2].

选择性投票

对于在全体投票,而不是融合来自所有个体预测器的预测,在这里,选择最优的预测子集(即,组成分类器的输出),使它们具有最小冗余和最大相关性的目标类。为了完成这项任务,我们首先使用最小冗余最大相关性(mRMR)算法对特征进行排序[40的实现R.MRMRE.库(版本2.1.0),然后使用增量特征选择[41]选择最佳子集。

量化相关性和冗余,MRMRE.使用基于相关性的线性近似,使得两个变量之间的互信息(MI)\(c_i \)\ (c_j \)估计为:

$$ \ {开始对准} MI(C_I,C_J)= - \压裂{1} {2} LN(1- \ RHO(C_I,C_J)^ 2)\ {端对齐} $$
(16)

\(\rho\)是相关系数之间的相关系数\(c_i \)\ (c_j \)

y是目标阶级和\(X =(C_1,C_2,\点,C_N)\)setN输入的特征,即,在该组的构成分类器输出的全体投票.mRMR方法对特征进行排序X通过最大化MIy(最大相关性)并最小化所有先前选择的变量(最小冗余)的平均MI。所选功能列表,表示为S.,被初始化\(c_i \), MI最高的特征与目标变量,如下:

$$\begin{aligned}c\U i=\mathop{{{{\,\mathrm{arg\,max}\,}}}}\limits{c\U i\在X}MI(c\U i,y)\end{aligned}$$
(17)

接下来,另一个功能,\ (c_j \),被添加到S.通过选择与输出变量最高相关的功能和先前选择的功能的最低冗余,利用相互信息差异(中间)方案:

$$ \ begined {senugent} c_j = \ max _ {c_j \ in \ oomega s} \ left [mi(c_j,y) - \ frac {1} {| s |} \ sum _ {c_i \在s} mi(C_J,C_I)\右] \结束{对齐} $$
(18)

ω\ (\ \)表示尚未添加到该组的特征S.. 直到X中的所有功能都添加到S.

$ $ \{对齐}开始S = (c ^ \ ' _1, c ^ \ ' _2 \点,c ^ \ ' _n”)\{对齐}$ $
(19)

\(C ^ \ _i素\)表示与所述特征\(i {\ mathrm {th}} \)等级。接下来,我们利用增量特征选择[41]选择最佳子集。增量特征选择构造N属性通过每次以升序添加一个组件来设置\(i {\ mathrm {th}} \)给出:

$ c^ ' ' _1,c^ ' _2,点c^ ' I '} qquad (1 \le I ' le n) \end{aligned}$
(20)

具有最高精度的集合然后被选择选择性投票

性能测量

使用Jackknife测试评估不同预测模型的性能,也称为休假 - 单交叉验证(LOOCV),其中基于除非所有其他样本的规则来预测训练数据集中的每个样本被预测的人;重复此过程,以便使用每个样本进行一次验证。

采用LOOCV方法评价全类型膜预测因子imm - 2lsaac的最新方法[3.]和MemType-2L [2,并且由于LOOCV方法的性能不会随不同的运行而变化,所以在这里选择它。

此外,我们评估了使用一个独立的测试集LOOCV期间达到最高的性能和它相比,那些与国家的最先进的方法建造的模型实现了模型的性能。四个主要的评价标准被认为是:敏感性,特异性,准确性和MCC。灵敏度表示正确识别的阳性样品的比例。

$$ \ begin {senvele} sensitivity = \ frac {tp} {tp + fn} \ neg {aligned} $$
(21)

特异性测量正确识别的阴性样本的比例。

$$\begin{aligned}特异性=\frac{TN}{TN+FP}\end{aligned}$$
(22)

准确率是正确预测的次数除以总预测次数。

(2) $ f = $ f, $ f = $ f, $ f = $ f, $ f = $ f, $ f = $ f
(23)

MCC测量二进制分类器的质量,并返回一个范围为1到的值\({ - } \)1,其中1表示完美的预测,0表示没有预测比随机更好,并且\({ - } \)1意味着预测和观察之间的总分歧。

$$\begin{aligned}MCC=\frac{(TP\times TN-FP\times FN)}{\sqrt{(TP+FP)\times(TP+FN)\times(TN+FP)\times(TN+FN)}\end{aligned}$$
(24)

另外,接收器操作特征(ROC)曲线用于评估不同模型的泛化性能。曲线下曲线(AUC)值被用作模型稳健性的定量测量。AUC的值为0至1,其中0表示预测和观察之间的完全分歧,0.5表示没有比随机预测更好,1表示完美的预测。

实验设计

第一个实验使用不同的方法编码蛋白质序列,并使用所产生的矢量作为输入以训练基于KNN,OET-KNN,SVM,GBM和RF算法的不同模型;在使用LooCV的训练集上评估不同模型的性能。第二个实验评估了两种合奏方法,全体投票选择性投票,并比较他们的表演。第三个实验评估HMMTOP的性能[31],TMHMM [32],TOPCONS2 [8.]和pred-tmbb2 [22.]拓扑预测工具,用于检测所有膜类型。最后,最后整合实验通过与表现最好的拓扑预测工具取得的预测效果最佳的在第二个实验中合奏;我们将这种综合方法为TooT-M

在所有上述实验中,只有训练集来选择最佳的模型/工具。在所有实验中表现最好的方法被选择作为我们的膜预测器,并最终,其性能上的独立的测试集测试和比较于通过国家的最先进的方法来实现。

结果和讨论

评估不同蛋白质编码

基线编码AAC、PAAC和PseAAC的LOOCV性能,以及iMem-2LSAAC使用的SAAC[3.],和由mem类型-2L [使用的PSE-PSSM2]在不同的机器上学习算法在表中示出2.只有ps - pssm\(\ lambda \ in(0,1,2)\)在这里呈现;其余的具有可比性的性能,并且在附加文件中找到1. 五倍和十倍交叉验证的结果与LOOCV一致,并在附加文件中给出1

由于数据平衡,我们在比较不同模型的性能时重点放在准确性。编码提取技术可分为两个主要组:仅从蛋白质序列提取特征的技术,例如AAC,PAAC,PSEAAC和SAAC,以及包含进化信息的PSE-PSSM技术。在那些从蛋白质序列中提取特征的技术中,PSEAAC与GBM组合实现了最高性能,整体验证精度为80.60%,其次是PAAC和SVM,总体准确性达到80.28%。IMEM-2LSAAC使用的SAAC编码方法[3.[其他特征提取器并不优于其他特征提取器,它与GBM型号达到了最高的总体精度(80.00%)。

编码技术,在PSE-PSSM来为所有的形式整合进化信息\(\ lambda \ in(0,\ ldots,49)\)一贯的平均相对11%的到仅仅依靠各个样本的蛋白质序列的方法来实现更高的精度。精度最高达89.70%,并且通过OET-KNN实现其中蛋白质样品使用PSE-PSSM编码\(\lambda=0\).在另一方面,当该蛋白质样品使用PSE-PSSM编码\(\拉姆达\在(1,\ ldots,49)\)基于支持向量机的模型优于基于OET-KNN、KNN、GBM和RF算法的模型。

为了进一步评估不同编码的性能,图。2显示每个型号的ROC曲线和AUC的值,并指示具有PSE-PSSM的模型特征优于其他模型。

综合技术的评价

第一个合奏方法的性能,全体投票,在训练数据集上呈现在表中3.. 由于数据是平衡的,我们在比较不同模型的性能时重点关注准确性。在七个乐队中全体投票,基于SVM的整体实现了90.15%的最高精度。OET-KNN V500合奏,反映了MEMTYPE-2L的性能[2]在DS-M,实现了89.86%的第二高精度。

选择最优的特性集选择性投票,我们测试了排名靠前的mRMRC\(1 \ Le C \ Le 50 \))通过在OET-KNN V50,KNN V50,SVM,GBM和RF模型中添加一个特征来递增,以及排名C(\ [1 \ c le 500 \ \))OET-KNN V500和KNN V500车型上的功能。最佳特征集是具有最高精度的特征集。如图所示。3.,当OET-KNN V50-、KNN V50-、SVM-、GBM-和rf -组合中排名最高的组件数分别为3,5,15,11,1时,精度达到峰值。另外,OET-KNN V500和KNN V500组合的最优特征数分别为20和21,如图所示。4.;业绩开始恶化为更多的选票计数。最佳特征集的详细性能列于表4.

结果表明,集成模型的性能优于其组成分类器,并且选择性投票集成方法优于全体投票的方法。一般来说,当组成集成的单个分类器既准确又相关性低时,集成工作得最好[4243].优越性选择性投票结束全体投票这是因为mRMR方法能够选择彼此之间相关性较低且与目标类高度相关(即最准确)的模型,以及增量特征选择能力来选择最佳集,从而降低噪声并提高集成分类器的识别能力。这里值得注意的一个有趣的观察结果是,RF分类器没有显示集成方法的改进,因为最佳特征数只有一个。这表明,由于射频模型是一个整体,它比其他模型更稳健和一致,尽管不一定是最精确的。此外,虽然单个SVM和GBM分类器通常比OET-KNN和KNN分类器提供更高的性能,但后者更多地利用了选择性投票合奏。这表明,从OET-KNN和KNN分类的预测是不太一致(即,它们使输入空间的不同部分的误差),因此对于整体比SVM及GBM分类更好的候选人。

所有方法中的最佳性能都是通过选择性投票采用OET-KNN V500集成,总体准确率达到了91.31%,比MemType-2L方法(OET-KNN V500)提高了1.67%全体投票)来实现的。因为它实现了最佳性能,选择性投票与OET-KNN V500方法的方法被用在综合方法TooT-M

跨膜拓扑预测工具的评估

HMMTOP的表演[31],TMHMM [32],TOPCONS2 [8.]和pred-tmbb2 [22.)DS-M数据集如表所示5..基于数据集中的部分统计数据,我们预计拓扑预测工具无法预测膜蛋白的至少20%,因为他们不是跨膜蛋白;结果这里报告证实了这一假设。跨膜拓扑达到72%的最大的灵敏度。这一发现进一步强调建立一个模型来预测所有类型的膜和跨膜拓扑工具无视表面结合的蛋白质,因而不承认膜蛋白的20%以上的重要性。尽管如此,这里一个非常有吸引力的方面是非常高的特异性(真阴性率)在TOPCONS2预测,这是由于它的区分跨膜区的信号肽[能力9.].这一性质意味着对正预测的置信度很高;因此,这方面在TooT-M

综合方法的绩效TooT-M

该综合方法TooT-M结合跨膜拓扑工具(topcon2)和全类型膜预测器的最佳模型(选择性投票OET-KNN V500)通过加权投票。在加权投票,从TOPCONS2正表决是可信的,并通过在构成分类器的数量乘以选择性投票OET-KNN V500集成减1;即OET-KNN V500选择性投票预测变为阳性当且仅当至少有一个组成分类器,其同意对Topcons2的肯定预测。在所有测试的重量中,这种方法有助于增强敏感性,而不会对特异性产生负面影响。

桌子6.显示了LoooCV性能TooT-M.与这一点相比选择性投票OET-KNN V500合奏,灵敏度(真阳性率)由2.76%提高和特异性通过1.35%提高。总体而言,精度提高了2%,并且MCC由4%的推动。

与最新方法的比较

在这里我们比较的性能TooT-M在三种设置中使用最先进的方法:

  1. 1

    TooT-M, Mem-2LSAAC [3.]和MemType-2L [2]方法是在DS-M训练集,对其性能进行评价DS-M测试集。

  2. 2

    TooT-M方法在imm - 2lsaac作者(DS1)获得的数据集上进行训练,并与imm - 2lsaac报告的性能进行比较[3.]在同一数据集上。

  3. 3.

    TooT-M方法在Chou和Shen提供的数据集上进行训练[2](DS2),其性能与报告的Memtype-2L的表现进行了比较[2]在同一数据集上。

如图所示。5.并在表格中表示7.,综合方法在灵敏度,特异性,准确性和MCC方面表现出所有其他方法。另外,通过本领域的0.95和0.82相比,达到0.97的曲线下的接收器操作特性区域的综合方法,如图2所示。6.

同样,如表所示8.,其性能优于Mem-2LSAAC[3.]在特异性,准确性,和MCC的方面,同时仍保持灵敏度可信。它也跑赢mem类型-2L [2]的敏感性、准确性和MCC,而特异性相似,见表9.

结论

我们策划了一种新的膜蛋白基准数据集,其包含所有类型的膜蛋白,包括表面结合的蛋白质。我们证明了仅使用跨膜拓扑预测工具来预测所有类型的膜蛋白的限制,因为它们仅检测跨膜蛋白和错过表面结合的蛋白质,其占膜蛋白数据的约20%。此外,我们评估了不同蛋白质编码技术的性能,包括用不同机器学习算法的最先进的膜预测器采用的技术。通过交叉验证和独立测试获得的实验结果表明,应用结合跨膜拓扑预测和PSE-PSSM OET-KNN预测器的结果的一体化方法产生了最佳性能。TooT-M在独立测试中获得92.51%的准确性,而最先进的方法达到了89.53%和79.42%的精度Memtype-2L [2]和imm - 2lsaac [3.], 分别。

数据和材料的可用性

嘟嘟-M,请访问:https://github.com/bioinformatics-group/TooT-M

缩写

AAC:

氨基酸组成

AUC:

Area-under-curve

GBM:

梯度升压机

GPI:

糖磷脂酰肌醇

整合膜蛋白

资讯:

looocv:

留出 - 一次性交叉验证

MI:

相互信息

中:

互信息差

MRMR:

最小冗余最大相关性

OET-KNN:

优化证据 - 理论基于邻居

PAAC:

对氨基酸组成

Pse-PSSM:

职位评分矩阵

PSEAAC:

假氨基酸组成

射频:

随机森林

大鹏:

接收器操作特征

Saac:

分裂氨基酸组成

支持向量机:

支持向量机

经颅磁刺激:

跨膜段

参考

  1. 1。

    yıldırımma,goh k-i,cusick me,barabásia-l,vidal m.药物目标网络。NAT BIOTECHNOL。2007; 25(10):1119。

    文章谷歌学者

  2. 2。

    Chou K-C,沉H-B。MEMTYPE-2L:通过通过PSE-PSSM结合进化信息来预测膜蛋白及其类型的Web服务器。Biochem Biophys Res Communce。2007; 360(2):339-45。

    CAS文章谷歌学者

  3. 3.

    阿里夫M,海亚特M,简Z。iMem-2LSAAC:通过将膜蛋白及其类型的概念扩展到周的伪氨基酸组成来区分膜蛋白及其类型的两级模型。J Theor Biol。2018;442:11–21.

    CAS文章谷歌学者

  4. 4.

    凯尔特J,杜利特尔RF。一种显示蛋白质亲水特性的简单方法。摩尔生物学杂志。1982;157(1):105–32.

    CAS文章谷歌学者

  5. 5.

    冯·海因G。膜疏水性蛋白质结构预测分析及正内。摩尔生物学杂志。1992;225:487–94.

    文章谷歌学者

  6. 6.

    纽金特T,琼斯DT。基于支持向量机的跨膜蛋白拓扑预测。BMC Bioinform。2009;10(1):159。

    文章谷歌学者

  7. 7.

    关键词:蛋白质组学,蛋白质组学,蛋白质组学\(\alpha\)螺旋膜蛋白拓扑预测。蛋白质组学。2012; 12(14):2282-94。

    CAS文章谷歌学者

  8. 8.

    齐里戈斯,彼得斯C,舒恩,凯尔L,埃洛夫森A。TOPCONS web服务器用于一致预测膜蛋白拓扑结构和信号肽。2015年《Nucl酸决议》;43(W1):401-7。

    文章谷歌学者

  9. 9.

    Tsirigos KD,Govindarajan S,Bassot C,VästermarkÅ,Lamb J,Shu N,Elofsson A.膜蛋白的拓扑 - 预测,限制和变化。CurrOgin struct Biol。2018; 50:9-17。

    CAS文章谷歌学者

  10. 10。

    Reynolds SM, Käll L, Riffle ME, Bilmes JA, Noble WS。跨膜拓扑和动态贝叶斯网络的信号肽预测。科学通报。2008;4(11):1000213。

    文章谷歌学者

  11. 11.

    Käll L, Krogh A, Sonnhammer EL。一种用于包含同源信息的序列特征预测的HMM后验译码器。生物信息学。2005;21 (suppl-1): 251 - 7。

    文章谷歌学者

  12. 12.

    基于双轨道ann偏好评分和扩展拓扑语法的拓扑预测。生物信息学,2008;24(15):1662 - 8。

    CAS文章谷歌学者

  13. 13.

    维克伦德H、伯塞尔A、斯沃克M、埃洛夫森A。SPOCTOPUS:信号肽和膜蛋白拓扑结构的联合预测因子。生物信息学。2008;24(24):2928–9.

    CAS文章谷歌学者

  14. 14.

    Bernsel A,Viklund H,Falk J,Lindahl E,Von Heijne G,Elofsson A.从第一个原则预测膜 - 蛋白质拓扑。PROC NATL ACAD SCI。2008; 105(20):7177-81。

    CAS文章谷歌学者

  15. 15.

    Berven FS,Flikka K,Jensen HB,Eidhammer I. Bomp:预测整数的程序\(\ beta \)-革兰氏阴性细菌基因组中编码的桶状外膜蛋白。《核武器公约》第2004号决议;32:394–9.

    文章谷歌学者

  16. 16.

    胡杰,严C。一种发现跨膜蛋白的方法\(\ beta \)-barrel蛋白蛋白质中的革兰氏阴性细菌蛋白质组。计算Biol Chem。2008; 32(4):298-301。

    CAS文章谷歌学者

  17. 17.

    Jacoboni I,Martelli PL,Fariselli P,De Pinto V,Casadio R.跨越跨膜区域的预测\(\ beta \)桶状与基于神经网络的预测膜蛋白。蛋白质SCI。2001; 10(4):779-87。

    CAS文章谷歌学者

  18. 18.

    欧阳,陈绍华,陈志强。基于rbf的性别歧视研究\(\ beta \)-桶膜蛋白使用RBF网络和PSSM谱。计算机生物化学。2008;32(3):227-31。

    CAS文章谷歌学者

  19. 19.

    Bagos PG,Liakopoulos TD,Spyropoulos IC,Hamodrakas SJ。PRED-TMBB:预测的拓扑结构的网络服务器\(\ beta \)-barrel外膜蛋白。Nucl酸研究。2004; 32(SOMPL-2):400-4。

    文章谷歌学者

  20. 20。

    Singh NK,Goodman A,Walter P,Helms V,Hayat S. TMBHMM:基于频率谱的HMM,用于预测跨膜泡筒蛋白的拓扑和跨膜残留物的暴露状态。Biochim Biophys Acta(BBA)蛋白质蛋白质组学。2011; 1814(5):664-70。

    CAS文章谷歌学者

  21. 21。

    Hayat S,Elofsson A。BOCTOPUS:改进的跨膜拓扑预测\(\ beta \)桶蛋白。生物信息学。2012; 28(4):516-22。

    CAS文章谷歌学者

  22. 22。

    3 . PRED-TMBB2:改进的β -barrel外膜蛋白的拓扑预测和检测。生物信息学。2016;32(17):665 - 71。

    文章谷歌学者

  23. 23。

    欧元元,陈世安,葛洛米哈\(\ beta \)-Barrel膜蛋白质,精度更好。j计算化学。2010; 31(1):217-23。

    CAS文章谷歌学者

  24. 24。

    Garrow AG,Agnew A,Weshead Dr。TMB-HUNT:基于氨基酸组合物的β-桶跨膜蛋白筛选蛋白质蛋白的方法。BMC生物素。2005; 6(1):56。

    文章谷歌学者

  25. 25。

    林H.通过使用Chou的伪氨基酸组合物来预测外膜蛋白的改性Mahalanobis判别。J Worl Biol。2008; 252(2):350-6。

    CAS文章谷歌学者

  26. 26。

    Bagos PG, Liakopoulos TD, Hamodrakas SJ。拓扑预测方法的评价\(\ beta \)-桶外膜蛋白和一致性预测方法。BMC生物信息。2005;6(1):7.

    文章谷歌学者

  27. 27。

    雷默特M,林克D,卢帕斯安,Söding J。HHomp–外膜蛋白的预测和分类。《核武器公约》第2009号决议;37(补充资料-2):446-51。

    文章谷歌学者

  28. 28.

    Buttah,Rasool N,Khan YD.一篇关于预测膜蛋白及其亚型的计算方法的论文。J Membr Biol。2017;250(1):55–76.

    CAS文章谷歌学者

  29. 29.

    Buttah,Khan SA,Jamil H,Rasool N,Khan YD.基于矩特征的膜蛋白预测模型。生物医药研究院,2016年;2016:1.

    文章谷歌学者

  30. 30.

    Li W,Godzik A. CD-his:用于聚类和比较大套蛋白质或核苷酸序列的快速计划。生物信息学。2006; 22(13):1658-9。

    CAS文章谷歌学者

  31. 31。

    Tusnady GE,西门一,HMMTOP跨膜拓扑结构预测服务器。生物信息学。2001; 17(9):849-50。

    CAS文章谷歌学者

  32. 32。

    冯海因,张海峰,张海峰。用隐马尔可夫模型预测跨膜蛋白质拓扑结构:在全基因组中的应用。中华医学杂志。2001;305(3):567-80。

    CAS文章谷歌学者

  33. 33。

    Altschul SF,Madden TL,Schäffer AA,张J,张Z,Miller W,Lipman DJ。GABLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。《核武器公约》第1997号决议;25(17):3389–402.

    CAS文章谷歌学者

  34. 34。

    周克杰。利用伪氨基酸组成预测蛋白质细胞属性。蛋白质结构功能生物信息素。2001;43(3):246–55.

    CAS文章谷歌学者

  35. 35。

    Tanford C.疏水相互作用的贡献蛋白的构象球状的稳定性。J am Chem Soc。1962; 84(22):4240-7。

    CAS文章谷歌学者

  36. 36。

    霍普TP,伍兹KR。从氨基酸序列的蛋白质的抗原决定簇的预测。PROC NATL ACAD SCI。1981; 78(6):3824-8。

    CAS文章谷歌学者

  37. 37.

    Hayat Maqsood,Khan Asifullah。MEMHYB:通过杂交SAAC和PSSM来预测膜蛋白类型。J Worl Biol。2012; 292:93-102。

    CAS文章谷歌学者

  38. 38.

    基于Dempster-Shafer理论的k近邻分类规则。acta photonica sinica, 2004; 40(5): 441 - 446。

    文章谷歌学者

  39. 39.

    等。在R中使用插入符号包构建预测模型。计算机工程。2008;28(5):1-26。

    文章谷歌学者

  40. 40

    PENG H,LONG F,DING C.特征选择基于MAX依赖性,最大相关性和最小冗余的相互信息标准。IEEE Trans Pattern Ang Mach Intell。2005; 27(8):1226至1238年。

    文章谷歌学者

  41. 41。

    黄T,石X-H,王平,何Z,冯K-Y,胡L,香港X,李X-Y,蔡Y型d,周K-C。分析并根据其连续特征,亚细胞定位和相互作用网络蛋白质的代谢稳定性的预测。Plos一个。2010; 5(6):

  42. 42。

    奥皮茨DW,沙夫利克JW。生成神经网络集合中精确且多样的成员。《神经信息处理系统的进展》,1996年;535–541.

  43. 43。

    Krogh A,Vedelsby J.神经网络集合,交叉验证和主动学习。在:神经信息处理系统的进步,1995; 231-238。

下载参考

关于这个补充

本文已作为BMC生物信息学的一部分公布21卷补充19 2020年:来自NetTab /欧宝娱乐合法吗 BBCC 2019年联合会议的诉讼程序。补充的完整内容可用//www.christinemj.com/articles/supplements/volume-21-supplement-19

资金

第一作者由沙特阿拉伯利雅得的沙特国王大学和加拿大的沙特阿拉伯文化局支持。第二作者得到了加拿大自然科学和工程研究委员会(NSERC)、Genome Québec和Genome Canada的支持。出版费用由Genome Québec和Genome Canada资助。

作者信息

隶属关系

作者

贡献

MA和GB为研究的设计和实施、结果的分析和手稿的撰写做出了贡献。所有作者都已阅读并批准了最终稿。

通讯作者

对应于Munira Alballa

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

利益争夺

两位作者宣称他们没有相互竞争的利益。

补充资料

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1。

PSE-PSSM,其中的性能详细评测λ.(0…49)

额外的文件2。

五倍和十倍交叉验证的详细性能

权利和权限

开放访问本文根据知识共享署名4.0国际许可证获得许可,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,前提是您给予原作者和来源适当的信任,提供知识共享许可证的链接,并说明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可证中,除非在材料信用额度中另有说明。如果文章的知识共享许可证中未包含材料,且您的预期用途未经法定法规许可或超出许可用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过交叉标记验证货币和真实性

引用这篇文章

Alballa,M.,Butler,G.检测膜蛋白的综合方法。欧宝娱乐合法吗21,575(2020)。https://doi.org/10.1186/s12859-020-03891- x

下载引文

关键词

  • 预测模型
  • 机器学习
  • 氨基酸组成
  • 整合膜蛋白
  • 表面结合膜蛋白
  • 跨膜
  • 综合疗法
\