跳到主要内容

基于理论谱比较的开放搜索方法评估

摘要

背景

质谱仍然是表征蛋白质的特权方法。然而,实验产生的大多数光谱仍然不明于分析后,主要是因为它们携带的修改。打开修改搜索(OMS)方法提供了对此问题的有希望的答案。但是,评估OMS标识的质量仍然是一项艰巨的任务。

方法

旨在更好地理解OMS方法提供的(1)相似性的(1)相似性和(2)对应肽序列的相关性,我们仅使用了由理论光谱组成的数据集,我们应用了两个OMS策略。我们还介绍了两种适当定义的用于评估上述光谱/序列相关性的适当定义的措施:一种是表示检索所识别的频谱的正确序列的难度水平的颜色分类;另一个称为LIPR,是常见质量的比例,在给定的肽光谱匹配(PSM)中,其代表不同序列。也与虚假发现率(FDR)结合使用这两项措施。

结果

根据我们的测量,通过考虑两个光谱之间的质量差来选择最佳候选的策略可以得到更好的质量结果。此外,尽管FDR在OMS方法中仍然是一个有趣的指标(如LIPR所示),但它是值得怀疑的:事实上,我们的颜色分类显示,不可忽视的相关光谱/序列解释的比例对应于来自诱饵数据库的pms。

结论

上述三种方法可以让我们清楚地确定,在识别的数量和识别的准确性方面,所研究的两种OMS策略中,哪一种优于另一种。尽管在OMS方法中pms的质量评价仍然具有挑战性,但理论谱的研究是在这一方向上进一步发展的有利框架。

背景

蛋白质组学是各种研究的核心,旨在了解生活的复杂性。特别是,其中一个目标是发现可以影响蛋白质的所有修饰,并且可能导致它们的蜂窝功能的调制或总变化[1,2]。串联MS模式(MS / MS)中的质谱是识别蛋白质的最强大的方法,并在大规模上表征它们的修改。然而,观察到,尽管对受试者的文献丰富,但是,这种分析技术产生的大部分光谱 - 即,每小时分析的数万个光谱 - 通过专门的分析后未识别软件。这种低识别率背后的原因可能是由于培养修改的蛋白质产生的频谱比例较大[3.]。软件通常根据一个实验光谱与参考光谱的相似性来推断其识别。当一个肽携带一种修饰时,它的质量自然就被修饰了。这种质量修改防止了传统方法对其进行识别,传统方法只将每个实验光谱与一组质量近似相同的参考光谱进行比较,以避免过多的运行时间。一些已知的修改可以包括在参考光谱的建模中,但它们的数量必须保持在较低的范围内,以限制搜索空间。

2015年,Chick等人进行的研究[4]重燃了对自2005年以来已知的所谓开放修改搜索(OMS)方法的兴趣[5,6,以期揭示意想不到的改变,否则将失去,并因此获得更好的光谱识别率。OMS方法将每个实验光谱与全部代表蛋白质组的参考光谱。然后,虽然传统方法,根据定义,尝试识别应该代表该的谱(实验VS参考)对相同的化学化合物(即,理想的参考光谱与其不完美的实验对应物匹配),OMS方法允许代表的类似光谱之间的匹配截然不同的具有不等量的化合物。结果,该比较产生每个实验频谱的PSM(肽谱匹配)和非零质量差的列表\(δm \ \)假设实验频谱和其相关肽之间是由于区分它们的一个或几种修改。大多数情况下,报告了每个实验频谱的一个PSM:每个实验谱与最相似的参考光谱相关。存在许多分数来评估两个光谱之间的相似性,在一定级别,在一定级别,由两个光谱共享的峰值(或等效,群众)的数量,称为共享峰值计数的数字(SPC)。一旦PSM的完整列表按得分排序,基于统计显着性的度量的阈值确定了根据错误发现速率(FDR)的验证哪个PSM [7]。

自2015年以来,已经发展了几种非常快速的OMS方法。对于其中一些,参考光谱来自已经观察到的共识模板,鉴定并存储在光谱库中[8,9,10.,11.];对于另一些人来说,参考光谱,也就是所谓的理论光谱,是从蛋白质数据库中模拟一个理想的肽段片段生成的(见图)。1)[12.,13.,14.]。

图1
图1

在硅中产生理论光谱的例子。肽EAEISEK的理论谱是由质谱法得到的两种主要离子的质量组成的B.系列(蓝色表)和y系列(红色表)。一个B.-ion包含肽的n端部分,按肽序从左到右编号。一个y-ion包含肽的c端部分,并按肽序从右到左反向编号。质量以道尔顿为单位

除了光谱对的比较之外,一些方法还在共享序列标签时关联频谱对[15.,16.,17.]。这些方法改善了鉴定率,并且报告了鉴定光谱速率几乎重两倍增加15.,18.]。然而,尽管更好的光谱识别具有科学意义,OMS方法仍未得到充分利用,尤其是因为它们的可靠性仍存在争议。因此,更好地描述这些方法的优点和局限性是很重要的。因为所有的OMS方法都有一个共同点,那就是在某一点上,它们必须决定是否使用\(δm \ \)在PSM中,为了推断出更好的识别,我们的研究集中在彻底理解两种广泛传播的策略,以确定每个实验光谱的最佳PSM。在第一种策略中(称为1号(在本文中),最好的PSM是根据一个分数,不采取\(δm \ \)考虑到。第二次策略(称为2号)试图改善对齐-从而得分(图。2) -所有的pms返回一个给定的实验频谱根据\(δm \ \)在选择最好的PSM之前。为了确定最有效的策略,一个先决条件是能够使用相同的软件实现这两种策略,这意味着非常有效的光谱比较和对齐算法的可用性。SpecOMS软件[14.]我们之前开发的,履行了这些条件。

图2
图2.

质谱匹配及其肽序列。B.- 以蓝色显示,y- 以红色为红色,并在虚线中的光谱之间匹配。所有峰的强度被设置为理论光谱中的任意单位值。Eeedisek MS / MS频谱(中间)与本机EAEISEK频谱(上图)共享7个肿块(黑色虚线)。班次后\(δm \ \)在EAEISEK(下面)的第3位,8个新群众与EADISEK(如绿色所示)和一场匹配(灰色虚线)。然后从7(生程控14(转移SPC.)

为了深入比较每种策略的局限性,我们决定使用来自人类蛋白质组的理论光谱作为本研究的基础,先后考虑了每个理论光谱在实验光谱中的作用。通过这种方式,我们消除了由于实验光谱的不完善(噪声、缺失峰等)而带来的固有识别困难,并专注于每种策略的好处。因此,psm与\(δm \ \ 0 ne \)只能用氨基酸的差异来解释,即一个或几个氨基酸的插入、缺失和/或替换。请注意,任何修饰(无论是翻译后修饰(PTM)还是序列修饰)都会在光谱中产生相同数量的峰移。每个PSM匹配肽本身被认为是不相关的,因此被禁止。因此,我们挑战了上述两种策略,以发现许多不同的修饰,同时保持一定的接近肽(因为它们来自同一个蛋白质组)。与传统方法一样,许多OMS方法采用目标/诱饵方法估计其结果的FDR。我们还使用了这种方法来比较两种策略,尽管目前还不清楚这种方法是否低估了不正确的识别[19.,20.]。这就是为什么,我们提出了两种额外的PSM特征措施来评估其质量并比较策略。

结果

我们连续实施1号2号(见“方法”部分)将从人类蛋白质组生成的所有理论光谱(572,063光谱)与合并目标和诱饵人类蛋白质的数据库(1,148,608光谱)进行比较。为了明确地表示每个理论谱可以交替发挥的作用,我们称它为当它在实验中起波谱作用时打击当它代表从蛋白质数据库建模的理论谱时。通过扩展,我们还通过诱饵指定并击中分别产生这些理论光谱的肽。具有大于或等于我们初始阈值7的SPC的任何对(诱饵,命中)(参见“方法”部分)被称为a候选人PSM。我们的软件返回的任何PSM将被调用最好的PSM。一方面,1号根据符合的选择生程控不考虑观察结果而计算的分数\(δm \ \)。另一方面,2号在每一个可能的氨基酸以及肽的n端和c端两侧,反复测试质量是否有变化\(δm \ \)可以改善两个光谱之间的对齐[21]。在后一种情况下,一个新分数转移SPC.计算,对应重新排列后的共享质量数,并根据新的评分选择最佳PSM。

表1获得的psm数量1号根据生程控
表2由此获得的PSM数量2号根据转移SPC.

结果总结在表格中12。在两种策略中的每一个中,物种报告了455,404个以元组形式的最佳PSM(诱饵,击中,SPC,\(δm \ \)),在哪里(a)打击最好的候选人是(取决于所选策略),(b)SPC.诱饵和命中之间共享质量的数量(根据生程控1号转移SPC.2号),(c)质量差异\(δm \ \)(在道尔顿表达)存在于诱饵和击中 - 更确切地说\(δm \ \)等于诱饵的质量减去击中。

来自人蛋白质组的572,063次胰蛋白酶的约80%的胰蛋白酶患者与任何其他肽的含量至少为7峰,其中约23%共有至少10峰(靶或诱饵)。

由于样本获得的最佳PSM的数量仅取决于最初共享至少7个群众的频谱的数量(7是在本研究中选择的阈值参数,请参见“方法”部分),最佳PSM的数量保持相同在两种策略中。相比之下,1号2号提供不同的最佳PSM集,我们分别命名\(\ hbox {psm} _1 \)\(\ hbox {psm} _2 \)(见图。6,“方法”部分)。当初始SPC阈值设定为7时,大约37%的PSM(167,291个BAITS)之间的策略之间的差异不同\(\ hbox {psm} _1 \)\(\ hbox {psm} _2 \)根据\(δm \ \):\(g_1 \)这群psm是这样的吗\(\ delta m = 0 \)(即诱饵和猎物质量相同),\ (G_2 \)是群体,这样\(\ delta m> 0 \)(诱饵的质量超过击中的质量)和\(g_3 \)是群体,这样\δm < 0 (\ \)(击中的重量超过诱饵的重量)。注意,当\(δm \ \ 0 ne \)2号,相应PSM的得分可能会增加,而PSM的得分\(\ delta m = 0 \)保持不变(因为不可能重新排列)。因此,许多候选pms选择了\(\ delta m = 0 \)1号已被PSM覆盖于相关的PSM\(δm \ ne0 \ \)2号127949 (psm)。接下来,我们评估了典型目标-诱饵方法的结果的可信度[7]并计算保证用户通常接受的FDR的最小相似性分数。分别为fdr <1%,1号以最小值验证17,160 psm生程控17(即考虑到哪个PSM生程控\通用电气(\ \)17),而2号用最小验证57,784 psms转移SPC.21个(例如,考虑最佳的pms转移SPC.\通用电气(\ \)21)。2号招募的psm比1号所以我们可以得出结论2号表现的比1号根据已验证的psm数量。因此,3%到10%的理论光谱至少有一个“邻居肽”,它们拥有足够数量的质量,因此它们的相似性不能被认为是偶然的结果。必须记住的是,一个攻击应该是直接识别诱饵的psm\(\ delta m = 0 \)。我们知道在我们的数据集中不可能是这种情况,因为我们设置了SpecOMS,以禁止涉及相同肽的pms。事实上,很少有psm是通过目标-诱饵方法验证的\(g_1 \)(672 psm1号,201 psm2号),与该组的组成一致。在对面,\ (G_2 \)\(g_3 \)组代表了大多数被验证的psm,但是人们可能想知道这些psm提供的信息在多大程度上足以恢复诱饵- a的正确氨基酸序列必要条件认为后验识别是正确的条件。

为了回答这个问题,我们提出了新的标准来衡量标识的质量。准确地知道每种诱饵是由哪种肽产生的,我们就能准确地评估每种策略的有效性。首先,我们定义了一个新的分类,该分类反映了用户或软件检索诱饵序列的难度水平,使用命中序列,值\(δm \ \)还有移位位置。psm与\(δm \ \ 0 ne \)只能通过氨基酸序列的差异来解释。然后,通过应用一个或多个编辑操作(插入,删除(s)和/或替换),可以始终将命中件转换为诱饵。给定PSM,如果诱饵可以从击中推导出来,只需一个编辑操作所指定的一个编辑操作即可\(δm \ \),我们将此PSM分为绿色。但是,当\(δm \ \)对应于几个氨基酸的插入,这还不足以毫无疑义地重建诱饵的序列——几个氨基酸的排列可以导致相同的结果\(δm \ \)。在这种情况下,我们将PSM归类为橙色。我们将所有其他psm归类为红色(见“方法”一节)。结果,红色类包含各种各样的psm:那些需要几个许多编辑操作将诱饵进入(换句话说,诱饵和序列非常不同),而且那些序列可能是接近,但含有的氨基酸排列很难推断\(δm \ \)。特别是psms与\(\Delta m = 0\)显然被归类为红色,因为击中和诱饵是不同的,并且没有任何重新调整。在图2中给出了包含更多示例的颜色分类的图示。3.

图3
图3.

绿色/橙色/红色分类的图示。前两行提供了一个诱饵,可以从PSM给出的信息中毫不含糊地推断出来。这样的psm被归类为绿色。在第一个例子中,\(δm \ \)对应S的质量,因此可以添加到命中给定的位置,以获取诱饵。在第二个例子中,的绝对值\(δm \ \)对应EPPNPE的质量,可以从命中中删除,以检索诱饵。在第三排,\(δm \ \)可以对应于两个可能的氨基酸序列(VH或HV)。因此,这样的诗可以被归类为橙色。在最后三行中,将击中诱饵变为诱饵更困难,因为存在太多的模糊,尽管序列可能与第一红色行中的近距离接近。在所有情况下,将这种PSM归类为红色

其次,我们介绍了一个新功能,我们称之为低信息峰值速率(LIPR),对给定PSM的措施,对给定PSM的比例由两个光谱共享但对应于不同的氨基酸序列(参见“方法”部分)。总之,该值越高,PSM越少的序列信息在比例中,许多共享峰对应于不同的氨基酸序列。

我们给出了集合的分布\(\ hbox {psm} _1 \)\(\ hbox {psm} _2 \)分别获得了1号2号以及对LIPR特征的评价。45。可以看出,在全球范围内,两种策略的表现是相似的,但在1%的富兰克林·罗斯福,2号验证的绿色psm大约是1号(27,211 vs 9153)。因此,乍一看,通过的额外识别的数量2号(相比1号)不符合结果质量恶化的成本。

图4
图4.

颜色分类和LIPR1号(\(\ hbox {psm} _1 \))。根据最小的三种颜色类别和平均LIPR的PSM数量生程控(左)。三种颜色(绿色:实线,橙色:虚线和虚线,红色:虚线)中pms的百分比生程控(右)。垂直线为FDR < 1% (生程控= 17)

图5
图5.

颜色分类和LIPR2号(\(\ hbox {psm} _2 \))。根据最小的三种颜色类别和平均LIPR的PSM数量转移SPC.(左)。三种颜色(绿色:实线,橙色:虚线和虚线,红色:虚线)中pms的百分比转移SPC.(右)。垂直线为FDR < 1% (转移SPC.= 21)

就LIPR而言,可以注意到其平均值较高\(\ hbox {psm} _1 \)(38.5%\(\ hbox {psm} _1 \)vs 22.97%\(\ hbox {psm} _2 \))。一般来说,当最小SPC值增加时,两种策略的LIPR都减小。当FDR阈值为1%时,两种策略的结果非常相似(3.93%)\(\ hbox {psm} _1 \)vs 2.53%\(\ hbox {psm} _2 \))。

在目标和诱饵PSM之间出现有关LIPR的强烈差异,并且这种现象存在于两种策略中(结果未显示)。目标PSM的平均LIPR\(\ hbox {psm} _1 \)是31%,而在假psm中达到了49%。这种差异随着观察到的最小SPC值的增加而增加,并且LIPR在接近1% FDR阈值时突然下降;例如,对于生程控\通用电气(\ \)15\(\ hbox {psm} _1 \),诱饵PSM的平均LIPR为64%,而目标PSM为4%。因此,LIPR可以被视为捕获诱饵PSM的“随机性”的方法,其对应于不同序列的峰值之间的匹配比目标PSM更常见,尤其是具有高SPC值的PSM。

为了突出每个策略提供的psm之间的差异,我们隔离了特定的psm1号(一组psm叫做\ (\ hbox{党卫军}_1 \))从特定的psm到2号(一组psm叫做\ (\ hbox{党卫军}_2 \))。自\ (\ hbox{党卫军}_1 \)\ (\ hbox{党卫军}_2 \)到底有什么区别呢1号2号,突出显示这两组之间的主要差异(或相似之处)是特别的信息。还应注意,这种比较只能在SPC = 7处完成,因此具有全套(特定的)PSM,USM生程控转移SPC.定义明确分数。

每个颜色类中pms的数量,以及平均LIPR\ (\ hbox{党卫军}_1 \)\ (\ hbox{党卫军}_2 \)显示在表格中3.。我们可以清楚地看到这一点2号包含更多被归类为绿色的pms,相比之下1号(超过16倍)。平均LIPR也高得多\ (\ hbox{党卫军}_1 \)(61.7%)比在\ (\ hbox{党卫军}_2 \)(19.44%)。

我们获得有关颜色分类和LIPR的结果可以用两种不同的方式解释。首先,基于FDR是难以在OMS方法中仍辩论的措施的论点,可以独立于FDR考虑。基于表中提出的结果3.,可以看出2号显然优于胜过1号。另一种考虑这两个指标的方法是将罗斯福考虑在内(即罗斯福低于1%)来比较它们。在这种情况下(见图。45) 如果2号仍然优于优势1号就PSM的数量(大约3倍绿色或橙色PSM)2号比在1号),百分比的结果有利于1号(70.9%的pms为绿色或橙色1号vs 60.9%2号)。然而,事实上,我们的颜色分类标记为红色比例更多的pms来自2号而不是1号必须与较低的LIPR值进行透视2号,表明诱饵和目标距离很近。因此,大量的红色psm可能是由于非常少的编辑操作,如序列排列。然后,对红色类别进行更深入的分析,以最小的额外计算努力,将许多红色psm转换为绿色或橙色psm。此外,我们可以注意到,在SPC时,从人类蛋白质组分类为Green的pms的比例很高\(\ ge 7 \)。如果所有与这些绿色pms相关的结果都来自目标数据库,这将是一个非常好的消息,因为这些pms指的是不同于它们“最近的邻居”的肽段,通过明确的编辑操作(从11%的1号年的24%2号)。由于事实并非如此,这意味着诱饵数据库不只是像它应该的那样由“不正确的序列”组成。然后,很明显,对于这两种策略,在诱饵数据库中存在许多绿色pms阻碍了诱饵的识别。

表3具体结果中pms的平均LIPR和分布\(\ hbox {psm} _1 \)(\ (\ hbox{党卫军}_1 \))具体和特定于\(\ hbox {psm} _2 \)(\ (\ hbox{党卫军}_2 \))在三种颜色类别中

讨论

在这项工作中,我们的目的是比较两种OMS策略经常出现在最近发表的OMS方法。评估两种研究策略的各自表演已经通过三个不同的措施:随着罗斯福,我们介绍两种方式解读psm:第一个是颜色分类的psm和第二个,叫做LIPR,代表了比常见的山峰,不同意的序列。综上所述,这三个指标都表明2号优于1号。请注意2号优于1号乍一看似乎很明显,遵循重新排列山峰的想法(如在2号)只能导致更好的结果。但是,从那以后2号自然地扩大了每个诱饵频谱的搜索空间——因为它试图解释\(δm \ \)在命中光谱中的不同位置 - 这可能实际上导致许多错误的PSM。因此,这一事实2号表现的比1号(在这种情况下,关于FDR)不一定容易预测。

获得的性能2号也引导我们得出结论,其中两个,2号是应该在OMS软件中实现的。光谱对齐[5都是基于分数的\(δm \ \)使用类似地选择最佳PSM2号,一个重新调整的过程。但是,应该指出2号如果想要保持快速执行时间,请重新重新重复频谱。最近,modplus [16.和Open-pFind [15.]选择具有序列标记的候选PSM集,然后执行调整。Ann-solo [10.,11.[混合搜索[9]近似于考虑修改峰的改进评分(Ann-Solo的移位点产品,混合搜索的余弦相似性)。另一方面,一些OMS方法仍然依赖1号(例如msfragger [12.], MetaMorpheus [13.])不要服用\(δm \ \)考虑到选择最佳候选PSM-尽管选择最佳候选者以便定位修改后,但它们可以使用它。关于我们的颜色分类,我们看到了2号招募更多的绿色和橙色的psm1号,它包含更多的红色psm比例。而由2号远低于1号。这使我们认为,红色pms的一部分来自2号,这与常用子序列相对应的足够的峰值,可以被视为“几乎有效”PSM。更准确地说,我们认为,通过额外的方法和计算努力,这些红色PSM中的一些可以转移到橙色或绿色类别,这项方法实施方法2号应该追求。

我们在“严格”的环境中进行了研究,即仅比较理论光谱,并使用仅考虑共同峰的分数(SPC)。虽然这可以被视为一个限制,但也可以说,比较理论光谱是一种机会,了解从人蛋白质组中提取的胰蛋白酶从质谱的观点中提取的胰蛋白酶肽的接近程度。此外,我们将自己放在一个“对手”背景中,允许冗余,因此在没有PSM对应于精确的序列匹配的情况下。关于SPC,可以注意到,在任何方法中,系统地考虑到得分函数的某个级别。在我们的案例中,SPC允许我们独立于上下文和数据:我们考虑没有特别了解数据集,也不是手头的光谱,并以“无人监督”的方式进行我们的实验。而且,2号(如这里实现的)总是确定我们的分数的确切值,而其他的OMS方法使用近似分数,稍微肯定他们,这可能会对结果有影响。

通过将两种OMS策略与理论多肽和新的指标进行比较,我们还开发了一个环境,使我们能够看到和理解在实验环境中更难看到的元素。该协议可以用来理解其他(OMS) MS识别工具的核心原理,感知它们的优缺点,以便配置和校准它们。例如,颜色分类背后的想法不是特定于我们使用的SpecOMS软件,也不是隐含的质量转移2号,并有助于评估任何OMS研究工具的效率。此外,我们相信我们的两个指标(在这里使用的情况下都在理论上的语境中)可以适应某种程度上 - 到古典MS / MS实验,其中需要与实验光谱进行比较的理论光谱。

我们的研究还呼吁有几种可能的观点和扩展,我们简要提及这里:将我们的研究应用于实验背景(需要适应LIPR和颜色分类),使用比SPC更精细的分数,提高我们的颜色分类算法要从当前的红色类别“解释”更多PSM,允许多个位置解释\(δm \ \),最后使用其他类型的诱饵数据库。也可以考虑上述建议的任何组合。

结论

尽管近年来取得了一定的进展,但在含修饰的质谱鉴定和OMS方法的质量评价方面仍有很多工作要做。OMS方法提出了不同的策略来识别最佳的PSM,在本文中,我们比较了在最近的方法中很好的代表的两种策略。我们在一个完全相同的环境中对这两种策略进行了研究,并在相同的软件中实现了这两种策略(SpecOMS [14.])在理论上由理论光谱形成的理想数据集上,我们与自己相比,为了摆脱识别困难[22],这是由于实验光谱的不完善(噪声、缺失峰等)。除了传统的FDR,我们引入了两个新的标准来评估pms的质量。对于每一个观察到的标准,2号,它试图对齐\(δm \ \)在光谱之间选择最佳的候选PSM,总是被证明是更好的。总的来说,2号通过易于可识别的编辑操作促进命中命中的PSM。然后,更经常地,可以正确地确定诱饵的序列2号

我们可以注意到,无论原点如何,修改对光谱都有相同的影响,因此,即使我们没有对实验光谱进行比较,我们也可以推断出优越性2号在任何实验数据的分析中。根据这些结果,OMS方法应该实施2号但我们必须强调这一点2号需要一个有效的算法在非常大量的候选psm上找到光谱的最佳对准,这是它在所有OMS方法中未完成的可能原因。

还可以注意到OMS方法进一步使蛋白质推理问题复杂化[23,24],由于诱饵肽不应被认为是已知的\(δm \ \)是解释说。一般来说,诱饵肽含不明原因\(δm \ \)是那些在我们的分类中标记为红色的。这证实了需要更深入地调查红色psm,通过提供一个自动的方法从这些psm击中回收诱饵。一般来说,我们表明颜色分类和LIPR是相关的指标,可以被认为独立于FDR。然后,通过一些额外的努力,将这些标准适用于通常的质谱/质谱实验,其中理论光谱需要与实验光谱进行比较。

方法

使用物种的肽鉴定

我们实施了两个策略来查找使用SCOMMOM软件的最佳PSM [14.]。接下来,我们应用了这两种策略来比较从人类数据库产生的大量理论光谱。为了在理论谱之间进行这种比较,我们为物种(以新的搜索模式的形式)添加了新的功能。

发挥肽光谱匹配(PSM)在肽光谱匹配(PSM)中的实验光谱作用的肽被称为,而PSM中与诱饵相关的肽被称为打击。参数设置的方式是SpecOMS从其数据结构SpecTrees中提取[25]所有共有峰数(SPC)大于或等于7的形式(诱饵、命中)的光谱对。

以上阈值7似乎是我们的研究是一个很好的权衡:首先,它不应该太低,以避免许多PSM,这是一个携带击中和诱饵之间的信息很少的信息。它也不应该太高,以防止较低的候选PSM(绝对)丢弃的情况,因为这种PSM的得分可能大大增加(并且因此可能被我们的转移被选为最佳PSM)程序2号(见图。6)。

然后在所有运行中设置SpecOMS的以下参数:threshold = 7(如上所述),single_match =真的, nbMissCleavage = 0, minimumPeptideLength = 7, maximumPeptideLength = 30, maxMassesCount = 60, minimumScore = 60, decoyBase =真的。这些参数(特别是最小频体)中的一些设定为强迫物种不寻求错过的裂解,或者半胰蛋白肽:因为我们将一组肽与自己进行比较,我们知道这些现象不能出现。

根据运行,物种的参数“移位”设置为(1号) 或者真的(2号)。更准确地说,在1号,对于每个诱饵,物种基于最高SPC选择最佳PSM,我们呼叫的分数生程控

2号,给定诱饵的最佳PSMB.是选择后采用以下两步程序:第一,为每一个候选人命中HB.这样\(δm \ \ 0 ne \), SpecOMS重新排列HB.通过改变它的质量\(δm \ \))在频谱中的每个可能的相关位置,并保留换档位置H产生了最好的新计算SPC(一个经常用来解释的原则\(δm \ \)[26])。其次,物种在候选PSM中选择最佳PSMB.,基于新计算的SPC,我们称之为转移SPC.。参见无花果。67为了插图。

图6
图6.

工作流程1号2号。利用SpecOMS对蛋白质进行处理,以找到数据库中每个肽段的最佳PSM。这是通过计算初始数据库中每个肽(视为理论谱)之间的共享峰数(SPC)来完成的,并与来自目标和诱饵数据库的所有肽(除了自身)进行比较。在1号,根据原始共享峰值计数(或)选择最佳PSM(或生程控)。在2号,为所有候选pms实现了额外的计算\(δm \ \ 0 ne \),包括移动山峰根据\(δm \ \)在所有可能的位置,并保持最佳诱导的SPC(或转移SPC.)

图7
图7.

确定每个策略中的最佳PSM。假设,诱使给定的诱饵与4种肽(称为命中)进行比较。命中注目1被丢弃为它生程控对于诱饵低于施加的阈值,为7.命中率为2,3和4是诱饵的候选PSM。如果\(δm \ \ 0 ne \)对于命中2、3和4,可以应用移位,在这种情况下转移SPC.获得(转移SPC.\通用电气(\ \)生程控通过定义)。在1号,诱饵的最佳PSM是命中2,因为它是基于生程控。在2号,诱饵的最佳PSM是命中3,因为它是基于转移SPC.

数据

人类蛋白质组从ensemble bl 99, release GrCh38下载[27]。将注释“protein coding”预测的蛋白加入到从cRAP污染物数据库下载的116个污染物蛋白中。由此产生的一组蛋白质被称为目标数据库。经过胰蛋白酶的硅消化后,赖氨酸和精氨酸(K和R)被裂解,肽的长度超出了7到30个氨基酸(包括)的范围,以及包含字母“X”(代表一个未知的氨基酸约3%)的肽被去除。SpecOMS从目标数据库中生成诱饵数据库,通过反转初始的蛋白质序列在Silico.消化适用。

理论光谱的一代

每种肽通过物种在硅中碎片化,以将其转化为一个理论光谱。为此,离子B.y生成系列,每个都具有相同的强度单元,因为我们的研究中没有考虑强度(只考虑共享峰值计数(SPC),即常见的峰值或群众的数量)。对于给定的肽,该组产生的质量表示其理论谱。

测量PSM的质量

对两个数据集进行了不同的度量1号或者2号,特别是确定所选择的识别策略对结果的影响程度。

我们使用的第一个经典措施是我们可以以给定的假发现速率(FDR)验证的PSM数量。我们将FDR计算为MIT的表格(诱饵,击中)的最佳PSM的比例,在最佳PSM的总数上。在这项工作中,我们基本上受到FDR小于1%的PSM的兴趣。

绿色/橙色/红色分类

我们认为用于验证MS/MS结果的另一个参数是我们解释通过给定策略获得的形式(诱饵、打击)的能力;通过“解释”,我们的意思是明确地确定转化(在氨基酸序列方面),这是需要从攻击开始检索诱饵。回想一下,由于不同的成对肽是比较的,诱饵和打击必然在序列上不同;此外,由于我们的集合仅由理论光谱组成,因此它们不能有其他不同(例如,由于化学修饰)。因此,我们问自己的问题是:给一个PSM(诱饵,打击)连同\(δm \ \),转移SPC.及其对应的最佳换档位置,从击中精确解释诱饵是多么难?为此,我们介绍了PSMS分类为三种颜色(绿色,橙色或红色),具体取决于这种难度,从最简单的(绿色)到最难的(红色)。简而言之,绿色意味着我们能够解释击中和诱饵之间的联系明确,橙色包含一些较高的歧义,红色意味着有必要提供进一步的信息和/或计算努力来解释诱饵和击中之间的关系。例如,如果\(δm \ \)通过单个插入,删除或替换来解释,相应的PSM将被归类为绿色,而如果在给定位置需要若干连续的插入,删除和/或替换,则它将被归类为橙色,因为该位置是已知的,B.ut the sequence order is not completely determined (e.g., if we know that amino acids A and L need to be inserted at a given location, some ambiguity remains since we can either insert “AL” or “LA”). Finally, a PSM is Red whenever it is neither Green or Orange. Red thus represents either valid identifications that are too difficult to explain (e.g., when bait and hit differ at two or more distinct locations), or invalid ones (e.g., when\(\ delta m = 0 \),而诱饵和击中有非常异常的序列)。算法1描述了我们的分类算法,详细介绍了我们还参考图1。3.用于不同的例子。

雕像

低信息峰值速率(LIPR)

在质谱/质谱实验中,如果光谱共享大量的质量,则认为它们彼此相似。同一系列离子(即,y离子或B.在我们的情况下),表示相同的片段,必然具有相同的质量。因此,常见的群众表示有关序列相似性的相关信息。However, the converse is not always true: identical masses may not represent identical sequences, for example when amino acids are permuted (e.g., AEAE and EEAA have the same mass) or in more complex situations when combinations of different amino acids turn out to have the same total mass (e.g., KE and GVT have the same mass).

在此基础上,我们引入了一种新的测量方法,称为低信息峰值率(Low Information peak Rate,简称LIPR),其定义如下:对于给定的PSM (bait,hit), LIPR(bait,hit)是诱饵和hit之间的公共质量之比不要对应于相同的序列(见图。8插图)。因此,LIPR是一个介于0和1之间的值(我们将用百分比表示);LIPR接近于0表示诱饵和猎物的两个氨基酸序列非常相似。在这种情况下,人们可以争辩说,手边的PSM是相关的,从击中物中提取诱饵可能是可行的。另一方面,当LIPR接近于1时,两个序列虽然具有不可忽略的质量数,但表示的序列非常不同,因此PSM可以被认为是有争议的。

图8
图8.

低信息峰值率(LIPR)的3种不同的pms。质量在Dalton中,每个例子中的“序列”列代表了所有具有相同质量的PSM片段肽。绿色的复选符号表示类似的序列,而红色的叉表示不同的序列。一种没有常见的质量对应于不同的氨基酸序列,因此该PSM的LIPR等于0%;B.2个常见质量超过7对应于不同的序列,因此该PSM的LIPR等于\(\ frac {2} {7} = 28.57 \%\);C该PSM中的所有常见质量对应于不同的序列,因此该PSM的LIPR等于100%

数据和材料的可用性

从Ensembl 99下载人类蛋白质组,在Ensembl FTP服务器上释放GrCh38ftp://ftp.ensembl.org/pub/release-99/fasta/homo sapiens / pep /。将注释“protein coding”预测的蛋白加入到从cRAP污染物数据库下载的116个污染物蛋白中ftp://ftp.thegpm.org/fasta/cRAP。SpecOMS软件可在以下网站获取https://github.com/dominique-tessier/specoms.

缩写

罗斯福:

错误发现率

LIPR:

低信息峰值速率

女士:

质谱分析

OMS:

打开修改搜索

PSM:

肽谱匹配

PTM:

翻译修饰

程控:

共享峰值计数

参考文献

  1. 1。

    Prabakaran S,Lippens G,Steen H,Gunawardena J.翻译后修改:自然从遗传监禁的逃脱和动态信息编码的基础。Wiley Interdicip Rev Syst Biol Med。2012; 4(6):565-83。

    中科院文章谷歌学者

  2. 2.

    史密斯LM,Kelleher NL,Consortium为顶部蛋白质组学。蛋白质Oform:一个描述蛋白质复杂性的单一术语。NAT方法。2013; 10(3):186-7。

    中科院文章谷歌学者

  3. 3.

    Griss J,Perez-Riverol Y,Lewis S,Tabb DL,迪安JA,Del-Toro N,等。识别数百万持续的未识别的光谱,跨越数百个霰弹枪蛋白质组学数据集。NAT方法。2016; 13(8):651-6。

    中科院文章谷歌学者

  4. 4.

    chac JM, Kolippakkam D, Nusinow DP, Zhai B, Rad R, Huttlin EL,等。超耐受性数据库搜索显示,大量修饰肽有助于猎枪蛋白质组学的未指定光谱。生物科技Nat》。2015;33(7):743 - 9。

    中科院文章谷歌学者

  5. 5。

    Tsur D, Tanner S, Zandi E, Bafna V, Pevzner PA。通过质谱盲搜索鉴别翻译后修饰。见:IEEE计算系统生物信息学会议论文集。2005;p . 157 - 66。

  6. 6.

    Searle BC,Dasari S,Wilmarth Pa,Turner M,Reddy AP,David LL等。使用MS / MS DE Novo测序和OpenSEA对准算法鉴定蛋白质修饰。J蛋白质组。2005; 4(2):546-54。

    中科院文章谷歌学者

  7. 7.

    目标-诱饵搜索策略在质谱大规模蛋白质鉴定中的应用。Nat方法。2007;4(3):207 - 14。

    中科院文章谷歌学者

  8. 8.

    Horlacher O,Lisacek F,MüllerM。采矿大规模串联质谱数据用于蛋白质修饰使用光谱库。J蛋白质组。2016; 15(3):721-31。

    中科院文章谷歌学者

  9. 9.

    Burke Mc,Mirokhin Ya,Tchekhovskoi DV,Markey SP,Heidbrink Thompson J,Larkin C等人。混合搜索:发现蛋白质组学修改的质谱库搜索方法。J蛋白质组。2017; 16(5):1924-35。

    中科院文章谷歌学者

  10. 10。

    Bittremieux W,Meysman P,Noble WS,Laukens K.通过近似最近邻索引搜索的快速开放修改光谱库。J蛋白质组。2018; 17(10):3463-74。

    中科院文章谷歌学者

  11. 11.

    Bittremieux W,Laukens K,Noble WS。使用特征散列和图形处理单元进行高分辨率质谱的极快和准确的开放式频谱库。J蛋白质组。2019; 18(10):3792-9。

    中科院文章谷歌学者

  12. 12.

    kong at,leprevost fv,avtonomov dm,mellacheruvu d,nesvizhskii ai。MSFRAGRE:基于质谱的蛋白质组学中的超快和综合肽鉴定。NAT方法。2017; 14(5):513-20。

    中科院文章谷歌学者

  13. 13.

    Solntsev Sk,Shortreed Mr,Frey Bl,史密斯LM。通过Metamorpheus增强全球翻译后修改发现。J蛋白质组。2018; 17(5):1844-51。

    中科院文章谷歌学者

  14. 14.

    David M,FERTIN G,Rogniaux H,Tessier D.SCOMMOM:一个完整​​的开放修改搜索方法在几分钟内执行全息谱比较。J蛋白质组。2017; 16(8):3030-8。https://doi.org/10.1021/acs.jproteome.7b00308

    中科院文章PubMed.谷歌学者

  15. 15.

    Chi H,Liu C,Yang H,Zeng Wf,Wu L,周WJ等。高效开放搜索引擎综合鉴定串联质谱中的肽。NAT BIOTECHNOL。2018; 36:1059-61。

    中科院文章谷歌学者

  16. 16。

    Na S, Kim J, Paek E. MODplus:使用质谱对翻译后修饰进行鲁棒性和非限制性鉴定。肛门化学2019;91(17):11324 - 33所示。

    中科院文章谷歌学者

  17. 17.

    张丽丽,张丽丽,张丽丽。TagGraph揭示了来自大型串联质谱数据集的大量蛋白质修饰景观。生物科技Nat》。2019;37(4):469 - 79。

    中科院文章谷歌学者

  18. 18.

    Tabb DL, Murugan BD, Okendo J, Nair O, Blackburn JM, Buthelezi SG等。开放式搜索揭示了福尔马林固定、石蜡包埋的热HCD和SCIEX TripleTOF猎枪蛋白质组的修饰模式。Int J质谱。2020;448:116266。

    中科院文章谷歌学者

  19. 19.

    高贵的WS。质谱学家应该只搜索他们关心的缩氨酸。Nat方法。2015;12(7):605 - 8。

    中科院文章谷歌学者

  20. 20。

    贴纸A,Martens L,Clement L.质谱仪应该搜索所有肽,但只评估他们关心的肽。NAT方法。2017; 14(7):643-4。

    中科院文章谷歌学者

  21. 21。

    Fertin G, David M, Rogniaux H, Tessier DT。MS/MS光谱解释和SpecFit识别不常见修饰的兴趣。见:生物信息学计算智能方法第16届国际会议论文集(CIBB’19)。LNBI。施普林格;2020.

  22. 22。

    关键词:质谱分析,翻译后修饰,翻译后修饰蛋白质组学。2016;16(5):700 - 14。

    中科院文章谷歌学者

  23. 23。

    猎枪蛋白质组学数据的解释:蛋白质推断问题。分子细胞蛋白质组学。2005;4(10):1419-40。

    中科院文章谷歌学者

  24. 24。

    黄涛,王军,于伟,何卓。蛋白质推断的研究进展。短暂的Bioinform。2012;13(5):586 - 614。

    中科院文章谷歌学者

  25. 25.

    acta photonica sinica, 2011, 38(5): 657 - 664 .张国强,张国强。一种高效的质谱/质谱识别方法。光子学报,2011,38(5):657 - 664。网址:Frith M, Storm Pedersen CN,编辑。算法在生物信息学。计算机科学课堂讲稿。Cham:施普林格国际出版公司;2016.p . 65 - 76。

    谷歌学者

  26. 26.

    Ahrné E, Müller M, Lisacek F.利用质谱/质谱技术对转基因蛋白进行不受限制的鉴定。蛋白质组学,2010;10(4):671 - 86。

    文章谷歌学者

  27. 27。

    Yates Ad,Achuthan P,Akanni W,Allen J,Allen J,Alvarez-Jarreta J等。Ensembl 2020.核酸RES。2020; 48(D1):D682-8。

    中科院PubMed.谷歌学者

下载参考

致谢

不适用。

关于这个补充剂

本文已作为BMC生物信息学卷的一部分公布,补充2 2021:15和第16次和第16次生欧宝娱乐合法吗物信息学和生物统计学的计算智能方法国际会议(CIBB 2018-19)。补充的完整内容可用//www.christinemj.com/articles/supplements/volume-22-supplement-2

资金

由法国国家研究机构(ANR-18-CE45-004),ANR Deepprot支持。

作者信息

隶属关系

作者

贡献

所有作者都设计并构思了这项研究;al进行了实验;Al,DT,JG和GF分析了结果。al,dt和gf写了稿件。所有作者都阅读并批准了最终手稿。

通讯作者

对应到Guillaume Fertin

道德声明

伦理批准并同意参与

不适用。

同意出版物

不适用。

相互竞争的利益

作者们宣称他们没有相互竞争的利益。

附加信息

出版商的注意

欧宝体育黑玩家《自然》杂志对已出版的地图和附属机构的管辖权主张保持中立。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的创作共用许可中,除非在材料的信用线中另有说明。如果材料没有包含在文章的创作共用许可证中,而您的预期使用不被法律法规允许或超过允许的使用,您将需要直接获得版权持有人的许可。如欲浏览本许可证的副本,请浏览http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

再版和权限

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

Lysiak,A.,Fertin,G.,Jean,G。et al。基于理论质谱比较的开放式搜索方法评价。欧宝娱乐合法吗22,65(2021)。https://doi.org/10.1186/s12859-021-03963-6

下载引用

关键字

  • 质谱分析
  • 打开修改搜索
  • 肽识别
  • 盲目的搜索
\