跳过主要内容

免疫肽素工具包库(IPTK):基于Python的模块化工具箱,用于分析免疫蛋白质数据

摘要

背景

人类白细胞抗原(HLA)蛋白在适应性免疫系统中发挥着重要作用,因为它们向T细胞提供肽。以质谱为基础的免疫肽组学是一种很有前途和强大的工具,用于表征HLA蛋白的免疫肽结构,即HLA蛋白上呈现的肽。尽管人们对该技术的兴趣不断增长,而且最近免疫肽特异识别管道的兴起,但在专门分析和可视化免疫肽组数据的数据分析和软件工具方面仍然存在差距。

结果

我们介绍了IPTK库,它是一个基于Python的开源库,用于分析、可视化、比较和集成不同组学层与已识别肽,以深入描述免疫肽组。使用不同的数据集,我们展示了该文库丰富已鉴定肽组结果的能力。此外,我们还通过开发一个易于使用的仪表板来演示该库在开发其他软件和工具方面的实用性,该仪表板可用于结果的交互式分析。

结论

IPTK提供了一个模块化和可扩展的框架,用于分析和集成具有不同组学层的免疫肽包。库被部署到PyPIhttps://pypi.org/project/iptkl/Biocondahttps://anaconda.org/bioconda/iptkl,而库和仪表板的源代码,与网上的教程可在https://github.com/ikmb/iptoolkit

背景

位于6P21染色体上的人白细胞抗原(HLA)复合物是免疫系统相关基因的热点[1]. 这个HLAloci contain, among others, the loci that encode for the classical HLA class I proteins, HLA——一个,HLA- b和HLA- c经典的HLA II类蛋白,HLA,HLAdp和HLAdq[2].HLA-I蛋白主要是蛋白酶体消化蛋白转化为CD8的多肽+而HLA-II蛋白则向CD4表达溶酶体消化的蛋白+t细胞。从遗传学角度来看,HLA I类和II类都具有高度多态性,大多数等位变异位于肽结合蛋白域的编码区域内[3.].不同的HLA等位基因不仅与广泛的自身免疫性疾病和炎症性疾病有关,例如炎症性肠病[45],多发性硬化症[6]和系统性红斑狼疮(SLE)[7],但也涉及药物基因组学和精确医学。Sazonovs等人最近对此进行了研究[8]认为HLA-DQA1携带者* 05等位基因是更容易发展对英夫利昔单抗和阿达木单抗的抗药物抗体。

因此,表征和鉴定HLA蛋白所呈现的多肽是非常重要的。例如,它可以用于合理的疫苗设计和开发[9],新抗原识别和肿瘤免疫[1011],并提供人类免疫缺陷病毒与疾病关联的机制理解[212].为此,不同在Silico.已经开发了用于表征和鉴定HLA蛋白呈列的肽的工具和实验方法。然而,在过去的十年内,基于质谱(MS)的基础方法已成为表征HLA蛋白呈递的肽的默认方法体内,称为免疫肽组[131415].

免疫肽组学流水线的工作流程始于使用hla特异性抗体对hla -肽复合物进行免疫沉淀,例如HLA-DR的L243 [161718]及HLA-I的W632 [1819].接下来,结合的多肽通过酸变性从其拉出的HLA蛋白中分离,然后使用色谱技术纯化多肽。最后,使用多种液相色谱串联质谱(LC-MS /MS)协议和技术对纯化的多肽进行分析[18].

计算,在分析的第一步是将所生成的光谱的处理,随后肽序列的推导,使用预先存在的工具蛋白质组学,例如MaxQuant.[20],吉祥物[21],x ! !串联[22], 和OMSSA[23]. 然而,鉴于标准蛋白质组学和免疫肽组学之间的差异,例如后者缺乏胰蛋白酶消化,已经开发了一系列针对免疫肽组学定制的识别管道和工具。例如MHCQuant[24),NeoFlow[25为新抗原决定簇的发现而量身定做的纽恩斯[26],其被用于处理非规范肿瘤immunopeptidomes定制。然而,据我们所知,没有为immunopeptidomes识别管道下游分析特定的工具。

因此,为便于快速增长的数量immunopeptidomics数据集的分析,我们在座的一世mmunoP.肽组学T.oolK.这图书馆,IPTK。该库是用Python实现的,并利用其丰富的数据科学工具和库集合提供了大量的模块化单元,可用于分析、比较和可视化识别管道的结果。它还可以用于整合不同的组学层,例如,转录组,与识别的多肽列表,以交付一个更丰富的生物学意义的结果。该库的模块单元可以进行可变组合,以满足每个实验的独特需求,或者它们可以作为开发其他分析工具和管道的构建块。该库有大量的在线教程文档,涵盖了不同的用例。

IPTK的实现

IPTK设计和结构组件

Immunepyoporomics工具包IPTK,图书馆是一种基于Python的库,提供了一种用于分析免疫肽族数据的框架,并与富人的鉴定肽列表集成不同的OMIC层,例如转录组,子蜂窝室和3D结构数据下游分析结果。iptk取决于Matplotlib[27),情节[28为可视化,numpy.[29)计算,熊猫[30用于处理和存储数据BIOPYTHON.[31]用于加载和解析生物数据。在结构上,IPTK由五个主要模块组成,如图所示。1A、输入-输出(IO)模块班级模块分析模块可视化模块和Utilis模块。

图1
图1

IPTK库结构和设计的概述。一个不同模块的高级视图以及它们如何相互作用。B类模块及其层次结构的概述。ExperimentSet表示模块中的最高抽象级别ExperimentSet是实验的集合,通过捐赠浓淡Exp. n,每一种复合材料的主要成分;渊源者HLASet组织C的的API组织类,其中EP是表达式概要,CL是细胞位置和Aux。分别为辅助基因表达和蛋白定位。D肽和蛋白质之间映射的IPTK抽象为非循环单向图

IO.模块提供解析和读取蛋白质组学界用于肽识别的多种数据格式的功能,例如,pepXML,mzIdentMLIDXML.通过利用Pytomics图书馆[32]. 这个班级模块是库的核心引擎。它封装并提供用于处理、集成和分析数据的高级抽象。它可以细分为不同的亚模块,抽象了免疫肽组学实验的不同部分。这实验类提供了一个抽象为不同质谱运行时,相同的实验,但不同的数据库的搜索引擎,例如,彗星[33]或MS-GF+ (34,或者完全不同的实验。它还可以作为连接实验不同成分的锚点,例如,它将HLA类型与基因表达、多肽鉴定、细胞成分和样本元数据连接起来。这ExperimentSet,提供一个实验集合的抽象,并提供不同的分析工具:例如,比较选定实体的方法,例如比较不同实验之间的蛋白质覆盖;组合选定实体的方法,例如组合不同实验的肽和蛋白质;过滤选定实体的方法:例如只提取在所有实验中确定的肽和蛋白质,以及对选定实体进行分组的方法,例如从相同组织或相同样本中获得的分组实验(图2)。1B).类似的,类MzMLExperiment,MzMLExperimentSet可以用来抽象的分析和分析原始吗MzML通过充当PyOpenMS图书馆[35].因此,使得能够与所识别的肽和其它组学层的光谱信息的集成。

组织类提供抽象的组织或细胞培养物的来源。它通过抽象组织分为三个主要部分,第一是组织的名字,第二个是表达谱, EP,总结了所提供组织中基因表达的相关信息细胞的位置, CL,它总结了关于组织蛋白质亚细胞室的信息。EP和CL都区分了作为组织主要成分的核心蛋白和可能作为介质蛋白或非宿主相关蛋白添加到组织中的辅助蛋白(图)。1C) 。班级蛋白质分别提供已识别的多肽和推断的蛋白质的抽象,以及它们之间的映射(图。1d)。最后,班级模块还包含在整个库中使用的其他类,例如数据库,这定义不同的数据容器,而特征类提供了一个易于使用和易于编程的接口,用于提取和操作UniProt中所有已知的蛋白质信息[36].最后,GOEngine充当…的包装GOATOOLS[37使基因本体论富集分析(GOEA)无缝地对已识别的蛋白质。

分析类使用的所有函数班级可视化模块,公用事业模块包含整个库使用实用工具和辅助功能。最后,可视化模块包含可用于可视化库生成的结果的函数。使用可视化功能使用Matplotlib[27],Seaborn[38),情节[28]解决不同的用例。例如Plotly-based功能可以无缝集成到猛冲框架构建强大的交互式仪表板。同时,SeabornMatplotlib可以很容易地集成Juypter笔记本[39]. 因此,该库可以很容易地与Python中使用最广泛的两个数据分析和可视化框架相结合。

IPTK还介绍了一些新的方法,使分析函数的计算结果可视化。例如,成对覆盖表示比较相同蛋白质在两种不同条件下的覆盖情况,或其泛化n-覆盖表示,它可视化任意数量的条件之间的覆盖情况。第二个例子是覆盖和注释图,它将蛋白质覆盖与UniProt上现有的知识结合在一起[36].

最后,为了将肽表达与蛋白质3D结构联系起来,该库使用强制表达,其中蛋白质的卡通表达用于捕获3D结构和覆盖阵列(免疫肽覆盖率作为距离度量)是用来构造颜色梯度,根据蛋白质的覆盖范围给每个氨基酸上色。强加的表示取决于nglviewer.[40),jupyter笔记本[39],以提供在网页浏览器上生成的表示的交互分析。

免疫肽覆盖作为距离度量

免疫肽覆盖的概念与DNA和RNA测序的深度相似。IPTK将覆盖范围定义为覆盖亲本蛋白中特定位置(即单个氨基酸位置)的独特免疫肽的数量。在内部,IPTK将每个亲本蛋白质的覆盖范围表示为与亲本蛋白质长度相同的数组,数组中的每个元素表示亲本蛋白质中相应位置的覆盖范围。因此,同一蛋白在不同条件下的覆盖度差异可计算为相应覆盖阵列在这些条件下的绝对差异之和。因此,覆盖范围相似的蛋白质得分较低,而覆盖范围不同的蛋白质得分较大。最后,该库将这个概念推广到计算实验之间的距离,通过对所有蛋白质的分数进行平均。

整合免疫肽组学和转录组学数据

如上所述组织类用来作为源组织的抽象,即从多肽中分离出来的组织。组织类的核心组成部分是被抽象组织的基因表达谱,它是一个包含特定组织中每个基因表达值的表格。IPTK允许用户提供自己的基因表达表,否则使用从人类蛋白图谱获得的默认表[41].

一旦转录组织层与免疫蛋白层连接,可以使用各种功能来提取关于两层之间的映射的生物识别。例如,比较从免疫肽体和未呈现的蛋白质中推断的蛋白质的基因表达,这可以提供更多关于基因表达对组织和病症的免疫肽体的影响的影响。或者,可以出口该信息并用于构建预测性HLA肽结合模型,该组合两层将这种知识推断为新的HLA等位基因或未研究的组织[42].

整合免疫多肽学和亚细胞室数据

与蛋白质组学相反,在蛋白质组学中,样品中的所有蛋白质都被消化和分析,免疫肽组学只关注由HLA加工机制预先选择和预先消化的肽集。因此,控制这些蛋白质选择的因素对理解免疫肽丘的形成是至关重要的。其中一个因素可能是亚细胞室,它可以控制hla加工机制对蛋白质的可及性。这在HLA-II的病例中尤其突出,溶酶体室的可用性是先决条件。因此,IPTK为将蛋白亚细胞室与免疫肽丘和其他组学层连接提供了支持。控件提供的抽象实现了这一点组织类,其操作方式与上面定义的转录组层相同。一旦这一层被连接起来,从每个隔室观察到的肽和推断蛋白的数量就可以计算出来,并在不同的实验中进行比较。有关亚细胞室的数据要么来自人类蛋白质图谱[41或由用户提供。因此,组织类提供获取每个蛋白质的亚细胞室的方法,而类GOEngine(IPTK设计和结构组件),提供的方法结块细胞成分信息,并提供有关在immunopeptidome各成分的富集的概述。

结合免疫肽组学和蛋白质结构

如上所述,通常蛋白质水解消化是自下而上蛋白质组学的一个重要步骤。在免疫肽组学中省略这一步。事实上,控制蛋白质裂解的因素对于理解抗原的处理和呈递是至关重要的。不同的因素可能会影响加工和呈现,如上文所述的细胞类型和加工机制,但也可能影响蛋白质的特定因素,如蛋白质的三维结构及其翻译后修饰(PTM)。

为了使三维结构与immunopeptidome的整合,IPTK有一个内置的下载和提取三维结构信息可支持对蛋白质数据库(PDB)43].这是通过首先查询UniProt的映射服务来实现的,以便将UniProt id映射到PDB id。在多个映射的情况下,即每个UniProt ID有多个PDB ID,则选择第一个PDB ID。或者,用户可以选择使用哪个ID,或者跳过映射步骤,直接提供PDB标识符。一旦获得了id,BIOPYTHON.用于下载和解析三维结构数据。最后,利用IPTK工具箱对结果进行分析,并将其与上面定义的其他组学层进行集成。

整合immunopeptidomics和分类数据

如上所述,免疫肽组学提供了一种强有力的技术来捕获所提出的肽组体内,这使它成为理想的技术,研究宿主 - 病原体相互作用。这意味着,在一些实验的设置,以生物分类学信息标注的immunopeptidome可能会提供有关的病原体或,一般来说,immunopeptidome的非主机组件的见解。为此,IPTK提供了内置支持标注每一个推断蛋白与它的起源。这可以用做OrganismDB类,该类用作将每个UniProt ID与起源生物体链接的映射。类的构造器可以提供包含映射的表,也可以提供包含UniProt FASTA格式序列的FASTA文件的路径,然后解析该文件并构建一个映射表,该映射表可用于注释推断的蛋白质。一旦对蛋白质进行了注释,该库就拥有了大量的功能集合,可用于根据分类信息对肽和推断的蛋白质进行子集、分组、移除和计数。

结果

IPTK工作流

数字2通过解析使用数据库搜索引擎识别的肽命中以及序列数据库来解析使用IPTK开始使用IPTK的典型分析工作流程。其次是建设实验和/或ExperimentSet通过肽与组织的基因表达和/或细胞位置、HLA等位基因、元信息等进行整合。一旦构建了这些对象,就可以应用上面定义的所有分析和可视化函数。

图2
图2.

使用IPTK库的典型工作流一个执行首先提供一个包含肽识别命中列表的文件,例如,在pepXML或者一个IDXML.格式,以及数据库搜索期间使用的序列数据库,然后由IO.模块生成输入的统一内部表示,称为标识表。B将所生成的识别表与关于样品的其它信息相结合,例如,大约其中组织(多个)已/已洗脱构建供体元信息实验对象,不同的实验可以组合对象以生成ExperimentSet对象。C(B),然后使用内置的方法或通过分析模块中定义的函数进行分析,每个实验可以单独分析,也可以通过组合和比较ExperimentSetAPI如上所述。D对(C)可以以图形方式导出情节Matplotlib库或者可以使用被写入到文件IO.用于进一步下游分析和集成的模块

用例1:分析hla -配体图谱数据库

作为第一个案例研究,我们首先分析了hla -配体图谱的数据[44数据库使用图书馆。考虑到不同的组织具有不同的加工能力,例如,通过表达不同的消化酶,我们首先通过观察位于推断的亲本蛋白中已识别肽的上游和下游的序列开始。从蛋白中提取n-mers后,iptk接口到MEME软件[45,用于计算附加文件中所示的相邻区域的主题1:图S1和图S2。

在组织间观察到的基序差异可能是不同组织的细胞外基质中表达或可用的不同蛋白质的结果。第二个因素可能是消化酶和加工酶的差异表达。有趣的是,比较不同个体之间相同组织的基序(附加文件1中:图S2)显示相当大的差异。这可能是HLA-变化,其中绑定到现有肽库的不同子集,因此不同的蛋白质或蛋白质的不同部分不同的等位基因呈现,导致个体之间的计算不同图案的结果。

之前,Chen等人[42]已经确定了基因表达作为成型HLA-II免疫肽体的主要贡献因子。为此,我们使用IPTK将可用的不同组织的免疫肽体与HLA-LigAnd Atlas进行整合[44]使用人类蛋白质图谱对这些组织的转录组进行分析[41分析基因表达对HLA-II肽段形成的影响。如附加文件所示1图S3,呈现蛋白和非呈现蛋白的基因表达有显著差异,证实了Chen等人之前的发现。

接下来,我们使用IPTK库比较不同组织之间的HLA-II免疫肽丘。使用了五种不同的方法来实现库:(1)成对肽重叠(附加文件1(2)肽水平Jaccard索引(附加文件1中:图S5),(3)成对蛋白重叠(附加文件1(4)蛋白水平Jaccard指数(附加文件)1中:图S7),和(5)成对immunopeptidomics覆盖率(作为距离度量的免疫肽组学覆盖率)(附加文件1:图S8)。在成对肽重叠中,以每对组织之间完全匹配的肽数作为相似性度量,而在成对蛋白质重叠中,以蛋白质水平重叠作为相似性度量。由于基于成对的方法可能会因每次实验中识别的肽或蛋白质的数量而存在偏差,IPTK支持基于jaccard的归一化方法,以解释不同组织的免疫肽丘大小的差异。在IPTK中,Jaccard-index的计算方法是用在一对实验中鉴定出的肽或蛋白质的数量,即在两个实验中都检测到的肽或蛋白质的数量除以在两个实验中鉴定出的唯一肽或蛋白质的总数。如上所述并在这里显示,这些组织之间的差异反映了HLA-II加工机制的复杂性,它对广泛的因素敏感,例如,蛋白表达水平,蛋白运输到溶酶体内室,加工酶的差异表达和hla等位基因的变异性。

鉴于不同组织的肽丘有相当大的差异,我们感兴趣的是对不同组织中相同蛋白质的表达进行量化。为此,我们使用n覆盖表示函数(IPTK设计和结构组件)来绘制的细胞外蛋白在12个不同的组织中的维生素d结合蛋白(图的覆盖阵列。3.). 如图所示,蛋白质的呈现部分在所有组织中普遍呈现,而其他区域显示更具组织特异性的模式。一方面,这可能反映了底层的加工机制,其中一些消化酶广泛表达,而另一些则表现出更严格的组织特异性表达。另一方面,这可能反映了同源性和冗余性,其中在某些组织中呈现同源蛋白质,并且由于与所研究蛋白质的同源性或共享蛋白质家族,假设呈现蛋白质的不同部分。

图3
图3.

用于供体AUT01-DN08的细胞外蛋白维生素d结合蛋白UniProt ID P02774的n-覆盖图。免疫肽丘数据来自于HLA-Ligand Atlas release 2020.6

用例2:描述初始细胞计数对鉴定的免疫肽丘的影响

作为第二个案例研究,我们使用IPTK研究初始细胞计数对HLA-DR免疫肽丘的影响。为此,我们从2个初始细胞计数(5 × 10)开始,捕获外周血单个核细胞(PBMCs)的HLA-DR免疫肽丘71 × 108细胞(数据生成)。首先,我们通过分析,确定了每个运行的肽的数量(图。4一种)。其次,我们使用成对肽 - 重叠查看四个样品中的重叠(图。4B),成对的蛋白质重叠(图。4C)和成对免疫肽覆盖(图。4D) 。如图所示。4a,增加初始细胞数与增加鉴定的肽数量相关联。有趣的是,重复之间的鉴定肽的绝对数量的变化在更高的细胞数下较高,即1×108细胞。这可能是抗体饱和的结果;然而,需要更多的重复来验证这一假设。

图4
图4.

使用两种重复和两种不同的起始细胞计数分析HLA-DR免疫肽丘。5 e7_r1第一次复制是5 × 107细胞,而5 e7_r2是具有相同初始细胞计数的第二个复制。1 e8_r1第一个复制是1 × 10吗8细胞1 e8_r2是使用相同细胞数的第二个复制。一个是在每个免疫肽丘中观察到的独特肽的数量。B是基于每对实验之间的肽重叠的卡斯特图。C是基于每对实验之间的蛋白质重叠的簇图。D是否使用免疫多肽覆盖作为距离度量的多维标度(MDS)图

为了更好地了解已鉴定的免疫肽组的起源,我们使用IPTK将已鉴定的免疫肽组与亚细胞室数据进行整合(整合免疫肽和亚蜂窝隔间数据)专注于具有最多唯一肽数量的复制。如图所示。5,大多数蛋白质具有未知的亚细胞位置,认为需要更好地表征蛋白质亚细胞室和定位。有趣的是,我们观察了从不同的细胞间隔中提取的蛋白质,再次显示了HLA-II蛋白在呈现细胞蛋白质状态中的重要性。为了了解不同细胞组分对免疫肽丘的贡献,我们对推断的蛋白质列表进行了GOEA(图)。6). 如图所示,与细胞外显子组、蛋白质分泌和再循环相关的隔间高度富集,这与先前的研究结果一致[44],并以HLA-II蛋白作为内体和溶酶体蛋白呈递体的生物学规律。

图5
图5.

从总PBMC HLA-DR免疫肽丘推测的蛋白质在不同亚细胞室中的分布。数据来源于1 × 108细胞并使用(数据生成)描述的协议

图6.
图6.

基因的总的HLA-DR immunopeptidome气泡情节本体富集分析(GOEA)PBMC推断蛋白质集中在细胞成分。x轴显示了FDR修正后的p值的对数变换,而气泡的大小反映了每一项的蛋白质数量。数据来源于1 × 108细胞并使用(数据生成)描述的协议

接下来,我们使用IPTK来研究每个推断的蛋白质的多肽数量的分布(图。7). 如图所示。7大多数蛋白质只有一个肽支持。然而,一些蛋白质有大量的多肽支持(图。7B) 。为了更深入地了解这一高度呈现的蛋白质子集,我们使用IPTK接口到UniProt,利用已有的知识和观察到的覆盖率,重点关注具有最高数量肽支持的蛋白质P04114。A.coverage-and-annotation图1中示出了蛋白质的图。8.如图所示,该蛋白高度糖基化,并有大量的二硫键,这可能会影响其在HLA-II机制中的加工和呈现,增加了HLA-II免疫肽丘形成的复杂性和控制力。有趣的是,这种蛋白质似乎也表现出高度的变异。这意味着,一个更个性化的序列数据库,例如,遵循蛋白质基因组学方法,是非常需要的,以捕获肽,将会错过使用参考数据库的免疫肽鉴定。

图7.
图7.

根据HLA-DR免疫肽组,使用1 × 108细胞作为起始材料。一个是一个密度图,显示了在所有推断的蛋白质中,每个蛋白质的多肽数量的分布。B最上面的是25个蛋白质,显示了观察到的肽的数量

图8
图8.

对载脂蛋白B-100,UniProt的ID的覆盖和注释情节:P04114。这coverage track shows the number of peptides obtained from the HLA-DR immunopeptidome of total PBMC using 1 × 108细胞作为起始材料。从Uniprot登录数据库2020。链轨道示出了该蛋白质的多肽链的位置腊的第五获得的蛋白的信息。“域轨道”的节目在蛋白质骨架已知结构域的位置。的“序列变体轨迹”表示在蛋白质已知变体的位置。的“糖基化轨道”显示在蛋白质的糖基化已知的位置,而“修改跟踪”显示任何已知的翻译后修饰的蛋白质中的位置(PTM)

最后,为了了解观察到的多肽在蛋白质的三维结构中的位置,我们使用IPTK接口到蛋白质数据库(结合免疫肽组学和蛋白质结构)连同报道阿拉以产生强加的表示。然而,考虑到载脂蛋白B-100 (PO4114)的结构目前尚不清楚,我们将重点放在被覆盖第二多的蛋白Ficolin-1 (O00602)(图。9).如图所示,肽呈现似乎起源于蛋白质上的特定区域(红色),并在呈现点周围逐渐减少(绿色),直到无法检测到,即未呈现(蓝色)。许多因素可以控制这种行为,例如加工机制、翻译后修饰、与其他多肽的竞争以及对HLA蛋白的亲和性。

图9.
图9.

Ficolin-1的强制表示(UniProt ID: O00602,对应的PDB ID: 2D39)。颜色梯度代表每个位置的覆盖率,其中蓝色代表低(覆盖率= 0),红色代表最高的覆盖率(覆盖率= 27)

用例3:开发交互式仪表板

如上所述,IPTK是可用于分析使用Python脚本immunopeptidomes一个工具箱,或它可用于开发其他工具和功能。为了证明这一点,我们使用猛冲框架情节[28构建一个仪表板,可以用来分析和检查免疫多肽数据,而无需任何脚本。图形用户界面(GUI)由四个主要面板组成。首先,输入面板,要求用户上传一个表包含识别多肽在一个用户定义的格式,序列数据库是FASTA文件包含源蛋白质序列,组织名称,可选地,hla等位基因,基因表达表和蛋白质定位表(附加文件1:图。S9)。该程序使用这些数据来生成类的实例实验这是其余面板的工作引擎。

第二个面板是可视化面板,它可以用来可视化所提供数据的不同方面,例如,每个蛋白质的肽的数量,每个亚细胞位置的肽的数量,等等(附加文件1:图S10A)。第三个面板是过滤面板,可用于从提供的数据推断出属于一个或多个生物体的多肽。最后,覆盖面板可以用来可视化推断的蛋白质的肽覆盖(附加文件1:图S10B)。

讨论

与不同的使用情况在此示出,IPTK库提供了immunopeptidomic识别管道的具有不同组学层的输出为组合丰富和深入的鉴定的肽的分析的强大和可扩展的框架。该库引入了一个广泛的,可用于分析数据在肽,蛋白质实用功能,并用类和方法来比较和整合不同实验的结果沿着实验水平。由于库的模块化特性,进一步扩展可以建立在它的上面,以扩展和增强其功能。

目前,图书馆的潜在限制是可扩展性,这可能影响性能,特别是关于集成和比较多个实验,即,当同时分析数百个实验时。目前,两种方法用于增强IPTK性能,首先使用即时编译Numba[46,主要用于加强数值计算。第二,多处理,用于在多个CPU核之间分配工作,即计算负载,使多个数据集可以并行处理。然而,目前的版本Numba提供对python构造子集的支持,而多处理可能会导致内存效率低和计算量大。因此,该库的未来版本将致力于通过用Rust语言重新实现计算密集型任务并将其绑定到库中来提高性能。然而,在目前的实验规模下,即有几十个实验,IPTK可以在普通桌面计算机上无缝操作。

结论

总之,我们认为,该库是研究和比较免疫肽粒的有价值的工具,并通过灵活和模块化的设计整合不同的组学层来丰富分析,以适应未来的扩展。除了提高速度和效率外,未来的工作应该集中在提高数据集成。这可以在IPTK框架内实现,通过实现接口集成其他组学数据,如基因组学、蛋白质组学和代谢组学。因此,能够更深入地理解HLA肽的呈现和免疫肽丘的形成。最后,一个重要的未来方向将是支持对已识别的免疫肽粒进行蛋白质推断,以及支持定量免疫肽组学。

数据和材料的可用性

图书馆的所有的源代码可在https://github.com/ikmb/iptoolkit.质谱蛋白质组学数据已被沉积在Proteomexchange中[47]通过PRIDE联盟[48使用数据集标识符PXD023032和https://doi.org/10.6019/PXD023032

缩写

雨:

乙腈

DNA:

脱氧核糖核酸

goea:

基因本体论富集分析

图形用户界面:

图形用户界面

HLA:

人类白细胞抗原

IPTK:

免疫酸化族工具包图书馆

质/女士:

液相色谱法与串联质谱

IO:

输入/输出

ID:

身份

LRS:

白细胞减少系统

MEME:

母题启发的多重期望最大化

女士:

质谱分析

MDS:

多维尺度

SLE:

系统性红斑狼疮

TFA:

三氟乙酸

铝:

翻译修饰

PDB:

蛋白质数据银行

PBMC:

外周血单个核细胞

PyPI:

Python包指数

RNA:

核糖核酸

工具书类

  1. 1.

    Shiina T, Hosomichi K, Inoko H, Kulski JK。HLA基因座图:表达、相互作用、多样性和疾病。J Hum Genet. 2009; 54:15-39。

    中科院文章谷歌学术

  2. 2.

    症结NB,伊拉希S.人类白细胞抗原(HLA)和免疫调节:怎么办经典和非经典的HLA等位基因调节人体免疫缺陷病毒和丙型肝炎病毒感染的免疫反应?前免疫。2017; 8:832。

    文章谷歌学术

  3. 3.

    丹德罗加利福尼亚州,彼得森J,罗森J,福格尔L。HLA变异与疾病。Nat Rev免疫。2018;18:325.https://doi.org/10.1038/nri.2017.143

    中科院文章PubMed谷歌学术

  4. 4.

    弗兰卡A,麦戈文DPB,巴雷特JC,王K,雷德福史密斯GL,艾哈迈德·T,等人。全基因组的荟萃分析增加到71证实克罗恩病易感基因位点的数量。NAT Genet。2010; 42:1118至1125年。https://doi.org/10.1038/ng.717

    中科院文章PubMed公共医学中心谷歌学术

  5. 5.

    授予Degenhardt女,迈尔G,Wendorff男,鲍彻G,Ellinghaus E,Ellinghaus d,等。溃疡性结肠炎人类白细胞抗原区域的Transethnic分析揭示,不仅共享,而且种族特异性疾病的关联。哼唱mol tenet。2021; 30:356-69。https://doi.org/10.1093/hmg/ddab017

    中科院文章PubMed公共医学中心谷歌学术

  6. 6.

    Hollenbach JA,Oksenberg JR.《多发性硬化症的免疫遗传学:综合综述》。J自身免疫。2015;64:13–25.https://doi.org/10.1016/j.jaut.2015.06.010

    中科院文章PubMed公共医学中心谷歌学术

  7. 7。

    DOSTAL C,Iványid,MacurováH,HANA I,Strejcek J. HLA抗原在系统性红斑狼疮。ann Rheum dis。1977; 36:83-5。

    文章谷歌学术

  8. 8。

    Sazonovs A, Kennedy NA, Moutsianas L, Heap GA, Rice DL, Reppell M,等。在克罗恩病患者中,HLA-DQA1*05与英夫利昔单抗和阿达木单抗抗药抗体的发展相关。胃肠病学。2020;158:189 - 99。

    中科院文章谷歌学术

  9. 9。

    Stern LJ, Calvo-Calle JM。HLA-DR:分子研究和疫苗设计。Curr Pharm Des. 2009; 15:3249-61。https://doi.org/10.2174/138161209789105171

    中科院文章PubMed公共医学中心谷歌学术

  10. 10.

    erhard f,dölkenl,席克林B,Schlosser A.识别神秘的HLA-I免疫肽体。癌症免疫res。2020; 8:1018-26。

    中科院文章谷歌学术

  11. 11

    张X,齐Y,张Q,基于质谱的MHC immunopeptidome在新抗原的识别肿瘤免疫治疗的剖析刘W.应用。生物医药药片。2019; 120:109542。

    文章谷歌学术

  12. 12

    德弗里斯N,蒂森H,范瑞尔P,范德普特LBA。重塑共享表位假说:类风湿性关节炎的HLA相关风险由HLA-DRB1分子67-74位氨基酸替换编码。2002年关节炎决议;4(补充1):26。

    文章谷歌学术

  13. 13

    Solleder男,纪尧姆P,RacleĴ,米修Ĵ,百H-S,穆勒M等人。基于质谱法immunopeptidomics导致磷酸化的Ⅰ类HLA配体的稳健预测。Mol细胞蛋白质组学。2020; 19:390-404。https://doi.org/10.1074/mcp.TIR119.001641

    中科院文章PubMed谷歌学术

  14. 14

    Sofron A, Ritz D, Neri D, Fugmann T.小鼠MHC II类免疫肽的高分辨率分析。Eur J Immunol. 2016; 46:319-28。

    中科院文章谷歌学术

  15. 15.

    Javitt A、Barnea E、Kramer MP、Wolf-Levy H、Levin Y、Admon A等。促炎细胞因子通过调节HLA-B表达改变免疫肽组的格局。前免疫球蛋白。2019;10:141.

    中科院文章谷歌学术

  16. 16.

    Nepom BS, Nepom GT, Coleman M, Kwok WW。-链残基57对HLA-DR和-DQ分子的肽结合能力的关键贡献。中国科学院院刊1996;93:7202-6。

    中科院文章谷歌学术

  17. 17.

    人类B细胞系上的两个类ia分子群。J Immunol。1980;125:293-9。

    中科院PubMed谷歌学术

  18. 18。

    基于质谱的mhc结合肽免疫多肽的鉴定。Nat Protoc。2019;14:1687 - 707。

    中科院文章谷歌学术

  19. 19。

    Schittenhelm RB、Dudek NL、Croft NP、Ramarathinam SH、Purcell AW。对自然加工和呈现的HLA-C*04:01(Cw4)特异性肽的组成进行综合分析。组织抗原。2014;83:174–9.

    中科院文章谷歌学术

  20. 20.

    Cox J, Mann M. MaxQuant能够实现高肽识别率,个性化p.p.b.s范围的质量准确性和蛋白质组范围的蛋白质定量。生物科技Nat》。2008;36:1367 - 72。

    文章谷歌学术

  21. 21.

    Perkins DN、Pappin DJC、Creasy DM、Cottrell JS。利用质谱数据搜索序列数据库进行基于概率的蛋白质识别。电泳。1999;20:3551–67.https://doi.org/10.1002/(SICI)1522-2683(19991201)20:18%3c3551::AID-ELPS3551%3e3.0.CO;2-2

    中科院文章PubMed谷歌学术

  22. 22.

    等。X ! !串联,一种跑步X的改进方法!T.和em in parallel on collections of commodity computers. J Proteome Res. 2008;7:293–9.https://doi.org/10.1021/pr0701198

    中科院文章PubMed谷歌学术

  23. 23

    格尔LY,马基SP,Kowalak JA,瓦格纳L,许呒,梅纳德DM,等人。打开质谱搜索算法。J蛋白质组。2004; 3:958-64。https://doi.org/10.1021/pr0499491

    中科院文章PubMed谷歌学术

  24. 24

    张晓东,张晓东,张晓东,等。MHCquant:用于免疫肽组学的自动化和可重复数据分析。J Proteome Res. 2019; 18:3876-84。https://doi.org/10.1021/acs.jproteome.9b00313

    中科院文章PubMed谷歌学术

  25. 25

    文斌,李凯,张永强,张宝龙。基于蛋白质基因组学的肿瘤新抗原优先级分析。Nat Commun。2020;11:1759。https://doi.org/10.1038/s41467-020-15456-020-15456 -038

    中科院文章PubMed公共医学中心谷歌学术

  26. 26

    张志强,杨志强,张志强,等。整合的蛋白质基因组深度测序和分析可以准确地识别肿瘤免疫肽丘中的非典型肽。Nat Commun。2020;11:1-21。

    谷歌学术

  27. 27.

    猎人JD。matplotlib:2D图形环境。计算SCI ENG。2007; 9:90-5。

    文章谷歌学术

  28. 28.

    Plotly技术公司2015.https://plot.ly.

  29. 29.

    van der Walt S,Colbert资深大律师,Varoquaux G。NumPy阵列:一种高效数值计算的结构。计算机科学与工程2011;13:22–30.https://doi.org/10.1109/MCSE.2011.37

    文章谷歌学术

  30. 30.

    麦金尼W.数据结构在Python统计计算。在:科学会议第九届蟒蛇的诉讼。2010年。

  31. 31.

    张海涛,张海涛,张海涛,等。bioython:用于计算分子生物学和生物信息学的免费Python工具。生物信息学。2009;25:1422-3。

    中科院文章谷歌学术

  32. 32.

    Levitsky李,克莱因JA,伊万诺夫MV,MV戈尔什科夫。Pyteomics 40:五年一个Python蛋白质组学框架的发展。J蛋白质组。2019; 18:709-14。

    中科院文章谷歌学术

  33. 33.

    Eng JK, Hoopmann MR, Jahan TA, Egertson JD, Noble WS, MacCoss MJ。更深入地了解彗星的实现和特性。J Am Soc质谱。2015;26:1865-74。

    中科院文章谷歌学术

  34. 34.

    金S,Pevzner PA。MS-GF +,使迈向蛋白质组学通用数据库搜索工具的进展。NAT Communce。2014; 5:1-10。

    谷歌学术

  35. 35

    Röst HL, Schmitt U, Aebersold R, Malmström L. pyOpenMS: OpenMS质谱算法库的基于python的接口。蛋白质组学。2014;14:74-7。https://doi.org/10.1002/pmic.201300246

    中科院文章PubMed谷歌学术

  36. 36

    贝特曼A。UniProt:全球蛋白质知识中心。《核酸研究》2019;47:D506-15。

    文章谷歌学术

  37. 37

    Klopfenstein DV,Zhang L,Pedersen BS,Ramírez F,Warwick Vesztrocy A,Naldi A,et al.GOATOOLS:用于基因本体分析的Python库。Sci代表,2018年;8:10872.https://doi.org/10.1038/s41598-018-28948-z.

    中科院文章PubMed公共医学中心谷歌学术

  38. 38

    Waskom ML。seaborn:统计数据可视化。Ĵ开源软件。2021; 6(60):3021。

    文章谷歌学术

  39. 39.

    Kluyver T,拉根-凯利B,佩雷斯楼格兰杰B,Bussonnier男,弗雷德里克J,等。Jupyter笔记本电脑,一个可重复计算的工作流程发布格式。在:定位和学术出版强国:对电子出版的第20届国际会议的球员,经纪人和议程,程序,ELPUB 2016年2016年

  40. 40。

    玫瑰花,布拉德利ar,瓦斯图拉维,副jm,prlic a,玫瑰pw。NGL Viewer:大型复合物的基于Web的分子图形。生物信息学。2018; 34:3755-8。

    中科院文章谷歌学术

  41. 41.

    UhlénM,Fagerberg L,HallströmBM,Lindskog C,Oksvold P,Mardinoglu A等。基于组织的人蛋白质组。科学。2015; 347(6220)。

  42. 42.

    陈斌,刘春林,刘春林,等。综合深度学习预测HLA II类抗原呈递。生物科技Nat》。2019;37:1332-43。https://doi.org/10.1038/s41587-019-0280-2

    中科院文章PubMed公共医学中心谷歌学术

  43. 43.

    Berman HM,Westbrook J,Feng Z,Gilliland G,Bhat TN,Weissig H等。蛋白质数据库。核酸研究,2000年;28:235–42.

    中科院文章谷歌学术

  44. 44.

    马库A,Bichmann L,Kuchenbecker L,Backert L,Kowalewski DJ,Freudenmann LK等。HLA配体阿特拉斯:HLA-呈递的肽的良性参考改进基于T细胞的癌症免疫疗法。ĴImmunother癌症。2021; 9:e002071。https://doi.org/10.1136/jitc-2020-002071

    文章PubMed公共医学中心谷歌学术

  45. 45.

    通过期望最大化拟合混合模型发现生物聚合物中的基序。Proc Int Conf Intell Syst Mol Biol. 1994。

  46. 46.

    Numba:一个基于llvm的Python JIT编译器。见于:关于HPC中LLVM编译器基础结构的第二次研讨会。美国纽约州:计算机协会;2015.

  47. 47

    德语EW,班代拉N,夏尔马V,佩雷斯 - Riverol Y,卡弗JJ,Kundu的DJ,等人。该ProteomeXchange财团在2020年实现“大数据”在蛋白质组学方法。核酸RES。2020; 48:D1145-52。

    中科院PubMed谷歌学术

  48. 48

    佩雷斯 - Riverol Y,Csordas A,白Ĵ,贝纳尔-Llinares男,Hewapathirana S,Kundu的DJ,等人。骄傲的数据库和相关的工具和资源,在2019年:改善定量的数据支持。核酸RES。2019; 47:D442-50。https://doi.org/10.1093/nar/gky1106

    中科院文章PubMed公共医学中心谷歌学术

下载参考

确认

不适用

基金

由Projekt DEAL支持和组织的开放获取资金。HE和MW是由德国研究基金会(DFG)(研究训练组1743,基因,环境和炎症)资助的。TK和AT得到了“炎症精准医学”卓越集群(RTF-V)的支持。PB由德国研究基金会(DFG)根据德国的485卓越战略EXC 2167-390884018慢性炎症精准医学支持。这些资助机构不参与数据的设计、收集、分析和解释,也不参与手稿的撰写。

作者信息

从属关系

作者

贡献

他、MW、AF、PB、FD、TL设计并构思了该研究。他开发并设计了这个图书馆。他和AKK进行了HLA-DR血液免疫肽组实验。TK和AT进行质谱测量。他和MW分析了结果。他写了手稿。所有作者都阅读并批准了最终手稿。

相应的作者

通信安德烈·弗兰克

道德宣言

伦理批准和同意参与

白细胞减少系统(LRS)室中,来自德国的知情同意后(伦理委员会UKSH基尔,标识符D578 / 18)研究所输血医学,UKSH基尔,获得。

同意出版物

不适用。

相互竞争的利益

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

额外的文件1。

补充材料和图。

权利和权限

开放存取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/. 知识共享公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条中提供的数据,除非数据信用额度中另有规定。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

埃拉卜德,H.,德根哈特,F.,库德尔卡,T.。et al。Immunopeptidomics工具箱库(IPTK):基于Python的模块化工具箱用于分析immunopeptidomics数据。欧宝娱乐合法吗22日,405(2021)。https://doi.org/10.1186/s12859-021-04315-0

下载引用

关键字

  • HLA
  • Immunopeptidomics
  • 抗原处理和呈递
  • 计算免疫学
  • 交互式数据分析