跳过主要内容

SwarmTCR:预测T细胞受体特异性的计算方法

抽象的

背景

随着越来越多的T细胞受体序列数据变得可用,对预测T细胞受体特异性的生物信息学方法的需求变得更加迫切。在这里,我们提出了SwarmTCR,一种使用标记序列数据预测T细胞受体特异性的方法,使用最近邻方法。SwarmTCR通过优化单个CDR区域的权重来最大化分类性能。

结果

我们比较了SwarmTCR与另一种最近邻方法的性能,结果表明SwarmTCR在批量测序数据和单细胞数据上都表现良好。此外,我们还证明了SwarmTCR返回的权重在生物学上是可解释的。

结论

计算地预测T细胞受体的特异性可以是对免疫反应的强大工具,免受传染病和癌症,自身免疫,癌症免疫疗法和免疫病理学。SwarmTCR根据GPL-3许可的条款自由分发。源代码和所有排序数据可在GitHub中获得(https://github.com/thecodingdoc/swarmtcr.).

同行评审报告

背景

自适应免疫系统在遏制感染和癌症免疫训练中起着关键作用,定义为身体通过免疫系统巡逻,具有激活的癌前和癌细胞[1].CD8 + T淋巴细胞是抗病毒反应和癌症免疫抑制的关键细胞类型之一。它们通过结合在高度多态性分子表面上呈现的含有T细胞受体(TCR)的高多态性分子表面上呈现的小肽进行其功能。TCR是含有的跨膜蛋白\(\α \)\(\ beta \)\γ(\ \)\(\ delta \)链条,内部是三个循环,称为互补性确定区域(CDR)。CDR循环的特点是各种系列循环(CDR1和CDR2)和超变量CDR3环,这是体细胞复合的产品[23.].这些CDR环负责与肽/MHC (pMHC)复合物相互作用。TCR序列的多样性主要集中在CDR区域,数量非常大,在人类中估计超过10个\ (^ {20} \)可能的截然不同的受体[4.].

个体拥有的tcr集合被称为T细胞库,它是由感染历史和随机因素随时间而形成的,反过来又负责决定免疫反应的结果。T细胞库分析的最终目标之一是仅使用序列信息预测个体T细胞的特异性[2].这需要通过计算分析个体外周血中CD8+细胞的TCR序列来确定每个TCR能够识别的肽的身份。为了实现这一目标,需要更多高质量的TCR测序数据和肽结合信息特异性。在测序方面,尽管TCR测序数据的可用性仍然相当有限,但该领域已经取得了稳步的进展和技术进步[5.].

目前可用于测序TCR的两个主要技术:(1)单细胞(SC)测序和(2)批量序(BS)。SC TCR测序技术允许重建具有配对的TCR的完整序列\(\α \)\(\ beta \)链序列信息,但其成本仍在限制可用数据的数量。相比之下,BS技术更实惠,并且产生了大量的数据,但重建了正确的数据\(\α \)\(\ beta \)在TCR内的链对是不可能使用这种技术的。

能够映射人类曲目的特殊性可以用强大的新工具来研究自身免疫,癌症免疫疗法和免疫病理学[6.].然而,这些方法要广泛应用,关键是要对T细胞库进行深入采样,并在多个个体中进行采样,以及使用计算方法来解释与pmhc绑定拓扑的多样性。在这里,我们介绍了SwarmTCR,一种预测I类MHC/肽复合物tcr特异性的计算方法,优于基于最近邻的方法TCRdist [2]的数据。

TCRdist使用最近邻方法,将TCRs之间的成对序列比对评分作为接近测度。这两条链的权重相等,CDR3区域的权重是其他CDR区域的三倍。虽然这是一个合理的选择考虑的重要性CDR3上肽绑定,它没有考虑这一事实两个链和区域内部可能有不同程度的参与pMHC绑定,根据所呈现的肽和MHC类型。在最近的一项研究中,我们设计了一套非冗余的TCR/pMHC晶体结构,并探索了TCR/pMHC配合物的结合拓扑和接触残基的数量(\ (\ \)4.5 [7.)由\(\α \)\(\ beta \)链接pmhc [8.].我们的结果表明,TCR的结合角度和使用的可变\(\α \)(7-25触点)和\(\ beta \)(6-22触点)链接与PMHC接触。我们还计算了对PMHC的Alpha和Beta触点的数量,确定了触点的比率(\(\ alpha / \ beta \)比率)为每个结构。在一些综合体中\(\α \)链条与PMHC的互动较多比\(\ beta \)链(corr。\(= 0.77,p <1.6 x 10 ^ { - 14} \)),而在其他复合体中\(\ beta \)进行了更多的互动\(\α \)链(corr。x 10^{-12}\ (= 0, p < 0)).在其他复合物中,我们看到了几乎相同的数量\ \(α、β\)与PMHC的互动(\ \ (sim \)每连续15次触点)。总之,这些结果表明了广泛的结合识别模式,应该反映在计算方法中以预测TCR结合特异性。

图1
图1

整体方法。这里说明了单小区数据的模型。每个CDR环路的重量由优化步骤确定,随后在测试组上测试以评估肽预测性能

图2
图2.

晶体结构中的接触残基。这里显示的复合物(PDB ID: 4G8G, peptide: krwilglnk和PDB ID: 2VLR, peptide: GILGFVFTL)表达了对SwarmTCR的需求。4G8G综合体演示了一个\(\α \)驱动的互动和2vlr相反,a\(\ beta \)驱动的互动。所有蛋白质链(包括CDR环绕)都是颜色编码的,以补充每个结构下方的表格。表显示每个CDR环路和目标结构中的接触残留量

作为利用这些发现的第一步,我们开发了SwarmTCR,这是一种预测TCR特异性的方法,在交叉验证设置中,基于分类准确性自动学习分配给每个CDR区域的最优权重集(图)。1).除了CDR1,CDR2和CDR3之外,该方法还包含CDR2.5区域(可以与PMHC相互作用的CDR2和CDR3之间的环路,如[2]),每个链共有四重重量。通过以肽特异性方式直接优化CDR区域的权重,我们的方法会自动占据在晶体结构中记录的PMHC识别的多样性(参见方法)。

我们将我们的方法应用于SC和BS数据,并将其与TCRDist的性能进行了比较。除了在大多数情况下比TCRDIST更好地进行,SC序列数据中的父群返回的权重可以潜在地通知用户两条链识别PMHC复合物的贡献。

结果

群体的分类表现

开发育群的理由是受体\(\α \)\(\ beta \)链可以参与肽识别到可变程度。数字2显示了TCR/pMHC配合物的两种晶体结构,直观地说明了\(\α \)\(\ beta \)根据所识别的肽,链可以参与PMHC结合到截然不同的程度。在图1所示的示例中,2,在与pMHC接触的残留物总数中,有一个TCR (PDB ID: 4G8G [9.)有16 (59%)\(\α \)链残基和11 (41%)\(\ beta \)与pMHC接触的链残基,而另一个[10]有9(39%)\(\α \)链条残留物和14(61%)\(\ beta \)链残基与pMHC接触。这与文献中的结果一致[8.].

基于这一观察结果,SwarmTCR优化了用于计算支持最近邻分类方法的CDR对齐分数的权重。相比之下,以前预测TCR特异性的尝试(TCRdist方法)使用的是静态加权方案\(\α \)\(\ beta \)链贡献和固定的CDR环权[2].SwarmTCR方法不假设链或CDR环的重要性,而是以肽特定的方式学习权重。

图3
图3.

CDR权重和性能。这些箱线图总结了SwarmTCR的结果,并与TCRdist进行了比较。一种CSC和BS SwarmTCR结果描述为每个ReptoIre的每个CDR环路(X轴)选择的权重(Y轴)描述。B.D.SC和BS性能比较SwarmTCR和TCRDIST对每个曲目(X轴)的平均精度分数(y轴)进行比较。P.- 用于性能比较的值由两个样本独立的T检验定义

图4
图4.

Precision-Recralcr曲线为群体和TCRDist。这些精确召回曲线显示群体对50个交叉验证迭代的数据的性能。TCRDist平均曲线是蓝色的,群体曲线曲线是红色的,而阴影区域覆盖一个标准偏差

几种多肽优化权重的均值和标准差如图所示。3.(附加文件中的数值1:表1),以及育南部和TCRDIST的分类表现[2],单独用于SC和BS数据。为了测试结果的稳健性,我们使用来自不同置信阈值(0,2,3)的IEDB的TCR重复相同的分析(0,2,3),获得类似的结果(请参阅方法和附加文件1此外,在缺乏真实的阴性数据(即显示哪些TCR没有与特定的表位结合的数据)的情况下,我们利用我们现有的单细胞数据,对所有TCR序列的每个链内的CDR区域(alpha和beta)进行随机洗牌。正如预期的那样,我们观察到几乎所有曲目在精度上都有显著的损失,而IAV-M1在精度上的损失不那么明显(见方法和附加文件)1:表2)。

可以在附加文件中找到接收器操作特性曲线(AUROC)分析下的附加区域1:表3,SC真实阳性率(TPR)/误报率(FPR)Boxplots在附加文件中1:图。1和2,以及其他文件中的BS TPR / FPR Boxplots1:图。3和4。

单细胞测序

SC数据提供配对\ \(α、β\)链信息,即完整的TCR序列。由于我们已经对SC数据进行了配对,因此针对SC数据的SwarmTCR优化过程涉及到使用8个单独的权重\(\α \)\(\ beta \)链序列。我们的SC分析结果显示出对非CDR3环上的相对高的重量,尽管CDR3区域对几种肽具有高重量(图。3.一个和附加文件1:图。5)。有趣的是,在EBV YVL肽和黄热病LLW(肽:LLWNGPMAV)肽的情况下,育媒体的优化程序将更多的重量分配给\(\α \)连锁,建议\(\α \)\(\ beta \)链在TCR肽识别中可能或多或少具有突出的作用,这取决于肽,这与图中所示的例子一致。2和以前的文献[8.].

通过查看图1中的结果。3.B和图1中。4.B(额外的文件1:表1),我们可以看到TCRDist的分类性能之间的最大差异[2育种者为EBV YVL和GLC肽。这些肽的优化重量基本上不同于固定的TCRDIST重量。基于优化的权重,YVL似乎有利于\(\α \)链如上所述,只有CDR2\(\ beta \)比它重\(\α \)同行。这与文献中的结果一致[11].

所有SC肽的PR曲线都显示在附加文件中1:图。6,AUROC会导致附加文件1:表3,SC TPR / FPR框框在附加文件中1:图1和图2。阳性(即binding) tcr和阴性(即“non binding”)tcr的测试和参考tcr之间的校准分数分布见附加文件1:图7所示。对于大多数抗原决定簇(NLV除外,它的表现很差),我们可以观察到阳性和阴性分值很清楚。

群体的重量与结构接触相关联

图5
图5.

晶体结构中SwarmTCR权重和接触残基的比较。这些情节比较\(\α \)\(\ beta \)使用已知的晶体结构作为基线的育媒体和TCRDIST的链使用。X轴详细介绍了每个曲目的链的归一化重量,并且根据晶体结构平均触点的升序按升序排序Y轴。阴谋一种包括对肽和图的CDR环路触点的数量B.包括对PMHC的CDR环路触点的数量。Pearson和Spearman统计数据位于传说的右侧

图6
图6.

数据分配。两个BS的数据分配(一种)和sc(B.)模型如上所述。所有TCR均按比例分成样品和参考集。如文献中所述,相同的SC参考组用于训练和测试(由于数据丰富,在BS分析中没有必要)。标记的肽特异性TCR的亚群是对由群体测试的肽特异的TCR组

我们进一步探讨了育群的潜力通过从TCR / PMHC晶体结构CDR区域提取接触残留计数(参见方法)来推动与PMHC结合的TCR链使用。数字5.A表明swartcr生成的权重具有统计学显著性(PCC = 0.812,\(P <0.05 \))与TCRDIST相比,TCR /肽接触的实际链用量(PCC = 0.484),\(P <0.331 \)).

虽然包括包括MHC触点时的触点的数量增加(图。5.B), SwarmTCR权重保持较强的相关性(PCC = 0.827,\(P <0.042 \))与TCRDist相比(PCC = 0.645,\(P <0.166 \)).我们对CDR区域执行了相同的分析(附加文件1:图。8,9和10),获得较低的相关值。但是,育群似乎似乎捕获了具有高触点计数的种系环。可以在附加文件中看到所有PDB结构的联系计数1:图11和12。

大部分测序

正如在介绍中提到的,与SC测序相比,批量测序只产生序列\(\α \)或者\(\ beta \)tcr链,但不是两者。SwarmTCR优化程序的执行方式与SC相同,除了优化的权重是4而不是8,因为我们没有配对\(\α \)\(\ beta \)连锁序列,含有CDR1,CDR2,CDR2.5和CDR3区域,总共4重量。与SC数据相比,BS数据上的结果显示在CDR3环上的重量更大,表明在仅使用一个链时预测TCR数据的特异性的重要性。尽管 [2]将CDR3循环分配三倍CDR1,CDR2和CDR2.5区域的重量,SwarmTCR分配到其他地区重量的4至64倍之间的CDR3(使用平均重量为量度),可以在图中看到。3.C和附加文件1:图。13. DASH等人的群体重量与原始权重之间的这些差异。[2对GLC和YVL多肽的分类性能有很大的影响\(\ beta \)链条(图。3.d)。

数字4.C和D显示了一个代表性肽(EBV YVL)的精确召回(PR)曲线,该曲线是通过平均50条曲线得到的,阴影区域代表平均值上下一个标准差。SwarmTCR优于[2]对于这两个链条,对此具有更大的改进\(\ beta \)链(AUCPR 0.85,优化的重量与0.74与原版TCRDIST重量))。所有BS肽的PR曲线都显示在附加文件中1:图14,AUROC结果在附加文件1:表3,SC TPR / FPR框框在附加文件中1:图。3和4。

讨论

我们介绍了SwarmTCR,一种计算方法,用于预测TCR特异性,通过识别最佳CDR权重来最大化最近邻框架内的分类性能。与用固定的TCRDIST重量获得的结果相比,整体群体表现得更好,一些肽显示比其他肽更大的改善(图。4.).我们注意到,在最糟糕的情况下,如果在PSO步骤中产生最大性能,则具有足够的数据纵容,始终可以返回TCRDist使用的权重。

在比较SC和BS数据的CDR权重时,我们注意到两种数据类型的结果存在明显差异。特别地,我们发现SwarmTCR在BS数据中赋予CDR3区域更多的权重,而SC数据的结果显示胚系CDR环的权重相对较高。由于SC数据集的规模较小,TCR基因家族的多样性可能比BS数据集低得多。因此,SC数据集中较低的基因家族多样性可以部分解释SC数据中基因家族(种系循环)较高的预测能力。这两种数据类型权重不同的另一个原因是SC中成对链信息的存在,其中TCR基因的组合\(\α \)\(\ beta \)可以通过优化方法选择链接。需要更多SC数据来进一步阐明问题。与两个数据集之间的大小的大小相一致,SC结果显示出比BS结果的性能和体重选择的更高方差。

计算方法的性能,典诞度和鲁棒性取决于用于培训的数据的质量。使用像IEDB和VDJDB这样的公开数据库时要考虑的重要警告是它们可能包含在特定实验上下文中获得的数据,而未进一步验证。例如,像CD8 +细胞的旁观者激活等混淆因素(即,与TCR无关的T细胞的激活[12])可能导致TCR特异性的不正确分配。

需要考虑的一个重要问题是,优化后的权值是否也可以解释为反映链和CDR的使用情况。换句话说,如果一个链或一个CDR区域在优化步骤中获得了较高的权值,这是否意味着它也与pMHC有大量的接触?我们的结果表明,优化后的权值可以指向可能的TCR链和CDR循环的使用情况,如图所示。3.一种,5.,以及附加文件1:GIL TCR / PMHC晶体结构表1(图。2, PDB ID: 2VLR)\(\ beta \)连锁优势和CDR2\(\ beta \)循环用法。

最近的一项研究[11证实了这些发现,解释了CDR1\(\ beta \)和cdr2.\(\ beta \)以及CDR3在pMHC识别中的作用\(\ beta \)在肽和MHC之间的一个口袋里,有一个保守的精氨酸\(\α \)2螺旋。此外,本研究解释了CDR3\(\ beta \)的序列保守性和显著的变异性\(\α \).这可能解释了swartcr的加权结果(GIL,图。3.)尽管2VLR TCR / PMHC结构中的触点数量。我们还注意到,YVL和LLW曲目的重量结果与本研究的结果对齐,表明了这一研究的重要性\(\α \)pMHC识别链[11].

然而,在结构意义上解释权重时必须谨慎。如上所述,权重是优化过程的结果,该优化过程旨在最大限度地提高分类性能,除了结构重要性之外,其他因素也可以在确定最优权重方面发挥作用。如果我们考虑到提到的晶体结构和文献,我们的BS加权结果和差异显示在附加文件中1:图8、9、10。尽管如此,给定大量的TCR序列数据,肽特定的最优权重可以为阐明TCR/pMHC相互作用提供有用的信息。

基于序列的推断TCR特异性的方法由于其计算效率和序列数据的可用性而具有吸引力[26.13].然而,结构数据继续提供信息,扩展,有时挑战我们目前对TCR/pMHC相互作用的理解。例如,一项研究发现CDR3均值之间存在很强的负相关\(\α \)\(\ beta \)充电和肽电荷[2].另一项研究[3.]显示了交叉反应多肽虽然具有不同的肽序列,但具有相似的pMHC特征(结构基序和静电势)。这些发现表明,对进一步改进预测方法而言,将结构信息考虑在内是非常重要的。然而,在实验水平(生成更多的晶体结构)和计算水平(可靠和可扩展的tcr和pMHC复合物建模)都需要做更多的工作。

结论

能够可靠地预测TCR特异性将推动许多学科的界限,包括疫苗设计,免疫疗法,癌症研究以及新方向上的疾病检测/预防。在这里,我们已经引入了SwarmTCR,是最接近的邻近方法,通过最大化分类性能来优化CDR权重。SwarmTCR在SC和BS数据上是基准测试,并与最先进的方法进行比较TCRDist。结果表明,育群地步改善了最近邻的分类方法的性能,并且在训练阶段产生的CDR重量倾向于与晶体结构中CDR区域所制作的触点的数量相关。

方法

识别序列数据

CD8+ TCR SC和BS数据来源于:(1)马萨诸塞州Selin和Luzuriaga实验室;(2) VDJdb [14];和(3)IEDB [15].

Selin和Luzuriaga实验室获得的数据包括从HLA A:02:01-restricted, naïve和与YVL结合的肽特异性CD8+ T细胞(EBV-BRLF1)中分离的TCRs109:HLA-A:02:01限制,肽:YVLDHlivv),GLC(EBV-BRLF1300:HLA-A:02:01限制,肽:Glctlvaml)和Gil(IAV-M158:HLA-A:02:01限制,肽:Gilgfvftl)。从四个成种供体的外周血单核细胞(PBMC)的CD8 T细胞的EXVivo单细胞测序获得SC数据。有关这些数据的进一步资料,请参阅[11].BS数据来自于对三名成年供体外周血浆细胞CD8 T细胞的体外批量测序。有关这些数据的进一步资料,请参阅[16].

来自VDJDB的人类数据于2018年1月下载,其中配对的TCR信息由匹配索引值表示,未配对链具有0.完成SC数据的索引值(信心值\通用电气(\ \)1)从免疫肽数据库(IEDB)添加到我们的数据集,并用作所有分析的默认值。为了测试结果对数据组合的敏感性,我们还构建了具有置信度的IEDB数据集\(\ ge 0 \)\(\ ge 2 \),\(\ ge 3 \), 分别。总共,我们的默认SC数据集包含1447个TCR,BS\(\α \)21,207条链,BS\(\ beta \)25,927链(对于完整的数据集计数,请参阅附加文件1:表4)。数据可用于从Github存储库下载。

CDR信息

我们预测TCR特异性的方法需要TCR基因家族和完整的CDR3序列。为此,我们从国际免疫遗传学信息系统基因数据库(IMGT/ Gene - db)检索了所有人类种系CDR环信息[17].CDR1和CDR2循环可以直接从数据库中检索。然而,如所讨论的,需要从IMGT取向序列中提取来自IMGT取向序列的CDR2.5,并且由螺纹对准列81-86中的残基限定(具有IMGT间隙的F + ORF +内氨基酸序列)dash等人。[2].将数据转化为蛋白质序列后,通过去除重复的TCRs(序列标识),生成非冗余数据集\ \ (< 100 \ %)).

洗牌CDR.

由于我们无法获得真正的阴性数据(即显示哪些tcr没有与特定的表位结合的数据),我们随机打乱了每个CDR区域\(\α \)\(\ beta \)链条,测试是否会观察到精度损失。在将受体分配到火车和测试集之前,每个TCR的CDR区域都会被播放。

基线的方法

我们实施了TCRDist [2]作为根据其肽特异性对tcr进行分类的基线方法。TCRdist基于最近邻法,TCRs之间的距离由TCRs之间的蛋白质序列比对评分得出。使用BLOSUM62基质,使用CDR环1、2、2.5和3在任意两个tcr之间进行蛋白质比对。随后,cdr1、2和2.5的权重为1,CDR3的权重为3。最后,使用CDR环对齐评分的加权和作为接近测度,并赋予tcr最近邻的肽特异性[2].

SwarmTCR

SwarmTCR背后的主要想法是,“重要性”\(\α \)\(\ beta \)链条以及这些链内的CDR区域根据所识别的肽而变化,如文献中所述[8.].为了反映这一点,SwarmTCR以肽特定的方式学习8个CDR循环的最优权值。SwarmTCR探讨了八维(SC数据)或四维数据(BS)空间的CDR权重粒子群优化(PSO),建立了优化技术灵感来自自然植绒的鸟类的行为被证明能实现良好的性能在各种优化的环境中(18].

重量在TCRDist中完成的最近邻居框架中使用。我们将其框架作为优化问题,其中目的是识别一组权重,以通过平均精度(AP)(EQ)(EQ.1)测量的分类性能。选择AP作为解决不平衡数据集的问题的目标函数(附加文件1:表4),如[19].我们使用粒子群优化算法(PSO)对训练集进行权值优化和AP最大化。

$ $ \开始{对齐}{\文本{美联社}}= \ _ {k = 1} ^ n P (k)δr (k) \ \{对齐}$ $
(1)

AP由精密召回曲线的每个位置的总和确定在其中K.是检索到的tcr的等级,N.是tcr的数量,P.K.)是截止时的精度K.,\δr (k) (\ \)是召回的变化吗\(k - 1 \)K.[20.].

在PSO颗粒中最初以随机置于多维空间,每个颗粒表示可能的优化问题的可能解决方案。在每次迭代中,粒子移动速度载体,该速度矢量是颗粒的局部最佳函数和全球最佳的函数。速度(\ (\ mathbf {v} \))和位置(\(\ mathbf {p} \))粒子的一世在每个时间步骤更新T.根据EQ。2和3:

$ ${对齐}\ \开始mathbf {v} _i ^ {t + 1} & =ω\ * \ mathbf {v} _i ^ t + c1 * r1 * (\ mathbf {pb} _i - \ mathbf {p} _i ^ t) + c2 r2 * * (\ mathbf {pb} _g - \ mathbf {p} _i ^ t) \{对齐}$ $
(2)
$$ \ begined {senugented} \ mathbf {p} _i ^ {t}&= \ mathbf {p} _i ^ t + \ mathbf {v} _i ^ {t + 1} \ end {对齐} $$
(3)

在哪里ω\ (\ \)惯性因子设置为0.5,C1和C2的缩放因子设置为0.5,R.1和R.2是0到1之间的两个随机数,\ (\ mathbf {pb} _i \)粒子的位置是多少一世这导致了迄今为止目标函数的最佳值,而\(\ mathbf {pbest} _g \)是全局最佳值(即所有粒子到目前为止的最佳值所对应的位置)。

如果群移动,优化将被设置为终止\ \ (le 10 ^ {8} \)从它的最佳位置或如果群的最佳目标值的变化是\ \ (le 10 ^ {8} \).群集大小设置为25,最大迭代次数为20次。

父亲的模型

我们定义为“培训集”,用于获得最佳重量集的TCR,最大化平均精度,并测试设置为评估最佳权重的性能的TCR。在两组中,我们具有包含标记为TCR的引用子集和最近邻近的样本子集,即与参考子集进行比较以推断TCR的肽标签。

由于数据可用性不同,SC和BS数据的训练和测试集构造不同,BS数据比SC数据丰富得多。对于BS,训练集和测试集使用50/50的分割填充,训练集和测试集都将特定肽的一半tcr放入参考子集,其余的放入样本子集(图)。6.一种)。

对于SC,将肽特异的所有TCR的30%放入训练和测试集的参考子集中。由于SC数据有限的量(见附加文件,在训练和测试中使用相同的参考子集(请参阅附加文件1:表4)。为了创建用于训练和测试的样本子集,剩余的70%(TCR特异性)再次发生70/30分裂(图。6.b)。我们注意到示例参考集是培训和测试的截然不同。我们还确保了在训练和测试集中同样表示的不同比例的TCR肽特异性。

一旦数据随机分配到如上所述的训练和测试集中,我们就会在训练集上执行PSO过程。然后将每个解决方案(最佳重量集最大化平均精度最大化)应用于测试集。在SC和BS数据集上使用重复随机子采样执行交叉验证。

晶体结构接触和SwarmTCR输出

我们搜索了蛋白质数据库(PDB)用于TCR / PMHC晶体结构复合物,含有我们TCR曲目中的一种肽,以比较α.β链使用和CDR循环使用与SwarmTCR权值。

我们发现了9个与GILGFVFTL肽配合物(PDB ID: 1OGA, 2VLJ, 2VLK, 2VLR, 5EUO, 5E6I, 5ISZ, 5JHD, 5TEZ), 3个与NVLPMVATV肽配合物(PDB ID: 3GSN, 5D2L, 5D2N), 1个与GLCTLVAML肽配合物(PDB ID: 3O4L)。使用以前出版物中讨论的距离阈值[8.[我们在4.5Å内提取CDR区残留物至靶(肽,PMHC)。

然后,我们将接触残留物与晶体结构进行比较到每个reptoIre和默认TCRDIST重量集的群群重量。

可用性数据和材料

项目名称:育兽人。项目主页:欧宝直播官网apphttps://github.com/thecodingdoc/swarmtcr.,v1.0。操作系统:平台独立(命令行软件)。编程语言:C ++。许可证:GPL-3

缩写

TCR:

T细胞受体

pMHC:

肽/主要组织相容性复合体

公关:

Precision-recall

CDR:

互补确定区域

SC:

单个细胞

BS:

大部分测序

PBMC:

外周血单核细胞

参考

  1. 1.

    斯旺·杰比,史密斯·乔丹。肿瘤的免疫监测。中华医学会临床医学分会。2007;117(5):1137-46。https://doi.org/10.1172/JCI31405

    CAS.文章PubMedpmed中央谷歌学者

  2. 2.

    Dash P, fiere - gartland AJ, Hertz T, Wang GC, Sharma S, Souquette A, Crawford JC, Clemens EB, Nguyen THO, Kedzierska K, La Gruta NL, Bradley P, Thomas PG.可量化预测特征定义表位特异性T细胞受体库。自然。2017;547(7661):89 - 93。https://doi.org/10.1038/nature22383.nihms150003.

    CAS.文章PubMedpmed中央谷歌学者

  3. 3.

    Antunes Da,Rigo MM,Freitas MV,Mendes MFA,Sinigaglia M,LizéeG,Kavraki Le,Selin LK,Cornberg M,Vieira GF。通过结构解释T细胞交叉反应性:对TCR基癌症免疫疗法的影响。前免疫。2017; 8:1-16。https://doi.org/10.3389/fimmu.2017.01210

    CAS.文章谷歌学者

  4. 4.

    Zarnitsyna VI, Evavold BD, Schoettle LN, Blattman JN, Antia R.估计T细胞库的多样性,完整性和交叉反应性。Immunol前面。2013;4(485):1 - 11。https://doi.org/10.3389/fimmu.2013.00485

    CAS.文章谷歌学者

  5. 5.

    单细胞T细胞受体测序:技术和未来的挑战。Immunol前面。2018;9:1638。https://doi.org/10.3389/fimmu.2018.01638

    CAS.文章PubMedpmed中央谷歌学者

  6. 6.

    Schönbachc,ranganathan s,Brusic V.免疫信息学。柏林:斯普林克;2008年。

    谷歌学者

  7. 7.

    蛋白质结构中的侧链簇及其在蛋白质折叠中的作用。中国生物医学工程学报。1991;22(1):151-71。https://doi.org/10.1016/0022-2836(91)90388-M

    CAS.文章PubMed谷歌学者

  8. 8.

    分析T细胞受体α / β在与pMHC结合中的使用。见:Proceedings - 2017 IEEE生物信息学与生物医学国际会议,BIBM 2017(2017)。https://doi.org/10.1109/BIBM.2017.8217629

  9. 9.

    Ishizuka J,Stewart-Jones Gbe,Van der Merwe A,Bell Ji,McMichael Aj,Jones Ey。免疫肿瘤T细胞受体的结构动力学和能量学由其v编程\(\ beta \)领域。免疫。2008; 28(2):171-82。https://doi.org/10.1016/j.immuni.2007.12.018

    CAS.文章PubMed谷歌学者

  10. 10.

    Ladell K,Hashimoto M,Iglesias MC,Wilmann PG,McLaren JE,Gras S,Chikata T,KUSE N,Fastenckels S,Gostick E,Bridgeman JS,Venturi V,Arkoub Za,Agut H,Van Bockel Dj,Almeida JR,DouekDC,Meyer L,Venet A,Takiguchi M,Rossjohn J,Price Da,Appay V.通过HIV特异性CD8 + T细胞控制预先生逃生变体的分子基础。免疫。2013; 38(3):425-36。https://doi.org/10.1016/j.immuni.2012.11.021

    CAS.文章PubMed谷歌学者

  11. 11.

    Kamga L, Gil A, Song I, Brody R, Ghersi D, Aslan N, Stern LJ, Selin LK, Luzuriaga K. CDR3\(\α \)驱动免疫显性eb病毒(EBV) brlf1特异性CD8 T细胞受体库在原发性感染中的选择。公共科学图书馆Pathog。2019;15(11):24。https://doi.org/10.1371/journal.ppat.1008122

    CAS.文章谷歌学者

  12. 12.

    Kim T-S,Shin E-C。旁观者CD8(+)T细胞的激活及其在病毒感染中的作用。Exp Mol Med。2019; 51(12):1-9。https://doi.org/10.1038/s12276-019-0316-1

    CAS.文章PubMedpmed中央谷歌学者

  13. 13.

    格兰维尔J,Huang H,Nau A,Hatton O,Wagar Le,Robelt F,Ji X,Han A,Krams Sm,Pettus C,Arlehamn CSL,Sette A,Boyd SD,Thomas J.鉴定T细胞受体中的特异性群体reptoire。自然。2018; 547(7661):94-8。https://doi.org/10.1038/nature22976.Identifying

    文章谷歌学者

  14. 14.

    Shugay M,Bagaev Dv,Zvryagin IV,耐族人RM,Crawford JC,Dolton G,Komech EA,Sycheva Al,Koneva AE,Egorov Es,Eliseev Av,Van Dyk E,Dash P,Attaf M,Rius C,Ladell K,McLarenJE,Matthews KK,Clemens EB,DouEk DC,Luciani F,Van Baarle D,Kedzierska K,Kesmir C,Thomas PG,Price Da,Sewell Ak,Chudakov DM。VDJDB:具有已知抗原特异性的T细胞受体序列的策划数据库。核酸RES。2018; 46(D1):419-27。https://doi.org/10.1093/nar/gkx760

    CAS.文章谷歌学者

  15. 15.

    Ponomarenko J, Papangelopoulos N, Zajonc DM, Peters B, Sette A, Bourne PE。IEDB-3D:免疫表位数据库中的结构数据。核酸学报2011;39:1164-70。https://doi.org/10.1093/nar/gkq888

    CAS.文章谷歌学者

  16. 16.

    Gil A,Kamga L,Chirravuri-Venkata R,Aslan N,Clark F,Ghersi D,Luzuriaga K,Selin LK。Epstein-BARR病毒表位 - 主要组织相容性复合物相互作用与收敛重组驱动器相结合,各种T细胞受体的选择\(\α \)\(\ beta \)体验。mBio。2020; 11(2): 00250 - 20。https://doi.org/10.1128/mBio.00250-20

    文章谷歌学者

  17. 17.

    Chaume D,Lefranc M-P。IMGT / GENE-DB:用于人和小鼠免疫球蛋白和T细胞受体基因的综合数据库。核酸RES。2005; 33:256-61。https://doi.org/10.1093/nar/gki010

    CAS.文章谷歌学者

  18. 18.

    肯尼迪J.粒子群优化:教程。机器学习百科全书。2010年。https://doi.org/10.1109/ICNN.1995.488968

  19. 19.

    Saito T, Rehmsmeier M.在不平衡数据集上评估二分类器时,精度召回图比ROC图提供的信息更多。PLoS ONE。2015; 10(3): 21。https://doi.org/10.1371/journal.pone.0118432

    CAS.文章谷歌学者

  20. 20.

    苏伟,袁勇,朱明。ROC曲线下面积与平均精度的关系。ICTIR 2015 - 2015 ACM SIGIR信息检索理论国际会议论文集(2015)。https://doi.org/10.1145/2808194.2809481

下载参考

确认

我们感谢Robin Brody寻求技术援助和博士博士和肖恩西部读书。

资金

这项工作是由内布拉斯加州系统科学补助金(DG)和NIH Grant AI49320(KL和LK)支持的。UL1TR001453(KL)。

作者信息

从属关系

作者

贡献

RE和DG构思了该项目;RE和DG开发了软件;LK和AG收集实验数据。KL和LKS为该方法提供了思路和建议。RE和DG撰写了手稿。所有作者阅读并批准了手稿的最终版本。

相应的作者

对达里奥加勒斯的通信。

道德声明

伦理批准和同意参与

不适用

同意出版物

不适用

利益争夺

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

额外的文件1。

补充数据和表格。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

埃利希,R.坎加,L.吉尔,A。等等。SwarmTCR:预测T细胞受体特异性的计算方法。欧宝娱乐合法吗22,422(2021)。https://doi.org/10.1186/s12859-021-04335-w

下载引用

关键词

  • TCR.
  • Immunoinformatics
  • 绑定特异性