跳到主要内容

MATHLA:一个整合双向LSTM和多重头部注意机制的HLA-peptide结合预测的健壮框架

摘要

背景

的I类人类白细胞抗原(HLA)和新表位的结合准确的预测是用于个性化的基于T细胞的免疫疗法中的目标识别的关键。渊学习算法和质谱数据开发了许多最近的预测工具的确表现出对I类HLA-肽相互作用的平均预测功率的提高。然而,它们的预测性能由于实验数据的数量有限的显示一段个别HLA等位基因并用不同的长度,这是特别为HLA-C等位基因的情况下肽很大的可变性。为了满足实现对个体患者最准确的HLA肽结合预测在真实世界的临床研究的需求不断增加,与HLA-C等位基因和更长的肽更高的预测精度更先进的深学习框架是非常可取的。

结果

我们提出了一个整合了双向长短期记忆网络和多重头部注意机制的泛等位基因hla -肽结合预测框架——mathla。该模型在五倍交叉验证测试和独立测试数据集上都取得了较好的预测精度。此外,该模型在对11 - 15个氨基酸的较长配体的预测精度方面优于现有工具。此外,我们的模型在预测hla - c -肽结合方面也有显著改善。通过调查多头注意权重评分,我们描述了三个HLA I超群及其同源肽之间可能的相互作用模式。

结论

我们的方法证明了在改进和解释HLA肽结合预测的情况下,平行于提高高质量HLA韧化物数据量的进一步发展深度学习算法的必要性。

背景

HLA-肽结合对于人细胞表面上表位呈表和随后的T细胞免疫应答的引发至关重要。在二元HLA-epitope结合或HLA-epitope结合亲和力评分中的硅预测已成为免疫疗法各种应用的目标鉴定最重要的标准之一12].在一般情况下,HLA-表位预测在很大程度上依赖于国家的最先进的机器学习算法和数据在体外或体内HLA表位结合的定量大量。在过去几年中,各种深的学习模式,如深层神经网络[3.,卷积神经网络[4]和回归神经网络[5已开发用于超越传统机器学习算法的hla肽预测[6].同时,一些研究为了提高预测精度,对数据质量给予了很大的重视。例如,MHCflurry [3.]使用相同的结构和构造的多个模型发现,从大规模质谱数据导出的模型能够胜过竞争模型。最近,产生了95 HLA I类等位基因更大的质谱数据,其通过将多个数据到模型中进一步示出的提高了预测精度[7].然而,依赖于数据的方法是由有限数目的等位基因的当前技术可以处理和三个HLA I类超组之间的数据条目的不平衡(A,B,和C)密闭。其结果是,取决于数据的方法倾向于导致对HLA-C等位基因下预测精度由于识别HLA-C配体的较小数目。因此,在深学习架构进一步的改进是必需的,这是特别适用于泛等位基因预测工具增强的准确性的情况。与此相反,以一个固定的等位基因的训练数据的显著量建立了专门的模型,泛等位基因模型是普遍预测肽和任何HLA等位基因之间的相互作用。泛等位基因模型underlies的是HLA等位基因的核心序列可以明确列出的原则[8].因此,作为HLA配体序列,可以对核心HLA序列进行编码并进入用于建模HLA肽相互作用的学习算法。与等位基因特定方法相比,泛等位基因方法如NetMhcpan 4.0 [9]通过更高的合规性更引人注目的普通用户,同时保持相当的性能[6].然而,HLA等位基因(特别是HLA-C等位基因)的预测精度始终低于平均性能[610.].此外,由于HLA的大多数天然配体的长度为8-11个氨基酸[11.],在训练数据集其它长度的配体的有限量将影响精度,用于预测与HLA结合的12聚体15聚体至[12.].因此,非常需要建立一种更鲁棒的泛等位基因模型,该模型能够预测的更长的长度和以更高的精度HLA-C等位基因的同源肽的配体。

在这里,我们提出了一种新的深度学习HLA-epitope结合预测方法,其利用双向LSTM的内在能力来提取来自更长序列的信息和多个头部注意机制的能力,以捕获从不同角度的上下文依赖性。所提出的框架在预测HLA-C等位基因和肽之间的结合方面更强大。此外,该框架比在预测长度为12至15个氨基酸的配体中的现有工具更稳健。最后,该模型还可以通过多个交互式表示来帮助解释HLA等位基因和肽之间的相互作用。

方法

数据集

我们的训练数据集从IEDB [数据组成13.],bd2013数据集[14.]和systemhc atlas [15.].我们只保留了HLA I类配体以及肽没有翻译后修饰和暧昧的氨基酸。In addition, ligands with relatively low confidence (prob < 0.99) in SysteMHC Atlas were excluded. All peptides in the final training dataset were between 8 and 15 amino acids in length. To balance the number between positive and negative datasets, we retrieved a companion decoy peptide from the host protein of the positive peptide from mass spectrometry data.

要将定性的关联数据转换为定量值,我们将类似的规则应用于mhcflurry [3.]:正高,< 100 nM;正极,< 500 nM,正极,< 1000 nM;正低,< 5000 nM;负,> 5000nm;ms识别的配体,< 500 nM;诱饵,> 5000 nM。此外,我们采用另一套规则来消除同一等位基因-肽对的测量冗余:如果其他数据采用不平等测量,则保留唯一带有“=”的数据;如果所有数据均采用“>”测量,则保留亲和力值最大的数据;如果所有数据都用“<”测量,则保留亲和力值最低的数据;所有剩余的测量数据都被丢弃了。

为了方便模型训练,我们归0和1之间原有的纳摩尔亲和力。

$ $现代{正常}= 1 - \ log_{50000} \离开({现代{nM}} \右)$ $
(1)

在哪里一个普通的为归一化亲和一个纳米是原始的纳摩尔亲和力值。最终培训数据集由167 HLA I类等位基因(53 HLA-AS,92 HLA-BS和22 HLA-CS)组成。

该测试数据集的阳性数据来自最近一项涵盖95个HLA等位基因的大规模HLA I类配体组数据。先前由同一组生成的16个HLA等位基因的数据输入[16.]和包含在训练数据集中的数据首先被排除。接下来,我们保留了长度为8到15个氨基酸的hla显示配体,并去除那些翻译后修饰的配体。为了将阴性数据引入测试数据集,我们从阳性肽的宿主蛋白编码转录本中随机取样了未包含在阳性数据集中的诱饵肽序列。每个阳性肽对应产生100个诱饵序列。最后,在过滤掉与训练数据集重叠的数据项后,测试数据集中共有140232个阳性多肽和13939114个阴性诱饵。

模型结构

肽和HLA伪序列的每个残基(从netMHCpan 4.0 [检索9])根据Blosum62替换矩阵编码到相似度分数矢量[17.].与具有预定义的“填充”规则的许多其他方法不同,以确保培训期间输入矩阵的相等维度,我们的模型允许具有灵活长度的输入序列。具有尺寸的编码矩阵lseq* 20,lseq是肽和HLA伪序列的连接序列的长度,然后被输入到序列学习层(图1一种)。

图1
图1

MATHLA的网络结构。一个嵌入层。通过Blosum62相似矩阵编码肽和HLA伪序列。b序列学习层。从嵌入层的编码信息被输入到序列学习层中,以检索上下文序列功能。c注意力块。每个头部根据相应的序列表示子空间为原始输入的单个位置分配权重。d融合层。用1 * 1 *头过滤器的2维卷积神经网络被用于熔断器矢量输出从(c)。e输出层。通过线性层和s形函数输出0 ~ 1之间的正常亲和力评分

我们选择了长期短期内存网络[18.]以柔性长度的肽氨基酸残基的模拟依赖性。与传统的经常性神经网络相比,LSTM网络承载栅极控制单元(输入门,忘记门和输出门)能够更有效地学习肽序列内的远处残留物之间的依赖性信息。

为了增强我们的模型的能力,以学习N-末端和C末端氨基酸残基之间的双向依赖性,使用双向LSTM(Bi-LSTM)[19.].将正向序列和反向序列分别输入到具有相同结构的LSTM网络中,得到LSTM的输出\ (h_ {t} \)\({H_ T】^ {^ {\素}} \)在前向和逆转序列的时间t衍生出来,位置T处的HLA-肽序列表示为\({hidden_​​ T】= \左[{H_ {T},{H_ T】^ {^ {\素}}} \右] \).最后,Bi-LSTM的输出表示为\(下^ {LSTM} \)(无花果。1b)。

要从各个序列表示子空间的不同位置处参加肽信息,我们施加了多个头部注意机制[20.21.到双向LSTM的输出。

$ $ W_{我}^{衰减器}=隐藏^ {lstm} \ cdot W_{我}^{项目}$ $
(2)
$ $ Context_{我}= W_{我}^{衰减器}\ cdot \离开谭({\ h (^ {lstm}} \右))^ {T} $ $
(3)
$$ Head_ {I} = \压裂{{Context_ {I}}} {{\ mathop \总和\ nolimits _ {{ķ{= 0}}} ^ {H} Context_ {K}}} \ CDOT出^ {LSTM} $$
(4)

在哪里\(隐藏^ {LSTM} \中的R ^ {{1 \倍\左({隐藏\倍2} \右)}} \)是Bi-LSTM网络的隐藏状态,\(w_ {i} ^ {project} \在r ^ {{\ left({hidden \ times 2} \右)\ times \ left({hidden \ times 2} \ oled)}}是将原始隐藏状态投影到不同表示子空间的权值。\({W_}Ĵ^ {ATTEN} \中的R ^ {{1 \倍\左({隐藏\倍2} \右)}} \)是注意力,\(\左(\ CDOT \右)^ {{\文本【T}}} \)表示矩阵的转换。\(r ^ {{1 * l_ {seq}}}}}} \)是上下文向量。\(下^ {LSTM} \中的R ^ {{{L_ SEQ} \倍\左({隐藏\倍2} \右)}} \)是LSTM网络和最后的输出\(r ^ {j} \ r ^ {{1 \ times \ left({hidden \ times 2} \右)}}}是根据原始序列的注意矢量关注机制(图。1C)。

将前向注意和后向注意的串联输出向量进行组合。然后,通过学习每个注意头的权重,将带有头*1*1滤波器的二维卷积神经网络(2D CNN)应用于组合向量,得到融合向量(图)。1d)。

$$ fusion = {\ text {tanh}} \ left({\ left [{head_ {1},head_ {2} {,} \ ldots {,} head_ {h}} \ rectle] \ cdot w_ {f}} \右)$$
(5)

在哪里h代表多个头部注意模块的头部,\(w_ {f} \在{\ text {r}} ^ {h \ times 1 \ times 1} \)是2D CNN的过滤器,并且\(融合\中的R ^ {{1 \倍\左({隐藏\倍2} \右)}} \)是应用2D CNN后的输出矢量。最后,通过用Sigmoid激活函数施加线性层来输出从0到1的预测值(图。1e)。

$$输出= sigmoid(Fusion \ cdot w_ {o} + b)$$
(6)

在哪里\({W_ø} \中的R ^ {{\左({隐藏\倍2} \右)\倍1}} \)b是线性层的体重矢量和偏置。

我们分别从训练数据集中随机抽取70%的正数据和负数据来编制训练数据。其余数据用作调优超参数的验证数据集。

为了最小化异常值(噪声)对模型训练的影响,我们采用了优化的Huber损失函数[22.] 在训练中。

$$ l \ left({y,\ ovline {y}} \ lefte)= \ left \ {{\ begin {array} {* {20} l} {0.5 \ times dift ^ {2} {,}}填写&{\ left |{diff} \右|\ Le \ delta} \ \ \ \\ {\ delta \ cdot \ left({\ left | {diff} \ lext | - 0.5 \ times \ delta} \ revely){,} \ \ hefill&{\ left |{diff} \右|> \ delta} \ \ \ \\ \ end {array}} \ \ rittle。$$
(7)
$$ diff = \ left \ {{\ begin {array} {* {20} l} {\ min(\ overline {y} - y,0),} \ zhill&{if \; measurement \;是\;(< )} \hfill \\ {\max (\overline{y} - y,0),} \hfill & {if\;measurement\;is\;( > )} \hfill \\ {y - \overline{y},} \hfill & {if\;measurement\;is\;\left( = \right)} \hfill \\ \end{array} } \right.$$
(8)

在哪里\(\眉题{y} \)\ (y \)是的观测值和预测的分别结合亲和力。当之间的不平等关系\(\眉题{y} \)\ (y \)不满足,它们的区别(diff因此会影响损失。而且,Huber损失将退化为MSE损失diff少于预期的价值\(\三角洲\).否则胡伯损失利用线性误差来评估培训的损失,这是能够最大限度地减少难以学习数据对模型训练的性能的影响。RAdam用于模型参数的优化。相比传统的亚当,RAdam [23.能够调整自适应学习速率的方差,以防止模型会聚到局部最小值。选择批量尺寸为512,训练停止随着验证数据集的损失显示,连续5个时代后没有改善。Epoch号设置为100.学习速率设置为0.001,丢失率设置为0.1。

结果

基于五倍交叉验证模型评估

为了评估模型的性能和耐用性,我们进行了五倍交叉验证试验在训练数据集。受试者工作特征曲线(AUC)下的面积被用于模型评估以及对模型比较等位基因特异性顶执行和泛等位基因模型-MHCflurry,netMHCpan和ACME [24.].为了保证交叉验证的每一次验证中正数据和负数据的正确比例,我们采用随机抽样的方法将正数据和负数据分别划分为5个个体子集。在交叉验证的每个折叠中,4个正子集和4个负子集作为训练数据集,其余数据作为测试数据集。交叉验证重复10次,计算均值和标准差。MATHLA的平均AUC得分最高,为0.964,netMHCpan 4.0、MHCflurry和ACME的平均AUC得分分别为0.945、0.925和0.905 (p值:2.66E-16,9.06E-12和4.91E-09分别是10个交叉验证重复的AUC分数的单侧T检验)(图。2一种)。

图2
图2.

模型评价采用五重交叉验证检验。一个五倍重复交叉验证测试10次。AUC评分的平均值和标准偏差表示。b在五倍交叉验证测试中,每折叠中的数据通过肽长度分层。然后计算每个长度的AUC分数。显示了10个重复测试的AUC评分的平均值和标准偏差

MATHLA的性能进行更长时间的HLA配体更稳健

以前的大多数方法倾向于使用序列填充来处理灵活的肽长度。由于LSTM本质上是为更长的序列建模而设计的,我们还通过5倍交叉验证检验了不同工具对8到15个氨基酸长度的多肽的预测性能。MATHLA比其他模型的改进程度与肽的长度呈正相关(图。2b)。特别是对于长度为12至15个氨基酸的较长肽,Mathla的平均AUC评分为0.926分,显示6.4%,6.8%和19.1%的平均AUC分数,超过ACME,MHCFLURRY和NETMHCPAN 4.0。总之,五倍交叉验证结果表明Mathla在模型性能和具有可变长度的配体上的模型性能和鲁棒性方面优于最先进的工具。

MATHLA在新等位基因上优于现有的泛等位基因模型

泛等位基因模型的最重要的特征underlies它能够准确地预测必然要超越训练数据集HLA等位基因肽。为了测试MATHLA的普遍性,我们把我们的训练数据集和一组质谱HLA型ligandome数据[之间不重叠的等位基因的优势7].总共10出来的95个等位基因用于评估泛等位基因模型普遍性。另外两个泛等位基因模型-netMHCpan 4.0和ACME被用于模型比较而不管这些10个等位基因是否包括在他们的训练数据或不(仅7 HLA-A和HLA-B等位基因由ACME支持)。总共MATHLA优于netMHCpan 4.0和ACME超过80%和不重叠的等位基因的100%。我们的模型的超过10个等位基因,平均AUC最多时达0.982,高于0.975 netMHCpan 4.0(图3.一种)。相对于NetMhcpan 4.0,值得注意的是,Mathla的性能优势对于HLA-C等位基因而不是HLA-A和HLA-B等位基因更突出。Mathla的3个HLA-C等位基因的平均AUC评分为0.988,而NetMHCPAN 4.0的0.965则为0.965。

图3
图3.

一个在训练和测试数据集之间的10个非重叠等位基因中的三个PAN - 等位基因模型(Mathla,Netmhcpan 4.0和Acme)的AUC得分。B-D.接收器对测试数据集操作MATHLA,netMHCpan 4.0和MHCflurry的特性曲线。用于HLA-A,HLA-B和HLA-C等位基因的曲线分别生成。eMathla和NetMhcpan 4.0的AUC分数超过21个HLA-C等位基因在测试数据集中

Mathla对HLA-C等位基因的现有模型提高了准确性

通过观察发现MATHLA显示不重叠的HLA-C等位基因特殊改进的启发,我们进一步比较我们的模型在HLA I类分子的不同的超类型的性能。我们分别计算我们的模型在测试数据集中的所有HLA-A,B和C等位基因的AUC得分。泛等位基因方法netMHCpan 4.0和ACME,以及等位基因特异性模型MHCflurry,被用于模型比较。虽然MATHLA的AUC显示边际增强过顶进行的竞争性方法netMHCpan用于HLA-A和-B的等位基因,对应于HLA-C组MATHLA的AUC在竞争模型(0.976为MATHLA,0.951是显著改善了netMHCpan 4.0和0.927为MHCflurry)(图3.c).此外,我们发现我们的模型在21个个体HLA-C等位基因中的19个(90.5%)上优于netMHCpan 4.0。由于训练数据集中HLA-C的数据比HLA-A和HLA-B的数据少,我们证明,在有限的训练数据的情况下,我们的模型可以胜过HLA-C等位基因的泛等位基因模型和等位基因特异性模型。

MATHLA支持描述各种hla -配体结合模式

为了更好地理解模型集成双向LSTM的特点和多头注意机制,我们研究了对应于HLA I类分子的不同超级类型的注意力分数以及具有不同长度的配体。HLA配体的先前主题分析显示,最圆末端的残留物最有可能具有比其他位置的重复氨基酸[25.]通过对所有三种HLA I类超型的头部0载体中的肽序列的最后一个残留物的共分重量评分证实了这一点(图。4)。上在头部0矢量的共识图案的顶部,我们从头部1层的载体观察到更多的多样化模式。首先,我们发现的9肽的权重分布的氨基酸是从所有其他长度,其中在该肽的第9位被显性加权肽是不同的。这种模式是与以前的发现,即C-末端残基对于结合的9聚体肽比较长的肽更重要一致[26.].第二,第二或第三位置上由HLA-A和B结合的肽的注意重量分数与另一个已知的基序相一致,而对于HLA-C的对应的位置配体少得多的重量帐户。HLA-C配体的这一杰出的载荷模式或许可以解释为什么我们的模型比其他工具进行HLA-C肽的预测实现了更大的优势。总的来说,我们的模型表明,包括多个头注意力机制引入LSTM网络可以捕获HLA-超群特异性和肽长度的具体信息,增强MATHLA的HLA配体预测的稳健性。

图4
图4.

HLA伪序列和肽序列注意模型中两个头(头0和头1)的权重分值的热图。HLA-A、B、C超组相关测试数据的权重评分分别显示。每一行对应于HLA伪序列和肽序列上氨基酸残基的位置。每一列对应不同长度的肽(8aa到15aa)

讨论

基于机器学习的HLA肽结合预测已经由于深学习算法和大规模质谱数据的出现突破了过去几年经历了快速发展。同时,预测工具已经真正部署越来越多的临床研究比以前,由于癌症免疫治疗的蓬勃发展。一种用于在真实世界中的项目选择最佳工具的当前标准主要依赖于由不同的指标,例如AUC测定支撑等位基因和平均预测精度的数量。然而,关于对单个等位基因的预测精度,没有工具,其预测精度是所有个体的HLA等位基因一致较高。这一事实对像预测平均性能比上标准最高约带来HLA-肽预测的若干问题。首先,对于任何给定的个别患者受到目标识别的癌症免疫治疗,如何从现有的各种工具,选择最准确的一个该患者的给定HLA等位基因?这个问题变得更加紧迫和携带罕见的HLA等位基因或等位基因与实验数据的量有限的患者至关重要。第二,对于较长的配体(11mer至15聚体),其预测精度是相对较低的,如何进一步提高给定的事实,预测精度增加质谱数据单独只能提供有限的预测功率。

结论

我们的模型结合了双向LSTM和多重头部注意机制,解决了这两个问题,不仅在预测HLA- c等位基因的准确性方面取得了突出的优势,而且对更长时间的I类HLA配体也获得了更好的预测能力。我们的工作表明,先进的深度学习体系结构可以为进一步改进和理解HLA-peptide结合预测提供解释模型。我们设想,引入自我注意机制和word2vec模型等替代方法,可以提供更好的肽表征,进一步提高预测精度。我们的框架肯定会使基于T细胞的疫苗在治疗癌症和预防传染病方面的开发受益。

可用性数据和材料

该软件可在https://github.com/MATHLAtools/

缩写

HLA:

人白细胞抗原

LSTM:

长期短期记忆

AUC:

接收器工作特性曲线下的面积

有线电视新闻网:

卷积神经网络

均方误差:

平均方形错误

参考

  1. 1。

    奥特PA,胡Z,Keskin的DB,舒克拉SA,孙健,Bozym DJ,张宽,骆马湖A,Giobbie-Hurder A,彼得·L等。免疫原性的个人新抗原疫苗黑色素瘤患者。自然。2017; 547(7662):217-21。

    CASPubMed.公共医学中心文章谷歌学术

  2. 2。

    沙辛U,Derhovanessian E,米勒男,Kloke BP,西蒙P,低位m,Bukur V,的Tadmor AD,Luxemburger U,Schrors B,等人。个性化的RNA mutanome疫苗动员聚特异性针对癌症治疗性免疫。自然。2017; 547(7662):222-6。

    CASPubMed.文章谷歌学术

  3. 3。

    O'Donnell的TJ,Rubinsteyn A,Bonsack男,里默AB,Laserson U,哈梅巴赫J. MHCflurry:开源I类MHC结合亲和力预测。细胞SYST。2018; 7(1):129-132 E124。

    CASPubMed.文章谷歌学术

  4. 4.

    基于卷积神经网络的HLA类绑定预测。生物信息学。2017;33(17):2658 - 65。

    CASPubMed.文章谷歌学术

  5. 5。

    陈B,Khodadoust MS,奥尔森N,Wagar LE,快速E,刘CL,Muftuoglu Y,Sworder BJ,Diehn男,利维R,等人。通过集成的深度学习预测II类HLA抗原呈递。NAT BIOTECHNOL。2019; 37(11):1332至1343年。

    CASPubMed.公共医学中心文章谷歌学术

  6. 6。

    Mei S,Li F,Leier A,Marquez-Lago TT,Giam K,Croft NP,Akutsu T,Smith Ai,Li J,Rossjohn J,等。HLA类肽结合预测生物信息工具的全面审查与性能评价。简短生物形式。2019; 21:1119-35。

    文章谷歌学术

  7. 7。

    Sarkizova S,Klaeger S,Le PM,Li LW,Oliveira G,Keshishian H,Hartigan Cr,张Wd,Braun da,Ligon Kl等。大量肽数数据集改善了大多数人口的HLA类表位预测。NAT BIOTECHNOL。2020; 38(2):199。

    CASPubMed.文章谷歌学术

  8. 8。

    蹄I,彼得斯B,Sidney J,Pedersen Le,Sette A,Lund O,Buus S,Nielsen M. Netmhcpan,一种用于超越人类的MHC类绑定预测的方法。免疫原性。2009; 61(1):1-13。

    CASPubMed.文章谷歌学术

  9. 9。

    Jurtz V,Paul S,Andreatta M,Marcatili P,Peters B,Nielsen M. Netmhcpan-4.0:改进的肽-MHC Is相互作用预测整合洗脱的配体和肽结合亲和力数据的相互作用预测。J免疫酚。2017; 199(9):3360-8。

    CASPubMed.公共医学中心文章谷歌学术

  10. 10。

    Bonsack男,霍普S,冬季Ĵ,蒂奇d,泽勒C,Kupper MD,Schitter EC,Blatnik R,里默AB。基于实验验证的MHC-肽结合数据集的I类MHC结合预测工具性能评估。癌症免疫res。2019; 7(5):719-36。

    CASPubMed.文章谷歌学术

  11. 11.

    Gfeller d,纪尧姆P,米修Ĵ,白HS,丹尼尔RT,RacleĴ,Coukos G,巴萨尼-斯特恩伯格M.长度分布和自然呈现的多个特异性HLA-I的配体。J免疫酚。2018; 201(12):3705-16。

    CASPubMed.文章谷歌学术

  12. 12.

    Nielsen M, Andreatta M. NetMHCpan-3.0;改进了结合MHC I类分子的预测,整合了来自多个受体和肽长度数据集的信息。基因组医学。2016;8(1):33。

    PubMed.公共医学中心文章谷歌学术

  13. 13。

    Vita R,Mahajan S,Outton Ja,Dhanda Sk,Martini S,Cantrell Jr,Wheeler DK,Sette A,Peters B.免疫表位数据库(IEDB):2018更新。核酸RES。2019; 47(D1):D339-43。

    CASPubMed.文章谷歌学术

  14. 14。

    金Y,悉尼Ĵ,Buus S,Sette的A,Nielsen的男,彼得斯B.数据集的大小和组成影响性能基准的用于肽-MHC结合预测的可靠性。BMC生物素。2014; 15:241。

    文章谷歌学术

  15. 15.

    Shao W,Pedrioli PGA,Wolski W,Scurtescu C,Schmid E,Vizcaino Ja,Courcelles M,Schuster H,Kowalewski D,Marino F等人。SystemHC Atlas项目。核酸RES。2018; 46(D1):D1237-47。

    CASPubMed.文章谷歌学术

  16. 16。

    Abelin JG,Keskin DB,Sarkizova S,Hartigan Cr,Zhang W,Sidney J,Stevens J,Lane W,Zhang GL,Eisenhaure TM等。单位等等细胞中HLA相关的肽菌的质谱分析能够实现更准确的表位预测。免疫。2017; 46(2):315-26。

    CASPubMed.公共医学中心文章谷歌学术

  17. 17。

    参见Henikoff S,参见Henikoff JG。从蛋白块氨基酸替换矩阵。Proc Natl Acad Sci USA。1992; 89(22):10915-9。

    CASPubMed.文章谷歌学术

  18. 18。

    热尔FA,施米德休Ĵ,康明斯F.学习忘记:与LSTM持续的预测。神经COMPUT。2000; 12(10):2451-71。

    CASPubMed.文章谷歌学术

  19. 19。

    基于自适应双向LSTM模型的上下文感知能量解聚。IEEE transsmart Grid. 2020; 11:3054-67。

    文章谷歌学术

  20. 20。

    李江,涂Z,杨B,吕MR,张T.多头关注与分歧正规化;2018年。arXiv预印本.的arXiv:1810.10183。

  21. 21。

    林飞,张超,刘树华,马海涛。一种面向多转向响应生成的层次结构多头注意网络。IEEE访问。2020;8:46802-10。

    文章谷歌学术

  22. 22。

    Niu J,Chen J,徐Y.双胞胎支持向量回归Huber Loss。J INTER模糊系统。2017; 32(6):4247-58。

    文章谷歌学术

  23. 23。

    刘升,姜H,他P,陈炜,刘X,高Ĵ,韩J.在自适应学习率及以后的方差;2019年。arXiv预印本。arxiv:1908.03265。

  24. 24。

    胡Y,王Z,胡H,宛男,陈蕾,熊Y,王X,赵d,黄W,曾J. ACME:具体泛肽MHC I类通过关注基于深层神经网络结合预测。生物信息学。2019; 35(23):4946-54。

    CASPubMed.文章谷歌学术

  25. 25。

    Bassani-Sternberg M,Chong C,Guillaume P,Solleder M,Pak H,Gannon Po,Kandalaft Le,Cougkos G,GFeller D.跨HLA肽瘤的解密HLA-I基序改善了新抗原预测,并识别七分代的调节HLA特异性。PLOS计算BIOL。2017; 13(8):E1005725。

    PubMed.公共医学中心文章谷歌学术

  26. 26。

    陈Y,悉尼Ĵ,索思伍德S,考克斯AL,坂口K,亨德森RA,Appella E,亨特DF,塞特A,安格VH。天然加工的肽超过九个更长的氨基酸残基结合至MHC I类分子的HLA-A2.1以高亲和力和在不同的构象。J免疫酚。1994; 152(6):2874-81。

    CASPubMed.谷歌学术

下载参考

致谢

我们感谢Neocura Ai Lab的成员,有用的讨论和Junmei Hao批判读取稿件。

资金

没有任何。

作者信息

隶属关系

作者

贡献

YL开发了模型,实现了软件,编写了手稿。JW整理资料,撰写稿件。YX, YW, YP, QS, XL对手稿进行了修改。JW设计了项目并撰写了最终稿。所有作者均已阅读并批准本稿件。

通讯作者

对应于霁广域网

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

王建军,叶彦。等等。Mathla:一种用于HLA肽绑定预测的稳健框架,整合双向LSTM和多个头部注意机构。欧宝娱乐合法吗22,7(2021)。https://doi.org/10.1186/s12859-020-03946-z

下载引用

关键词

  • 深度学习
  • HLA-肽结合预测
  • 癌症免疫疗法