跳到主要内容

AttentionDDI:用于药物-药物相互作用预测的暹罗注意深度学习方法

抽象的

背景

药物 - 药物相互作用(的DDI)是指由两种或更多种药物导致超出观察副作用的给药触发过程当药物通过本身施用。由于可能对毒品数量庞大,几乎不可能通过实验测试的所有组合和发现以前没有观察到的副作用。因此,基于机器学习方法被用来解决这个问题。

方法

我们建议用暹罗语self-attention为DDI预测多模态的神经网络,它已经从的药物的特性,包括药物靶标,途径和基因表达概况的比较导出的集成了多个药物的相似性度量。

结果

我们提出的DDI预测模型具有多个优点:(1)它是端到端训练的,克服了模型由多个独立步骤组成的局限性注意力机构,用于识别输入凸设有和(3)它达到相似或更好的预测性能时的各种基准数据集测试相比状态的最先进的DDI模型(AUPR分数范围从0.77至0.92)。新DDI预测是使用独立的数据资源的进一步验证。

结论

我们发现,连体多模态神经网络能够准确预测DDI,并且注意力机构,通常是在自然语言处理域中使用,可以有利地应用在DDI模型explainability提供帮助。

同行评审报告

背景

多药疗法,即同时服用多种药物,近年来在患者中不断增加[123.].当施用多种药物,相互作用可以与他们出现,通常被称为药物相互作用(DDI).药物的预期效果因此可以通过另一种药物的作用被改变。这些效应可能会导致药物的协同作用[4.],药效降低或甚至毒性[5.]. 因此,DDI发现是改善患者治疗和安全性的重要一步。

这几乎是不可能进行所有可能的药物对组合的经验评估和测试他们的倾向,用于触发的DDI。计算方法已经通过更有效地实现的大量药物对的测试解决了这个问题。例如,DeepDDI[6.]是一种多标签分类模型,将药物结构数据与药物名称一起作为输入,以人类可读的句子形式进行DDI预测。另一个模型,吉恩[7.]是一个图能量神经网络,它关注DDI类型,并估计它们之间的相关性。NDD[8.]利用多个药物相似度矩阵,通过相似度网络融合进行组合(SNF),最后通过前馈网络进行分类。同样的,ISCMF[9.]对已知DDI执行矩阵分解,以计算用于预测的潜在矩阵。它使用同样的方法SNF- 融合矩阵以限制这个因式分解。

上述解决方案有一些缺点。首先,许多已批准的药物都有大量的药物特征信息,包括化学结构、副作用、靶点、途径等。然而,由于其广泛的可用性,目前的DDI预测解决方案通常仅利用这些特征的一小部分,尤其是药物化学结构特征。当前的其他模型局限性包括低解释性和/或它们由多个单独步骤组成(即,无法进行端到端培训)。一个新的解决方案最好能提供一种同时解决这些缺点的机制。

为此,我们介绍注意,暹罗self-attentionDDI预测的多模态神经网络模型。我们的模型是受基于注意力的模型(即变压器网络)的启发和改编的[10],尤其在自然语言处理方面取得了巨大的成功(自然语言处理) 领域。当在各种基准数据集测试相比状态的最先进的DDI模型我们的模型1)被训练的端至端,2)提供模型explainability和3)实现了类似或更好的预测性能。

结果

模型评估为了评估我们的方法在预测药物-药物相互作用方面的表现,我们关注了文献中广泛使用的四个不同的基准数据集[8.9.111213].这四个数据集由一个或多个药物相似性矩阵组成,描述多种药物特征,如化学结构和副作用。这些数据集在方法部分和附加文件中有详细的解释1,并被引用为DS1, DS2和DS3(最后一个有两个变体,称为CYP和NCYP)。使用这些数据集将我们的模型与之前发布的模型进行比较,可以实现公平的基准测试和工作的重现性。

评价结果我们比较了我们的模型注意(完整版本及其两个变体)与文献中报道的最先进的模型,如表所示1.总体而言,当在上述基准数据集测试我们的模型达到相似或更好的预测性能。

表1模型的评价分值为所有数据集。排名第一的分数和注意模型分数报告中大胆
表2中DS1上的预测案例研究
表3基准数据集

对于DS1,我们的模型的AUPR得分为0.924,优于基线NDD模型(AUPR 0.922)。DS1的最佳性能模型是分类器集成模型(AUPR 0.928)。对于DS2,我们的模型以0.904的AUPR得分优于所有模型,NDD以0.89的AUPR得分位居第二。对于带有CYP标签的DS3,我们的模型获得了第二好的AUPR得分0.775,超过了基线模型(AUPR 0.830)。值得注意的是,大多数其他模型表现很差(AUPR)\(<0.5 \))。最后,对于带有NCYP标签的DS3,我们的模型(AUPR得分为0.890)优于除NDD模型(AUPR 0.947)。

我们进一步比较注意(我们的模型)到两个模型变体,其中我们(1)只使用Attention(没有暹罗架构)和(2)既不使用Attention也不使用暹罗组件(即仅使用深度神经网络架构)。表格1显示了完整的版本注意比这两款车型的表现都好很多,尤其是DS2和DS3,这突出了我们车型的注意力和连体组件的重要性。此外,当给对比损失函数分配更多的权重时,暹罗成分的作用被进一步证实(见超参数)\(\伽马\)在桌子上6.和情商。16如需了解更多详细信息),使用训练数据集中从暹罗体系结构生成的每个药物对表示向量之间计算的距离。

注意重量

我们的模型提供了模型的可解释性,通过在模型的所有层次上计算的注意力分数,包括特写注意力层(无花果。4.). 这些分数用于确定相似矩阵(即模式)对每个药物表征向量的贡献(即权重)(\(z_a,z_b\)),即该药物的特性带来更好的编码(这种方法的详细解释方法中找到)。

图。1
图1

使用DS1注意分数和掩蔽方法的模态重要性。第一行和第二行使用掩蔽方法报告模态重要性(参见算法1)。与可访问所有模式的基础模型相比,当掩蔽应用于每个模式时,这些值表示平均模型AUC和AUPR性能的相对变化。第三行表示AUC和AUPR平均相对变化值之间的平均值(即第一行和第二行中的平均值)。第四行报告使用注意分数计算的平均模态重要性(参见等式。21).该值越高,更重要的数据形式是

图2
图2

使用注意分数和掩蔽方法对DS3和CYP标签的模态重要性

为了评估注意评分评估模态重要性的能力,我们将注意权重与基于模态掩蔽的正交方法的结果进行了比较。后一种方法通过一次掩盖每个模态并计算模型在性能上的相对变化(AUC和AUPR)来评估模态的重要性,与可以访问所有模态的基本模型相比。

数字1描述与DS1计算的注意力权重相比,AUC和AUPR性能的相对变化。在确定前三种模式(即相似矩阵)的贡献方面,两种方法之间存在总体上的一致offsideeffect指示分别以0.2分和0.15分的平均分进行加权。

在DS3数据集中,对于CYP和NCYP标签,排名前3位的相似性矩阵为ligandSimilaritysideeffectSimilarityATCSimilarity,如图所示。23..无论是在AUC和AUPR的相对变化,并且Attention得分方法,重叠在确定顶-3方式(即相似性矩阵)的贡献,因此还示出了这两种方法之间的协议。

实例探究为了进一步测试我们的模型的效率,我们通过外部的药物相互作用数据库,DrugBank [调查我们的模型预测顶部14],其中包含从药品标签和科学出版物提取的DDI。我们专注于DS1数据集,链接药物相似之处外用药的ID,因此可用于外部验证。从DS1,我们选择了前20名小说的预言(“误报”根据DS1标签)与我们的模型中最高的互动概率,注意.在表2我们列出了这些药物对以及来自DrugBank的相互作用信息。我们发现60%的预测被外部证实为已知的药物对相互作用。

表4标签为每个数据集
表5混淆矩阵
表6训练超参数

讨论

端到端解决方案

在这项工作中,我们提出了一个端到端架构,利用注意机制来训练DDI预测模型。当查看文献中报告的DDI模型时,大多数模型都包含了单独的模型训练步骤。例如,两个相互竞争的基线模型(NDDISCMF)包含多个级联步骤,如(1)矩阵选择/滤波、(2)矩阵融合和(3)分类,这些步骤在模型训练时分别进行优化。最好由分类目标来决定矩阵的选择。然而,前两步(矩阵滤波和融合)独立于分类,因此不受模型训练任务的通知。相比之下,我们的模型采用了一种整体的方法,其中所有的计算步骤都是连接和优化的,同时最小化我们的分类器的损失函数。因此,我们的模型能够在每个计算步骤中优化DDI预测的输入信息。

Explainability

除了DDI预测,我们的模型还可以获得关于模态重要性的额外信息。当考虑注意力权重的相对重要性时,在DS1中,表型信息(如药物适应症和越位效应相似性)的排名高于低水平信息(化学)(图1)。1).这符合中的结论[15],相对于生物和化学信息的表型信息用于预测DDI更多的信息。在DS3同时为CYP还有NCYP标签,表型和生物信息促成更多的模型预测,通过我们的实验遮蔽独立核实。

模型组件的评价

我们探讨了暹罗架构和注意力对模型性能的贡献。比较两种模型变体,(1)只关注模型(即没有暹罗架构)和(2)深度神经网络模型(即没有注意和暹罗组件)注意模型中,我们发现,后者大大优于模型上DS2和DS3变种(见表1).这些结果证明了两个组件(即Attention和连体架构)对于我们模型最先进性能的重要性。

衡量损失函数

(1)负对数似然损耗(NLL)和(2)的对比损耗(等式:我们的模型的损失函数是由两个损失函数的线性组合定义的。16).在NLL损失的贡献包括在分类任务中使用一个标准化的损失。在另一方面,在对比损失集中于最小化的类内的距离(正或负样品之间)和最大化类间距离(阳性和阴性样品之间)。

在我们的实验中,在NLL损失对比损失的重要性,尤其是对DS3的数据集变得明显。对于DS1和DS2,两种损耗之间的均匀的重量将导致性能的轻微降低,而不是如在手稿报道偏压朝向对比损耗的权重。然而,对于DS3数据集,重称量的对比损失是实现结果部分报告的高性能重要。这可能是一个指示,阳性和阴性样品(即导致药物相互作用或不)是近距离相互并不能很好分离。在这样的情况下,对比损失将有助于更好地分离的样品,从而提高模型的性能。这是在数据集DS3,其中阳性样品的比例是低的情况下,显着的(\ \ (sim \)CYP为1.5%,\ \ (sim \)NCYP为6%)。

结论

的DDI对病人的治疗和安全性具有重要意义。由于大量的药物可能对组合,许多可能的DDI有待发现。因此,DDI预测方法,特别是计算方法,可以在另外的交互加速发现帮助。这些结果为医疗保健专业人士,旨在在同时力求最大限度地减少意外的药物副作用找到最有效的治疗方法的组合是有价值的。

在本文中,我们提出了一种新的DDI预测解决方案注意力,一种在其他领域(例如自然语言处理). 我们证明了这一点注意力基于DDI的模型可以成功地适应DDI域中的多模态生物数据,提高了DDI在各种基准数据集上的预测性能,增强了模型的可解释性。

方法

基准数据集

为了预测药物之间的相互作用,我们关注表中列出的特定基准数据集3..我们的模型,注意,和两个竞争基准模型,NDD[8.] 和ISCMF[9.],都是为了利用这些数据集中包含的多模态而构建的。每个数据集由一个或多个药物相似性矩阵组成,如表1所示3.更多详细信息,请参阅附加文件1.这些矩阵是基于以下药物特征计算的:化学结构、靶标、途径、转运体、酶、配体、适应症、副作用、越位效应、GO术语、PPI距离和ATC代码。该数据集此前已被多个其他研究使用[8.9.111213].

我们从[8.]并在附加文件中进一步详细描述1.举个例子副作用矩阵中的DS1数据集的[11]如下构建:表示的列表的矩阵N已知的药物y轴和列表m在已知的副作用X-创建了axis。在这个矩阵中,每一行代表一种药物及其副作用\ (N \乘以M \)矩阵。在已知药物可能导致特定副作用的每个位置都用值1填充,否则为0。在这种方式下,每种药物都用一个二值特征向量(size)表示m).此外,该二进制特征矩阵转化到使用所有药物对一个相似性矩阵。鉴于两种药物,\ (d_a \)\ (d_b \),以及它们的二元特征向量(\(u_a\)\ (u_b \)\ \在[0,1]^ M \)),它们的相似度根据杰卡德分数:

$ $ \{对齐}开始J (u_a u_b) = M_ {11} / (M_ {01} + M_ {10} + M_{11}), \四0 \ le le 1 J (u_a u_b) \ \{对齐}$ $

在哪里\({M_ 01} \)表示中的位置计数\(u_a\)\ (u_b \)在哪里\ (u_ {ai} = 0 \)\(u{bi}=1\)\(I \在[1,\ ldots,M] \)).同样的,\(M_ {10} \)表示位置的计数(一世) 在\(u_a\)\ (u_b \)在哪里\ (u_ {ai} = 1 \)\ (u_ {bi} = 0 \).最后,\ (M_ {11} \)表示的位置的计数(一世) 在\(u_a\)\ (u_b \)在哪里\ (u_ {ai} = 1 \)\(u{bi}=1\).计算每个药物对的相似度,得到a\ (N \ N \)相似矩阵。

除上述矩阵外,我们还计算了高斯相互作用剖面(GIP)相似矩阵(根据[16基于每个数据集的相互作用标签])(表4.).因此,除了表中列出的相似性特征外3.,每个数据集标签矩阵的GIP也被用作进一步的相似性特征。该方法假设具有相似现有标签的药物(ddi)有望有可比的新相互作用预测。

DS2和DS3采用类似的方法产生。该相似性矩阵结构的描述可参见[111213]分别用于DS1、DS2和DS3数据集,并在附加文件中进一步总结1

数据库DDI标签

在有监督的分类设置中,已知药物-药物相互作用的标签需要以相同维度的二元矩阵(\ (N \ N \))作为输入相似性矩阵(表4.).例如,DS1中的标签是由双方数据库[17].

值得注意的是,DS3数据集标签根据DDI是否来自共享的CYP代谢酶进行分割(CYP)或不是(NCYP).这种分离是基于cyp是主要的酶\ \ (sim \)药物代谢总量的75%例如,一种药物会抑制一种特定的CYP酶,该酶也会代谢另一种药物,从而引发与CYP相关的DDI。这种CYP标签的分离会影响模型的训练和可预测性,因为正标签的数量远远超过负标签(表4.).

在这些标签矩阵已知的DDI具有标签值1.标签0,但是,并不能保证不存在对于给定的药物对药物相互作用。在这种情况下的相互作用,可能没有被观察到的是,或可能没有被包括在特定DDI数据库。

模型评估

模型性能基于标准化分类度量进行评估。我们包括(1)AUC-ROC和(2)AUC-PR.为与之前的研究一致,我们用AUCAUPR从现在开始。这些分数是根据表中的定义组成的5.

AUPR为精确查全曲线下的面积,被认为是更公平的度量[8.]特别是当类不平衡(即,不相等的标签分布)是在数据集中普遍。这是特别是当阳性样品(具有值1的标签)和阴性样品(0秒)的数目的数目显著不平衡的情况。给定的正样品的低比例的(表4.)这是我们在模型评估中关注的主要性能度量。我们进一步计算了AUC作为标准的分类指标。AUC是TPR-FPR曲线下的区域,其中TPR(也称召回)是真阳性率,FPR是假阳性率,如表中所定义5.

基准模型

我们将我们的模型与文献中发现的多个基线模型进行了比较,并特别关注NDD[8.,在DDI预测方面表现出了良好的性能(作者报道)。NDD第一步,基于矩阵熵得分对相似矩阵进行过滤。其目的是仅基于信息量最大的相似矩阵进行分类,从而排除信息量较小的相似矩阵手工制作启发式。(2)在第二步中,将剩余的相似矩阵合并为一个矩阵SNF方法(即采用相似网络融合算法)[18].(3)最后,将熔融基体被用作输入到前馈网络分类器,其输出二进制DDI预测。

我们(尽我们所能)重新实施NDD使用Pytorch.深度学习库[19],以复制基准模型结果。然而,我们无法重现[8.特别是对于DS2和DS3数据集。因此,我们报告了作者在其文章中引用的性能值[8.9.].

AttentionDDI:模型描述

我们做了一个暹罗多头自我关注多模式神经网络模型(图。4.)采用Transformer体系结构来为我们的DDI问题建模。

连体模型我们的模型是一个连体神经网络[20]的设计是使用相同的模型权重来串联处理两个不同的输入向量。在我们的案例中,每个药物对的药物相似特征\ ((d_a d_b) \)为了学习改进的潜向量表示被编码在平行。它们在后面的阶段用于计算两个向量之间的距离/相似性。

变压器架构我们的模型体系结构适应变压器网络 [10]使用多头self-attention从输入向量的集合中计算新的潜在向量表示的机制DDI预测问题。它包括:

  1. 1

    一个编码器模型,其作为输入的一组药物的相似特征矢量,并计算一个新的(统一)固定长度的特征向量表示。

  2. 2

    一种分类器模型给出了新的特征向量表示,对每个药物对生成一个概率分布,表明该药物对是否更有可能相互作用。

输入向量我们的模型分别在每个基准数据集(即DS1, DS2和DS3)上进行训练。在给定的数据集和中有一个或多个相似矩阵N不同的一些药物。此外,也有\(K = \左({\开始{阵列} {C} L \\ 2 \ {端阵列}} \右)\)每个数据集的药物对组合。对于一对药物\ ((d_a d_b) \)在数据集中D.,药物特征向量\ ((u_a u_b) \)每一个都代表从对应的相似度矩阵中提取的一组输入特征向量\(\ {S_1,S_2,\ ldots,S_T \} \在d \)(包括GIP)D..每组(例如,\(u_a\)\ (u_b \))分别作为每种药物的模型输入T.对特征向量进行处理。例如,一个具有三个相似矩阵(包括GIP)的数据集将有两个由三个输入向量组成的集合(图。4.)用于每对药物:

$ $ \{对齐}u_a开始= \ {S_1 ^ {d_a}, S_2 ^ {d_a}, S_3 ^ {d_a} \}, \四u_b = \ {S_1 ^ {d_b}, S_2 ^ {d_b}, S_3 ^ {d_b} \} \{对齐}$ $
图3.
图3

使用注意分数和掩蔽方法对DS3和NCYP标签的模态重要性

图4.
图4

AttentionDDI模型架构。(1)药物对特征向量集\ ((u_a u_b) \)从每个相似性矩阵被用作模型的输入,分别为每个药物。(2)a变压器基于Siamese编码器模型为每个药物生成新的药物特征表示向量。首先,通过应用学到的权重自我关注)对药物特征向量进行分类。然后,通过前馈网络对加权特征向量进行非线性变换。最后,一个特写注意力池方法将转换后的特征向量聚合为每个药物的单个特征向量表示(\ (z_a \)\ (z_b \)分别)。3)一个单独的分类器模型连接编码的特征向量z_b \ \ (z_a)与他们的距离(欧几里得余弦).最后,通过对串联的药物对向量进行仿射映射,得到相应的药物对向量Softmax函数,为每个药物对生成药物相互作用概率分布

编码器模型

对于每个药物对\ ((d_a d_b) \)药物特征向量集\ ((u_a u_b) \)经过编码器分开,在平行(因此,连体模型)。该编码器由多层组成。最初,输入向量经过自我关注层,其目的是产生改进的矢量编码(即,新学习表示),同时优化所述目标任务(即,分类在我们的设置)。在此步骤期间,药物特征向量根据它们如何强烈相关到相同的药物的其他特征向量进行加权。随后,这些加权矢量,以便通过非线性变换,以计算新的特征向量表示馈送到一个前馈网络。最后,编码的特征向量表示是通过传递特写注意力集合学习过的表示的层,即跨相似类型向量池。然后编码器输出两个独立的药物表示向量\((z_a,z_b)\)然后将其输入到Classifier模型中。此外,有添加+正常化层(即,剩余的连接和归一化)之后的自我关注前馈用于更有效训练的层。综上所述,编码器按以下顺序由以下几层组成:自我关注添加+正常化前馈添加+正常化特写注意力

Self-attention层

我们采用了多头自注意方法,其中多个单头自注意层并行使用(即同时使用)来处理集合中的每个输入向量(例如,\(u_a\)药品\ (d_a \)).每个单头层的输出被连接和转换,使用仿射变换生成一个固定长度的向量。单脑自我注意方法[10使用三个独立的矩阵对每个输入向量进行线性变换:(1)一个查询矩阵查询\ (W_ {} \)(2)按键矩阵\({W_键} \),和(3)值矩阵\(W_{value}\). 每个输入\ (u_t \)在哪里T.索引中的特征向量(即,用于从相似性矩阵中提取给定的药物组输入特征向量的\(\ {S_1,S_2,\ ldots,S_T \} \在d \))是利用这些矩阵来计算三个新的矢量(等式映射。12,3.

$ $ \{对齐}开始q_t = & {} W_{查询}u_t \{对齐}$ $
(1)
$$ \ {开始对准} K_T = {} {W_键} u_t \ {端对齐} $$
(2)
$$\begin{aligned}v_t=&{}W_{value}u_t\end{aligned}$$
(3)

在哪里查询\ (W_ {} \)\({W_键} \)\(W_{value}\){mathbb {R}}^{d'\乘以d}\\(q_t \)\(K_T \)\ (v_t \)在{\ (\ \ mathbb {R}} ^ {d '} \)是查询、键和值向量,和\(d'\)为三个计算向量分别的维数。在第二步中,使用每个输入向量的查询和关键向量之间的成对相似度计算注意力分数\ (u_t \)在输入集.相似度是通过计算成对向量之间的比例点积来定义的。对于每个输入向量,我们计算Attention分数\ (alpha _ {tl} \ \)表示\(q_t \)和向量\ (k_l \)\(\的forall升\在[1,\点,T] \)在哪里T.表示输入集合中向量的个数(方程式。4.5.),然后规范化使用softmax功能。然后,使用注意力得分进行加权和\ (alpha _ {tl} \ \)和值向量\ (v_l \)\(\的forall升\在[1,\点,T] \)执行(Eq。6.),以产生新的向量表示(r_t \in {\mathbb {R}}^{d'}\)对于输入向量\ (u_t \).这个过程被应用于每个输入矢量的输入集以获得一组新的输入向量的\({\underline{R}}=\{R\u 1,R\u 2,\ldots,R\u{T}\\)

$ ${对齐}\ \开始α_ {tl} = &{} \压裂{\ exp{(得分(q_t k_l))}}{\总和_ {l = 1} ^ {T} \ exp{(得分(q_t k_l))}} \{对齐}$ $
(4)
$$\begin{aligned}得分(q_t,k_l)=&{}\frac{{q_t}^\top k_l}{\sqrt{d'}\end{aligned}$$
(5)
$ $ \{对齐}开始r_t = & _ {l = 1}{} \和^ T \α_ {tl} v_l \{对齐}$ $
(6)

在多头设置H头的数目,查询,键和值矩阵将被索引上标H(例如,\(W ^ H_ {查询} \)\ (W ^ h_{关键}\)\(W^h{value}\){mathbb {R}}^{d'\乘以d}\)并单独应用以生成新的向量表示\(r^h\u t\)每一个单头自注意力层。从每个单头层的输出被连接成一个矢量\ (r ^ {concat} _t = concat (r ^ 1 _t, r ^ 2 _t \ ldots r ^ H_t) \)在哪里\(r^{concat}t\in{\mathbb{r}}{d'H}\)然后用仿射变换进行变换(Eq。7.),这样\(统一在{\mathbb{R}}{d'\times d'H}\)\(B_ {统一} \在{\ mathbb {R}} ^ {d'} \).这个过程适用于集合中的每个位置\({\下划线{R}} \)生成一个新的向量集\(\underline{{\tilde{R}}}={\tilde{R}}}u 1、{\tilde{R}}u 2、\ldots、{\tilde{R}}}u T\\)

$ $ \开始{对齐}{\波浪号{r}} _t = W_{统一}r ^ {concat} _t + b_{统一}\{对齐}$ $
(7)

层正常化和残余连接

我们使用剩余/跳过连接[21]为了改善训练中各层的梯度流动。这是通过将当前层的新计算输出与前一层的输出相加来完成的。在我们的设置中,第一个剩余连接对自我注意层的输出求和r \({\波浪号{}}_t \)输入向量\ (u_t \)对于输入集中的每个特征向量. 我们将参考r \({\波浪号{}}_t \)为了简单起见。

层正常化(22]有两种用途;在自注意层和前馈网络层之后,通过重新标准化计算向量表示(即使用特征/嵌入维数的均值和方差),以改善“协变偏移”问题\(d'\)).给定一个计算向量r \({\波浪号{}}_t \)层状动物函数将使用平均值标准化输入向量\μ_t (\ \)和方差\ \(σ_t ^ 2 \)沿着特征尺寸\(d'\)然后进行缩放\(\伽马\)和转移步骤β\ (\ \)(Eq。10).\(\伽马\)β\ (\ \)可学习参数和\ε(\ \)是增加了对数值稳定性小数目。

$ ${对齐}\ \开始μ_t = &{} \压裂{1}{d '} \总和_ {j = 1} ^ {d '}{\波浪号{r}} _ {tj} \{对齐}$ $
(8)
$$ \ {开始对准} \西格玛^ 2_t = {} \压裂{1} {d '} \总和_ {J = 1} ^ {d'}({\代字号{R}} _ {TJ} -\亩_t)^ 2 \ {端对齐} $$
(9)
$ $ \{对齐}开始LayerNorm({\波浪号{r}} _t) = &γ{}\ \ * \压裂{{\波浪号{r}} _t - \μ_t}{\√6{\σ^ 2 _t + \ε}}+β\ \{对齐}$ $
(10)

前馈层

经过一层归一化步骤后,利用由两个仿射变换矩阵和非线性激活函数组成的前馈网络进一步计算/嵌入前一层学习到的向量表示。第一个变换(Eq。11)使用(W_{MLP1} \in {\mathbb {R}}^{\xi d' \ * d'}\)\(B_ {MLP1} \在{\ mathbb {R}} ^ {\ XI d'} \)转换输入r \({\波浪号{}}_t \)新载体\(in {\mathbb {R}}^{\xi d'}\)在哪里\(\ XI \在{\ mathbb {N}} \)是乘法因子。如A非线性函数\ (ReLU (z) = max (0, z) \)然后应用另一个仿射变换,使用(W_{MLP2} \in {\mathbb {R}}^{d'\times \xi d'}\)\(b{MLP2}\in R^{d'}\)获取向量\(G_T \在{\ mathbb {R}} ^ {d'} \).阿层正常化(等式12)被申请以获得\({\tilde{g}}_t \in {\mathbb {R}}^{d'}\)

$$ \ {开始对准} G_T = {} {W_} MLP2 RELU(W_ {MLP1} {\代字号{R}} _ T + B_ {MLP1})+ B_ {MLP2} \ {端对齐} $$
(11)
$ $ \开始{对齐}{\波浪号{g}} _t = & {} LayerNorm (g_t) \{对齐}$ $
(12)

这些变换应用于集合中的每个向量\(\下划线{{\代字号{R}}} \)获取新集\(\下划线{{\代字号{G}}} = \ {{\代字号{G}} _ 1,{\代字号{G}} _ 2,\ ldots,{\代字号{G}} _Ť\} \).此时,编码器块操作完成和多个编码器块可以串联堆叠为E.次数。在我们的实验中,E.是一个超参数,使用验证集(如注意头的数量)根据经验确定H自注意层使用)。

特征注意层

特征注意层由a参数化全球的背景矢量C与训练过程中优化可以学习的参数。为一组输入向量\(\下划线{{\代字号{G}}} = \ {{\代字号{G}} _ 1,{\代字号{G}} _ 2,\ ldots,{\代字号{G}} _Ť\} \)(在层计算之前),注意力分数\(\ psi_t \forall t \in [1, \ldots, t]\)使用上下文向量之间的配对相似计算(c \in {\mathbb {R}}^{d'}\)布景呢\ \(下划线{{\波浪符号{G}}} \)(方程式。1314).这些分数被归一化并用于计算加权和\(\ {{\代字号{G}} _ 1,{\代字号{G}} _ 2,\ ldots,{\代字号{G}} _Ť\} \)生成一个新的向量统一向量表示\(z \in {\mathbb {R}}^{d'}\)进一步传递给分类器层(Eq。15).

$$\begin{aligned}\psi{t}=&{}\frac{\exp{(分数(c,{\tilde{g}}}{t))}{\sum{j=1}{t}\exp{(分数(c,{\tilde{g}}}}}}}}}\end{aligned}$$
(13)
$$\begin{aligned}得分(c,{\tilde{g}}}t)=&{}\frac{{c}^\top{\tilde{g}}{t}{\sqrt{d}}\end{aligned}$$
(14)
$ $ \{对齐}开始z = & _ {t = 1}{} \和^ t \ psi _ {t}{\波浪号{g}} _t \{对齐}$ $
(15)

分类器层分类器层计算距离(欧几里得余弦)之间的计算表示向量\((z_a,z_b)\)然后以该距离连接它们。随后,通过仿射变换,将串联的特征向量映射到输出类的大小(即,是否存在交互)。最后,一个softmax函数用于输出这两类的预测概率分布(即。\({\帽子{Y}} _ {(I)} \)对于\ (^ {th} \)药物对)。

目标函数

我们定义的总损失为一世个药物对由线性负对数似然损失的组合(\ (L ^ C \))和对比损耗(\ (L ^{经销}\)).每个损失函数的贡献由超参数决定\ \(γ在(0,1)\ \). 此外,权重正则化项(即。,\ (l2 \)-范数正则化)应用于表示的模型参数\ (\ varvecθ}{\ \)添加到目标函数中(Eq。16).

$$ \ {开始对准} L ^ {}总计= \伽马L ^ C +(1 - \伽马)L ^ {DIST} \ + \压裂{\拉姆达} {2} || \ mathbb {\ varvec {\THETA}} || _ {2} ^ {2} \ {端对齐} $$
(16)

在哪里

$$\begin{aligned}l^{C}{u{(i)}=&{-[y{(i)}log{\hat{y}}{(i)}+(1-y{(i)}log(1-{hat{y}{(i)})],y{i}在\{0,1\\结束{aligned}$$
(17)
L ^ $ $ \开始{对齐}{C} = &{} \压裂{1}{K} \总和_ {i = 1} ^ {K} L ^ {C} _ {(i)} \{对齐}$ $
(18)

$$ \ {开始对准} L ^ {} DIST _ {(I)} =&{} {\左\ {\开始{阵列} {LL} Y_I = 1&{} \压裂{1} {2} {DIST} ^ 2 _ {(I)} \\ Y_I = 0&{} \压裂{1} {2} MAX((\亩 - {DIST} _ {(I)})^ 2,0)\端{阵列}\对。} \ {端对齐} $$
(19)
$$\begin{aligned}L^{Dist}=&{}\frac{1}{K}\sum{i=1}^{K}L^{Dist}{(i)}\end{aligned}$$
(20)

\(一)表示已编码向量表示之间的计算距离\ (z_a \)\ (z_b \)\ (^ {th} \)药物对,其可以是欧几里得余弦距离。另外,,\μ(\ \)是对比损失保证金hyperparameter。

该训练是使用小批量进行的,其中计算损失函数和更新参数/权值发生在处理每个小批量训练集之后。

模型变量

为了进一步评估我们的模型架构的不同组成部分的贡献,我们训练和测试两型变种。第一用途注意的唯一的模式(即,没有连体结构),其中每个药物对的特征向量被用作输入矢量集到该模型的。第二变型禁用两个注意与连体构件,使得它仅使用其中每个药物对特征向量被简单地串联并馈送到模型中的深层神经网络(即前馈神经网络)。每个模型进行训练,并且在类似的方式进行测试,以原始模型(即注意)。

培训工作流程

对于培训,我们采用了10倍分层交叉验证策略,其中10%专用于验证集和超参数调整(定义见表1)6.).对于超参数优化我们选择了一组用于每个随机模型组合超参数,然后训练他们上的随机倍(满分10分)。随后,我们选择基于在验证组相应的折叠的模型的性能的超参数。最后,与所选择的超参数(表6.)我们重新训练每个模型的所有10倍。在训练过程中,例子的权重与训练数据中的类/结果频率成反比。模型性能的评价使用接收方工作特征曲线下面积(AUC)和精确查全率曲线下面积(AUPR)。在模型训练过程中,记录模型在验证集上取得最佳AUPR的时期,保存模型训练到该时期时的状态。由验证集确定的最佳模型,然后在测试分割上进行测试。

数据模式重要性

为了确定每个数据模式(即相似矩阵)的重要性及其对模型性能的贡献,我们使用了两种不同的方法。第一种是基于将药物对传递给模型时在每一层计算的注意分数。考虑到我们注意模型有不同数量的注意头H以及不同数量的编码器单元E.我们每天汇总计算关注分数矩阵\(经办人^ {[h e]} \)从跨所有层,其中,不同的磁头和单元,然后它平均HE.分别索引模型的注意头和编码器单元。最后,在特写注意力featAttn是用来重新加权平均的注意力矩阵,如Eq。21

$ $ \{对齐}开始ModalityImp_ {(i)} ^{经办人}= featAttn_{我}\ cdot \离开(\压裂{1}{E} _ {E = 1} \和^ {E} \压裂{1}{H} \总和_ {H = 1} ^ {H} Attn_{我}^ {[H E]} \) \{对齐}$ $
(21)

在哪里\ (featAttn_i \)\(\in{\mathbb{R}}{1\times T}\)\(Attn_i ^ {[H,E]} \)\(\在{\ mathbb {R}} ^【T \时间T} \)\(一世-\)药物对T.输入模态的数量(即相似性矩阵)。在本研究中每个数据集,平均形态重要性矢量(即\ (ModalityImp_ {avg} ^{经办人}\))是使用所有10倍的测试数据进行计算的。

第二种方法评估输入模式是基于一个掩蔽实验重要性,为每一个褶皱在给定数据集的10倍,我们面具每个通道一次和计算模型的相对性能(AUC和AUPR)的变化,而访问所有形式的基本模型。算法1描述了具体的过程。相对变化越高,移除/屏蔽的模式就越重要。

人物

数据和材料的可用性

在当前的研究中生成和/或分析的数据集可以在Github存储库中获得,https://github.com/uzh-dqbm-cmi/side-effects/

参考文献

  1. 1.

    坎特·埃德、雷姆·CD、哈斯·JS、陈·阿特、乔凡努奇·艾尔。1999-2012年美国成年人处方药使用趋势。JAMA。2015;314(17):1818–30.https://doi.org/10.1001/jama.2015.13766

    中科院文章PubMedpmed中央谷歌学术

  2. 2.

    张宁,孙德奎斯特,孙德奎斯特,季杰。瑞典多药症流行趋势:一项基于全国注册的研究。杂志。2020;11:326。

    中科院文章谷歌学术

  3. 3.

    Oktora MP,Denig P,博斯JH,Schuiling-Veninga CC,鹤E.趋势在荷兰的成年人服用多种,分装药品相比,美国。Plos一个。2019; 14(3):0214240。

    文章谷歌学术

  4. 4.

    卡马西平/羟考酮联合给药治疗三叉神经痛的疗效观察安Pharmacother。2011;45(6):33。

    文章谷歌学术

  5. 5.

    切斯基A,Tuccori男,Bocci的G,Vannozzi楼迪·保罗A,芭芭拉C,Lastella男,Blandizzi C,急诊患者德尔蒟蒻M.药物治疗失败:一所大学医院的经验。Pharmacol Res。2004; 49(1):85-91。

    文章谷歌学术

  6. 6.

    柳济勇,金虎,李世逸。深度学习改进了对毒品和药物-食物相互作用的预测。中国科学院院刊。2018;115(18):4304-11https://doi.org/10.1073/pnas.1803294115

    中科院文章谷歌学术

  7. 7.

    马涛,尚军,肖超,孙建军。基于图能神经网络的药物相互作用预测。arXiv: 1910.02107[cs, q-bio, stat](2019)。2020年7月15日

  8. 8.

    基于神经网络的药物-药物相互作用预测。Sci众议员2019;9(1):13645。https://doi.org/10.1038/s41598-019-50121-3

    中科院文章PubMedpmed中央谷歌学术

  9. 9。

    鲁哈尼N,Eslahchi C,Katanforoush A. ISCMF:集成相似约束矩阵分解为药物 - 药物相互作用的预测。网络型号肛肠健康告知Bioinform。2020; 9(1):11。https://doi.org/10.1007/s13721-019-0215-3

    文章谷歌学术

  10. 10.

    瓦斯瓦尼A、沙泽尔N、帕尔马N、乌兹科雷特J、琼斯L、戈麦斯安、凯撒L、波洛苏钦I。注意力是你所需要的。摘自:Guyon I、卢森堡UV、Bengio S、Wallach H、Fergus R、Vishwanathan S、Garnett R(eds)《神经信息处理系统的进展》,第30卷,Curran Associates,Inc。;2017年,第5998-6008页。http://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf.2020年7月15日

  11. 11

    张伟,陈毅,刘菲,罗菲,田戈,李X。通过整合化学、生物、表型和网络数据预测潜在的药物相互作用。BMC生物信息。2017;18(1):18.https://doi.org/10.1186/s12859-016-1415-9

    中科院文章谷歌学术

  12. 12

    万福,洪力,肖阿,江婷,曾杰。NeoDTI:利用异质网络中的邻居信息进行神经整合,以发现新药与靶点之间的相互作用。生物信息学。2019;35(1):104–11.https://doi.org/10.1093/bioinformatics/bty543

    中科院文章PubMed谷歌学术

  13. 13

    Gottlieb A, Stein GY, Oron Y, Ruppin E, Sharan R. INDI:推断药物相互作用的计算框架及其相关推荐。中国生物医学工程学报。2012;8(1):592。https://doi.org/10.1038/msb.2012.26

    中科院文章PubMedpmed中央谷歌学术

  14. 14

    Wishart DS, Feunang码,郭AC,瞧EJ, Marcu,格兰特JR Sajed T,约翰逊D,李C, Sayeeda Z, Assempour N, Iynkkaran我,刘Y, Maciejewski,盖尔N,威尔逊,下巴L,卡明斯R, Le D,彩球,诺克斯C,威尔逊m . DrugBank 5.0: 2018年DrugBank主要更新数据库。核酸Res. 2018;46(D1): 1074-82。https://doi.org/10.1093/nar/gkx1037

    中科院文章谷歌学术

  15. 15

    张鹏,王芳,胡军,张鹏。基于临床毒副作用的药物相互作用标签传播预测。Sci众议员2015;5(1):1 - 10。https://doi.org/10.1038/srep12339

    文章谷歌学术

  16. 16

    面包车Laarhoven T,Nabuurs SB,Marchiori E.高斯交互简档内核用于预测药物 - 靶相互作用。生物信息学。2011; 27(21):3036-43。https://doi.org/10.1093/bioinformatics/btr500

    中科院文章PubMed谷歌学术

  17. 17

    Tatonetti NP, Ye PP, Daneshjou R, Altman RB。药物效应和相互作用的数据驱动预测。中国医学杂志。2012;4(12):125 - 3112531。https://doi.org/10.1126/scitranslmed.3003377

    文章谷歌学术

  18. 18

    王B、梅兹利尼A、德米尔F、菲姆M、图Z、布鲁德诺M、海贝凯恩斯B、戈登堡A。相似性网络融合,用于在基因组尺度上聚合数据类型。Nat方法。2014;11(3):333–7.https://doi.org/10.1038/nmeth.2810

    中科院文章PubMed谷歌学术

  19. 19。

    Paszke A, Gross S, Chintala S, Chanan G, Yang E, DeVito Z, Lin Z, Desmaison A, Antiga L, Lerer A;2017.2020年7月29日。

  20. 20.

    奇科D。摘自:Cartwright H(ed)《暹罗神经网络:概述》。纽约:斯普林格;2021年,第73-94页。

  21. 21.

    他K,张新,任S,孙J.在:深入学习残留图像识别,第一卷2016年IEEE计算机协会;2016. p。770-8。https://doi.org/10.1109/CVPR.2016.90的arXiv:1512.03385

  22. 22.

    英国航空公司,小基罗斯,通用电气公司。层规范化;2016的arXiv:1607.06450

下载参考资料

确认

不适用。

资金

不适用。

作者信息

从属关系

作者

贡献

KS和AA负责开发处理和分析工作流、算法和模型实现。KS、AA和NPG对数据进行了分析和解释。KS起草了手稿。NPG、AA和MK监督和编辑了手稿。所有作者都批准了最后的文章。

相应的作者

对应到迈克尔•克劳萨默

道德宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

作者声明他们没有相互竞争的利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

额外的文件1。

描述所使用的四个数据集及其相应的相似性矩阵。

权利和权限

开放存取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/. 知识共享公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

施瓦茨,K.,阿拉姆,A.,佩雷斯冈萨雷斯,资料不详et al。AttentionDDI:用于药物-药物相互作用预测的暹罗注意深度学习方法。欧宝娱乐合法吗22,412 (2021). https://doi.org/10.1186/s12859-021-04325-y

下载引用

关键字

  • 药物之间相互作用
  • 副作用
  • 预言
  • 深度学习
  • 注意力