跳过主要内容

DTI-HeNE:一种基于异构网络嵌入的药物靶标相互作用预测新方法

摘要

背景

药物靶靶相互作用(DTI)的预测是药物重新施加过程中的关键步骤,其可以有效地减少以下工作量以进行潜在药物的实验验证。在最近的研究中,已经提出了许多基于机器学习的方法来发现药物和蛋白质目标之间的未知相互作用。最近的趋势是使用基于图的机器学习,例如,嵌入嵌入来自药物目标网络的提取特征,然后预测新的药物目标相互作用。但是,大多数图形嵌入方法都没有专门为DTI预测设计;因此,这些方法难以充分利用药物和靶的异质信息(例如,药物和靶标的各个顶点特征以及药物和靶标之间的途径的互动特征)。

结果

我们提出了一种DTI预测方法DTI-氦氖(DTI根据异构网络嵌入),其被专门设计以应对用于产生药物 - 靶对高质量的嵌入二分DTI关系。此方法拆分的异构DTI网络分成二分DTI网络,多种药物同构网络和目标同构网络,并提取从这些子网络分别设有以更好地利用二分DTI关系的有关药物的特性,以及作为辅助相似性信息和目标。从各子网络中提取的特征是使用这些子网络之间通路信息来获取新的特性,即,嵌入的药物靶标对载体一体化。最后,这些特征被馈送到随机森林(RF)模型来预测新的DTIS。

结论

实验结果表明,所提出的DTI网络嵌入方法可以更好地学习异构药物-靶标相互作用网络的特征,从而发现新的DTI。

背景

药品再利用或重新定位是指新的用途,其持有前景广阔部署的老药。这是因为开发一个新的药物是昂贵和费时[1].相比之下,药物再利用,即发现经食品和药物管理局(FDA)批准的现有药物的新用途,可以节省临床试验的时间和实验资金。基于计算技术的DTIs预测在药物再利用中发挥着重要作用,因为与生化实验方法相比,DTIs预测成本低、时间短[23.4].越来越多的公共数据库[5[DTIS预测,可以更有效地应用于不同的计算策略。传统计算方法有两种:基于配体的方法[6]和基于结构或基于对接的方法[7,可以提供相对准确的DTI预测。但是,当针对某一靶点提供的结合配体很少时,前者的预测性能有一定的局限性,而当靶点的三维(3D)结构无法获得时,后者则不可行[2].

近年来,基于机器学习的方法已广泛用于DTIS预测,因为它们可以在DTIS空间中搜索更多潜在的药物目标。大多数这些方法的主要假设是类似的药物可以共享类似的目标[8].基于该假设,已经提出了基于内核的方法,其基本上将各种药物和靶标相似性矩阵(即核)映射到DTI标签[910].

与基于核的方法相比,基于图的方法可以更好地利用顶点和边来描述药物与靶点之间的交互关系。该方法从药物-靶标相互作用网络中提取拓扑特征,并处理这些特征用于DTI预测[11].然而,现有的许多方法并没有考虑到不同类型实体所具有的鲜明特征和实体之间复杂的关系。异构信息网络是通过不同的顶点和边来对复杂数据的语义信息建模的强大工具[12].使用异质网络来代表药物和目标顶点的特征以及药物和目标之间的不同关系是自然的。在构建异构DTI网络之后,我们需要使用网络嵌入算法来提取特征,即网络的低维矢量表示,用于下游机器学习任务,例如链接预测[1314].

然而,虽然存在许多均匀的网络嵌入算法并且已经应用​​于DTI预测,但由于各种顶点类型和顶点之间的关系的分集,异构网络嵌入仍然是一个具有挑战性的任务。最近,陈等人。[15]提出了一个想法,以应对异构网络嵌入:异构网络可以分解成几个子网络,并且它们中的每一个都是单独处理的。类似地,异构DTI网络可以被划分为二分的DTI网络和其他包含相同类型之间的相似性信息的其他辅助网络。luo等人。[2]提出了一种DTINet方法,该方法通过网络扩散算法和归纳矩阵补全策略来学习嵌入。基于异构网络,Thafar MA等人[16[node2vec [17[图形挖掘技术,以及由启发式算法生成的DTI预测生成的药物和目标相似性。彭等人。[18[通过重启(RWR)模型,一个去噪AutoEncoder(DAE)和卷积神经网络(CNN)的模型引入了随机步行,以从异构网络中提取低维向量,它们也使用端到端图卷积网络(GCN)做类似的工作[19].

尽管上面取得可喜的成果提到的方法,仍然存在一些问题。更具体地,当前的方法没有明确考虑药物 - 靶相互作用的在异构网络DTI二分性质(含所有已知DTIS)。相反,这些二分药物 - 靶相互作用与其它辅助信息同等对待诸如药物 - 药物和靶 - 靶相似信息。异质关系的这种不加选择的治疗可能会导致次优的功能和最终将影响DTIS预测的准确性。

为了解决这一问题,我们提出了一种新的异构网络嵌入方法DTI-HeNE,该方法特别考虑了药物-靶标的双侧关系。类似于Chen等人[15,首先将异构DTI网络分解为二部DTI网络和同质药物-药物和靶-靶相似网络。该方法是一种具有良好可解释性的多阶段嵌入方法,采用二部网络嵌入(Bipartite Network embedding, BiNE) [20.]专门从二分阶段DTI网络中了解DTI嵌入品。接下来,开发了一种基于路径的方法,以根据子网络之间的途径的拓扑信息来组合与均匀网络的二分的DTI嵌入式,用于创建所有药物目标对的新嵌入表示。最后,通过运行一个随机森林(RF)模型来学习这些集成表示来获取小说DTI。

方法

问题描述

In our study, the DTIs prediction can be formulated as a transductive-learning binary link-prediction task (i.e., discovering novel DTIs within the DTIs space consisted of fixed drugs and targets in the given dataset, that is, the involved entities do not need to be extended) based on a heterogeneous network, which is divided into a bipartite DTI network as well as drug and target homogeneous networks. More specifically, let\({G} _ {B} =(\ mathrm {d},\ mathrm {T},\ mathrm {E})\)是一家二角形DTI网络,在哪里\ (\ mathrm {D} = \ {{D} ^ {1}, {D} ^{2}, \点,{D} ^ {m} \} \)是指药物在数据集数)和\(\ mathrm横置= \ {{吨} ^ {1},{T} ^ {2},\点,{T} ^ {N} \} \)n表示数据集中靶标的数量),分别表示药物节点和靶标蛋白节点的集合。\ \ (\ mathrm {E} \子集mathrm {D} \ * \ mathrm {T} \)在药物和靶标之间定义已知的边缘(相互作用),并且所有已知的边缘对应于1的重量。同时,均匀的药物和目标网络被定义为\ \(米乘以m \)矩阵(d G \ ({} _ {} \))和\ (n \ n \)矩阵(\ ({G} _ {t} \)),每个元素表示两种药物或两个靶点之间的相似程度。一个元素的值越高,对应的两个实体之间的相似性就越高。此外,还有一个\ (m \ n \)矩阵(Y)存储二进制DTI预测,如果\({y} ^ {ij} = 1 \),表示\({d} ^ {i} - {t} ^ {j} \)对被预测有潜在的相互作用,如果不是,那么\({Y} ^ {IJ} = 0 \)

而且,正是由于我们预测任务的定义(即所涉及的节点是固定的),才可以使用类转导学习方法。另一个原因是,直接将未知交互的权重设为0可能无法在已知和未知样本之间比例高度不平衡的数据集(如DTI数据集)上产生令人满意的性能[21].转导学习允许方法事先观察所有数据,包括训练和测试数据集,并潜在地利用其分布中的结构信息[22](以便在面对已知交互稀疏的数据集时,更好地使用未知样本的附加信息)。与归纳学习,学习一般推理任务基于数据集的信息,转换式学习是不那么雄心勃勃的和发现一个特定的解决方案,只对当前最优的数据集(例如,获得最佳的性能在固定药物和目标数据集在我们的案例研究)(2324];一些DTI预测方法已经提到了转导装置[25].

工作流

数字1呈现在我们的研究中所提出的方法的四个主要步骤:

  1. 1.

    药物和目标嵌入的获取:在已知的基础上建立二部DTI网络\({d} ^ {i} - {t} ^ {j} \)对,然后在二部网络上执行BiNE算法,获取数据集中所有实体显式和隐式转移关系的先验高阶相似信息。

  2. 2.

    同质网络的选择和融合:采用启发式算法筛选和整合多个药物和目标同质网络。

  3. 3.

    基于路径的信息集成:在此步骤中,基于路径的异构信息作为辅助信息添加以生成每个的嵌入\({d} ^ {i} - {t} ^ {j} \)对。

  4. 4.

    新型DTI预测:一个RF分类器进行训练学习一体化嵌入表示用于预测未知DTIS。

图1
图1

我们方法的流程图。该方法集成了三种网络来获取药物靶对的嵌入。由BiNE生成药物和目标节点的原始表示,然后使用药物和目标同质矩阵以及基于路径的拓扑特征对这些表示进行扩充,以预测DTIs

学习二角形DTI嵌入

学习二部网络嵌入的难点在于如何同时学习不同类型顶点(如DTIs)之间的显式二部关系和相同类型顶点(如药物和靶标)之间的隐式过渡关系。BiNE通过使用三部分联合优化框架解决了这一挑战,并为每种类型的关系分配了专用的目标函数和可调权值,这产生了更好的顶点嵌入。具体来说,框架的第一部分是对显式关系建模。为了保存两种不同类型节点之间的观测边信息(\({你}_{我}\)\({V} _ {Ĵ} \)),选择KL散度来测量联合概率之间的差异(p(i,j)\)顶点之间\({你}_{我}\)\({V} _ {Ĵ} \)联合概率\ (\ widehat {P} (i, j) \)在嵌入的顶点矢量之间\({你}_{我}\)\({V} _ {Ĵ} \)\(\超级arrow {{u} _ {i}} \)\(\超级arrow {{v} _ {j}} \)).异议函数可以定义如下,这旨在最小化之间的差异(p(i,j)\)\ (\ widehat {P} (i, j) \)

$$ \ mathrm {最小化} {ö} ^ {1} = KL(P || \ widehat {P})= \总和_ {{E} _在E {IJ} \} P(I,J)\ {mathrm日志}(\压裂{P(I,J)} {\ widehat {P}(I,J)})$$
(1)

For the sake of explicitly modeling the unobserved but transitive links (implicit transition relationships) between the same type of nodes (i.e., directly modeling that similar drugs/targets could interact with similar targets/drugs in our case study), firstly, BiNE utilizes an idea named Co-HITS [26]生成两个同构网络(矩阵),其中包含同类型节点之间的二阶近似,然后在生成的矩阵中选择至少一个权值大于0的节点。然后对这两个由选定节点组成的同质网络分别进行截断随机游走,以更好地捕捉节点的频率分布,将网络转换为两个顶点序列的语料库。更具体地说,在我们的DTIs预测过程中,会产生两种不同类型的同质网络。第一类是在图中所示的工作流的第二步中得到的。1,其中包含药物和靶标的化学和物理相似性信息,并被其他DTI预测方法更广泛使用[27].对于第二类,通过前面提到的Co-HITS进行计算,模拟隐式转移关系,其大小与第一类(即药物同质网络:\ \(米乘以m \)矩阵,目标同质网络:\ (n \ n \)矩阵),和每一个元素(权重)表示两种药物/目标之间的隐式转换概率。那是一个\ (m \ n \)二角形DTI矩阵\ ({G} _ {b} \),药物均匀网络可以由a表示\ \(米乘以m \)矩阵\({G}{b}{G}{b}^{T}\),目标齐次网络定义为\({g} _ {b} ^ {t} {g} _ {b} \),也就是\ (n \ n \)矩阵。在我们的任务中,以药物均匀的矩阵为例(图。2),进入\ ({w} _ {ij} ^ {d} \)在该矩阵中具有更高的值,可以解释为那个\({药物} _ {I} \)\({药物}_ {j} \)将共享更多相似目标,相似原理可应用于目标齐次矩阵。这种特征与已知的“联想内疚”假设是一致的。2].因此,第二类型的同构网络的可携带药物之间和目标之间的多个交互式信息,这是有用的,以提高DTIS预测的准确性。

图2
figure2

在BiNE中生成的药物同质网络的说明。假设整个二部DTI矩阵中只有三个药物和两个靶点\ ({G} _ {b} \).当\(3 \倍3 \)通过乘法得到药物均匀矩阵\ ({G} _ {b} \)(2 \ \ 3 \倍)矩阵)by\ ({G} _ {b} ^ {T} \)(\(2 \ times 3 \)矩阵),我们可以在这里找到\(3 \倍3 \)矩阵中,Drug1和Drug2之间的值为1,而Drug1和Drug3之间的值为0,这些值对应于中的DTI关系\ ({G} _ {b} \).具体而言,药物1和药物2共享一种靶(靶标),药物1和药物3不共享任何目标,相应地,在药物均匀基质中的前药对的值高于后者的价值

接下来,基于截断的随机游走创建的语料库,跳跃图模型[28]用于学习二分网络(例如,药物和目标嵌入物)中两种类型的嵌入,这使得嵌入式捕获更加高级的邻近信息;基本上,Skip-gram模型的目的是将与在语料库中的序列的相同上下文中更频繁地发生的顶点分配相似的嵌入。直观地,如果语料库序列中的顶点彼此更类似,则这些顶点更可能在同一上下文中共发生,因此它们可以被分配更类似地的嵌入。因此,我们进一步将相对高的重启概率(例如,0.7)添加到截断随机散步的每个步骤。作为示例以嵌入的随机步行以某个药物节点开始,当下一个节点从具有与当前药物有连接的其他药物节点中的设置(确定确定的连接)基于在药物均匀网络中的这两个节点之间的值,如果值是非零,这表明它们之间存在连接),则会随机选择0到1的数字。如果此数字小于重启概率,则下一个节点将成为起始节点。以这种方式,在当前语料库序列中选择的药物节点更靠近起始节点,这可以为DTI预测带来更高质量的嵌入。

因此,为了学习隐式转换关系,需要在(2) - (3)中表达的两个异议函数,以分别在其中的两个基层上的高阶近距离的条件概率最大化\(s \)表示仅包含\({你}_{我}\)节点或只\({V} _ {Ĵ} \)节点,(\ D{} ^{你}\)\({d} ^ {v})对应于两个生成的语料库,\ ({C} _{年代}({你}_{我})\)\({c} _ {s}({v} _ {j})\)代表上下文顶点\({你}_{我}\)\({V} _ {Ĵ} \)在序列中\(s \)分别和上下文顶点是几个顶点(数字是\(\mathrm{ws}\)总计)在之前和之后\({你}_{我}\)或者\({V} _ {Ĵ} \)在一个序列\(s \).此外,\(p({u} _ {c} | {u} _ {i})\)指有多可能\({你}_ {c} \)是在\({你}_{我}\),类似的意思可以应用到c v \ (P ({} _ {} | {v} _ {j}) \)

$$ \ mathrm {最大化} {ö} ^ {2} = \ PROD _ {{ù} _ {I} \ S中\楔小号\在{d} ^ {U】} \ PROD _ {{ù} _ {C} \在{C} _ {S}({U】_ {I})} P(【​​U} _ {C} | {ù} _ {I})$$
(2)
$$ \ mathrm {maximize} {o} ^ {3} = \ prod _ {{{{v} _ {j} \在{d} ^ {v}} \ prod _ {v} _ {c} \在{c} _ {s}({v} _ {j})} p({v} _ {c} | {v} _ {j})$$
(3)

最后,可以将上述三个部分的异议功能集成到联合框架中,以同时捕获显式和隐式转换关系。该框架由随机梯度上升(SGA)算法进行了优化,可以作为EQ呈现。(4).\(\ mathrm {\ alpha} \)β\ (\ \)\γ(\ \)是控制三个组件之间关系的可调权重。

$$ \ mathrm {最大化L} = \ mathrm {\阿尔法日志} {ö} ^ {2} + \测试\ mathrm {日志} {ö} ^ {3} - \ {伽玛ø} ^ {1} $$
(4)

在优化Eq. (4),为节省计算时间,负采样[29,该算法通过采样几个负的实例来近似softmax函数的代价分母,用于学习嵌入向量。因此,一个梯度步骤的整个优化过程如下:

首先是\( - \ gamma {o} ^ {1} \)部分被最大化的嵌入更新\(\超级arrow {{u} _ {i}} \)\(\超级arrow {{v} _ {j}} \)作为EQS。(5) - (6):

$ $ \ overrightarrow{{你}_{我}}= \ overrightarrow{{你}_{我}}+ \λ\γ{w} _ {ij}{\[1 - \σ({\ overrightarrow{{你}_{我}}}^ {T} \ overrightarrow {{v} _ {j}})) \子弹\ overrightarrow {{v} _ {j}} \} $ $
(5)
$$ \ overrightarrow {{V} _ {Ĵ}} = \ overrightarrow {{V} _ {Ĵ}} + \拉姆达\ {\ {伽玛白} _ {IJ} [1- \西格马({\ overrightarrow {{ù} _ {I}}} ^ {T】\ overrightarrow {{v} _ {Ĵ}})] \子弹\ overrightarrow {{ù} _ {I}} \} $$
(6)

在哪里\λ(\ \)学习速度是和\({w} _ {ij} \)是边之间的权重吗\({你}_{我}\)\({V} _ {Ĵ} \)(在我们的研究中,如果中间有一条边,权值为1\({你}_{我}\)\({V} _ {Ĵ} \)).然后,这\ (\ mathrm{\α日志}{O} ^ {2} \)\(\beta\mathrm{log}{O}^{3}\)各部分分别最大化,以进一步更新嵌入向量,如下所示:

{$$$$$$$$$$$$${{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{}}}{{{{{{{{{{{{{{{{{{{}}}}{{{{{{{{{{{{{}}}}{{{{{{{{{{{{{{{{{{{{{{{{}}}}}}}{{{{{}}}}}{{{{{{{{}}}}}}}}}}}{{{{{{{{{{{{{{}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}\\门门门门门门门门门门门门门门门门门门门门门门门门门门门门学校学校学校学校学校学生学生学生学生学生学生学生学生学生学生学生过右箭头{{\theta}{z}}]\bullet\overwightarrow{{\theta}{z}\}$$
(7)
$ $ \ overrightarrow {{v} _ {j}} = \ overrightarrow {{v} _ {j}} + \λ\ {\ sum_ {z \ \ {{v} _ {c} \} \杯{N} _{年代}^ {ns} ({v} _ {j})}β\[我\离开(z, {v} _ {j} \右)- \σ({\ overrightarrow {{v} _ {j}}} ^ {T} \ overrightarrow {{\ vartheta} _ {z}})) \子弹\ overrightarrow {{\ vartheta} _ {z}} \} $ $
(8)

在哪里\({你}_ {c} \)\({v} _ {c} \)上下文顶点是\({你}_{我}\)\({V} _ {Ĵ} \)分别地,\ ({N} _{年代}^ {ns}({你}_{我})\)表示负样本(数字为\ (\ mathrm {ns} \)总共\({你}_{我}\)在序列中(s \ epsilon {d} ^ {u} \),类似的意思可以应用到\ ({N} _{年代}^ {ns} ({v} _ {j}) \)\(I \ left(z,{u} _ {i}右)\)\(我\离开(z, {v} _ {j} \) \)是指示符函数确定是否顶点\(z \)是上下文顶点\({你}_{我}\)\({V} _ {Ĵ} \)分别为:1,不是:0。\(\ sigma \)是S形函数吗\ (1 / (1 + {e} ^ {- x}) \), 和\ (\ overrightarrow{{\θ}_ {z}} \)\(\ overrightarrow {{\ vartheta} _ {Z}} \)是上下文顶点的嵌入式\({你}_{我}\)\({V} _ {Ĵ} \)分别。

此外,BINE是一种嵌入方法,无法良好地学习截断随机散步无法达到的完全隔离节点。但是,在我们的转换学习设置下,我们认为可以从另一个角度来理解使用畅销。更具体地,许多方法采用多种药物和目标相似性(作为输入特征的一部分以产生均质网络),其基于药物和目标的某些性质在数据集中的所有节点上预先计算。作为一个类比,我们可以将贝列视为具有药物和目标共置矩阵的相似性发生器(基于整个二分的DTI网络计算)作为预先计算其他类型的药物和靶标的类型的输入。在这种情况下,该药物和目标相似性的形式是嵌入得分,并且其基于基于的性质是高级接近;和every node in the whole bipartite DTI network in used datasets has at least one edge such that the truncated random walk can produce every node’s (high-order proximity) similarity in advance (i.e., there are no isolation nodes actually in the process of high-order similarity production).

复合齐次网络生成

至于我们工作流程的第二步,我们选择一种启发式方法来筛选和组合含有不同药物和目标目标相似信息的不同均质网络(以矩阵形式)[27].该方法可以通过去除冗余信息并集成保留的特征来获取信息和鲁棒的复合均匀网络。具体地,我们首先计算每个均匀矩阵的熵,以确定这些矩阵包含多少信息。其次,删除熵值高于的均匀矩阵\(\ mathrm {c} 1 \ mathrm {log} \ left(\ mathrm {k} \右)\)在哪里\ (\ mathrm {c} 1 \)是控制每个矩阵包含(主观设置为0.7)的信息的阈值\ (\ mathrm{日志}(\ mathrm {k}) \)表示所有矩阵中包含的最大熵。

接下来,将每个矩阵展平并计算欧几里得距离(\ (d \))然后从熵最小的矩阵开始,基于相似性指数\ ({E} _{年代}\)(如Q。(9)),进一步除去具有其它基质\ ({E} _{年代}\)高于\(\ mathrm {c} 2 \)(主观设置为0.6),该过程将重复进行,直到所有矩阵被删除或保留。最后,相似性网络融合(SNF) [30.采用算法以非线性地将剩余矩阵非线性地熔化到复合矩阵中,该复合矩阵来自不同的相似度测量的必要信息。

$$ {e} _ {s} = \ frac {1} {1 + d} $$
(9)

因此,从多个药物和目标齐次矩阵中分别得到一个药物和一个目标复合矩阵。这两个矩阵以及本节提到的其他矩阵都属于“Learning bipartite DTI embedding”一节提到的第一类齐次网络,其大小为\ \(米乘以m \)(药物)\ (n \ n \)(针对目标)。

生成新的药物靶对嵌入向量

In order to tackle the problem that some recent embedding-based methods cannot add the pathway information about drug-target interactions into embeddings of drug-target pairs (e.g., simply concatenating generated drug and target embeddings as the final embeddings of drug-target pairs), we provide a method, which draws on the path-based information (about similar drugs interacting with the same targets and about similar targets sharing the same drugs), to acquire new embeddings of every drug-target pair (i.e., the reconstruction of DTI relations (network) included in the whole dataset). The intuition behind this idea is that, although separate drug and target embeddings produced by embedding algorithms could carry certain DTI (high-order proximity) information through learning process, the characterization of DTIs they contain for DTI predictions is still insufficient before the heterogeneous information (e.g., path-based knowledge) is added. The explanation of main calculation steps is shown in Fig.3.

图3
图3

嵌入生成过程的插图\({d} ^ {i} - {t} ^ {j} \)对。三种类型的子网络的特征将被结合起来创建一个新的嵌入表示。这个过程将重复许多次,直到DTIs空间中所有药物靶对的嵌入产生

具体地,以a的嵌入生成过程为例\({d} ^ {i} - {t} ^ {j} \)以Pair为例,首先,我们得到我(\ d {} ^ {} \)\ ({t} ^ {j} \)嵌入式(\ (\ overrightarrow {{d} ^{我}}\)\(\ overrightarrow {{吨} ^ {Ĵ}} \))由Bine生产的二分层DTI矩阵\ ({G} _ {b} \),以及“复合相似性矩阵生成”部分中提到的药物和目标均质熔融基质。其次,收购的五个最近的药物我(\ d {} ^ {} \)按药物均匀基质中的权重。也就是说,找到对应的行我(\ d {} ^ {} \)在药品同质矩阵,该行中的值进行排序由大变小,则对应的五大价值观药物选择。以同样的方式,相似度最高的五个目标,以\ ({t} ^ {j} \)可以被找寻到。

第三,乘以嵌入的向量我(\ d {} ^ {} \)通过选取的5种最接近的药物在药物均匀矩阵中分别对应的权重(即相似度),然后将得到的5种产品相加得到一个新的特征\({d} ^ {SIM \ _i} \);同样的规则也适用于的内嵌向量\ ({t} ^ {j} \)获得一个新的特征\({t} ^ {sim \ _j} \)(方程式。(10) - (11)).

$ $ {d} ^ {sim \ _i} = \ sum_ {{d} ^ {z}在{d} \ ^{附近}}{w} _ {d} ^ {z} \ overrightarrow {{d} ^{我}}$ $
(10)
$ $ {t} ^ {sim \ _j} = \ sum_ {{t} ^ {z}在{t} \ ^{附近}}{w} _ {t} ^ {z} \ overrightarrow {{t} ^ {j}} $ $
(11)

在哪里附近(\ D {} ^ {} \)\ ({T} ^{附近}\)表示该组的所选择的最近的药物我(\ d {} ^ {} \)和最近的目标\ ({t} ^ {j} \)分别地,\ ({w} _ {d} ^ {z} \)之间的重量\({d} ^ {z} \)我(\ d {} ^ {} \)在药物均质基质中,可应用于类似意义\({w} _ {t} ^ {z} \).这一步的主要目的是将药物-药物和靶标-靶标同质矩阵(相似度信息)整合到嵌入向量中我(\ d {} ^ {} \)\ ({t} ^ {j} \),分别。第四步,将嵌入向量相乘\ ({t} ^ {j} \)的权重\ ({G} _ {b} \)选择了五种最接近的药物\ ({t} ^ {j} \)分别,然后将五个生成的产品与获取新功能\({d} ^ {path \ _i} \).同时,我们乘以内嵌向量我(\ d {} ^ {} \)的权重\ ({G} _ {b} \)在五个选定的最近的目标之间我(\ d {} ^ {} \),然后将得到的产品相加,生成一个新的特征\ \ ({t} ^{路径_j} \)(方程式。(12) - (13)).

$ $ {d} ^{路径\ _i} = \ sum_ {{d} ^ {z}在{d} \ ^{附近}}{w} _ {{t} ^ {j}} ^ {z} \ overrightarrow {{t} ^ {j}} $ $
(12)
$$ {吨} ^ {路径\ _j} = \总和_ {{吨} ^ {Z} \在横置^ {邻近}} {瓦特} _ {{d} ^ {I}} ^ {Z} \overrightarrow {{d} ^ {I}} $$
(13)

在哪里\({瓦特} _ {{吨} ^ {Ĵ}} ^ {Z} \)w \ ({} _ {{d} ^{我}}^ {z} \)表示之间的权重\({d} ^ {z} \)\ ({t} ^ {j} \)\ ({G} _ {b} \)和重量之间\ ({t} ^ {z} \)我(\ d {} ^ {} \)\ ({G} _ {b} \),分别。在这个步骤中,我们可以对已知的药物之间的相互作用(更类似于我(\ d {} ^ {} \)) 和\ ({t} ^ {j} \)以及已知的相互作用我(\ d {} ^ {} \)和目标(它们更类似于\ ({t} ^ {j} \)).在第五步,一个新的嵌入向量\({d} ^ {part \ _i} \)通过求解载体来计算\({d} ^ {SIM \ _i} \)\({d} ^ {path \ _i} \)上,和内嵌向量\ \ ({t} ^{部分_j} \)以类似的方式形成(等式。(14) - (15)).

$$ {d} ^ {部\ _i} = {d} ^ {SIM \ _i} + {d} ^ {路径\ _i} $$
(14)
$${t}^{part\\u j}={t}{sim\\u j}+{t}^{path\\u j}$$
(15)

最后,\({d} ^ {part \ _i} \)\ \ ({t} ^{部分_j} \)可以连接来获得\({d} ^ {i} - {t} ^ {j} \)对,有效地融合了二部DTI网络以及药物和靶标同质网络的特征。此外,该计算过程是在交叉验证(CV)设置后进行的。

基于RF的药物 - 靶相互作用的预测

在数据集中获取所有药物目标对的嵌入后,RF分类器[31]可用于预测DTIS。RF已被证明在高维特征的面部表现良好,并能够处理在训练数据不足的情况下过度拟合。更重要的是,它可以有效地处理样本类不平衡问题。我们通过实现RF分类scikit学习[32]工具,药物靶标对的嵌入作为输入。然后预测每个药物靶对是否有潜在相互作用的概率。

此外,我们调整射频分类器的参数,以更好地学习复杂的集成嵌入。将估计量设置为100,衡量分裂质量的标准为基尼系数,并根据输入标签使模型权重与正(已知DTIs)类和负(未知DTIs)类的出现频率成反比,进一步克服已知和未知DTIs数量相当不平衡的挑战。

结果

在本节中,我们评估目标方法在两种不同设置(SD,S.T),基于两个主要数据集。首先,我们介绍了模型参数、实验设置细节以及模型评价指标。然后,在相同的实验条件下,将该方法与其他先进的DTI预测方法进行比较。接下来,我们进行了一个案例研究,预测了未知的DTIs,并通过从多个参考数据库中搜索证据来验证高分结果。

数据集

在本研究中,使用两个基准数据集建立二部DTI关系(网络);第一个数据集(黄金标准数据集)由Yamanishi等人收集[33]包括由靶蛋白类型(人体)的类型分类的四个DTI子集:酶(例如,包括445种药物和664蛋白),离子通道(IC,210药物和204个蛋白),G-蛋白偶联受体(GPCR,223种药物和95个蛋白质),以及核受体(NR,54种药物和26个靶标)。第二个是从奥莱安RS等人获得的。[27]组成,由1482 FDA批准的药物和1408名人靶蛋白(包括多个类别)之间的相互作用组成,该蛋白质从药物银行数据集中获得[34]. 此外,这些数据集中已知和未知交互的比例如表所示1

表1每个数据集中的正面样本和阴性样本的比例

在二部DTI网络中,是否存在已知的相互作用我(\ d {} ^ {} \)\ ({t} ^ {j} \),对应的权值为1,否则为0。

此外,生成复合均质网络的药物-药物和靶点-靶点相似性来自Olayan RS等[27].对于第一个数据集的相似性,有三种类型的药物相似之处(化学结构指纹,药物副作用曲线和高斯互动谱(GIP))和六种靶标(氨基酸序列谱,各种参数化)基于基因本体(GO)术语(GO)术语,蛋白质 - 蛋白质相互作用(PPI)网络和GIP的靶向蛋白,靶蛋白。关于第二个数据集,药物存在八种相似之处(分子指纹,药物相互作用谱,副作用曲线,解剖治疗阶级编码系统的药物谱,药物诱导的基因表达谱,毒品疾病曲线,药物途径和GIP),六种靶标(蛋白质氨基酸序列,蛋白质常规注释,PPI网络的接近度,GIP,蛋白质结构域分布和蛋白质编码基因的基因表达相似性分布)总共六种。此外,使用0-1归一化方法,每种相似性矩阵的重物被映射到相同的比例。

实验设置,评估度量和模型参数

为了避免过于理想化的评估,我们在两种不同的DTI预测设置下评估我们的方法的性能(即生成嵌入的质量),其灵感来自Pahikkala T等人[35],它提供不同分裂的产生的药物 - 目标对嵌入装置。此外,与Olayan RS等人的设置的定义相同。[27,第一个设置称为SD使用十倍CV的任务,并且在每个折叠中,在对应于所有药物的十分之一的DTIS空间中的药物目标对嵌入仅出现在测试组中)。作为一个类比,对于sT任务中,DTIs空间中与所有目标的十分之一相对应的药物-目标对只会出现在测试集中。此外,上面的案例研究对应了一个更现实的场景来测试预测未知DTIs的性能,将所有已知的DTIs作为辅助信息添加到训练数据中来预测未知DTIs(然后验证这些预测)[2736].更具体地,我们首先将所有已知的DTIS的标签设置为1,并且在DTIS空间中的其他样品(包括没有任何相互作用和未被发现的相互作用的药物 - 目标对)的标签被设定为0.然后,我们随机将标记为0的所有药物目标对分为10个非重叠组,并且在每组中,标记为1的所有样品都被包含在训练集中。因此,在整个预测过程中,RF分类器将接收与标记为0的所有药物 - 目标对对应的嵌入物,因此可以提供给定数据集中所有未知药物 - 目标对的概率分数,从而可以获得预测的新型DTIS从排名分数结果。此外,由于案例研究的目的是预测未知DTI的潜在相互作用,因此不需要计算性能度量。

至于SD和sT任务,我们可以通过选择PR-AUC作为主要评估指标来获取更合理的性能估计,而在比数据集中的正样本比正样品相比,它可以很好地效果(表1),因为它可以在假阳性强加严格的惩罚(FP)的情况下[37]和ROC-AUC被选择为辅助评价指标。(PR)曲线所建构基于RF分类器的预测和相应的实际的标签在CV的每个折,PR-AUC由精度召回下计算所述区域获得。类似地,ROC-AUC可从ROC曲线,它是由多个真阳性率在不同的阈值设置(TPR)-false阳性率(FPR)对作图来计算。10倍的CV的整体PR-AUC和ROC-AUC是通过在所有的折叠平均数值的。我们的由网格搜索每个数据集调谐方法的总体超参数示于表2.此外,最终药物靶对的嵌入尺寸是由BiNE生成的两倍高。

表2不同数据集的BiNE超参数

与其他最近的DTI预测方法进行比较

在本节中,在相同的数据集、评估指标和预测任务下D和sT任务),包括DDR在内的7种高级方法[27],nedd [38), NRLMFβ(39],dtinet [2), CMF (40], BLM-NII [41]和netlaprls [10将该方法与具有代表性的基于异构网络、基于矩阵分解和基于核的方法进行比较。对于只能处理单一类型药物和靶标相似性的方法,如BLM-NII和NetLapRLS,我们使用了Yamanishi等人提供的化合物结构相似性(药物)和蛋白质序列相似性(靶标)[33]作为模型输入。为了进一步展示将基于相似性和基于路径的先验知识集成到药物 - 目标对的嵌入的有效性和可行性中,我们将BINE添加到比较中。也就是说,通过直接连接由畅通的药物和靶嵌入物(即,不考虑任何其他先前信息)来获得每种药物靶对的嵌入载体。然后将产生的向量放入RF分类器,其与我们方法中使用的RF相同,以获得每个药物目标对的概率得分。此外,我们不考虑Dtigems + [16,因为在相同的实验环境下,很难同时评价这种方法和我们的方法。也就是说,在10倍CV的每一倍中,需要相同数量的正样本和负样本,而在我们的方法中,样本分配遵循S规则D和sT任务,这会导致训练集中的样本高度不平衡。

表34显示参与S的方法的PR-AUC和ROC-AUCD和sT任务。总的来说,基于主要的评价指标PR-AUC,我们的方法在两个任务中都比其他方法具有更好的整体性能。的年代D与第二次最佳相比,我们的方法实现的PR-AUC分别增加了1.2%,2.6%,3.2%,2.8%和35.1%,而e,IC,GPCR,NR和药物银行数据集模型。的年代T实验结果表明,该方法的改进率分别为1.8% (E)、2.8% (IC)、4.2% (GPCR)、13.8% (NR)和−11.7% (DrugBank)。同时,在辅助评价指标ROC-AUC下,我们的方法也普遍优于其他模型。

表3 S中五个数据集的性能比较D任务
表4 S中五个数据集的性能比较T任务

为了调查为什么我们的方法在SD和sT在DrugBank数据集上的任务中,我们计算了每种药物具有的靶标数量(\({N} ^ {药物} \))在S中D任务(其中数据是根据药物分裂)和药物每个目标对应于号码(\ ({N} ^{目标}\))在S中T任务基于在数据集中DrugBank已知DTIS(其中数据根据目标是分裂);我们进一步计算的均值和方差\({N} ^ {药物} \)\ ({N} ^{目标}\).对应的值为\(\ mathrm {平均数} \左({N} ^ {药物} \右)= 6.67 \)\(\ mathrm {var} \ left({n} ^ {dard} \ \ \ =右)= 45.30 \)\ (\ mathrm{意味着}\离开({N} ^{目标}\右)= 7.02 \), 和\(\ mathrm {var} \ left({n} ^ {target} \ revent)= 660.80 \),分别。显著差异\(\ mathrm {var} \ left({n} ^ {dard} \右)\)\ (\ mathrm {Var} \离开({N} ^{目标}\)\)组件表示辅助信息(即,途径和相似度的信息)时,\(\ mathrm {意思是} \ left({n} ^ {药物} \右)\), 和\(\ mathrm {均值} \ left({n} ^ {target} \ \右)\)是类似的,因为我们的方法取决于高质量的双链DTI关系,产生嵌入品以及与DTI关系相关的样本方差T任务要比年代大得多D因此,我们的方法在SD任务比在s中T的任务。与此同时,另一种异构网络嵌入方法DTINet也依赖于DTI生成投影矩阵进行DTI预测,其预测性能也出现了显著下降(PR-AUC从0.316下降到0.176)。相比之下,对于DDR,由于它不是一种需要DTIs的基于嵌入的方法,因此,它在ST任务保持稳定。这种现象还可以证明二分层DTI关系的质量对学习异构DTI网络的嵌入来发挥重要作用。

此外,DTINet在获得药物和目标嵌入后,利用诱导矩阵补全(IMC)直接学习这些嵌入和已知的DTIs,生成投影矩阵,进行DTI预测,并且很少采用类间不平衡学习技术。而我们的方法利用射频分类器来预测DTIs,可以更有效地处理样本类别不平衡问题。因此,面对S中高度不平衡的样本D和sT任务,我们的方法优于DTINet。

案例分析

为了进一步证明所提出的模型在更现实的DTI预测场景中的能力,我们引入了在“实验设置、评价指标和其他模型参数”一节中提到的案例研究。通过案例研究,我们可以获得RF分类器在每个数据集上预测的概率得分最高(前5)的药物靶对,并从6个外部数据库(KEGG (K))中搜索相关证据[42],药物银行(D)[34斗牛士[美]43], ChEMBL (C) [44, t3db (t) [45]和ctd [46])。在2008年之前收集了使用的数据集中包含的DTI,因此,我们可以通过在上述数据库中使用新更新的DTI来进行验证。预测的相互作用(共25条数据)和相应的支持证据如表所示5

表5 DTI-HENE预测的新型相互作用和外部数据库提供的相应证据

总之,我们找到了大多数预测交互作用的证据(25个预测中的22个),我们对这些预测进行了进一步的研究。对于药物-靶标对中概率得分最高的药物,我们通常可以发现该药物与该药物-靶标对中属于同一基因家族的其他靶标相互作用的证据。例如,在GPCR组中,排名第一的预测表明,品多洛尔与ADRA2C之间存在潜在的相互作用。品多洛尔是一种中度亲脂性-受体阻滞剂(肾上腺素能-拮抗剂)[47ADRA2C代表α-2C肾上腺素能受体。据报道,该基因编码ADRA2C与慢性肾病困扰的一组患者的β受体阻滞剂反应相关[48].与此同时,我们发现Adra2a和Adra2b也可以与Adra Gene系列的成员,可以与Pindolol(来自Matador数据库)相互作用。

有可用于进一步说明DTI预测这种特性另一个实例。在IC组,据预测,卡巴胆碱可与CHRNA5反应(排序最高的交互)。卡巴[49]是一种缓慢水解胆碱能激动剂和CHRNA5是指神经元乙酰胆碱受体α亚基-5。有一个最近的药物再利用报告卡巴可与组胺和多巴胺结合,阻断甲磺酸苯甲托品对球囊形成乳腺癌干细胞的抑制作用。在交互过程中,CHRNA5的mRNA表达水平的不同类型的测试的细胞的[内被可变地改变50].此外,可以从Matador DataSet访问Carbachol和ChrNA2,ChrNA3,ChrNA4,ChrNA6之间的交互信息。

讨论

在这项工作中,我们介绍了一种新的DTI预测方法 - DTI-HENE,该方法是从异构DTI网络的每个子网中度假前的异构信息,以生产药物目标对的高质量嵌入。在相同的实验设置下(sD和sT任务)和评估指标(PC-AUC,ROC-AUC),我们获得了比较结果表34.基于目前的五个基准数据集,我们证明了我们方法的整体性能比的参与实验等先进的方法更好。我们认为,DTI-氦氖的优越性能是由于以下两个原因。

第一个原因是使用Bine,当处理二分的DTI关系的DTI预测时,除了在药物和目标之间建模的边缘,还必须分别考虑药物和目标节点的独特信息。通过单独提取药物和目标之间的隐式转换关系来实现这一点(即,获取相同类型之间的2nd订单接近),其可以提供独特的相似信息(例如,图2中所示的同类网络。2)与基于域知识计算的相似性相比。第二原因是通过使用基于路径的语义信息,通过使用基于路径的语义信息有效地组合到异构DTI网络的每个子网的不同信息,因为通过子网之间的可解释途径集成了该信息可能有助于更明显的药物描述- 整个DTIS空间的特性关联。对于模拟原因,DDR还通过从异构网络中提取各种路径类别的特征来实现具有很大的性能,并将所产生的特征组合成一个固定长度向量(作为一种药物目标对的表示)。我们的方法的优点是药物和目标的高阶现有邻近信息可以融合到药物 - 目标对的陈述中,并且这些表示的长度不再固定,使得我们可以灵活地调节满足的长度某些特定任务的需求。通过利用基于嵌入的算法作为处理异构DTI网络来引入这些益处。

在进行案例研究时,我们观察到,对于新发现的DTIs,通常会发现与预测靶点属于同一基因家族的靶点可以与预测药物相互作用的支持证据。我们推测原因是我们遵循“相似药物可能与相似靶点相互作用”的原则来设计预测方法,这可以体现在基于co - hits的均匀矩阵生成和药物靶点嵌入生成过程中。利用丰富的相似度信息,可以更有针对性和方向性地预测未知DTIs,降低误判概率。然而,新的DTIs的搜索空间规模也缩小了。也就是说,如果某一药物靶标对中的节点与数据集中其他节点之间的相似性相对较低,则预测该药物靶标对具有潜在相互作用的可能性较小,即使它实际上包含关联。因此,我们计划探索如何将我们的方法进行功能扩展,使某些与其他药物相似度相对较低但值得进一步研究的药物得到更高的关注。此外,该方法尝试使用逐级转换学习方法进行DTIs预测,其优点是该方法比许多端到端方法具有更好的可解释性,每个阶段在工作流中都有明确的实际意义;但是,由于目前我们的方法的功能是类似于转导的,因此比归纳学习方法的计算成本更高(因为归纳学习不会局限于特定的数据集,例如固定的药物和靶标,例如,与归纳法相比,转导学习可以带来更高的预测精度,因为它更好地利用了具有稀疏已知交互的数据集中的未知样本的额外信息,而如果任何新的节点/样本将被添加到数据集中,则必须重新运行模型)。因此,在未来,我们希望对我们的方法做进一步的修改,使其适合于类归纳的DTI预测任务。

此外,调整我们的算法来预测微RNA(miRNA)和小分子药物之间的相互作用将是一个非常有趣的未来发展方向。这是因为越来越多的研究发现,miRNA的异常表达与许多复杂的人类疾病有着密切的联系,以及小分子药物可以通过调节miRNA的表达[对待他们51].与一般的药物-靶点相互作用预测类似,基于miRNA和小分子相似网络、已知miRNA-分子相互作用以及“罪责相关”假设,可以准确预测小分子药物的miRNA靶点[525354];和这样的数据非常类似我们的方法所需要的数据。在此基础上,我们认为,适当的调整和数据,DTI-氦氖可应用于预测小分子药物和微RNA之间的相互作用。

结论

本文提出了一种新的异构网络嵌入方法DTI- hene,用于DTI预测,该方法可以从异构DTI网络的每个子网络中提取不同的特征,并通过子网络之间的拓扑信息将这些特征连接起来。本研究证明了通过对异构DTI网络进行分解来获取包含的复杂信息以生成高质量药物靶对嵌入的可行性和实用性。此外,我们已经证明,经过适当的调整,BiNE可以有效地学习药物-靶标相互作用中的特殊二部关系。

在相同的评价验证方式下,在不同的实验场景下,本方法的预测精度总体上高于其他先进方法。在新的DTI预测任务中,我们的方法也可以产生合理的结果,具有明确的方向性。总之,对于药物再利用而言,该方法是识别新型DTIs的有效工具。

数据和材料的可用性

当前研究中分析的数据集在DDR存储库中可用,https://bitbucket.org/RSO24/ddr/.源代码在GitHub存储库中公开,https://github.com/arantir123/DTI-hene/

缩写

DTI:

药物目标相互作用

茎:

由两部分构成的网络嵌入

射频:

随机森林

FDA:

美国食品和药物管理局

3D:

三维

RWR:

随机散步重启

大街:

去噪自动编码器

CNN:

卷积神经网络

政府通讯:

图卷积网络

SGA:

随机梯度上升

SNF:

相似网络融合

IMC:

归纳矩阵完成

艾凡:

我知道了:

离子通道

GPCR:

G-protein-coupled受体

NR:

核受体

GIP:

高斯互动概况

走:

基因本体论

PPI:

蛋白质相互作用

简历:

交叉验证

外交政策:

假阳性

公关:

Precision-recall

TPR:

真正的阳性率

玻璃钢:

假阳性率

k:

ke

D:

劳动银行

M:

斗牛士

C:

ChEMBL

T:

T3DB

微:

microrna的

工具书类

  1. 1.

    Manoochehri He,Nourani M.使用半双链图模型和深度学习的药物目标相互作用预测。BMC生物素。2020; 21(4):1-16。

    谷歌学术搜索

  2. 2.

    罗勇,赵旭,周军,等。基于异构信息的药物靶标相互作用预测和药物重新定位的网络集成方法。Nat Commun。2017;8(1):1-13。

    谷歌学术搜索

  3. 3.

    陈曦,阎C-C,张曦,等。药物-靶点相互作用预测:数据库,网络服务器和计算模型。简短的生物信息。2016;17(4):696–712.

    中科院PubMed谷歌学术搜索

  4. 4.

    王春春,赵颖,陈欣。药物通路关联预测:从实验结果到计算模型。短暂的Bioinform。2021;22 (3):bbaa061。

  5. 5.

    李继,郑某,陈等。计算药物重新定位目前趋势调查。简短生物形式。2016; 17(1):2-12。

    PubMed谷歌学术搜索

  6. 6.

    Keiser MJ, Roth BL, Armbruster BN等。与配体化学有关的蛋白质药理学。生物科技Nat》。2007;25(2):197 - 206。

    中科院PubMed谷歌学术搜索

  7. 7.

    唐纳德BR。结构分子生物学中的算法。剑桥:麻省理工学院出版社;2011.

    谷歌学术搜索

  8. 8.

    兰伟,王军,李敏,等。基于序列和结构信息预测药物靶标相互作用。IFAC PapersOnLine。2015年,48(28):劲旅。

    谷歌学术搜索

  9. 9.

    Nascimento Aca,PrudêncioRBC,Costa Ig。一种用于药物 - 目标交互预测的多核学习算法。BMC生物素。2016; 17(1):46。

    谷歌学术搜索

  10. 10。

    夏志,吴立云,周旭,等。来自异质性生物空间的半监督药物-蛋白相互作用预测。BMC Syst Biol BioMed Cent. 2010;4(2): 1-16。

    谷歌学术搜索

  11. 11.

    基于局部局部模型的药物靶点相互作用的监督预测。生物信息学。2009;25(18):2397 - 403。

    中科院PubMed公共医学中心谷歌学术搜索

  12. 12.

    赵志,张旭,周洪,等。基于异构网络嵌入的推荐。知识系统。2020;204:106218。

  13. 13.

    卢z,王y,zeng m等。HNEDTI:基于异构网络嵌入的药物 - 目标相互作用预测。在:2019年IEEE生物信息学和生物医学(BIBM)国际会议。IEEE;2019. p。211-4。

  14. 14.

    Parvizi P,Azuaje F,Theodoratou E,等。一种基于网络的药物目标交互预测的嵌入方法。:2020 42第42届医学与生物学会(EMBC)IEEE工程国际会议。IEEE;2020. p。5304-7。

  15. 15.

    陈旭,于光,王军,等。主动异构网络嵌入。arxiv预印刷品的arXiv:1905.05659.2019年。

  16. 16.

    马志强,王志强,王志强,等。DTiGEMS+:使用图嵌入、图挖掘和基于相似性的技术进行药物-靶点相互作用预测。J Cheminform。2020;12(1):17。

    谷歌学术搜索

  17. 17.

    格罗弗A,Leskovec J. node2vec:可扩展功能学习网络。在:知识发现和数据挖掘的第22届ACM SIGKDD国际会议论文集;2016. p。855-64。

  18. 18.

    基于特征表示学习和深度神经网络的药物-目标相互作用预测方法。BMC Bioinform。2020;21(13):1-13。

    谷歌学术搜索

  19. 19.

    彭Ĵ,王Y,关J,等。用于药物 - 靶相互作用预测的端至端的异质图表示基于学习的框架。简短生物形式。2021。

  20. 20。

    郜呒,陈蕾,何X等。藤:二分网络嵌入。在:对信息检索的研究和开发的第41届ACM国际会议SIGIR;2018. p。715-24。

  21. 21。

    朱强,罗军,丁鹏,等。基于异质网络图正则化转导回归的药物-疾病关联预测。见:生物信息学研究与应用国际研讨会。施普林格;2018. p。13–25.

  22. 22。

    通过光谱图分区joachims t.转换学习。在:第20届机器学习会议(ICML-03)的诉讼程序;2003.290-7。

  23. 23。

    温思,麦文伟,龚诗。多标记蛋白亚叶绿体定位预测的转导学习。中国生物医学工程学报。2016;14(1):212-24。

    谷歌学术搜索

  24. 24。

    Gammerman A,Vovk V,VAPNik V.通过转移学习。arxiv预印刷品arXiv:1301.7375.2013年。

  25. 25。

    基于树集成学习和输出空间重构的药物-靶标相互作用预测。BMC Bioinform。2020;21(1):1 - 11。

    谷歌学术搜索

  26. 26。

    邓H,Lyu Mr,I.一般性的共同命中算法及其在二分图中的应用。在:第15届ACM SIGKDD知识发现国际会议和数据挖掘的诉讼程序;2009.239-48。

  27. 27。

    奥拉扬RS,Ashoor H,Bajic VB。DDR:高效的计算方法采用图挖掘和机器学习的方法来预测药物靶标相互作用。生物信息学。2018; 34(7):1164至1173年。

    中科院PubMed谷歌学术搜索

  28. 28。

    陈凯,陈志强,陈志强,等。单词和短语及其组成的分布式表示。神经信息处理系统的研究进展;2013. p。3111–9.

  29. 29。

    尹H,邹L,Nguyen QVH,等。基于事件的社交网络中的联合事件伙伴推荐。2018年IEEE第34届数据工程国际会议(ICDE)。IEEE;2018年,第页。929–40.

  30. 30.

    王B,Mezlini Am,Demir F,等。相似性网络融合在基因组规模上聚合数据类型。NAT方法。2014; 11(3):333。

    中科院PubMed谷歌学术搜索

  31. 31。

    TK。随机森林的决定。见:第三届文献分析与识别国际会议论文集。IEEE;1995.p . 278 - 82。

  32. 32。

    Pedregosa F,Varoquaux G,Gramfort A等人。Scikit-Learn:Python的机器学习。J Mach Learn Res。2011; 12:2825-30。

  33. 33。

    Yamanishi Y,Araaki M,Gutteridge A等。从化学和基因组空间整合中预测药物 - 目标相互作用网络。生物信息学。2008; 24(13):I232-40。

    中科院PubMed公共医学中心谷歌学术搜索

  34. 34。

    王志强,王志强,王志强,等。药库:一个关于药物、药物作用和药物靶标的知识库。核酸学报2008;36(sup1): D901-6。

  35. 35.

    王志强,王志强,王志强,等。更现实的药物-靶点相互作用预测。短暂的Bioinform。2015;16(2):325 - 37。

    中科院PubMed谷歌学术搜索

  36. 36.

    Van Laarhoven T,Nabuurs SB,Marchiori E.高斯互动谱预测药物目标相互作用。生物信息学。2011; 27(21):3036-43。

    PubMed谷歌学术搜索

  37. 37.

    戴维斯J,Goadrich M. Precision-Recall和Roc曲线之间的关系。在:第23届机械学习国际会议的诉讼程序;2006.233-240。

  38. 38.

    周锐,卢振华,罗洪,等。NEDD:一种基于网络嵌入预测药物-疾病关联的方法。BMC Bioinform。2020;21(13):1 - 12。

    中科院谷歌学术搜索

  39. 39.

    BAN T,OHUE M,AkiyamaY.NRLMFβ:β-分配 - 重新调整的邻域正则逻辑矩阵分解,用于提高药物靶互动预测的性能。Biochem Biophys Rep。2019; 18:100615。

  40. 40。

    郑X,丁H,Mamitsuka H,等。具有多种相似性的协同基质分解,用于预测药物靶靶相互作用。在:第19届ACM SIGKDD关于知识发现和数据挖掘会议的诉讼程序;2013. p。1025-33。

  41. 41。

    梅建平,郭志强,杨平,等。基于局部信息和邻域学习的药物-靶标相互作用预测。生物信息学。2013;29(2):238 - 45。

    中科院PubMed谷歌学术搜索

  42. 42。

    Kanehisa M,Goto S. Kegg:Kyoto Encyclopedia基因和基因组。核酸RES。2000; 28(1):27-30。

    中科院PubMed公共医学中心谷歌学术搜索

  43. 43。

    京特S,库恩男,丹凯尔M等人。SuperTarget和斗牛士:探索药物靶的关系资源。核酸RES。2007; 36(suppl_1):D919-22。

  44. 44。

    Gaulton A,Bellis LJ,Bento Ap,等。ChemBl:用于药物发现的大规模生物活性数据库。核酸RES。2012; 40(D1):D1100-7。

    中科院PubMed谷歌学术搜索

  45. 45。

    王志强,王志强,王志强,等。T3DB:毒物暴露数据库。核酸Res. 2015;43(D1): D928-34。

    中科院PubMed谷歌学术搜索

  46. 46。

    戴维斯AP,Grondin CJ,约翰逊RJ等。比较毒素组织数据库:更新2017.核酸RES。2017; 45(D1):D972-8。

    中科院PubMed谷歌学术搜索

  47. 47。

    雷诺兹JEF。马丁:额外的药典。伦敦:医药出版社;1982年。

    谷歌学术搜索

  48. 48。

    Borro M,Guglielmetti M,Simmaco M,等。药物发生的未来治疗偏头痛。药物替代科学。2019; 20(16):1159-73。

    中科院PubMed谷歌学术搜索

  49. 49。

    Konopacki J,MacIver MB,Bland BH,等。卡巴胆碱诱导的海马脑片EEG“θ”活动。Brain Res.1987;405(1):196–8.

    中科院PubMed谷歌学术搜索

  50. 50.

    崔军,Hollmén M,李磊,等。旧药的新用途:甲磺酸苯托品对乳腺癌干细胞的抑制作用。Oncotarget。2017;8(1):1007。

    PubMed谷歌学术搜索

  51. 51.

    王春春,陈旭,曲娟,等。RFSMMA:一种识别潜在小分子- mirna关联的新的计算模型。J Chem Inf Model. 2019;59(4): 1668-79。

    中科院PubMed谷歌学术搜索

  52. 52。

    陈欣。一种新的疾病相关microrna -环境因子相互作用预测方法。摩尔BioSyst。2016; 12(2): 624 - 33所示。

    中科院PubMed谷歌学术搜索

  53. 53。

    Chen X,Guan N-N,Sun Y-Z等人。MicroRNA-小分子关联鉴定:从实验结果到计算模型。简短生物形式。2020; 21(1):47-61。

    中科院谷歌学术搜索

  54. 54。

    贾迈利AA,Kusalik A,武F-X。MDIPA:基于非负矩阵分解微小RNA-药物相互作用预测方法。生物信息学。2020; 36(20):5061-7。

    中科院PubMed谷歌学术搜索

下载参考

致谢

我们感谢匿名审稿人对原稿提出的建设性意见。

资金

不适用。

作者信息

隶属关系

作者

贡献

概念:SH;设计的设计:yy;收购,分析:YY;解释数据:YY;在工作中使用的新软件:YY;纸质写作:YY,SH。所有作者阅读并认可的终稿。

通讯作者

对应到山他

道德声明

伦理批准和同意参与

被要求对研究没有伦理委员会批准。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

重印和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

一种基于DTI-HeNE的药物靶标相互作用预测方法。欧宝娱乐合法吗22,418(2021)。https://doi.org/10.1186/s12859-021-04327-w

下载引用

关键字

  • 药物相互作用预测
  • 异构网络嵌入
  • 图形挖掘
  • 特征融合