跳过主要内容

使用GPAR,人工智能平台,大规模的基因表达图谱动作建模药物作用机理

抽象的

背景

利用机器学习方法查询药物诱导基因表达谱是揭示药物作用机制的一种有效方法,大规模、高通量基因表达数据库的发展为该方法提供了强有力的支持。然而,由于缺乏代码自由和用户友好的应用程序,生物学家和药理学家很难用最先进的深度学习方法建模MOAs。

结果

在这项工作中,新开发的在线协作工具,遗传档案-活动关系(GPAR),以帮助建模和预测MOAs通过深度学习。用户可以使用GPAR自定义训练集来训练自定义的MOA预测模型,评估模型性能并自动进行进一步预测。交叉验证试验表明,GPAR在预测MOAs方面优于基因集富集分析。

结论

GPAR可以作为Moas预测的更好方法,这可能促进研究人员产生更可靠的MOA假设。

背景

具有相似基因表达特征(微扰菌诱导基因表达变化)的不同药物可能具有相似的作用机制(MOAs) [1].在基因表达水平上评估药物-药物相似性可用于药物再利用[2].许多方法或工具被开发出来,以计算药物表达签名的相似之处,但他们大多通过比较差异表达基因(DEGS)评估的相似之处。例如,基因组富集分析(GSEA)3.工具将一个扰动的最上下调节的deg与另一个扰动特征进行比较[4567].其他广泛使用的指标评估扰动相关性包括余弦相似性,Jaccard得分和pDEGs之间Fisher精确检验的值[89].然而,药物与共享协议备忘录可能不存在高相似性得分,因为,首先,目标分子的药物诱导的差异表达可以通过脱靶基因的大得多的差异表达[掩蔽10,甚至与名义上的靶基因扰动无关[11],因此有限的上行/下行监管的deg可能不包括重点的moa;其次,由于批次效应等强干扰,两两相似度评价也可能无效[12或常见的回应[13].与其他方法相比,深入学习,作为拟合高维数据的优秀优异的非线性方法,与“特征”(MOA相关基因)提取,因为深层学习的高层结构可以抑制无关的变化[14].采用深度学习方法建模MOAs不仅可以减少批量效应和大量样本噪声的影响[15,也有助于发现与药物MOAs密切相关的特征。

事实上,人们已经开发了各种各样的机器学习方法来帮助理解基因表达背后的机制[116],到目前为止,一些已发表的工作已经证明,深度学习是一种有效的方法,将签名与先前的知识(如副作用、适应症、靶标或药物敏感性)联系起来[116171819],并注意到深度学习的高隐含层特征可以有效降低批效应[15].考虑现有工具的使用有限的计算资源的高成本和困难模型训练和精度评价,在这里,我们报告一个新的有效方法的基因表达数据的查询利用深层神经网络学习的嵌入和做更多的分类精度。此外,为了使生物学家和药理学家的培训、评估和预测过程更容易,我们引入了在线工具遗传谱-活性关系(GPAR),该工具实现了深度学习,可以轻松建模和预测MOAs。用户只需提供阳性药物列表或上传自己的数据,就可以用自定义训练集训练MOA模型。这里的GPAR还可以通过交叉验证过程提供准确性评估,方便用户评估模型性能和正确使用预测结果。此外,通过对103个MOAs的评估,GPAR在真实情况下证明了其优于传统方法。

方法

训练集的制备

我们从L1000平台实现的LINCS数据集项目中收集转录组数据(GSE92742) [20.],这是一种高通量基因表达分析直接测量mRNA的转录物丰度的978“地标基因”从人类细胞和推断的11350个额外基因的表达。它代表扰动细胞反应,如药物和RNAi,并用来寻找疾病的基因,和治疗之间的关系。的直接测量978个地标基因的差异表达是由Z-记分程序在所有的样品上计算的384孔板中,其中测量的表达谱捕获大部分的全基因组谱的方差的在低得多的成本,和那些表达以Z分数表示的数据被用作输入功能,我们也已经测试的功能,尺寸如何影响性能。我们设定的特征n的[10,800]范围的数目。在[10,100],取10作为间隔,并且在[100,800],取100作为间隔,并随机提取N个基因进行10次训练和评估模型,如图附加文件1:图S1中,接收机工作特征曲线(receiver operating characteristic curves, AUROC)下面积随着特征大小以及训练特征大小的增大而增大,如附加文件所示1中:图S2.A-B,共享协议备忘录之间的相似性的增加,以及预定义的阳性和阴性样品之间的距离。

然后,我们通过在每个分子每种细胞类型中只选择一个签名减小样本大小,每一对签名的(在相同的细胞系内)之间的Pearson相关系数计算,并且将具有最高平均相关到静止扰动是被视为最有代表性的签名。二元分类训练集包括2个样本:“正集”和“负组”。“正集”的标签被农业部药物注释来自MCE库引用(https://www.medchemexpress.com/)和药物的再利用集线器[21.],然后我们去掉其签名改变太多其他的“正”组,通过重复交叉验证过程中的一些“正”的分子。我们还选择6220个的化合物(具有低转录活动分数[20.]和没有MOA注释)作为不变的“阴性集”,假设它们没有可以在转录组水平上反映的药物特性。

训练预测模型

深层神经网络(DNN),广泛使用的深度学习建筑之一,被用来训练农业部预测模型。DNN的是与开源平台Tensorflow实现[22.].为了选择合适的hyperparameters,隐藏层测试从2到5和隐藏节点从10到2048年进行测试,以找出最合适的范围,预测模型具有较高的AUROC precision-recall曲线的精度和平均分数得分(美联社),和强大的超参数改变(如附加文件1:图S4)。最后,我们选择了包含978、512和256节点的3个隐藏层,分别进行2000次迭代,并使用L1正则化、RELU激活器和退出= 0.1。在这里,我们注意到,深度学习也被应用到LINCS数据集,以提高L1000 profile和计算签名的全基因组表达的准确性[23.],预测的药物的药理学性质[24.,并将L1000配置文件映射到二进制条形码,以改进对复合结构和目标信息的预测[15].

模型评估和默认模式选择

K采用-fold交叉验证对预测模型的性能进行评价。的价值K取决于“阳性”药物的数量(不是签名),即“阳性”药物不能同时用作训练集和测试集。因为在评估预测模型的性能时,我们也想通过交叉验证了解相同MOA标签的药物之间的一致性,从而剔除低质量签名的药物,或者进一步识别该MOA是否可以在转录组水平上反映。

褶皱的价值K等于“阳性”药物数N如果N(24],K= 5,如果N(59],K= 10,如果N ≥ 10, ifN= 1,K等于签名的数量。交叉验证时,采用分层抽样的方法将阳性和阴性药组随机分为K部分。(K1) /K样品用作训练集以训练预测模型,通过在剩余的1测试评价其灵敏度和特异性/K样本。这个过程将被执行K次,K次的意思奥克托克以均值奥克托克≥0.6视为训练良好的模型。

通过预测模型进行所有L1000签名

预测分类器的目标不是“分类”,而是对每个签名的概率进行排序。通常只有排名最高的(如前10或前50)预测分子可能值得进一步的生物分析验证。

为了预测可能共享相同MOA的新分子,将使用预测模型对所有L1000签名进行评分(训练集除外)。返回的结果是每个签名被判定为“正”的概率。由于大多数分子都有一个以上的特征,下面的富集统计量将特征的概率等级顺序转换为富集分数(es.)每个相应的分子。假设所有预测签名的总数为n和化合物的秩X对应的签名进行了排名R(我),我= 1,2,3.,…,k。然后,计算出以下值:

$$ A = \ mathop {\ MAX} \ {limits_ I = 1,2,...,K} \左[{\压裂{I} {K} - \压裂{R(I)} {N}} \右] $$
(1)
$$ B = \ mathop {\ MAX} \ {limits_ I = 1,2,...,K} \左[{\压裂{R(I)} {K} - \压裂{I - 1} {ķ}} \右] $$
(2)

富集得分化合物X被设置为一个如果一个>b或−b如果b>一个.高富集得分指示预测化合物的所有签名X被富集在顶级。为了评估浓缩评分的意义,我们随机描绘了1000次重复的实例来计算相应的浓缩得分(es.),= 1,2,3.,…, N. The permutationp的频率es.<es..最后,我们通过以下标准来过滤结果:(1)置换p分子的值小于0.05;(2)分子的复制样品大于4.然后我们按照es.

基因集富集分析

基因集富集分析(GSEA)算法,一种非参数、基于Kolmogorov-Smirnov统计量的相似性度量方法[3.,是通过R包GeneExpressionSignature [7],基于Iorio等人的方法[25.],其首先合并一个分子的多个签名成一个“最佳签名”由博尔达合并函数,然后20最上/下选择内部978直接测量“地标基因”的基因来计算每对签名之间的富集得分(阳性和阴性样品)。计算GSEA相似矩阵之后,我们通过富集得分排名成对签名之间的匹配,并积极签名和积极的签名之间的比赛被设置为真阳性,而阳性签名和负签名之间的比赛被设置为假阳性,由此将接收器操作特征曲线(ROC)和精确召回曲线(PRC)。

结果

GPAR以两种方式支持MOA发现

训练良好的预测模型有两种用途:一是利用某一预测模型,通过对所有L1000签名进行评分,搜索可能共享某种MOA的分子,输出分子的等级(“药物预测”函数)。其次,可以使用多个训练良好的二进制分类器来预测输入签名的潜在MOA,输出为MOA的秩(“MOA预测”函数)。

药物预测:此功能的目的是寻找一种可以共享与用户定义的“正”分子相同的MOA分子。如图1所示。1一个中,一个或多个“正”分子(或用户所拥有的表达数据)和相应的细胞类型被输入到列车的预测模型。训练,预测和富集统计处理之后,输出是预测的分子(训练组被排除),这可能在CSV格式下载的等级表。顶部预测分子将被列出,以及相关的信息将被链接到相应的iLINCS(http://www.ilincs.org/ilincs/)和PubChem识别条目(https://pubchem.ncbi.nlm.nih.gov/).我们还提供奥克托克的用户训练预测模型,与训练集的数据可视化和顶部30预测的分子以两种方式的可视化一起:L1000FWD和叔分布式随机邻居嵌入(叔SNE)[26.]在Scikit-Searn库中实现,默认参数[27.].

图。1
图1

一个药物预测:在模型训练中将使用用户/预定义的一种或多种药物作为正样本。和预测的化合物秩表,奥克托克将返回训练和预测数据的可视化。bMOA预测:83个MOA预测模型奥克托克 ≥ 0.6 were used to predict the potential MOA of user uploaded or selected expression profiles. And the top 10 predicted MOAs would be presented.c奥克托克通过计算103个MOAs。奥克托克GPAR显着高于GSEA(Wilcoxon匹配对签名等级测试,p<0.0001).dPC3和A549(橙色)细胞系中雌激素受体激动剂训练模型性能的比较和MCF7和HT29(蓝色)细胞系

MOA预测:如图1所示。1b、83个高MOA预测模型奥克托克用于快速MOA预测。用户可以从L1000平台中选择分子,或将CSV或TXT格式文件上传,使用表达数据计算为z分数,并通过计算每个MOA的签名的平均概率来返回Top10预测的Moas。

GPAR是一种更好的相似性度量方法

在计算药物相似性方面,虽然GSEA是一种广泛使用的方法,但通过计算,我们证明了GPAR优于GSEA奥克托克如图所示。1C,其他文件1:表S1和图S3。平均ØAUROC˚FGPAR(平均奥克托克= 0.73), (Wilcoxon配对符号秩检验,p< 0.0001)高于GSEA方法(平均值)奥克托克 = 0.61), showing the reliability of GPAR tool. Additionally, we also compared our work to Aliper’s work [28.],指出GPAR也有较好的表现(附加文件1:图S5)。

为了用机器学习方法对DNN模型进行基准测试,我们将DNN与三种机器学习方法进行了比较,包括k -最近邻(KNN)、随机森林(RF)和Naïve Bayes (NB),这三种机器学习方法在scikit-learn库中使用默认参数实现[27.,如图附加文件所示1: S6。A-B, DNN也取得了最高的性能。

GPAR可用于评估单元对模型性能的影响

影响训练过程的重要因素之一是表达数据的细胞来源,因为药物靶点的具体分布[29.].使用不同的细胞源表达数据可能会在药物MOAs发现中得到完全不同的模型性能。例如,在训练雌激素受体(ER)激动剂模型时,用MCF7和HT29细胞的信号训练的预测模型(ER表达)达到了更高的水平奥克托克与PC3和A549细胞(无ER表达)训练后的结果相比(图。1d)。用户可以定义根据自己的需要GPAR选择不同细胞中的选项。

案例分析

不同协议备忘录的签署有以下几个不同之处:(1)一些MOAs,特别是大多数抗癌或细胞毒性的MOAs,具有可重复的签名和较强的签名强度,可诱导大量差异表达基因,并常伴有明显的表型变化,如凋亡,而一些MOAs的性质相对较轻,转录信号较低,比如血清素转运抑制剂。(2)并非所有共享MOA的药物都可能在转录组水平上高度一致,因为有些MOA无法在人类细胞转录组水平上反映[20.](例如抗病毒/细菌),Gonçalves等人系统地提出了MOA研究中的许多困难,指出并非所有药物都与名义靶基因干扰显著相关[11[因此,有必要确定是否和相关的MOAs与基因表达签名直接相关。(3)对于大多数Moas,它们的签名随细胞类型,时间点和剂量而变化,但仍有少量的MOAs(例如Na + / K + _Atpase抑制剂)或有毒签名[19]认为是鲁棒性的那些属性。因此,在训练中不同农业部预测模型的困难是不相等的。通常,具有强转录信号的协议备忘录,表现出高度一致签名和鲁棒性实验属性既可以由GSEA(或任何其它广泛使用的方法)或GPAR方法容易地进行预测。但是,我们的研究结果预测那些容易训练时协议备忘录显示,对于一个,GPAR可以等于甚至优于GSEA。此外,预测某些协议备忘录,其签名是differeent细胞类型,时间点和pertubagen剂量之间不一致时GPAR仍能有不错的表现。

“Na+/K+ _atp酶抑制剂”是最简单的预测模型之一,因为心脏糖苷是细胞毒性分子,可以诱导显著的表型变异,因此通常具有非常相似和可复制的转录谱。GSEA和GPAR都可以实现高性能。例如,当使用地高辛作为唯一的“阳性”药物时奥克托克为1,如图所示。2,GPAR达到奥克托克= 0.99,排名前10的预测药物包括5种已知的Na+/K+ _atp酶抑制剂。

图2
figure2

L1000FWD可视化数据显示训练过的Na+/K+- atp酶抑制剂地高辛(红色点),其均值AUROC = 0.99,相应预测出最相似药物前10名(黄色点)。前十名预测药物中有5种(红色)是已知的Na+/K+- atp酶抑制剂

对于大多数药性温和的MOAs, GPAR的表现也优于GSEA。例如,5 -羟色胺转运抑制剂是一类主要针对中枢神经系统的抗抑郁药。当5 -羟色胺转运体抑制剂作用于癌细胞系时,通常有较弱的转录信号和细胞类型变异的信号。我们收集了11种已知药物:艾司西酞普兰、帕罗西汀、氟西汀、氯米帕明、舍曲林、丙咪嗪、米那西普兰、多虑平、度洛西汀、氟伏沙明和文拉法辛用于训练和预测。在结果中,其他已知的抗抑郁药物,如tetrindole,去甲替林,lofepramine, indatraline,都在前30名的训练中没有包含。如图1所示。3.,潜在的血清素拮抗剂的Top10预测化合物,如氟苯嗪[30.,奋乃静31.)。的奥克托克“5 -羟色胺转运体抑制剂”GPAR模型为0.85奥克托克GSEA为0.75。

图3.
图3

血清素转运蛋白抑制剂的输出包括可以共享相同的MOA高分预测化合物的列表中,训练11个已知的血清素转运蛋白抑制剂的可视化(红色)和顶部预测潜在药物(黄色)和奥克托克,其均值AUROC = 0.85。前十名的预测药物中有两种(红色)是血清素转运抑制剂

一些MOAS,例如“NF-KB抑制剂”,相对难以接受培训和预测。如图1所示。4, NF-kB抑制剂的特征点分散在可视化图中,这意味着不同细胞类型/剂量/时间点生成的NF-kB抑制剂的特征点差异很大,因此只能实现GSEA方法奥克托克 = 0.66, while GPAR still achieved奥克托克 = 0.84. For the output results, there were 3 reported potential NF-kB inhibitors, e.g., Piperlongumine [32.],根赤壳菌素[33.]和MG-132 [34.在顶尖行列。

图4.
装具

L1000FWD visualization data shows multiple trained NF-kB inhibitors (red points), and correspondingly predicted top30 potential positive compounds (yellow points), its mean AUROC = 0.87. Three molecules in table (red) are reported NF-kB inhibitors

除了药物组一般MOA类型,高通量筛选的结果(或用户感兴趣的多种药物)可供选择。连日来,冠状病毒病2019(COVID-19),造成新的冠状病毒的持续流行,已经引起了全世界的大问题。虽然世界卫生组织曾表示,在短时间内一种新型病毒的初步鉴定是一个显着的成就,并演示了管理新爆发中国国内日益增长的容量,可惜COVID,19例患者是从有效的治疗药物的不足之苦。研究人员已经开始尝试抗病毒药物广泛用于治疗HIV或其他冠状病毒,希望他们也许能够对抗COVID-19为好。许多研究机构都倾注一切努力,通过计算再利用的潜力旧用药,抗病毒,而其中大部分都是基于对接的方式,搜索分子可以与新型冠状目标,如刺突蛋白或主要最小化结合能蛋白酶。我们发现,在这里GPAR也是搜索同类药物的有效方法。取氯喹作为一个例子,它是一种广泛使用的亲溶酶体抗疟疾和自身免疫性疾病的药物,这是所报告的药物可以抑制COVID-19在体外之一[35.],尽管在最近的另一项大规模研究中,它在预防症状性感染方面并不比安慰剂好[36.].采用氯喹作为训练集对预测模型进行训练,并进行进一步的预测。两种非甾体抗炎药(NSAIDs) Oxaprozin和Niflumic acid出现在前10名中,与氯喹在自身免疫性疾病中的适应症相同。更可靠的计算示例和比较可以在GPAR网站和支持附加文件中找到1:支持文件中的表S1-S2。

讨论

总之,我们开发了GPAR方法和在线工具,以通过基因表达签名连接MOAS,为药物研究人员提供简单有效的深度学习的建模和预测方法。从我们的结果奥克托克实例分析表明,GPAR在大多数活动性预测中具有较高的准确性。这个在线工具使生物学家和药理学家可以很容易地将深度学习应用于药物MOAs表达谱建模。应用范围不局限于预定义的103种药物MOAs,用户甚至可以训练自己重新定义的模型进行活性筛选。然而,它也发现GPAR的性能在某些活动的预测是不太好对一些农业部预测,这可能是由于相对小样本,细胞类型的局限性(缺乏相关药物靶点)或药物属性不能反映在转录组水平(120.29.].由于深度学习的黑盒特性,对这些问题的理解并不直观,需要更深入的研究。

一般来说,完整的转录组数据可能更有利于机器学习。但L1000表达数据仅直接测量了978个具有代表性的“Landmark gene”,这些“Landmark gene”是在大规模微阵列分析中从常见共调控转录本簇的中心中选择的[20.];其余约10000个基因表达是通过计算推断得到的[23.,因此,输入更多的基因可能不会提供更多的信息。考虑到计算资源的消耗和“维数的诅咒”问题[37.,用较小的特征空间建模数据会更容易。因此,“Landmark genes”的表达谱更适合机器学习。有趣的是,我们还注意到,当仅利用100个Landmark基因时,模型可以实现相对较高的性能(附加文件1图S1),然后应用scikit-learn包的特征选择算法[27.]与逻辑回归沿选择每个的从地标基因103米的模型100个最重要的基因,我们注意到,一些协议备忘录的选择基因是直接(HSP,PARP和HMGCR抑制剂)或功能(MEK,mTOR抑制剂)相关他们的药物靶标(附加文件1表S2),但仍有许多MOAs不能与药物靶点相关。然而,尽管仅利用了978个基因,我们认为GPAR仍然与基于微阵列的基因表达数据集兼容,例如,我们已经基于一个独立的数据集预测了中医的MOA [38.,包含102种中药10000 +基因表达。在本研究中,Lv等验证了Nitidine chloride具有拓扑异构酶抑制的特性。当我们在GPAR中查询Nitidine配置文件(z-scores)时,预测结果显示在附加文件中1:表S3,这与他们的发现一致。

在这里我们注意到不同细胞系之间的签名数是不平衡的[20.],也就是说,有可能对某些细胞系,而数十另一个只有很少重复实验。此外,从9产生出来的72个细胞系最签名,以及那些不平衡数据可能导致偏压上的细胞类型。L1000复制生物测定的目的是测量由一致性评估签名质量[920.],这为我们选择高质量的签名和更平等地对待所有72种细胞类型提供了基础。因此我们减少了样本量,每个分子在每个细胞类型中只选择一个具有代表性的签名,减少的样本量可以保证输入数据的质量,同时减少了不同细胞类型样本量的偏差。

更准确的分类是benifical用于识别与潜在的新目标或协议备忘录[药物39.),这里我们使用恐鸟而不是药物本身的训练集的标签,以避免预测模型不能预测分子预期性质,考虑大多数药物有多个属性(他们中的许多人尚未确定),和基于先验知识的标签可以包括多个药物(21.,更有利于提取其签名的共同特征。训练集标签的质量对监督学习也很重要。从理论上讲,由混杂原的先验知识确定的任何类别标签,如药物适应症和副作用[1617],是可用的。但我们认为,该等协议备忘录,特别是在任一目标的药性或信号通路的水平,更适合作为“积极设置”标签。由于这些药物的性质,如治疗是太粗糙了药品分类管理,机制和药物分享相同的治疗表达谱可大不一样。例如,NHC建议药物COVID-19治疗有不同的机制(抗病毒,抗细胞因子风暴),以及奥克托克本模型仅为0.63±0.04。相反,MOAs与转录组数据的关系更为直接,具有相同MOAs的药物也可能在转录组水平上表现出更多的相似性。为了进一步提高训练集的质量,我们通过重复交叉验证过程对“阳性”药物集进行过滤,排除签名显著降低均值的药物奥克托克.例如六个分子最初注明“热休克蛋白(HSP)抑制剂”包括VER-155008,阿螺旋霉素,格尔德霉素,PU-H71,坦螺旋霉素,BIIB021;但交叉验证结果表明,VER-155008显著降低奥克托克从平均0.9至0.7。进一步发现,VER-155008是训练集之中的,有针对性的对HSP70(HSP受体亚型),而其他人HSP90目标,显示出交叉验证可以摆脱可能被贴错标签的一些训练集的唯一分子.

结论

在GPAR方法的基础上,未来更多的附加特征,包括更广泛的药物扰动物的分类表征和细胞类型多样性,以及体内数据,可以纳入GPAR模型,以改善MOA表征和特征识别。结合异构数据集的更大规模转录组资源[39.]将使协议备忘录以以更高的精度,灵敏度和可靠性进行建模,并覆盖的药物靶标和细胞类型多种亚型。GPAR可能会导致意外的连接,并为深入实验验证的生物假设,这可能最终促成协议备忘录的新分子或批准的药物的副作用的认识。总之,大规模perturbagen数据为机器学习提供良好的资源,并GPAR提供表达签名和协议备忘录,这可以得到在模拟协议备忘录和查询签名精度高,并有利于药物的再利用机会的更强大的连接。

可用性数据和材料

有关更多信息,请参阅“材料和数据的可用性”部分。这些数据可以通过以下途径免费获得http://gpar.idrug.net.cn/

缩写

农业部:

行动机制

鹏:

接收机工作特性曲线

中华人民共和国:

精密召回曲线

AUROC:

中华民国下面积

AP成绩:

平均得分精度中华人民共和国

knn:

射频:

随机森林

注:

朴素贝叶斯

GSEA:

基因设定浓缩分析

ES:

浓缩的分数

可见:

差异表达基因

参考文献

  1. 1.

    Keenan AB, Wojciechowicz ML, Wang Z, Jagodnik KM, Jenkins SL, Lachmann A,等。连接映射:方法和应用程序。生物医学数据科学。2019;2:69-92。

    文章谷歌学术搜索

  2. 2。

    Pushpakom S, Iorio F, Eyers PA, Escott KJ, Hopper S, Wells A,等。药物再利用:进展、挑战和建议。Nat Rev Drug discovery . 2018; 18:41-58。

    文章谷歌学术搜索

  3. 3.

    Subramanian A,Tamayo P,Mootha VK,Mukherjee S,Ebert Bl,Gillette Ma,等。基因设定富集分析:一种基于知识的解释基因组表达谱的方法。PROC NATL ACAD SCI。2005; 102:15545-50。

    CAS文章谷歌学术搜索

  4. 4.

    Pacini C,Iorio F,Gonçalvese,iskar m,klabunde t,bork p等人。DVD:使用基因表达数据的公共存储器进行药物重新估算的R / Cytoscape管道。生物信息学。2013; 29:132-4。

    CAS文章谷歌学术搜索

  5. 5。

    Carrella D, Napolitano F, Rispoli R, Miglietta M, Carissimo A, Cutillo L,等。魔咒2.0:一个在线协作资源的药物行动模式和重新利用网络分析。生物信息学。2014;30:1787-8。

    CAS文章谷歌学术搜索

  6. 6.

    NI M,叶男,朱Ĵ,李Z,杨S,杨B,等人。ExpTreeDB:基于网络的查询和的人和小鼠从GEO的手动注释的基因表达分析实验可视化。生物信息学。2014; 30:3379-86。

    CAS文章谷歌学术搜索

  7. 7.

    李楼曹Y,汉L,崔X,谢d,王S等人。GeneExpressionSignature的:R包用于发现使用的基因表达特征的功能连接。OMICSĴINTEGR生物学杂志。2013; 17:116-8。

    CAS文章谷歌学术搜索

  8. 8.

    王Z,拉赫曼A,AB基南,Ma'ayan A. L1000FWD:药物引起的转录签名的烟花可视化。生物信息学。2018; 34:2150-2。

    CAS文章谷歌学术搜索

  9. 9。

    段强,王志强,王志强,等。L1000CDS2: LINCS L1000特征方向签名搜索引擎。NPJ Syst Biol Appl. 2016。https://doi.org/10.1038/npjsba.2016.15

    文章PubMed.pmed中央谷歌学术搜索

  10. 10.

    等。基因2药物:基于通路的药物合理重新定位的计算工具。生物信息学》2017。https://doi.org/10.1101/192005

    文章PubMed.谷歌学术搜索

  11. 11.

    贡萨尔维斯E,古拉-Cabrera的A,帕奇尼C,皮科G,贝汉FM,Jaaks P,等人。机制-的行动药物发现,通过药物和CRISPR屏幕的融合。分子生物学SYST。2020; 16:e9405。

    文章谷歌学术搜索

  12. 12.

    Iskar M, Campillos M, Kuhn M, Jensen LJ, van Noort V, Bork P.药物诱导的靶表达调控。公共科学图书馆。2010;6:e1000925。

    文章谷歌学术搜索

  13. 13。

    韭菜jt,约翰逊我们,帕克hs,jaffe ae,storey jd。用于去除批量效应的SVA包和高通量实验的其他不需要的变化。生物信息学。2012年; 28:882-3。

    CAS文章谷歌学术搜索

  14. 14。

    Lecun Y,Bengio Y,Hinton G.深度学习。自然。2015; 521:436-44。

    CAS文章谷歌学术搜索

  15. 15.

    Filzen TM, Kutchukian PS, Hermes JD, Li J, Tudor M.通过微扰条形码表征高通量表达谱揭示复合靶标。PLoS compput Biol. 2017;13:e1005335。

    文章谷歌学术搜索

  16. 16。

    谢尔,他,文y,博X,张Z.根据多标签分类发现药物的新疗效。SCI REP。2017。https://doi.org/10.1038/s41598-017-07705-8

    文章PubMed.pmed中央谷歌学术搜索

  17. 17.

    基于LINCS L1000数据的药物不良事件预测。生物信息学。2016;32:2338-45。

    CAS文章谷歌学术搜索

  18. 18.

    利用基因表达谱的深度嵌入进行药物再利用。摩尔制药。2018;15:4314-25。

    CAS文章谷歌学术搜索

  19. 19.

    Szalai B,萨勃拉曼尼亚V,荷兰CH,AlföldiR,普斯卡什LG,在扰动转录的细胞死亡和增殖的赛斯-Rodriguez的J.签名数据从混杂因子有效的预测。核酸RES。2019; 47:10010-26。

    CAS文章谷歌学术搜索

  20. 20.

    等。下一代连接图:L1000平台和前1,000,000个配置文件。细胞。2017;171 (1437 - 1452):e17。

    谷歌学术搜索

  21. 21.

    Corsello SM,Bittker JA,刘Z,古尔德Ĵ,麦卡伦P,赫希曼JE,等。药物再利用中心:新一代的药品库和信息资源。Nat Med。2017; 23:405-8。

    CAS文章谷歌学术搜索

  22. 22.

    陈建军,陈志强,陈志强,等。TensorFlow:用于大规模机器学习的系统。arXiv: 1605.08695[c]。2016.2020年7月2日。

  23. 23.

    陈燕,李勇,谢晓霞。基于深度学习的基因表达推理。生物信息学。2016;32:1832-9。

    CAS文章谷歌学术搜索

  24. 24.

    谢L,他S,宋X,博X,张Z.深度学习为基础的药物靶相互作用预测转录组数据分类。BMC基因组。2018; 19:667。

    文章谷歌学术搜索

  25. 25。

    引用本文Iorio F, Bosotti R, Scacheri E, Belcastro V, Mithbaokar P, Ferriero R, et al.。药物作用模式的发现和药物从转录反应的重新定位。中国科学院院刊2010;107:14621-6。

    CAS文章谷歌学术搜索

  26. 26。

    基于t-SNE的数据可视化。J Mach Learn Res. 2008; 9:2579-605。

    谷歌学术搜索

  27. 27。

    作者简介:陈志强,男,河北人,硕士研究生,主要从事生物医学工程研究。Scikit-learn: python中的机器学习。arXiv: 1201.0490[c]。2012年访问时间2019年1月17日。

  28. 28。

    Aniper A,Plis S,Artemov A,Ulloa A,Mamoshina P,Zhortonkov A.深入学习应用,用于预测药物药物性质和使用转录组数据的药物重新淘洗。Mol Pharm。2016; 13:2524-30。

    CAS文章谷歌学术搜索

  29. 29.

    兰姆J.连接性映射:使用基因表达特征来连接小分子,基因,和疾病。科学。2006; 313:1929年至1935年。

    CAS文章谷歌学术搜索

  30. 30.

    广H,VerrièleL,血清素J. M.文澜竞争性拮抗作用(5-HT)2C和5-HT 2A受体介导的磷酸肌醇(PI)周转量氯氮平在大鼠:一个相对于其他抗精神病药物。1994年。

  31. 31.

    等。奋乃静代谢物的药理学概况。2000.

  32. 32.

    Ginzburg S, Golovine KV, Makhov PB, Uzzo RG, Kutikov A, Kolenko VM。胡椒隆明抑制NF-κB活性并减弱前列腺癌细胞的侵袭性生长特性:胡椒隆明抑制NF-κB活性。前列腺癌。2014;74:177 - 86。

    CAS文章谷歌学术搜索

  33. 33.

    娜YJ,全度YJ,徐J-H,康JS,羊K-H,金H-微米。通过根赤壳菌素IL-8基因表达的抑制是通过ERK1r2的抑制和p38信号和负调节NF-K B和AP-的介导。2001; 11。

  34. 34.

    Morotti A,Cilloni d,保塔索男,MESSA楼Arruga楼Defilippi I,等人。NF-kB的抑制作为一种策略,以增强依托泊苷诱导的细胞凋亡在K562细胞系。牛J血液学。2006; 81:938-45。

    CAS文章谷歌学术搜索

  35. 35.

    王M,Cao R,Zhang L,Yang X,Liu J,Xu M等。Remdesivir和氯喹有效地抑制了最近出现的新型冠状病毒(2019-NCOV)体外。细胞res。2020。https://doi.org/10.1038/s41422-020-0282-0

    文章PubMed.pmed中央谷歌学术搜索

  36. 36.

    Boulware DR,普伦MF,Bangdiwala AS,Pastick KA,洛夫格伦SM,奥卡福EC等。如羟氯喹暴露后的随机试验预防为Covid-19。n Engl J Med。2020; 383:517-25。

    CAS文章谷歌学术搜索

  37. 37。

    基奥·E,缪恩·a。维度的诅咒。在:Sammut C, Webb GI,编辑。机器学习和数据挖掘的百科全书。波士顿:施普林格;2017.314 - 5页。https://doi.org/10.1007/978-1-4899-7687-1_192

    谷歌学术搜索

  38. 38。

    吕超,吴旭,王旭,苏军,曾辉,赵军,等。102种中药成分的基因表达谱:中药研究的通用模板。Sci众议员2017;7:352。

    文章谷歌学术搜索

  39. 39。

    El-Hachem N, Gendoo DMA, Ghoraie LS, Safikhani Z, Smirnov P, Chung C, et al.;综合癌症药物基因组学推断大规模药物分类。实用癌症杂志2017;77:3057 - 69。

    CAS文章谷歌学术搜索

下载参考

致谢

本研究由国家自然科学基金项目(No. 81803431)资助。高士生和韩磊对这项工作做出了同样的贡献。单国忠博士非常感谢加州大学洛杉矶分校的何志明教授访问香港城市大学,以及香港城市大学的郭Way教授进行了深刻而有趣的讨论。

资金

文章发表经费由国家自然科学基金(81803431)资助。这些资金被用于开发、实施和评估拟议的工具和算法。资助机构在算法的设计和实现以及手稿的撰写中没有发挥任何作用。

作者信息

从属关系

作者

贡献

GSQ、HL、ZWX和ZYX设计了研究,GSQ、HL设计了工具并进行了数据分析,LD和LG收集和处理了数据,XZY收集并提供了初始建模过程的数据集,GSQ、HL和SGC撰写了稿件,所有作者阅读并批准了最终稿件。

相应的作者

对应于张您所想Wenxia周

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

额外的信息

出版商的注意

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

额外的文件1:

补充表格和图表。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

高胜,韩磊,罗丹。等等。用GPAR,人工智能平台对大规模基因表达谱的作用造型药物机制。欧宝娱乐合法吗22,17(2021)。https://doi.org/10.1186/s12859-020-03915-6

下载引用

关键词

  • 恐鸟
  • 深度学习
  • 基因表达谱
  • L1000