跳到主要内容

药物扰动基因设定富集分析(DPGSEA):一种新的转录组药物筛选方法

摘要

背景

在这项研究中,我们证明了我们改进的基因集富集分析(GSEA)方法,药物微扰GSEA (dpGSEA),可以通过独特的转录组富集来检测表型相关的药物靶标,强调药物衍生基因集的生物学方向性。

结果

我们详细介绍了我们的dpGSEA方法,并通过确认氟伐他汀、紫杉醇和罗格列酮在胃肠胰神经内分泌肿瘤细胞中的干扰,证明了它在检测特定药物干扰的独立公共数据集中的有效性。在药物发现实验中,我们发现dpGSEA能够在之前发表的CD4+T调节细胞的差异表达基因中检测到表型相关的药物靶点,这些基因来自于对hiv感染者的抗病毒治疗免疫应答者和非应答者,例如那些涉及病毒粒子复制的患者。细胞周期功能障碍,线粒体功能障碍。dpGSEA的公开地址为https://github.com/sxf296/drug_targeting

结论

DPGSEA是一种在考虑基因调制方向性的同时唯一富集药物定义的基因集。我们建议DPGSEA作为屏蔽可能的药物靶向分子的探索工具。

背景

药物发现和/或筛选可以是一种昂贵且耗时的努力,具有依赖于体外或体内模型的测试或通过合成分子筛选器官和组织的传统方法的昂贵和耗时的努力。1].在某些情况下,传统药物开发方法的费用可能会压倒现有资源,并使将一种新的治疗方法推向市场时的成本效益讨论具有挑战性[2].因此,开发具有成本效益的硅策略来筛选可能对治疗人类疾病有效的候选药物,可能会导致新的或可重复用途的疗法[3.].随着集成技术组学,表型筛选[上升4],基于网络的[5]和文献挖掘[67],利用大型数据驱动方法的新方法位于药物筛查的最前沿[2].利用现有的知识,我们提出一种转录组驱动的药物筛选方法,利用富集方法来确定候选治疗方法。

基于发现的富集方法,可用于寻找药物的疾病比较匹配转录签名[8].一种被称为签名逆转原则的方法已在多种治疗环境中取得成功[910.11.].它假定一个药物诱导的基因表达签名将与在疾病的转录的变化到正常或健康状态相关联[2].我们的前提是,的负相关基因谱药物的扰动转录组可以在硅片药物筛选的方法加以利用。

基因集富集技术为组学研究提供了良好的生物学背景,特别是在转录组研究中,通过通路总结特定对比或线性模型的整体生物学增强了可解释性。我们已经在各种转录研究中使用了基因集富集技术,比较或对比人类宿主对感染性或慢性疾病的反应[12.13.14.].不同的浓缩方法[15.],基因集富集分析(GSEA),数据库为注释,可视化和集成发现(DAVID)和基因本体论(GO)是金标准,途径和基因组富集转录分析[16.17.18.19.,但遗憾的是,由于缺乏药物-基因调节信息的整合,它们在药物筛选中的直接应用可能并不理想。虽然其他流行的方法,如基因药物、DSEA、sscMAP、L1000cds和cmap原生方法可能包括这些信息,但它们缺乏GSEA的统计严谨性[20.21.22.23.24.]:无执行错误率分析,计算得分的归一化,提供富集驱动的基因,或者是专为转录分析。

通过对疾病相关基因标记进行富集,同时使用药物扰动定义的基因集,整个转录组可以探索潜在的药物或治疗方法。我们提出了一种改进的GSEA,即药物微扰GSEA (dpGSEA),用于执行一种独特的药物定义的基因集富集分析,以筛选转录组或蛋白质组学研究下游的治疗方法。我们将dpGSEA描述为一种分析工具,强调富集药物基因和疾病基因谱之间的抵消基因表达,并提供一套易于解释的统计数据来确定筛选药物的有效性。通过使用原型矩阵来捕获a-先验药物干扰基因标记而不是基因集,我们相信我们的方法非常适合于基于转录组的治疗筛选和富集。

方法

我们提供dpGSEA和图相关的方法之间的比较。1而在附加文件的详细定义,符号,框架,统计量,归一化和误差率笔记1: 方法。

图1
图1

dpGSEA和相似的方法之间的比较。一种D.P.GSEA’s primary differences compared to GSEA include usage of a-priori gene set information derived from the Broad Institute’s connectivity map project (CMAP) and the library of integrated network-based cellular signatures (LINCS) projects organized as proto-matrices, an absolute statistical significance ranked approach rather than a fold change ranked approach, and a novel statistic to evaluate the drug target. Both approaches utilize a random walk running sum statistic to calculate enrichment scores. dpGSEA requires two inputs from the user to run.B.列出了使用类似gsea方法的可比技术的dpGSEA。我们的方法利用基因的显著性和方向性,同时产生一个新的统计量,即目标相容性分数。我们还展示了每种药物的驱动基因

DPGSEA基因集前沿

dpGSEA处理的概述,包括原型矩阵如图所示。2. dpGSEA利用Broad Institute的连接性图谱项目(CMAP)和基于网络的综合细胞特征库(LINCS)项目中药物干扰细胞系的转录组学特征来产生带注释的基因集,而不是像MSigDB那样的策展列表[16.24.25.].这些基因集被组织成原始矩阵,由排列最高倍数变化或统计显著性的基因签名截止点定义。原基质本身包含的信息包括特定药物作用的基因以及药物影响基因的方向性,即药物是否诱导基因的上调或下调。

图2
图2.

DPGSEA管道和富集方法概述。从图的左侧开始,DPGSEA的两个主要输入显示为表。左上表列出了例如疾病与对照研究的egs。左下表包含原矩阵,类似于MSIGDB定义的基因集,但包含药物基因作用的列表而不是基因组。DPGSEA通过基因融合这些表中的信息,并通过其重要意义的绝对值对它们进行排名。然后,DPGSEA基于药物基因相互作用和调节估计运行和统计。黄色突出显示的药物 - 基因相互作用是负相关的(相反的箭头)。富集分布形成[虚线红线,浓缩分数]确定运行和统计图的最大偏差,而最大偏差(虚线橙线)的位置表示目标兼容性得分(TCS)。DPGSEA然后置换基因位置,并产生新的富集分布以及富含零的ES和TCS。禁育用于均衡并为每个分数产生统计学意义。 The output is a list of drugs ranked by their ES or TCS statistical significance (bottom center table). It should be noted that leading-edge genes are also included in the output (not shown)

在Bioconductor的使用默认LIMMA-VOOM参数生成所述原矩阵,差异表达(DE)分析在所述CMAP和LINCS数据进行[26.]. 对于每种药物,使用相应批次的DMSO样品作为对照进行DE实验,同时线性校正剩余效应。根据折叠变化和统计显著性对产生的基因进行排序,以生成特定的特征,即保留细胞系信息的特定药物作用的前10、20或50个基因(标记为“Sig等级10”或“FC等级20”),等等,第一个标签表示折叠变化或显著性,最后一个标签表示排名靠前的基因数量)。

dpGSEA得分统计

与GSEA的方法类似(参见附加文件1方法),我们考虑一个列表。l注释基因的增加等级排序\(t _ {(j)} \), 为了\(j \在\左\ {{1,\ ldots,P} \右\} \).我们的方法检测高值的富集\(t _ {(j)} \)在基因组的正尾\ (S_ {k} \).这相当于找到一个领先的子集的证据基因组\ (S_ {k} \),在其值\(t _ {(j)} \)是最大的:

  1. 1。

    传统的富集分数,表示\ (U_ {k} = U (S_ {k}) = \离开({T_{1},识别\ ldots T_ {p} |识别S_ {k}} \右)= ES_ {k} \)其计算每个基因组\ (S_ {k} \),如从加权运算总和为0的最大偏差,对于\(j \在\左\ {{1,\ ldots,P} \右\} \)在基因组中\ (S_ {k} \),相对于其补语\(\眉题{年代}_ {k} \).正式地说,我们的第一个基因特异性全局检验统计量可以写成:

    $ $ ES_ {k} = \ mathop{\马克斯}\ limits_ {{l \ \左\ {{1 \ ldots p} \右\}}}\左| {v_ {k}左(左、右)}\ \ |,\;\;{\文本为}{}\;左\;l \ \ \ {{1 \ ldots p} \右\}$ $
    (1)

    在哪里\(V_ {K}(1)= \压裂{{\总和\ nolimits_ {J = 1} ^ {1} {\左|【T _ {(J)}} \右| ^ {\欧米加} I \左[{\西格马(j)的\在S_ {K}} \右]}}} {{\总和\ nolimits_ {J = 1} ^ {p} {\左|【T _ {(J)}} \右|^ {\欧米加} I \左[{\西格马(j)的\在S_ {K}} \右]}}} - \压裂{{\总和\ nolimits_ {J = 1} ^ {1} {I \左[{\西格马(j)的\ notin S_ {K}} \右]}}} {{对 - \ gamma_ {K}}} \)

    其中| |表示绝对值,\(\ max(\ cdot)\)表示相对于基因的最大索引函数\(l \in \left\{{1, \ldots,p} \right\})\(\ omega \)是一个参数,描述随机步行中尾部的重量(参见下面的备注),以及\(I \左[{\西格马(j)的\在S_ {K}} \右] \)是关于是否指示函数j排序基因排序基因属于基因集\ (S_ {k} \)是逆符号,表示疾病基因和药物基因的反向方向\(k \ \ \ left \ {{1,\ ldots,k} \右\} \)

  2. 2。

    目标兼容性得分,表示\(U_ {K} = U(S_ {K})= U \左({T_ {1},\ ldots,T_ {P} | S_ {K}} \右)= TCS_ {K} \),它是为每个基因组计算的\ (S_ {k} \), 为了\(k \ \ \ left \ {{1,\ ldots,k} \右\} \),为最大富集分数点与排序点之间的绝对距离\(t _ {(j)} \)绝对值最小,通常为零倍变化或零相关基因指数。这涉及到两个基因指标的计算:(1)基因秩最大值\ (ES_ {k} \)统计量(前缘上限),表示\(\帽子{1} _ {K} ^ {\ MAX} \),和(2)的有序秩的秩基因极小\(t _ {(j)} \),表示\(\帽子{l} ^{\分钟}\)

    $$ tcs_ {k} = \左|{\ hat {l} _ {k} ^ {\ max} - \ hat {l} ^ {\ min}} \ reval |,$$
    (2)

在哪里\(\帽子{l} _ {k} ^{\马克斯}= \ mathop {\ arg \马克斯}\ nolimits_ {{l \ \左\ {{1 \ ldots p} \右\}}}\左| {v_ {k} (l)} \右| \)\(\ hat {l} ^ {\ min} = \ mathop {\ arg \ min} \ nolimits _ {{j \ in \ left \ {{1,\ ldots,p} \ \ rectle \}}} left | {t _ {(j)}} \ \ \)在哪里\(arg \max (cdot)\)\(\ ARG \分钟(\ CDOT)\)表示相对于基因指数最大化和最小化的功能\(l \in \left\{{1, \ldots,p} \right\})\(j \在\左\ {{1,\ ldots,P} \右\} \),分别。

标准化,意义和错误率

标准化在相应的可比标度上置于ES和TCS分数。null分布是由列表的基因标签置换创建l同时保留原有的基因标签等级排序;这是1000个排列进行。归一化因子是由均值由置换分布产生的分数获得规模的变化,并且然后通过简单地由该归一化因子将所述真实分数所获得的归一化分数。真正得分的意义是通过置换的得分是大于真正的得分,我们的零假设状态的比例确定,真正的得分是由随机基因标签排列生成的没有什么不同。

我们通过控制错误发现率(FDR)来解决多重测试问题。在dpGSEA的完整实验运行后,通过比较筛选出的每种药物的所有置换无效标准化分数的比例来计算FDR,该比例大于所述药物的特定分数。这分别针对每个ES和TC执行,并且是GSEA使用的方法。

测试dpGSEA

我们走近双重方式测试dpGSEA。(1)我们,确定是否dpGSEA能够积极地从外部DE实验通过正相关基因调制识别的扰动药物,而不是签名复归原理。(2)我们使用dpGSEA按预期运行,一个探索工具用于药物筛选,以确定该检测到的治疗剂具有生物或表型的相关性有关的疾病。

对于第一种情况,我们测试由氟伐他汀的扰动第三方基因签名,而不是那些由CMAP或LINCS,从胃肠胰神经内分泌瘤细胞(GEPNTs)衍生的,parbendazole(对药物定义的基因组存在,并且从CMAP生成),紫杉醇,罗格列酮(抗药物基因定义本集和从LINCS产生),和阿霉素(针对存在和来自CMAP和LINCS产生药物定义的基因组)(基因表达综合(GEO)#GSE98894)27.].药物扰动DE为GEPNTs使用LIMMA-VOOM执行和使用dpGSEA检测匹配签名。

对于第二种情况,药物筛选,我们在HIV感染者应用dpGSEA在从免疫反应(IR)和无应答者(INR)抗病毒治疗的CD4 +调节性T细胞(Treg细胞)我们的差异表达基因的最新研究(GEO#GSE106792)28.].本研究评估HIV感染者为他们重建的CD4 + T细胞池响应抗逆转录病毒治疗,哪些候选人的机制是穷人的临床治疗效果和发病率和死亡率更大的风险相对于INR状态背后的能力。线粒体的Treg机制有牵连是细胞周期停止的原因[28.].我们使用dpGSEA分析了该数据集,以确定我们是否可以识别出可能利用差异表达基因(DEGs)参与INRs线粒体功能障碍或整体免疫功能的药物。

结果

Our case study results for detection of GEPNTs drug perturbations by dpGSEA that pass the FDR α = 0.05 threshold are shown in Table1A和B分别用于ES和TCS,以及使用的特定原型矩阵。值得一提的是,并不是每一个GEPNTs药物扰动都能被每个原型基质通过ES和TCS FDR阈值确定,但我们能够在大多数情况下确定所有扰动,除了ES FDR罗格列酮和TCS FDR氟伐他汀。紫杉醇干扰最常被评分和主要基于显著性LINCS原型矩阵的阳性识别,而其他药物的阳性发现与所使用的原型矩阵有关。

表1按(A)ES和(B)TC排序的列表P.使用外部RNA-SEQ数据集的正相关验证测试值

表格2显示了INR与IR案例研究的最统计学上显着的ES药物发现,其中发现线粒体和免疫相关药物。Oseltamivir-羧酸甲酯,塔米芬的活性代谢物,抗病毒,防止毒液,防止后代流感病毒群,同时调节已发现在线粒体中的局部化并参与细胞凋亡的调节的人唾液酸酶[29.30.].伊布利特,抗心律不齐,已经显示出抑制内质网和线粒体应力机制[31.].这些发现与INR线粒体功能障碍一致,同时显示可能增加抗病毒活性和/或预防Treg函数的细胞周期破坏的可算术转录。值得注意的是,其他药物在0.05的统计学意义中,例如纤连和斜肽(P = 0.015,P = 0.017分别)具有靶标(CPT1A和IDH2),表明是代表脂肪酸氧化和线粒体功能障碍的能量产生的能量产生以前的研究[28.].

表2使用前50名对INR与IR Treg细胞进行富集时发现的最具统计学意义的ES排序列表P.值秩原矩阵(来自LINCS派生)

在比较dpGSEA和传统GSEA时,我们发现紫杉醇微扰细胞株的排列顺序有显著差异,与我们的方法有很大的差异(图)。3.)。Wilcoxon符号秩检验不显著(P.比较dpGSEA和GSEA的ES显著性排名和TCS显著性排名(图。3.e) 。比较dpGSEA和GSEA中的ES和TCS在可比原始矩阵中的排名,发现扰动细胞系排名的最大位置偏移为3(排名前50位的GSEA:MCF7从第2位到第5位),ES和TCS之间的排名偏移最多为2位(0位偏移:11;1班:9班;2档:5档;3档:1)。

图3
图3.

比较dpGSEA的富集结果,差异有统计学意义。地块一种- - - - - -D.显示dpGSEA (一种C)和GSEA(B.D.)用于顶部20和顶部50P.值排原矩阵(从LINCS数据导出的)识别正相关的基因。地块一种B.比较dpGSEA和GSEA之间排名前20的原型矩阵,每个点代表最终生成列表中的富集药物。标记的蓝点都表示紫杉醇摄动GEPNTs与GEPNTs DMSO对照DE的细胞系。x轴表示富集分数(ES)的−log10。P.目标兼容性分数(TCS)的值和Y轴 - LOG10P.相应扰动药物的细胞系组合的值。副轴列表的用于ES和TCS,各自轴的升序意义的顺序,即在也示出表E.用Wilcoxon符号秩检验比较了ES和TCS的排序顺序P.,说明dpGSEA与传统GSEA结果的差异

数字4比较dpGSEA评分和显著性趋势与CMAP本地和基因药物方法。我们的评估不包括两种方法:sscMAP方法不再可用,L1000cds方法不提供显著性估计。在这里,我们使用CMAP排名前20的显著原型矩阵作为我们的a-对于dpGSEA先验签名和相应等效输入(前20个基因通过意义),用于其它方法。应当指出的是,方向性被集成到dpGSEA富集方法由图3的单侧分布反映仅产生正的分数。4b.也显示了通过gsea定义的标准FDR和benjaminihochberg (BH)定义的FDR调整阈值的排名药物。使用GSEA-FDR阈值[16.]我们发现许多通过FDR = 0.05的药物屏幕。这与没有固有错误率分析的方法呈现对比(图。4C,D)具有少量或没有筛选的药物,其在同一水平处通过BH-FDR阈值。因此,DPGSEA筛选的药物结果为临床医生提供了更丰富和更可靠的药物。此外,应该注意的是,这种结果是DPGSEA实现的,尽管GSEA定义的FDR过程本质上更保守(较少的向下偏见的归纳)而不是BH定义的FDR程序[32.],特别是在较低的α值的情况下(附加文件2:图S1)。最后但并非最不重要,注意药物筛选(图中绿色高亮显示的统计显著成果。4),其通过一个指定的FDR显着阈值(0.05)特有dpGSEA的小说TCS统计量。

图4
图4.

DPGSEA的评分趋势与CMAP天然和基因2DRUG方法的比较与显着性。每个曲线内的每个点代表筛选的药物的显着性和分数在DPGSEA的等同运行中(图一种B.),CMAP本地(剧情C)和gene2drug(情节D.). 通过指定FDR显著性阈值(0.05)的筛选药物以红色显示,以绿色突出显示的筛选药物显示出dpGSEA新型TCS特有的统计显著性发现。还显示了在特定显著性阈值范围内的筛选药物总数,应注意通过FDRα的数量 = 0.05使用GSEA定义的FDR阈值(曲线图一种B.)分别为121,而通过BH定义的阈值的那些分别为CMAP和Gene2drug的3和0,(图CD.

分数和重要性的分布可以在附加文件中找到3.:图S2和附加文件4:图S3显示了标准化分数和它们各自转换后的趋势P.值以及前沿基因集大小。每个图显示了每种药物的dpGSEA的一次完整运行及其各自的分数和显著性。我们可以看到,正如预期的那样,分数呈显著正趋势,TCS显著性倾向于较小的驱动基因集(R = 0.72),而ES没有(R = 0.03)在附加文件中4中:图S3C和S3D。此外,其他文件4:图S3示出了用于各种原矩阵在肯定地识别氟伐他汀扰动之间的比较。作为a-先验信号大小增加,我们看到氟伐他汀从缺乏统计学意义迁移到接近或超过TCS意义P. < 0.05 and ultimately to ES significance atP. < 0.05. 这可能表明TCS更能检测较小基因集大小的富集。

讨论

疾病 - 基因和药物基因互补表达的准确写照是DPGSEA发育的推动力。DPGSEA有两个特征,与GSEA和其他方法相比,其新颖性,即我们的指标功能,表示互补疾病 - 基因和药物 - 基因表达以及使用包括药物 - 基因调制信息的药物衍生的基因设定前的药物。GSEA在其目前的状态下不能产生能够通过基因设定的富集的基因设定的调节方向性解释结果。实际上,例如,MSIGDB基因集合仅包含基因成员资格信息。在富集确实在被设定的基因内进行表达的情况下,例如C6和C7收集中定义的那些,单一生物定义基因组的表示分解为上下调节组[16.].这是不太理想的富集的解释必须与两个分数和两个显着性水平进行情境,使生物解释的情况下,两套估计可能不是全等困难。此外,我们的结果从如由在图紫杉醇的扰动细胞系秩显着的变化由传统GSEA产生的那些不同。3.,这表明,当涉及到方向性影响富集时,签名逆转原则起作用。此外,与其他方法不同的是,我们在dpGSEA分析中报告了FDR结果,反映了敏感性和特异性指标的结合。然而,为了生成更具体的准确性指标结果,如特异性和敏感性,需要对联合真实药物扰动和真实DE(即两者的真相都是已知的)进行模拟研究,以允许我们比较候选药物最终结果。

当与其它药物筛选示于图的方法。1b,我们独特地使用了调制度,如DE意义所代表的,和富集的方向性。如gene2drug和DSEA等方法需要较少的传统输入,这将允许应用于转录组学以外的领域,但要求用户使用单个基因、一组通路或一组药物进行查询,而不考虑调制的方向[20.21.].虽然这些方法是通用的,但dpGSEA利用DE实验中生成的统计数据,使其在处理转录组药物筛选方面具有独特的姿态。cmap native、L1000cds和sscMAP方法考虑的是方向性,而不是DE意义,而是使用有序列表或集[22.23.24.].此外,我们在GSEA的成功中保持关键的重要方面,例如在我们的方法中得分标准化和真正的FDR分析[22.24.].当比较dpGSEA、CMAP native和gene2drug的结果时,我们看到我们的方法提供了更多通过错误校正的药物筛选。与BH程序相比,我们本质上较少保守的gsea定义的误差测量更适合于药物筛选。在我们和其他测试案例中,BH程序显示出强烈的偏向于排除可能的阳性药物筛选,如图所示。4C,D,尤其是在具有高统计显着性的屏幕的情况下,偏差最重要(附加文件)1:图S1)。波黑程序,以及其他类似的,是在理解这些药物筛选这就要求固有的方法途径假发现不足,比如我们应用的一个。此外,对于探索性放映,维持严格的统计学严谨性不太保守的误差分析是理想的。其结果是,dpGSEA从上述方法根本不同,我们相信它可以用于药物筛选的转录DE实验的有效工具。此外,我们的新的统计,TCS,作为通过强调基因秩与DE实验,而不是统计意义的替代传统的ES。它提供了用于筛选的另一个有效的手段和,如图所示。4,阐明了大量在其他方面被忽视,但可能重要和有效的药物筛选。这为未来的研究提供了另一个途径,以证明在ES意义不满足的情况下,对感兴趣的特定药物或基因靶点的探索。

在检测dpGSEA时,我们能够肯定地识别出紫杉醇、帕苯达唑、阿霉素、罗格列酮和氟伐他汀在GEPNTs中的药物干扰,但我们想强调的是,dpGSEA的主要目的是发现筛选,而不是鉴定。我们的识别测试是一个概念证明,我们的方法,在理论上,可以有效地应用特征反转原理富集和检测药物扰动信号的外部数据集。我们相信我们对dpGSEA在INR和IR DE(线粒体和免疫相关药物)上的真实用例测试,更能揭示dpGSEA方法的能力。

我们的分数与传统GSEA分数类似,严格生成,同时针对错误发现进行调整,以确保尽可能高的准确性。关于基于DE分析的分析研究,即所有转录组富集方法,dpGSEA的推断将取决于dpGSEA框架第一阶段产生的先前DE结果的有效性。与此一致,最近的一项研究支持GSEA中排名统计的重要性。正如作者所说,“一个可能影响最终结果的重要参数是选择基因排序的度量标准。应用默认排名指标可能会导致较差的结果“[33.因此,我们方法的重要特征包括:(1)获取更多信息的原型矩阵;(2)更准确的局部检验统计量,如Limma或edgeR包实现中估计的经验贝叶斯调节统计量;(3)错误率控制程序,如FDR选择。

结论

我们认为,我们的疾病基因和药物基因互补表达支持dpGSEA的新基础,以及由多重检测校正控制的稳健统计和由我们的方法生成的前沿驱动基因。dpGSEA是一种独特的方法,丰富了药物定义的基因集,同时考虑了基因调控的方向性,我们推荐dpGSEA作为一种探索性工具来筛选可能的药物靶向分子。

可用性数据和材料

数据可用于GitHub存储库,https://github.com/sxf296/drug_targeting

缩写

BH:

Benjamini-Hochberg

CMAP:

连接地图项目

大卫:

数据库注释,可视化和集成发现

判定元件:

差异表达

度:

差异表达基因

dpGSEA:

药物微扰基因集富集分析

es:

丰富分数

罗斯福:

错误发现率

GEO:

基因表达综合

GEPNTs:

胃肠胰神经内分泌肿瘤细胞

走:

基因本体论

GSEA:

基因组富集分析

红外光谱:

免疫应答

INR:

免疫nonresponders

LINCS:

基于网络的综合蜂窝签名库

亚群:

T调节细胞

TCS:

目标兼容性得分

工具书类

  1. 1。

    Dugger SA,Platt A,Goldstein DB。精密医学时代的药物开发。NAT Rev Disp Discov。2018; 17(3):183-96。

    中科院PubMed.文章谷歌学术

  2. 2。

    Pushpakom S等人。毒品重新展示:进步,挑战和建议。NAT Rev Disp Discov。2019; 18(1):41-58。

    中科院PubMed.文章谷歌学术

  3. 3。

    布雷肯里奇A,雅各布R.克服药物再利用的法律和监管障碍。NAT Rev Disp Discov。2019; 18(1):1-2。

    中科院PubMed.文章谷歌学术

  4. 4。

    陈毅,徐瑞。基于分子亚型的胶质母细胞瘤药物再利用。J生物医学通报。2016;64:131–8.

    PubMed.公共医学中心文章谷歌学术

  5. 5。

    Keiser MJ等。预测已知药物的新分子靶点。自然。2009;462(7270):175–81.

    中科院PubMed.公共医学中心文章谷歌学术

  6. 6。

    徐R,从生物医学文献准确的药物治疗疾病对药物再利用的王栎大规模提取。BMC生物素。2013; 14:181。

    文章谷歌学术

  7. 7。

    等。药物再利用的文献挖掘、本体和信息可视化。短暂的Bioinform。2011;12(4):357 - 68。

    中科院PubMed.文章谷歌学术

  8. 8。

    达德利JT,德什潘德T,巴特AJ。利用对计算药物重新定位药物与疾病的关系。简短生物形式。2011; 12(4):303-11。

    中科院PubMed.公共医学中心文章谷歌学术

  9. 9.

    瓦格纳A,等人。药物逆转疾病的转录组签名在血脂异常的小鼠模型更有效。MOL SYST BIOL。2015; 11(3):791。

    PubMed.文章谷歌学术

  10. 10。

    昆克SD,等人。人骨骼肌萎缩的mRNA表达特征鉴定的天然化合物,增加肌肉质量。细胞元。2011; 13(6):627-38。

    中科院PubMed.公共医学中心文章谷歌学术

  11. 11.

    Shin E,等。基于药物签名的LC28-0126用于中性支气管哮喘的额外临床用途。SCI批准。2015; 5:17784。

    中科院PubMed.公共医学中心文章谷歌学术

  12. 12.

    Fourati S,等人。集成系统方法定义的抗病毒途径由RV144的艾滋病疫苗赋予的保护。NAT Communce。2019; 10(1):863。

    PubMed.公共医学中心文章谷歌学术

  13. 13。

    马德JC,等人。先天淋巴样细胞的灵长类动物慢病毒感染免疫缺陷损失综述的标志。NAT Communce。2018; 9(1):3967。

    PubMed.公共医学中心文章谷歌学术

  14. 14。

    Veazey Rs等人。通过局部IFN-β治疗预防SHIV传播。粘膜免疫素。2016; 9(6):1528-36。

    中科院PubMed.公共医学中心文章谷歌学术

  15. 15。

    大黄W,谢尔曼BT, Lempicki RA。生物信息学富集工具:大基因列表综合功能分析的途径。核酸Res. 2009a;37(1):1 - 13。

    文章谷歌学术

  16. 16。

    萨勃拉曼尼亚A,等人。基因设定富集分析:一种基于知识的解释基因组表达谱的方法。Proc Natl Acad Sci U S A. 2005; 102(43):15545-50。

    中科院PubMed.公共医学中心文章谷歌学术

  17. 17。

    Hanzelmann S,堡R,Guinney J. GSVA:用于微阵列和RNA-SEQ数据基因组变异分析。BMC生物素。2013; 14:7。

    文章谷歌学术

  18. 18。

    大黄W,谢尔曼BT, Lempicki RA。用大卫生物信息学资源对大型基因清单的系统和综合分析。NAT PROTOC。2009B; 4(1):44-57。

    中科院文章谷歌学术

  19. 19。

    王志强,等。PANTHER版本14:更多的基因组,一个新的PANTHER go瘦身和富集分析工具的改进。核酸Res. 2019;47(D1): D419-26。

    中科院PubMed.文章谷歌学术

  20. 20。

    基因药物:基于通路的药物合理重新定位的计算工具。生物信息学。2018;34(9):1498 - 505。

    中科院PubMed.文章谷歌学术

  21. 21。

    napolitano f等人。药物富集分析:一种调查药物行动模式的新工具。生物信息学。2016; 32(2):235-41。

    中科院PubMed.谷歌学术

  22. 22。

    张SD,甘特TW。sscMap:用于连接使用基因表达签名的小分子药物的可扩展的Java应用程序。BMC生物素。2009; 10:236。

    文章谷歌学术

  23. 23。

    段Q等人。L1000CD(2):LINCS L1000特征方向签名搜索引擎。NPJ SYST BIOL APPL。2016; 2:1-12。

    文章谷歌学术

  24. 24。

    兰姆J,等。连接性映射:使用基因表达特征来连接小分子,基因,和疾病。科学。2006; 313(5795):1929-35。

    中科院PubMed.文章谷歌学术

  25. 25。

    萨勃拉曼尼亚A,等人。下一代连接图:L1000平台和前1,000,000个人资料。细胞。2017; 171(6):1437至1452年。

    中科院PubMed.公共医学中心文章谷歌学术

  26. 26。

    Ritchie ME, et al. limma powers差异表达分析用于rna测序和微阵列研究。核酸学报2015;43(7):e47。

    PubMed.公共医学中心文章谷歌学术

  27. 27。

    Alvarez的MJ,等人。精密肿瘤学的方法来机械依赖性在神经内分泌肿瘤的药理学靶向。NAT Genet。2018; 50(7):979-89。

    中科院PubMed.公共医学中心文章谷歌学术

  28. 28。

    尤内斯等。CD4+ T细胞在hiv感染免疫无应答者中的循环有线粒体功能障碍。2018;128(11): 5083-94。

    PubMed.公共医学中心文章谷歌学术

  29. 29。

    yamaguchi k等。一种新型人类唾液酸酶(Neu4)的线粒体定位的证据。Biochem J. 2005; 390(PT 1):85-93。

    中科院PubMed.公共医学中心文章谷歌学术

  30. 30.

    等。奥司他韦和扎那米韦对人唾液酶的有限抑制作用。抗微生物药物化学。2008;52(10):3484-91。

    中科院PubMed.公共医学中心文章谷歌学术

  31. 31。

    王勇,等。伊布利特通过抑制内质网和线粒体应激途径保护心肌细胞免受损伤。心脏血管。2017;32(2):208 - 15所示。

    PubMed.文章谷歌学术

  32. 32。

    Benjamini Y,Hochberg Y.控制虚假的发现率:多种测试的实用和强大的方法。Ĵř统制SOC。1995; 57(系列B):289-300。

    谷歌学术

  33. 33。

    Zyla J,等。排名在基因组富集分析指标:他们有关系吗?BMC生物素。2017; 18(1):256。

    文章谷歌学术

下载参考

致谢

我们感谢来自Case Western Reserve大学斯科特·威廉姆斯博士的宝贵意见和手稿的批判。我们也感谢许蓉博士,迈克尔·卡特赖特和案例应用功能基因组学核心员工的有益的讨论。

资金

(:MJC; P30AI036219,努力为BR,CMC和MJC和P50AR070590子项目ID 6891,PI T32HL007567,努力为MF)该研究由美国国立卫生研究院资助。这项研究的内容是作者的责任,并不一定代表美国国立卫生研究院的官方意见。

作者信息

隶属关系

作者

贡献

MF设计的方法,进行了计算分析和验证,并写了稿子。BR提供生物信息学分析。CMC提供的设计和生物验证。JD提供了重要的方法开发,解释和稿件写作。MJC负责该项目的整体项目启动和解释,稿件写作和资金。所有作者均促成了手稿和阅读并同意最终的文本。

相应的作者

对应到让·厄德Dazard或者马克·j·卡梅隆

伦理宣言

伦理批准和同意参与

被要求为这项研究没有伦理委员会批准。

同意出版物

不适用。

相互竞争的利益

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

附加文件1。

扩展的方法,包括统计方法,总体框架,LIMMA统计的重申和FDR计算。

附加文件2:图S1。

GSEA定义与Benjamini-Hochberg定义错误率的临界值之间的比较。绘制A,B,C和D显示GSEA定义的FDR错误率的分析与使用各种Proto矩阵的BH定义的FDR错误率进行了比较。在GSEA定义的FDR和BH定义的FDR之间观察到错误率(和临界值)的最大偏离:在较低的α(较高的1-α)水平下,这意味着我们的DPGSEA方法采用的GSEA定义的FDR错误率趋于减少向下偏向,因此整体更保守。

附加文件3:图S2。

对于各种PROPO基质的Gepnts示出了氟伐他汀屏幕的ES和TCS显着性趋势。六个地块显示ES统计显着性(X轴)和TCS统计显着性(Y轴)之间的趋势。在这些情况下,源自CMAP数据的6种不同的原型矩阵识别Gepnts中氟伐他汀的相关签名的型号显示有图BE分别在TCS的10%和5%水平下达到统计学显着性。地块C和F.在橙色线的5%水平下达到统计学显着性,表示在5%水平下的统计显着性

附加文件4:图S3。

趋势标准化分数和前沿基因集规尺寸具有各自的意义,用于DPGSEA的单一乐趣。示出了使用CMAP FC等级20 PROLO矩阵表示四个曲线图表示一个DPGSEA的趋势。阴谋一个示出了药物屏幕规范化ES(x轴)和相应的ES统计学意义(y轴)。阴谋B显示了相同但归TCS分数。地块CD显示了ES和TCS的前沿基因大小及其与ES和TCS的统计显著性的关系,表明ES对前沿基因集大小具有鲁棒性,而TCS倾向于较小的前沿基因集大小

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条中提供的数据,除非数据信用额度中另有规定。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

方,M.,理查德森,B.,卡梅伦,C.M。等等。药品扰动基因组富集分析(dpGSEA):一个新的转录药物筛选的方法。欧宝娱乐合法吗22,22(2021)。https://doi.org/10.1186/s12859-020-03929-0

下载引用

关键词

  • 转录组学
  • 基因组富集分析
  • 药物发现
\