跳到主要内容

生物信息学软件的普及和性能:以基因集分析为例

抽象的

背景

基因集分析(GSA)可以说是功能解释的选择方法omics.结果。下文探讨了自成立以来20年后发表的所有GSA方法和软件的普及和性能。估计“人气”估计根据每份纸张的引文计数,而“绩效”是基于对现场论文使用的验证策略的全面评估,以及现有基准研究的综合结果。

结果

关于受欢迎程度,数据被收集到在线开放数据库(“GSAREFDB”)中,允许浏览503 GSA纸张引用的书目和方法描述性信息;关于性能,我们介绍了Jupyter工作流和闪亮应用程序的存储库,用于GSA方法的自动基准(“GSA-基准”)。比较普及后结果表明,最常用的GSA方法与最佳的GSA方法存在差异。

结论

上述结果使我们注意到研究人员所遵循的工具选择程序的性质,并对当前生物医学研究中生物数据集的功能解释质量提出了质疑。对功能解释领域的未来提出了建议,包括GSA工具的教育和讨论策略、更好的验证和标杆实践、再现性以及对以前报告的数据进行功能再分析。

背景

生物信息化方法和软件选择是生物医学研究中的一个重要问题,由于在现有的无数的计算方法和软件中选择了错误方法的可能后果。软件选择中的错误可能包括使用过时或次优方法(或参考数据库)或误解所选方法后面的参数和假设。此类错误可能会影响整个研究项目的结论,并使其余的实验和计算管道的努力进行了解[1]。

以下论文讨论了两个主要因素,激励研究人员进行方法或软件选择,即受欢迎程度(定义为社区成员之间使用工具的感知频率)和性能(定义为测量和与替代工具相比的定量质量指示器)。该研究专注于“基因集分析”(GSA)的领域,其中生物信息学软件的普及和性能显示差异,因此问题出现了生物医学科学是否正在使用最佳可用的GSA方法。

GSA可以说是最常见的功能解释程序omics.数据,并为本文的目的,我们将它定义为一个查询的比较基因集(列表或等级的差异表达基因,例如)参考数据库,使用一个特定的统计方法,为了解释它的重要途径,功能相关的基因集,或本体的条款。这种定义包括传统上被称为“基因集分析”、“路径分析”、“本体分析”和“丰富分析”的类别。所有的GSA方法都有一个共同的目标,即从注释的基因集合的角度解释生物分子数据,但它们根据计算方法的特点而有所不同(更多细节见“方法”部分,以及图。1参考[2])。由于Tavazoie等人的原始论文,GSA已经到达了20年的存在(3.,许多统计方法和软件工具也在此期间发展起来。一篇流行的评论文章列出了68个GSA工具[4],第二次审查报告了另外33个工具[5]和第三个,22个工具[6]。我们已经建立了迄今为止的最全面的参考列表(503篇论文),我们已经根据当前的引文量化了每篇论文的影响力(参见附加文件1并参考[7])。最常见的GSA方法包括过度表示分析(ORA),例如David [8],功能类评分(FCS),如GSEA [9],以及基于路径拓扑的(PT)方法,如SPIA [10.,这些都已得到广泛的审查。为了更多地了解它们,读者可以查阅附加文件中62条已发表的评论中的任何一条1。最近,我们还审查了其他类型的GSA方法[2]。

图。1
图1

gsarfdb v.1.0的统计数据(更多最新统计数据,请访问我们的网站:https://gsa-central.github.io/gsarefdb.html.)。一个每年GSA出版物数量。b每种GSA方法的出版物数量。c每用编程语言的出版物数量。d每一种使用的编程语言的引用数。e网站供应情况。f每报告验证方法的出版物数量

分析的第一部分是基于GSA领域的所有方法,工具,平台,评论和评论和评论和基准的全面数据库的GSA方法和软件人气研究,包括1999年至2019年间的所有方法,工具,平台,评论和评论和基准,包括在内的134,222次,包括他们的受欢迎程度和其他相关特征。第二部分是基于论文中报告的验证程序的性能研究,与上述数据库中的所有现有的独立基准研究一起引入新方法。我们不是推荐一个单一GSA方法,我们专注于讨论更好的基准措施并生成遵循此类实践的基准工具。这项研究的两个部分都允许我们比较GSA工具的普及和性能,也可以探索对普及现象的可能解释以及限制独立性能研究的执行和采用的问题。最后,建议有些做法保证生物信息学软件选择是由最合适的指标指导的。

结果

受欢迎程度

论文被引用的数量被用作衡量GSA方法受欢迎程度的一个简单(但并不完美)的指标。收集了350篇关于GSA方法、软件或平台的文献(附加文件1:表1),非mrna的GSA文献91篇omics.工具(附加文件1:标签3,4)和62 GSA评论或基准研究(附加文件1:选项卡2,3,4),已组织成手动策划的开放数据库(GSAREFDB)。gsarefdb可以通过闪亮的界面下载或访问:https://gsa-central.github.io/gsarefdb.html.。数字1总结数据库中的一些相关信息(GSAREFDB v.1.0)。引文计数表明,历史中最有影响力的GSA方法是基因集浓缩分析(GSEA),于2003年发布,其中许多引用作为其追随者的两倍以上,ORA平台称为David(17,877个与7500引用)。通常,数据库显示该领域包含一些非常流行的论文和许多具有低普及的论文。数字1b显示,工具列表主要由ORA和FCS方法组成,而较新的、较不为人知的PT和Network Interaction (NI)方法不太常见(通常在受欢迎度排名中垫底)。

可以假设GSA工具的普及并不总是依赖于对该特定项目的最佳选择,并且它可能与诸如其用户友好性的变量相关。该数据库允许我们计算每编程语言的引用,我们用作友好的近似。数字1C表明,大多数GSA纸对应于R工具,但是,尽管如此,1d显示大多数引文对应于Web平台,后跟独立应用程序,这些应用程序与用户更友好。值得一提的是,数据库的最后一列显示有大量的工具不再维护,并将Web链接破坏到工具或数据库,这使得它们的评估是不可能的。这种现象是在其他地方报告的常见生物信息学问题[11.]。数字1e显示,GSA论文中三分之一的报道链接现在是断开链接。

除了根据他们的历史普及,还建造了当前普及的排名(附加文件1:标签5)。为实现这一目标,将在2018年5月 - 2018年生成的数据库版本与2019年4月生成的数据库的版本进行了比较。当前普及的排名揭示了比整体排名相同的趋势。到目前为止,GSEA仍然是最受欢迎的方法。当前被引用的其他工具是ClusterProfiler [12.],enrichr [13.],goseq [14.], 大卫 [8,和ClueGO [15.,随后是GOrilla, KOBAS, BiNGO, ToppGene, GSVA, WEGO, agriGO和WebGestalt。ORA和FCS方法仍然是最受欢迎的方法,所有ORA方法共被引3534次,所有FCS方法共被引2185次,PT方法共被引111次,NI方法共被引50次。相比之下,单样本方法联合引用278次,时间过程方法67次。关于评论,2009年一篇非常受欢迎的论文[4]仍然是目前最受欢迎的,尽管它没有考虑到过去十年的成就。

表现

生物信息学软件验证的主题值得更多关注[16.]。对数据库中的前153个GSA工具文件的科学验证方法进行审查(附加文件1:选项卡6)发现多种验证策略分为19类。61out of the 153 papers include a validation procedure, and the most commonly found validation strategy is “Consistency with biological knowledge”, defined as the fact that our method’s results explain the knowledge in the field better than the rival methods (which is commonly accomplished through a literature search). Other common strategies (though less common) are the comparisons of the number of hits, classification accuracy, and consistency of results between similar samples. Important strategies, such as comparing statistical power, benchmark studies, and simulations, are less used. The least used strategies include experimental confirmation of predictions and semi-blind procedures where a person collects samples and another person applies the tool to guess tissue or condition. Our results have been summarized in Fig.1f和附加文件1:标签6.我们可以看到上述验证策略的使用频率与其可靠性成反比。例如,常用的策略如“与生物学知识的一致性”可以是主观的,并比较我们对Venn图中的其他方法的方法的命中数[17.]是一项协议的衡量标准,而不是真理。另一方面,使用最少使用的策略,例如实验证实或基准和模拟研究,是更好的替代方案。

我们的绩效研究的下一步是对GSA字段中存在的所有独立基准和模拟研究的审查,其参考资料在附加文件中收集12:选项卡。桌子1总结了GSA方法的10个基准研究,具有不同的尺寸,范围和方法建议。可以在附加文件中找到对每个基准测试的详细描述和讨论2。与我们之前提到的现有方法的数量相比,所有基准研究的大小都很小,而他们最佳表演方法的列表显示很小的重叠。在多项研究中只有几种方法,包括ORA方法(如Hyper.Temotic)[3., FCS方法(如PADOG) [18.] SS方法(如PLAGE)[19.PT方法(如Spia / rontotools)[20.]。

表1 GSA方法的基准研究

至关重要的是,以前的研究刚刚覆盖了GSA方法的整个宇宙的一小部分。此外,在不同研究中包含的方法集合之间几乎没有重叠,但我们仍然可以在结果(例如GSVA,Pathifier和HyperGeometric方法)之间发现不一致,这些方法都作为最佳表演者和可怜的表演者报告不同的基准。从所有上述高性能工具中,只有“ORA”出现在前20个目前最流行的工具中(附加文件1:表5),表明流行度和性能之间有一个分离(另见附加文件2:表2)。

流行与性能

一般来说,绩效研究显然仍然很少,规模很小,前后不一致,并取决于基准的质量;然而,他们倾向于推荐不同于流行和友好的工具。

GSEA是GSA历史中最重要的地标之一,以及GSA工具的流行度与绩效指标之间最引人注目的矛盾。有一个例外,近期的分析基准都没有报告GSEA是最好的表现方法;但是,GSEA仍然是历史和当前最常用的工具。除此之外,众多方法(其中大多数未包括在以前的基准中)报告,他们特别占GSEA的许多可能的方式中的至少一种;这些方法在附加文件上突出显示1:标签7与标签“比较”。此外,GSEA方法本身有很多发展;例如,替代函数用于将基因集,替换步骤的替代选项进行评分,以找到p值,或者使用GSEA作为扩展方法的一部分(请参阅附加文件的方法1:表7,标签为“PART OF METHOD”),据说比原来的GSEA表现更好。我们已经确定了这些类别的79篇论文(附加文件1:标签7)。然而,尽管如此,GSEA与任何其他方法相比的压倒性受欢迎都会表明。我们还可以验证,除ORA外,大多数上述高性能方法倾向于占据当前普及排名的下部(附加文件)2:表2)。

如果我们严格适用于GSA的目前的知识,并且使用曾经使用过GSA的每张纸张,则难以估计多少条文章的结论。但是,考虑到我们的数据库(附加文件1)注册了503篇GSA软件和工具论文,共被引用134,222次,有必要关注GSA中方法性能研究和基于性能的工具选择。的最后一步omics.数据分析过程可能会破坏其余的管道上的努力。

性能工具

之前关于最流行的GSA方法和表现最好的GSA方法之间的差异的观察可能是不正确的,因为现有的基准遵循不同的方法,而对GSA方法进行基准的正确方法本身就是一个讨论。因此,我们还回顾和讨论了现有的基准测试和模拟策略,以便提取一些关于好的基准测试实践的想法。

鉴于GSA工具的比较中没有使用的金标准,严格的基准研究不是直接的任务[25.]。这里回顾了构建这样一个黄金标准的三种策略。第一个策略是对相同的基因集合应用几种不同的富集工具,并用结果的交集作为金标准。一个例子是richnet [31.],得到“一组高置信度基准路径”,作为SAM-GS和GAGE方法生成的前100名排名之间的交集。这样的程序是有问题的,因为所选择的方法远非被认为是最好的(就像以前看到的那样),而且这个程序更多的是与共识而不是真理有关。第二种策略是使用与一种途径明显相关的疾病数据集作为金标准。比如Tarca等人(22.]收集了42个健康和疾病相关样本的微阵列数据集,其中疾病与KEGG通路相关(因此,这种“靶通路”应该是重要的)[22.]。第三个策略是利用基因调控效应的知识。一些作者利用特定转录因子和miRNAs已知靶点构建的基因集,然后试图预测这些调控因子过表达或缺失后的变化[21.],而另一些则使用了小鼠KOs的数据集:包含KO基因的通路被认为是靶通路,而其他的则被认为是阴性通路[27.]。Geistlinger等人(30.最近介绍了这种方法的修改,其中它们不仅看着匹配原始疾病的“目标途径”,而是为每种疾病创造“基因集相关性排名”。为了建立这样的排名,作者使用了疾病相关性的Malacards基因评分,其基于实验和义尺度证据;然后,他们使用基因分数来构建所有GO和KEGG术语的组合基因集相关性分数(使用GeneAnalytics工具)。结果,代替对某些“目标途径”的基准,该基准是针对每种疾病的“途径相关性”的基准。桌子2根据其客观性、再现性和可伸缩性评估不同的性能度量方法。

表2绩效标准的比较

第二个问题是基准度量的选择,它定量地确定谁是最好的执行者。众所周知的指标,如灵敏度、特异性、精度或ROC曲线下的面积,传统上被使用。Tarca等引入了敏感性、特异性和“优先级”的使用,以及假阳性率(FPR),其中优先级是一个概念,与给定方法的目标路径的等级有关。Zyla等最近扩展了Tarca的工作,并使用一组五种不同的指标推荐:灵敏度,假阳性率(FPR),优先级,计算时间和再现性。在他们的方法中,重复性为来自来自同一条件/疾病和相同技术平台的不同数据集而显示出类似的结果的方法,分配了高分的方法,而是不同的作者/实验室[29.]。所选择的指标是基本的,因为在所有指标下没有哪种方法是最佳的,每个用户都应该根据自己的研究目标选择一种方法,这可能需要非常敏感的方法,非常特定的方法,或上述任何其他属性。因此,基准研究必须清楚他们在哪些指标下对方法性能进行排名[22.],他们的一组指标应至少包括前面提到的。此外,由于新方法具有比敏感性差的其他方法更好的敏感性,因此没有任何意义。因此,任何新方法都必须将它们对敏感方法的敏感性相比,它们对特定方法的特异性等等是一个逻辑的结果。

第三个问题是验证程序不应让作者主观选择作者希望与其新方法进行比较的方法,因为作者可以选择它们可以胜过的方法。一种替代方案,它是使用良好的,独立和全面的基准研究作为参考;然后,出现新方法时,应通过与此类独立基准的顶部方法进行验证来完成验证。这种做法并不常见;作为一个例外,乐高的作者[32.明确使用Tarca等人的基准中的前5种方法[22.]。

作为最后的想法,已经有人建议将方法集合起来,以获得比任何单一方法更好的结果[33.]。这意味着基准研究不应限于单一工具,而是包括与工具集合的比较。这种方法之后至少有一个基准研究[21.]。

以前的分析使我们认为未来的GSA基准应该包括基准理论的最新发展,以及对更多GSA方法进行,以便提取更有用的结论。为了做到这一点,我们还创建了一个基准测试平台,“GSA-基准”,它是应用程序/工作流/管道的存储库,其遵循上述良好的基准测试实践,并允许GSA软件以简单和自动化的基准测试办法。目前,GSA-基准包含jupyter笔记本,具有用于基准测试GSA方法的全部工作流程,以及允许用点击几个按钮的基准测试的闪亮应用程序。在以前的指导方针之后,我们的学生介绍了所添加到存储库的初始基准测试工具是由我们的学生创建的,但它们是开放的软件,可以永久改进。初始工具集中在两种类型的方法上:单样本GSA(如GSVA,病症,SSGSEA,PLAGE,Zscore)和基因组区域GSA(例如伟大的,芯片富集,Broadenrich,EnRichr,SEQ2Pathways)。所有应用程序允许用户定义不同的金标准数据集(或使用我们的),选择要比较的GSA方法,并选择要绘图的比较度量。此外,在社区的帮助下,可以继续向应用程序添加更多GSA方法,因为每个应用程序包括对添加新方法感兴趣的程序员的指令。鉴于大量GSA方法,需要更多的基准工具并欢迎。可以访问GSA-基准标记:https://gsa-central.github.io/benchmarking.html.

讨论

GSAREFDB已被用于对GSA工具的普及与性能之间的关系进行一些初步的数据探索。除了本文中突出显示的观察,此类数据库还可以是更深入的研究的源。例如,我们的方法的一些限制包括(i)一些文件描述了多种方法或平台,并仅引用了一些方法以进行比较目的。我们观察到这些问题是例外,而不是规则,但未来的研究可能希望考虑到它们,GSAREFDB仍可作为其用作数据源。

一般来说,绩效研究显然仍然很少,规模很小,前后不一致,并取决于基准的质量;然而,他们倾向于推荐不同于流行和友好的工具。在流行度和性能之间差异的可能原因中,有人认为软件的选择可能并不完全与性能相关,而是与对用户友好平台或用户友好概念或情节(例如,GSEA的“富集情节”)的偏好等因素有关。另外,由于不同GSA方法的性能的客观评价是一个复杂和耗时的问题,或新方法需要更多的时间被接受的事实。在网络分析中,人气可以用“富得更富”效应来解释。利用“消费者行为”领域的概念,软件的选择可以研究为一个流行品牌的选择,即变量,如:对经验的信心(对与软件相关的研究人员/机构的尊重),社会接受度和个人形象(遵循其他人正在使用的软件),或消费者忠诚度(一段时间后,我们依附于我们的软件,不感兴趣去改变)[34.]。在最近的一本书中[35.[巴拉巴西]建议,流行度和质量通常在表现明显可衡量的情况下一起使用。否则,人气不能等同于质量。我们的研究同意这样的想法。我们发现,最受欢迎的GSA软件与最佳性能的GSA软件不同,并且彻底的性能评估仍然是生物信息管理员的待定分配。

然而,在GSA的具体情况下,有一个补充的解释假设:除了GSA理论导致性能方法的研究进展,最后的管道,用户通常从结果中提取的证据,他们认为相关的基因集,选择路径或他们的兴趣和忽视其他方面排名,,因此,方法之间关于较低的p值、优先级顺序等的任何差异都变得不那么重要了。据说,在从最终的基因集排序中选择基因集的步骤中,研究者给结果带来了“语境”,但这样就可能把他们的主观性投射到研究中。解决这个问题的方法之一是刺激“基于情境的GSA”的研究。例如,最近的一项工作叫做contextTRAP [36.]结合了影响评分(来自路径分析)和上下文评分(来自支持路径与实验上下文相关的文本挖掘信息)。使用文本挖掘数据作为上下文的GSA的贝叶斯近似需要进一步发展,就像其他任何研究最终基因集整体排名的方法一样。

结论

鉴于流行的方法不一定是最好的,生物信息学软件用户不仅应该由人气引导,而是主要通过性能研究。然而,绩效研究及时,必须由我们讨论的一般指导方针指导,即研究人员应该只遵循最令人信服的基准程序。这种严格的建议是有问题的,因为性能研究很少,低覆盖率,并且具有可变的质量;因此,我们需要更多的开放工具来动态审查生物信息学软件的流行度和性能,例如此处介绍的那些。

根据以往的结果和讨论,我们认为功能解释领域将受益于:

  1. 1。

    有更多信息和讨论,了解现有功能解释方法的性质和范围omics.以及在生物信息学课程中更多的教学数据和复杂的方法,更多的工具选择指南,以及更普及的功能解释的缺点。同时,要求对所有生物医学论文的GSA方法选择进行更深入的讨论。

  2. 2。

    GSA方法的永久评价,包括更好的金标准,越来越全面的比较研究,和更好的基准实践。事实上,两家著名的计算生物学杂志最近创建了一个特别版和一个专门关于基准的集合,这是在这个方向上受欢迎的步骤[37.,38.]。

  3. 3.

    注意重复性和在编码共享平台(如GitHub)中提供开放代码,其中包含其工作(如Docker),笔记本(如Rstudio和Jupyter)的特定软件和库版本的容器,包括具有详细的脚本解释他们的方法,以及其他允许可重复性的策略。

  4. 4.

    使用新的GSA方法创建现有数据的功能重新分析文化,以及在功能重新分析现有的计算工具omics.数据集以简化的方式。

  5. 5。

    GSA工具的更严格的验证程序。此外,生物信息管理员应该在使用和建立生物信息工具的情况下获得科学验证方法和工具的培训。

适当的工具选择是在所有科学领域产生高质量结果的基础。本文表明,通过基于详尽的参考数据库的流行性能评估,工具性能和工具选择研究是一种应该跟踪的方法,以跟踪科学领域的工具选择问题的演变。我们还介绍了普遍性和性能测量软件的例子,可以帮助更轻松地提出这些研究。读者在这里邀请继续遵循我们的GSA字段的工作:https://gsa-central.github.io/gsarefdb.html.https://gsa-central.github.io/benchmarking.html.

方法

定义

本研究中涉及的概念在文献中以几种不同的方式定义。例如,研究下的领域已被称为“途径分析”[5],“富集分析”[23.],“基因集分析”[2],“功能丰富分析”[12.],“基因注释富集分析”[4和其他术语,由不同的作者。与此同时,术语“基因集分析”被用来描述整个领域[2或者只是ora和fcs方法(反对包括途径或网络拓扑的方法)[23.,甚至一个特定的工具[39.]。最后,“路径分析”这个术语也被用来描述整个领域[5或者只是包括路径拓扑的方法组[23.]。因此,我们已经添加了本研究中使用的定义的以下定义摘要。

基因集分析(GSA):GSA方法已被定义为一组“旨在识别在研究条件下显着影响的途径的途径”[6[旨在检测在两个实验条件下显着富集途径的测试“[23.]。更具体地说,GSA是一种基于注释的方法,将实验结果与注释数据库进行统计比较,从而将基因水平的结果转换为基因集水平的结果。例如,一组查询基因(差异表达基因的列表,或者一个等级的所有基因的褶皱变化)映射到一组基因参考数据库,使用一个特定的统计方法,来解释实验结果的排名显著影响途径,功能相关的基因集,或本体的条款。

代表比例分析(奥拉):基于将查询基因列表(例如,上调或下调基因)与检测过度表示检测的统计测试进行比较到类或基因集中的基因列表的GSA方法的子集。ORA“统计学评估在显示表达变化的基因中发现的特定途径中基因的一部分”[5]。

功能类评分(FCS):GSA方法的子集中,其中实验中所有基因的基因级统计值汇总成基因设定水平统计[5],根据该基因集水平统计的显著性计算基因集富集。FCS方法首先对所有被分析基因的基因水平统计量进行定量排序(与ORA方法相反,ORA只使用一组差异表达基因)。一些流行的FCS方法发现,如果一个基因集在所有基因排序中的相对位置被移到排序的顶部或底部。例如,WRS检验将一个基因集中的基因秩分布与基因集中的补体中基因的秩分布进行比较,而KS检验将一个基因集中的基因秩分布与均匀分布进行比较[23.]。

基于途径 - 拓扑(PT):根据途径中基因的位置重量富集富集分数的GSA方法的子集。仅适用于途径数据,而不是其他类型的基因集。

网络互动(NI):GSA方法的子集不仅包括给定的基因集,而且还包括与这种基因成员相互作用时的基因产物,当位于相互作用或功能注释网络的顶部时。

受欢迎程度:社区成员之间使用方法或工具的使用频率。

表现:量化属性的价值(当与其他方法或工具比较时),它衡量方法的输出与经验数据、模拟数据或其他方法的输出之间的一致性。

基准研究:一种计算方法之间的系统比较,其中所有的计算方法都应用于一个黄金标准数据集,并根据定量指标(如灵敏度、特异性等)总结其基因集预测的成功。

仿真研究:基于构建人工数据集的计算方法的系统比较,该数据集拥有我们为它们指定的属性。

黄金标准:一个“完美的黄金标准”将是一个错误的数据集,可以用作真相的同义词(在我们的情况下,omics.与a关联的数据集真的路径排名);但是,在实践中,我们仅限于使用“不完美”或“合金金标准”,这些数据集是自信地与真理相关联,但不一定是缺乏错误的数据集[40]。

施工数据库

基因集分析参考数据库(GSAREFDB)由以下来源构建:

  1. 1。

    谷歌和PubMed的关键词如:“途径分析”,“基因集分析”和“功能丰富”(约10%的记录)。

  2. 2。

    从所有收集的论文和评论(大约。50%的记录)。

  3. 3.

    收到来自NCBI和选定期刊的电子邮件提醒(大约。40%的记录)。

这些资料分为:(i)一般方法/软件/平台,通常处理mRNA数据集;(2)审查/基准研究;(iii)基因组GSA,包括用于富集基因组区域(如来自ChIP-seq、SNP和甲基化实验的区域)的GSA;(iv) ncRNA GSA,包括处理miRNA和lncRNA数据集的方法。数据库中的所有信息都是人工从论文中提取的。引文数摘自谷歌Scholar (https://scholar.google.com.)。只有关联的方法omics.包括注释基因集的数据(参见图4中的所有类型的方法。1b).关联的生物信息学方法omics.生物网络上新生成模块的数据不包括在内。GSARefDB是作为一个excel表格和一个闪亮的应用程序(见图。2一个)。

图2
figure2

GSA领域的流行度和性能分析工具的屏幕截图。一个GSAREFDB:GSAREFDB的R / SHINY接口的屏幕截图,显示了按年,工具名称,纸张的第一作者,标题,GSA类型和编程语言的选项。bGSA基准测试:一个jupyter笔记本,包含一个用于对单一样本GSA方法进行基准测试的R工作流,以及一个具有相同目的的闪亮应用程序。这两种工具都显示了所有正在研究的方法的灵敏度、特异性和精度曲线。看到的:https://gsa-central.github.io/gsarefdb.html.https://gsa-central.github.io/benchmarking.html.

描述性统计

使用“ggplot2”R包生成汇总统计图。R码已打开,可在以下网址找到:https://github.com/antonio-mora/paperCode/blob/master/2019_Mora_Popularity_versus_Performance.R

人气排名

gsarfdb中的受欢迎程度排名是基于每篇论文,而不是基于每种方法或工具。为了建立在多篇论文中呈现的方法或工具的受欢迎程度排名,我们对该工具使用了被引次数最多的论文的引文计数。

绩效研究

在我们的数据库中排名前153的GSA工具论文之后,我们手动审查了科学验证方法(参见附加文件)1:表6)。验证,作为性能,被定义为一种方法的成功获得比竞争方法更好的分数的具体定量属性,衡量方法的输出与经验数据,模拟数据或另一种方法的输出之间的一致性。我们对验证的定义不包括:

  1. (一世)

    该方法的应用实例,然后强调结果的合理性(不与其他方法比较),

  2. (ii)

    参数(通常统计)指出新的假设比旧的假设更好,而没有与经验或适当模拟的数据进行任何比较,或者

  3. (3)

    比较新旧软件之间的功能(如实现其他算法或数据库)。

在基准测试和模拟研究期间所遵循的详细程序在附加文件中解释2

施工性能测量软件

“GSA基准”存储库(见图。2b和https://gsa-central.github.io/benchmarking.html.)来存储和共享不同的工具来衡量GSA方法的性能。要让一个基准测试软件被存储库接受,它应该:(i)是开放软件(理想情况下,一个jupiter笔记本,RStudio笔记本,或闪亮的应用程序);(ii)选择所包含的GSA方法有明确的理由;例如,因为它们都属于同一类型的方法;(iii)包括黄金标准数据集和上传用户选择的黄金标准数据集的选项;㈣列入与金标准数据集有关的目标途径清单,或与金标准有关的疾病每一途径的疾病相关性评分;让用户选择不同的基准指标(最低限度、精度/灵敏度、优先级和特异性/FPR);(vi)选择集成结果的可能性;(vii)将来在代码中添加新的GSA方法的可能性。

“GSAREFDB”,“SS-SHINY”和“GR-SHINY”应用程序是使用“闪亮”包建造的。“GSAREFDB”和“SS-Shiny”是使用R 3.6.2建造的,而“GR-Shiny”是使用R 4.0.0建造的。可以访问打开的代码:https://github.com/gsa-central/gsarefdb.,https://github.com/mora-lab/ss-shiny., 和https://github.com/mora-lab/gr-shiny

数据和材料的可用性

本研究生成的所有数据集均包含在补充资料中。数据集的更新版本将在以下网站获得https://gsa-central.github.io/gsarefdb.html.https://gsa-central.github.io/benchmarking.html.

参考文献

  1. 1。

    Dixson L, Walter H, Schneider M, Erk S, Schafer A, Haddad L,等。Dixson等人,与人脑前额叶-海马功能耦合相关的基因本体的鉴定。美国国家科学学会主办。2014; 111(37): 13582。

    PubMed.谷歌学术

  2. 2。

    Mora A.基因集分析方法,用于非mRNA数据 - 基因组范围和NCRNA数据的功能解释。简短生物形式。2020; 21(5):1495-508。

    文章谷歌学术

  3. 3.

    Tavazoie S,Hughes JD,Campbell MJ,Cho RJ,Church Gm。系统性测定基因网络架构。NAT Genet。1999; 22(3):281-5。

    CAS文章谷歌学术

  4. 4.

    黄伟,谢尔曼BT,伦皮奇RA。生物信息学富集工具:通向大型基因列表的全面功能分析的途径。中国生物医学工程学报;2009;

    文章谷歌学术

  5. 5。

    Khatri P, Sirota M, Butte AJ。十年路径分析:当前的方法和突出的挑战。公共科学图书馆。2012;8(2):e1002375。

    CAS文章谷歌学术

  6. 6。

    米特里亚C,Taghavi Z,Bokanizad B,Hanoudi S,Tagett R,Donato M等。基于拓扑途径分析的方法和方法。前面的physiol。2013; 4:278。

    文章谷歌学术

  7. 7。

    Mora A. GSARefDB, The Gene Set Analysis Reference Database 2019[可从:https://gsa-central.github.io/gsarefdb.html.

  8. 8。

    Huang DW,Sherman Bt,Tan Q,Kir J,Liu D,Bryant D等人。David Bioinformatics资源:扩展了拓展数据库和新算法,从大型基因名单中提升生物学。核酸RES。2007; 35(Web服务器问题):W169-75。

    文章谷歌学术

  9. 9。

    关键词:遗传算法,遗传算法,遗传算法,遗传算法基因集合富集分析:一种解释全基因组表达谱的基于知识的方法。美国国家科学学会主办。2005、102(43):15545 - 50。

    CAS文章谷歌学术

  10. 10。

    等。关键词:生物医学工程,drachi S, Khatri P, Tarca AL, Amin K途径水平分析的系统生物学方法。基因组研究》2007;17(10):1537 - 45。

    CAS文章谷歌学术

  11. 11.

    OSZ A,Pongor Ls,Szirmai D,Gyorffy B. 1994年至2017年间发布的3649个基于网络服务的快照显示2年后可用性下降。简短生物形式。2019; 20(3):1004-10。

    文章谷歌学术

  12. 12.

    于刚,王乐根,韩燕,何启云。clusterProfiler:一个R包,用于比较基因簇之间的生物主题。组学。2012; 16(5): 284 - 7。

    CAS文章谷歌学术

  13. 13。

    王忠等。一种新型的非线性振动控制方法。丰富:一个全面的基因集合富集分析web服务器2016年更新。2016;44(W1): W90-7。

    CAS文章谷歌学术

  14. 14。

    年轻MD,Wakefield MJ,Smyth GK,Oshlack A. RNA-SEQ的基因本体分析:选择偏差。基因组Biol。2010; 11(2):R14。

    文章谷歌学术

  15. 15.

    BINDEA G,MLECNIK B,Hackl H,Charoentong P,Tosolini M,Kirilovsky A等。Cluego:Cytoscape插件解码功能分组的基因本体和途径注释网络。生物信息学。2009; 25(8):1091-3。

    CAS文章谷歌学术

  16. 16。

    Giannoulatou E,Park Sh,Humphreys DT,Ho JW。没有黄金标准的生物信息学软件的验证和验证:BWA和Bowtie的案例研究。BMC生物素。2014; 15(SP值16):S15。

    文章谷歌学术

  17. 17。

    柯蒂斯rk,oresic m,vidal-puig A.分析微阵列数据的途径。趋势生物技术。2005; 23(8):429-35。

    CAS文章谷歌学术

  18. 18。

    Tarca Al,Draghici S,Bhatti G,Romero R. Down-Proceding重叠基因改善了基因集分析。BMC生物素。2012; 13:136。

    文章谷歌学术

  19. 19。

    Tomfohr J, Lu J, Kepler TB。利用奇异值分解进行基因表达通路水平分析。BMC Bioinform。2005;6:225。

    文章谷歌学术

  20. 20。

    Tarca Al,Draghici S,Khatri P,Hassan SS,Mittal P,Kim JS等。一种新的信号通路影响分析。生物信息学。2009; 25(1):75-82。

    CAS文章谷歌学术

  21. 21。

    基因集合富集试验的严格评估。生物信息学,2012,28(11):1480 - 6。

    CAS文章谷歌学术

  22. 22。

    Tarca Al,Bhatti G,Romero R.在敏感性,优先级和特异性方面的基因集分析方法的比较。Plos一个。2013; 8(11):E79217。

    文章谷歌学术

  23. 23。

    Bayerlova M,Jung K,Kramer F,Klemm F,Bleckmann A,Beissbarth T.基因组和途径拓扑富集方法的比较研究。BMC生物素。2015; 16:334。

    文章谷歌学术

  24. 24。

    Jaakkola MK, Elo LL。基于结构的路径方法的实证比较。短暂的Bioinform。2016;17(2):336 - 45。

    CAS文章谷歌学术

  25. 25。

    De Meyer S.评估网络串扰分析与聚类的表现。绅士:韦斯泰绅士;2016年。

    谷歌学术

  26. 26。

    针对泛癌症数据的个体化路径活性测量工具的综合和关键评价。短暂的Bioinform。2020;21(1)。

  27. 27。

    Nguyen TM,Shafi A,Nguyen T,Draghici S.识别显着影响的途径:全面的审查和评估。基因组Biol。2019; 20(1):203。

    文章谷歌学术

  28. 28。

    关键词:路径富集分析,拓扑结构,路径富集分析BMC Bioinform。2019;20(1):546。

    文章谷歌学术

  29. 29。

    Zyla J,Marczyk M,Domaszewska T,Kaufmann She,Polanska J,Weiner J. Gene集体可再生科学的浓缩:Cerno和八个其他算法的比较。生物信息学。2019; 35(24):5146-54。

    CAS文章谷歌学术

  30. 30.

    (1) Geistlinger L, Csaba G, Santarelli M, Ramos M, Schiffer L, Turaga N等。对基准基因集合富集分析的金标准。短暂的Bioinform。2021;22(1)。

  31. 31。

    关键词:基因集合富集,基因网络,基因序列分析生物信息学。2012;28 (18):i451-7。

    CAS文章谷歌学术

  32. 32。

    东X,Hao Y,Wang X,Tian W. Lego:一种通过掺入基于网络的基因重量的基因集基因的新方法。SCI批准。2016; 6:18871。

    CAS文章谷歌学术

  33. 33。

    Alhamdoosh M,Law C,Tian L,Sheridan J,NG M,Ritchie M.和EGSEA的简单有效的合奏组。F1000res。2017; 6:2010。

    文章谷歌学术

  34. 34。

    为什么人们要买名牌?:小Business-Chron.com;2019.可以从:http://smallbusiness.chron.com/people-buy-brand-names-69654.html

  35. 35。

    巴巴斯一个l。公式:成功的普遍法则。波士顿:利特尔、布朗公司;2018.

    谷歌学术

  36. 36。

    基于时间序列基因表达数据的生物路径识别方法。BMC Bioinform. 2016;17(增刊17):477。

    文章谷歌学术

  37. 37。

    基因组生物学。2019年基准测试研究。可从:https://www.biomedcentral.com/collections/benchmarkingstudies

  38. 38。

    PLOS-Computational-Biology。PLOS计算生物学基准集2019。可以从:https://collections.plos.org/benchmarking

  39. 39。

    efroni s,schaefer cf,buetow kh。使用生物途径分析鉴定癌症表型以下癌症表型的关键过程。Plos一个。2007; 2(5):E425。

    文章谷歌学术

  40. 40.

    Wacholder S,Armstrong B,Hartge P.使用合金金标准的验证研究。am j流行病。1993年; 137(11):1251-8。

    CAS文章谷歌学术

下载参考

致谢

作者感谢各位同仁和学生在广州医科大学和广州生物医疗和健康(中国科学院)的支持。我们还感谢我们的两个匿名评论家的贡献。

资金

这项工作由广州医科大学和广州生物医学和卫生学院联合生命学院资助(中国科学院)。SJ还由中国博士后科学基金会赠款2019九厘米652847资助。该资助者在研究的设计中没有作用,数据收集,数据分析,对结果的诠释或写作的诠释。

作者信息

隶属关系

作者

贡献

CSX为GSAREFDB和SS-闪亮写了闪亮的应用程序,并产生了这些数字。SJ为GR-Shiny编写了闪亮的应用程序。我设计了项目,建立了参考数据库,并写了这篇论文。所有作者都阅读并批准了本文的最终版本。

通讯作者

对应到安东尼奥·莫拉

伦理宣言

伦理批准并同意参与

不适用。

同意出版

不适用。

相互竞争的利益

作者宣称,该研究是在没有任何可能被视为潜在利益冲突的商业或财务关系的情况下进行的。

额外的信息

出版商的注意事项

欧宝体育黑玩家《自然》杂志对已出版的地图和附属机构的管辖权主张保持中立。

补充信息

附加文件1

。GSA参考DB。

附加文件2

。详细的绩效研究。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的创作共用许可中,除非在材料的信用线中另有说明。如果材料没有包含在文章的创作共用许可证中,而您的预期使用不被法律法规允许或超过允许的使用,您将需要直接获得版权持有人的许可。如欲浏览本许可证的副本,请浏览http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

谢,C.,Jauhari,S.&Mora,Bioinformatics软件的普及和性能:基因集分析的情况。欧宝娱乐合法吗22,191(2021)。https://doi.org/10.1186/s12859-021-04124-5

下载引用

关键字

  • 途径分析
  • 基因集合分析
  • 基准
  • GSEA.