跳到主要内容

先验:促进基于先验知识的特征选择方法在基因表达数据集上的实现和自动化基准

抽象的

背景

可重复基准对于评估应用于基因表达数据的新特征选择方法的有效性非常重要,特别是对于包含在线知识库中的生物信息的先验知识方法。然而,不存在可扩展的、提供内置特征选择方法和包括分类性能、稳健性和生物相关性的全面结果评估的成熟基准系统。此外,也没有解决先验知识特征选择方法的特殊需求,即知识库的统一访问。因此,先验知识方法不会相互评估,留下关于其有效性的开放性问题。

结果

我们提出了compior基准测试工具,它有助于特征选择方法的快速开发和轻松基准测试,特别关注先验知识方法。Comprior可通过自定义方法进行扩展,提供内置的标准特征选择方法,支持对多个知识库的统一访问,并提供一个可定制的评估基础设施,以比较多个特征选择方法的分类性能、健壮性、运行时间和生物相关性。

结论

Comprior允许重复的基准,特别是先前的知识方法,这有利于它们的适用性,并首次实现了对其有效性的全面评估。

背景

基准测试对于在更广泛的背景下显示分析方法的有效性是至关重要的,并允许得出关于其实用性、有用性、可靠性和稳健性的结论。在基因表达数据集特征选择的背景下,只有有限的支持自动化基准。合适的工具要么不能扩展(这是测试自定义方法所必需的),要么不支持交叉验证策略(这对证明方法的健壮性和稳定性至关重要)[123.].此外,没有工具能满足整合分析的特殊需求,将之前的生物学知识整合到分析中。所谓的先验知识的方法从公共知识库(例如基因本体论)整合生物知识,例如基因及其相互作用[45].假设现有知识方法识别更强大和生物学上有意义的生物标志物。然而,目前对其有效性的发现仅在有限范围中表现出相对的改进[678910:先验知识方法之间的比较是稀疏的,跨数据集的交叉验证是很少的,应用知识库的选择和影响从来不被讨论。对先验知识方法进行基准测试的主要障碍是高度的实现工作:来自知识库的异构数据必须映射到统一的格式;必须建立交叉验证策略,特别是跨数据集。一个允许轻松实现和全面评估自定义特征选择方法的基础设施将使研究人员能够有效地开发和优化新的先验知识方法。

通过这项工作,我们提出Comprior,我们为实现特征选择方法实现全面和可重复的基准测试的贡献,特别关注 - 但不限于先前的知识方法。容纳提供了统一知识库访问的实现和评估基础设施,并允许全面评估关于其定量性能和生物相关性的先前知识和传统特征选择方法。研究人员现在可以专注于他们自己的特征选择方法的开发,而不是受到异构知识库信息,数据协调和复杂的基准设置,而不是受到影响的发展,并灵活地将其与多种知识库或统计方法相结合。这项工作描述了包含的技术细节,包括其架构设计,所选功能的规范以及示例案例研究。

功能

Pluidior支持广泛的经典分析工作流程,用于特征选择和分类任务,涵盖预处理,特征选择和评估。数字1提供了compior的功能和模块化设计的概述。在下面的文章中,我们将详细介绍最重要的功能。

图。1
图1

Comprior包括预处理、特征选择和评价功能。模块化设计允许轻松扩展Comprior的自定义功能。(Cindy Perscheid原创人物)

对于预处理,compor提供了基于用户定义的元数据属性的标识符映射、数据清理和数据标签。在整个分析过程中使用g:Profiler的映射服务自动进行标识符映射[11].因此,输入数据可以包含基因、微阵列探针或类似的标识符,这些标识符可以映射到g:Profiler支持的任何所需输出格式。输入数据可以通过样本和特征过滤,这些样本和特征的缺失值超过了指定的阈值。输入数据会自动标记为用户定义的元数据属性。Comprior可以通过自定义预处理功能进行扩展,例如规范化。从给定的输入数据集,compor创建用于质量评估的密度图、配电箱图和多维缩放(MDS)图。为了评估知识库的覆盖范围,compor计算可用先验知识的汇总统计信息。

对于特征选择,compior提供了广泛的统计和先验知识方法脚注1.可用统计方法覆盖过滤器,包装器和嵌入式方法。可用的现有知识方法涵盖修改,组合和网络方法[12].修改先验知识方法是在统计特征选择之前或之后添加的过滤或扩展步骤。结合先验知识方法将先前的知识更彻底地集成到特征选择过程中。现有情况目前提供了两个组合方法。第一组合方法通过加权统计相关性分数来计算特征相关性分数\(s_i ^ {trad} \),例如,通过关联评分,通过方差或任何其他可用的传统选择方法计算\ (s_i ^ {kb} \)从知识库检索:\(s_i = s_i^{trad} \乘以s_i^{kb}\)第二种结合方法在Lasso计算中引入先验知识作为特征特定的罚分[13].网络方法结合网络,如包含基因-基因相互作用信息,并将输入特征空间(如基因)映射到相关网络。compor目前提供了一种网络方法,基于Tian等人所描述的策略从知识库中选择相关路径。[14]:如果其成员基因的基因表达谱与数据集类相关,则认为途径是相关的。可以基于Lee等人定义的路径活动分数来计算所选路径的相应特征值。或者基于Vert和Kanehisa的途径相关性和平滑度的定义[915].所有这些方法都可以与任何当前可用的知识库灵活结合:KEGG、OpenTargets、DisGeNET和PathwayCommons [16171819脚注2

对于评估,compior提供了几个选项来评估特征集的有效性、稳健性和生物学相关性。用户可以选择多个标准分类器进行k倍交叉验证,以评估特征集的有效性。分类结果用标准措施进行评估,例如准确性或\ (\ hbox {F} _ {1} \)。另外,容纳可以在用于鲁棒性评估的第二数据集上执行所选择的特征的交叉验证。该第二数据集可以与传统的火车测试方式设置的原始输入数据有关,但也完全无关。还测量了不同特征选择方法的运行时性能。为了评估特征套的生物学相关性,有益于基因设定注释和富集使用enrichr [20.21].通过重叠(特征,注释和富集)和肯德尔的W相互比较特征集[22].

Wilkinson等人提出了数字资产管理的可查找、可访问、可互操作和可重用(FAIR)原则[23].虽然这些原则最初用于管理数据集,但最近的努力旨在旨在转移和适应软件。基于Gruenpeter等人总结的指导方针,我们讨论了容纳的软件公平[24].麻省理工学院下的完整的软件许可licencse和自由访问公共GitHub库还提供了一个有限的版本控制(F, R)。Comprior半自动过程中可以从源代码安装或直接执行的码头工人容器自动安装所有依赖项(我全面的在线材料提供完整的代码文档、架构描述、教程和故障排除帮助(F, A, R)。连同compor的模块化架构和明确定义的接口,它支持并鼓励研究人员将定制扩展集成到compor (A, I, R)。此外,在分析过程中,prior还会返回中间数据工件,例如转换后的输入数据集或特征排名,这些数据可以用于任何其他定制工作流(I)。

执行

接下来,我们将讨论Comprior的技术实现。我们首先介绍compior的主要架构组件。然后,我们描述将可扩展性、灵活性和可访问性引入compior的选定实现细节。

体系结构设计

数字2在UML 2.0组件图中描述了compior的系统架构。每个组件映射到整个基准测试过程中所需要的不同功能。

图2
figure2

compor系统组件概述。有一个主要的用于基准编制的Pipeline组件,而特定的功能是在专用组件中实现的。组件之间的通信通过相应的接口方法实现

管道组件根据用户定义的配置编排基准测试执行:预处理输入数据、运行特性选择方法和执行评估策略。的实用程序组件提供整个基准过程所需的一般功能,因此由所有其他模块访问。它存储配置参数,包含日志记录,标识符映射以及目录和文件管理的功能。的预处理组件负责对输入数据集进行预处理和转换,例如缺失值过滤或标识符映射。预处理功能由Pipeline组件调用和组织。的FeatureSelection组件提供了特征选择的方法。我们已经实现了不同类型的特征选择器

  • 例如,使用现有包装的传统方法,例如,Anova,

  • 提供调用用R或Java编写的方法的包装器,

  • 将统计方法与知识库相结合,

  • 选择网络,路径或子模块作为功能。

知识库组件封装了可用于信息检索的知识库的实现。特征选择和评价组件都使用知识库。的评估组件封装了用于评估和评估输入数据集质量、知识库覆盖率和特征选择方法的所有功能。

自定义功能可扩展性

compior被设计为可扩展的,并便于定制方法的直接实现。这是通过(a)系统组件之间的统一通信和(b)包装器函数来包含来自Python以外的编程语言的定制功能来实现的。

Comprior通过接口方法实现统一的通信。如果集成了新的功能,开发人员必须确保这些接口方法得到相应的实现。为了进一步促进这一点,compior强制在抽象超类之上使用一个继承结构,该超类定义了所需的接口方法。然后,必须在继承这个超类的类中实现新的功能,并随后实现接口方法。类的类和继承结构FeatureSelection图2中的组件。3..为了清晰起见,它只显示了最重要的类,省略了大多数实现具体特性选择方法的类。没有实现特定特征选择方法的抽象类用灰色阴影表示。在层次结构之上是主抽象类FeatureSelector.所有实现实际特征选择策略的继承类都必须继承它并实现抽象方法SelectFeatures(),它用作管道组件的接口方法,用于调用特征选择。进一步继承的抽象类提供了专门的功能,例如,要调用Java或R代码或使用Python的Scikit学习(javaselector.rselector.,PythonSelector分别)。新的先验知识特征选择方法应该继承PriorKnowledgeSelector或专门继承抽象类以将先验知识与任何现有的特性选择器(CombiningSelector)或选择网络作为特色(NetworkSelector).为了完整起见,我们参考附加文件1以及compior的文档站点,以获取所有组件的详细类图。

图3.
图3

FeatureSelection组件的类结构(灰色的抽象类)。在层次结构之上是一个抽象的FeatureSelector类,该类定义了方法selectFeatures()。此方法在管道执行期间调用。在类的继承中实现了实际的特征选择策略

有时,必须以Python以外的编程语言实现自定义功能,例如,因为已经可用的有效实现,或者开发人员更熟悉它。虽然主要在Python中实现,但容纳允许通过包装器函数调用非Python代码。实用程序组件为R和Java代码提供相应的接口功能,可以轻松扩展到其他编程语言,例如,C ++脚注3.

先验知识的可及性

compor的关键特性之一是对知识库的统一访问。想要实现一种新的先验知识方法并利用可用知识库的研究人员不必单独访问它们并将其结果转换为统一的格式。数字4举例说明了如何在compior中实现知识库的概念。类NetworkKB从抽象继承知识库类并通过指定的接口方法与Pipeline组件交互getRelevantGenes ()getGeneScores (),getrelevantpathways().第二个类NetworkKB_Webservice通过继承生物服务的REST类从相应的web服务检索实际的先验知识[25.].生物服务为许多生物知识库提供web服务查询实现。如果这样的实现还不能用于知识库,则可以相应地实现它。如果知识库提供了网络信息,那么它还需要从其中继承一个类PathwayParser.将路径信息转换为可以通过容纳使用的统一格式。该类使用Pypath模块从知识库中解析路径信息并将其转换为网络数据结构[26.].Pypath提供多种管理方法,例如,用于检索交互伙伴,甚至允许从多个输入网络构建单个网络。

图4.
装具

提供网络信息的知识库的实例实现。类NetworkKB从抽象继承知识库类来实现所需的接口函数。类NetworkKB_Webservice通过REST api从web服务检索实际的先验知识。当网络信息被检索时,networkkb_pathwayparser.解析网络信息并将其转换为包含的统一格式

如果知识库仅提供网络或通路信息,则自己的策略getRelevantGenes ()getGeneScores ()必须实现,因为此信息不会自动来自知识库。对于来自KEGG和PathwayCommons的通路信息,compior计算一个基因评分\(s_i \)对于基因从其百分位数的总和等级\(pr_ {p,i} \)在一个路径p,由途径的总数标准化\(p_i \)包含基因

$$ \ begined {对齐} s_i = \ frac {\ sum _ {p = 1} ^ {| p_i |} pr_ {p,i}} {| p_i |} \结束{aligned} $$
(1)

这样,具有许多相互作用的轮毂基因比途径外侧边缘处的基因获得更高的得分,并且如果它们是多种途径中的轮毂基因,则更有用。

灵活的管道设计

作为基准涉及多个处理步骤,有许多用于调整每个单个步骤的选项。影响器使用配置文件来启用灵活的管道设计。有一个主要配置文件,它指定了适当运行需求的所有参数,包括对知识库Web服务和输出文件夹结构的访问点。在该主要配置文件之上,用户可以指定自己的配置文件,该文件仅包含他们想要覆盖的那些参数,例如,输入数据或特征选择器。

讨论

Comprior支持有不同目标的研究人员:首先,那些想要轻松地实现和基准一种新的(先验知识)特征选择方法,而不必处理繁琐的管理任务,如先验知识检索、交叉验证策略,甚至标识符映射。第二,compor支持那些想要分析基因表达数据集,探索先验知识整合力量的研究,灵活测试出不同的知识库和整合水平。通过对先验知识的统一访问,compior降低了将其整合到基因表达数据分析中的门槛,从而促进了先验知识方法的适用性。通过提供开发和基准测试工具,先前的知识方法现在可以很容易地实现,并对彼此进行彻底的基准测试。

案例研究:乳腺癌

在一个小型案例研究中,我们展示了先验知识方法的使用,并从分类性能、生物相关性和鲁棒性方面检验了先验知识方法的有效性。目的是识别特征集,将两种乳腺癌数据集样本分类为luminal A、luminal B、her2富集、basal-like和normal-like的PAM50乳腺癌亚型[27.28.].所示的所有图形都是由容纳自动生成的。

输入数据

Comprior期望作为输入数据的规范化基因表达水平和相应的元数据。对于文件布局没有要求,例如分隔符、列方向或标识符格式,因为compior会根据需要自动转换输入文件。在案例研究中,我们从癌症基因组图谱(TCGA-BRCA)和瑞典癌症分析网络-乳腺(SCAN-B)项目下载并预处理了两组乳腺癌数据,然后将它们提供给compor。所进行的预处理步骤和相应的R代码描述在附加文件中1.最终的数据集包含1090个样本,包含20950个基因(TCGA-BRCA)和378个样本,包含15011个基因(SCAN-B)。

管道安装

一旦对输入数据进行预处理,就可以通过在配置文件中指定相关参数来设计实际的基准测试,例如在哪里找到输入数据、使用哪些特征选择器或绘制哪些性能度量。然后,当通过命令行调用该工具时,它将作为输入提供给compior。prior从配置文件中读取参数,执行基准,并根据结果生成汇总图。

此示例案例研究的配置文件可在Complor的GitHub存储库上使用。对于先前知识检索,Poluator默认使用数据集的类标签。此外,用户可以通过单独的参数指定根据需要的其他搜索项。在这种情况下,我们指定了与乳腺癌,其PAM50亚型和他们相应的同义词相关的其他搜索条款,如国家癌症研究所的Metathesaurus浏览器(https://ncim.nci.nih.gov/ncimbrowser/).对于特征选择,我们应用了方差分析和相应的先验知识适应:用OpenTargets或DisGeNET的相关基因预过滤输入集(prefiltering_anova_opentargets.Prefiltering_ANOVA_DisGeNET)和权重方差分析得分由OpenTargets或DisGeNET关联得分(Weighted_ANOVA_OpenTargets加权_anova_disgenet.).compior从TCGA-BRCA数据集中选择大小从1到20个特征的特征集。这些特征集用于TCGA-BRCA和SCAN-B数据集进行分类。Comprior对5个不同的分类器(朴素贝叶斯、线性回归、支持向量机、随机森林和k最近的邻居,\ (k = 3 \)).最终的分类性能对应于这些分类器的平均分类性能。Comprior使用richr和msigdb_oncogenic_signatures.数据库评估所选功能集的生物相关性[29.].为此,通过entichr检索的术语的容纳术语与调整后的p-值大于0.05,然后按其综合得分降序对其余项进行排序。

结果

数字5显示了两种opentargets和DISGenet中的搜索术语的覆盖范围。在附加文件中提供了图中使用的标识符的映射和实际搜索项1表1:。虽然这两个知识库都提供了所有46个搜索词的先验知识,但OpenTargets通常会返回更多的相关基因和更高的关联得分。DisGeNET返回的关联得分通常很低,而对于OpenTargets则是中等。从知识库覆盖的角度来看,我们期望使用OpenTargets的适配能比使用DisGeNET获得更好的性能。

图5.
figure5

显示知识库覆盖范围的组合图一个OpenTargets和b用药。盒子图显示了所检索的相关基因的关联评分(左Y轴);条形图描绘了检索(右y轴)的基因的总数(右y轴) - 按搜索项分组(从标识符到实际搜索项的映射,在附加文件中提供1: 表格1)。这两个知识库都提供了所有搜索条件的结果,但是OpenTargets提供了更多的基因,而具有更高的关联分数的基因

数字6描绘\ (f \)TCGA数据集上的1到20个特征集的分类性能。这些特征用于对SCAN-B数据集进行分类\ (f \)分类性能如图1所示。6b.方差分析的所有先验知识适应优于原始方法。而\ (f \)在原始数据集的17个特征中,所有适应方法的性能达到了0.83左右的高原,加权方法在7个选定的特征之前达到了这个高原,而预过滤方法需要12和18个特征。先验知识的整合进一步提高了特征集的鲁棒性,因为自适应的方法通常表现得更好\ (f \)交叉验证数据集的分数。

图6.
figure6

性能结果显示一个\ (f \)TCGA-BRCA数据集上一到20个特征的分类性能,b\ (f \)SCAN-B数据集上相同功能集的分类性能,c由不同方法选择的前20个功能重叠,以及d来自特性集的前20个丰富术语的重叠部分(\(n = 20 \))作为沮丧的图表

数字6C描绘了特征集的重叠(\ (n = 20 \))选择不同的方法。所有方法都同意了25%的特征,也选择了30%至55%的特点。使用OpenTargets的方法共享60%的功能,而使用DISGenet的方法不会发生这种高重叠。这可能与在DUSGENET中所应用的搜索术语的较低覆盖范围有关。数字6d描述了来自MSigDB的特征集丰富的致癌特征的重叠部分(\ (n = 20 \)).方差分析和DisGeNET预过滤的特征集都没有富集任何致癌特征。DisGeNET关联评分的加权方差分析得分导致最高数量的致癌特征。然而,只有两种适应的方法具有单一的致癌特征。在这一点上,进一步研究具体的致癌信号及其关系将是必要的。然而,我们将这个任务留给未来的工作,因为这不在展示compior的可用性的范围内。

与其他工具的功能比较

已经开发了多种软件工具,以实现生物信息学领域的可重复基准。表格1提供了compior和技术状态之间的功能比较。

表1现有基因表达数据分析基准工具功能比较

当比较通用工具和专门研究基因表达分析的那些时,管道设计的可扩展性和灵活性通常都以缺少内置方法和许多行政任务的成本,例如,交叉验证。虽然通用工具允许用户使用任何所需的工具设计其管道,但它们必须提出管道自己所需的功能:比较,交叉验证策略甚至简单但繁琐的行政任务等方法,如标识符映射通常没有提供。相反,专业工具为用户提供此功能,允许他们在设计管道时从一系列内置标准方法中进行选择。但是,大多数这些工具都不意味着通过自定义功能扩展,使它们不正当地测试定制方法。几乎所有比较工具都提供了一些标准评估度量,例如标准评估度量。ROC,以及相应的可视化。大多数工具仅通过这些指标评估基准结果;很少有工具提供运行时测量; none of them incorporates biological knowledge from public resources, neither for assessing the biological relevance of the results, e.g. via enrichment analysis, nor for integrating it during the actual analysis.

实力填补了这些差距,因为它提供了广泛的内置标准方法 - 涵盖统计特征选择和先前知识方法 - 并同时保持可扩展性。更重要的是,容纳使得能够更全面的结果评估,涵盖标准性能度量,例如,准确性,运行时性能和生物相关性。

未来的工作

对于未来,我们将进一步扩展到各种处理步骤的容纳功能。特别是,我们计划整合预处理的标准化策略和用于后续分析的预处理组件,这也涉及产生进一步的可视化。从技术角度来看,分类组件的重构将提供益处,因为它降低了代码异质性。当最初构建的情况下,Weka中没有存在Python包装器,我们的分类组件依赖于此[35.].这样的包装器现在是可用的,我们计划在Python中完全实现分类组件。

结论

compior是特征选择方法的基准工具,专门针对先验知识方法的需求。它支持从管道设计到执行和结果集可视化的完整基准测试过程。compior为检查特征选择方法的稳健性提供了交叉验证策略。此外,Comprior支持对特征集进行注释和富集,以评估和比较它们的生物相关性。用户在管道设计中是灵活的,因为他们可以从统计和先验知识特征选择方法、分类器、知识库和性能度量中进行选择。与此同时,compior被设计为通过自定义功能高效和毫不费力地扩展,这构成了对当前技术状态的有意义的增强。

可用性和需求


项目名称:Comprior


项目主页:代码文欧宝直播官网app档,技术规范,教程以及如何获得https://comprior.readthedocs.io/en/latest/


代码可用性:在GitHub上下载的完整代码:https://github.com/cperscheid/comprior


操作系统:平台独立


编程语言:Python,R,Java


其他要求:用于从框中运行的影响:码头。用于从来源安装和运行情况:R 3.5或更高,Python 3.5或更高,Java 1.8或更高,Maven。


许可证:麻省理工学院


对非学者使用的任何限制:没有限制。

数据和材料的可用性

在当前研究期间生成和/或分析的数据集可在compior存储库中获得,https://github.com/cperscheid/comprior

笔记

  1. 1.

    完整的列表,请访问文档https://Comprior.readthedocs.io/en/latest/configparams.html

  2. 2.

    有关更详细的描述,请访问文档https://comprior.readthedocs.io/en/latest/priorknowledge.html

  3. 3。

    有关相应的教程,请访问https://comprior.readthedocs.io/en/latest/howtos.html#add-custom-code-from-r-java-another-programming-languages

参考

  1. 1.

    damirseq -一个用于RNA-Seq数据挖掘的R/Bioconductor包:标准化、特征选择和分类。生物信息学。2018;34(8):1416 - 8。

    中科院文章谷歌学术

  2. 2.

    小Determan CE。包omicsmarker 2017。

  3. 3。

    Strbenac D,Mann GJ,Ormerod JT,Yang Jy。classifyr:用于对转录组织分类进行性能评估的R包。生物信息学。2015; 31(11):1851-3。

    中科院文章谷歌学术

  4. 4。

    Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT,等。基因本体论:生物学统一的工具。Nat麝猫。2000;得分上以25 - 9胜过25(1):。

    中科院文章谷歌学术

  5. 5。

    高维基因表达数据集的纵向生物标志物检测:现有知识方法的调查。简短生物形式。2021; 22(3):BBAA151。

  6. 6。

    基于知识的基因表达数据挖掘。生物医学学报。2007;40(6):787-802。

    中科院文章谷歌学术

  7. 7。

    PASQUIER N,PASQUIER C,Brisson L,Collard M.使用域知识的挖掘基因表达数据。int j softw通知(IJSI)。2008; 2(2):215-31。

    谷歌学术

  8. 8。

    基于半监督学习的癌症复发综合基因网络构建。PLOS ONE。2014; 9(1): 86309。

    文章谷歌学术

  9. 9。

    利用扩散核和核CCA从微阵列数据中提取图形驱动特征。见:神经信息处理系统的研究进展(NIPS), 2002。

  10. 10.

    朱y,沉X,潘W.基于网络的支持向量机,用于分类微阵列样本。BMC生物素。2009; 10(1):21。

    文章谷歌学术

  11. 11.

    Raudvere U,Kolberg L,Kuzmin I,Arak T,Adler P,Peterson H,Vilo J.g:Profiler:用于功能性浓缩分析和基因名单转换的Web服务器(2019年更新)。核酸RES。2019; 47(W1):191-8。

    文章谷歌学术

  12. 12.

    Perscheid C,Grasnick B,UFLacker M.基因表达数据中的整合基因选择:为传统方法提供生物学背景。j entent bioinform。2019; 16(1)。https://doi.org/10.1515/jib-2018-0064

  13. 13。

    Zeng C,Thomas DC,Lewinger JP。将先验知识纳入正规化的回归。生物信息学。2021; 37(4):514-21。

    文章谷歌学术

  14. 14。

    田L,格林伯格SA,KONG SW,ALTSCHULER J,Kohane是,PARP PJ。发现表达型材研究中的统计学显着的途径。PROC NATL ACAD SCI。2005; 102(38):13544-9。

    中科院文章谷歌学术

  15. 15.

    Lee E,Chuang H-Y,Kim J-W,Ideker T,Lee D.推断出肺部疾病分类的途径活动。PLOS计算BIOL。2008; 4(11):1000217。

    文章谷歌学术

  16. 16。

    Kanehisa M, Goto S. KEGG:京都基因和基因组百科全书。核酸学报2000;28(1):27-30。

    中科院文章谷歌学术

  17. 17。

    Koscielny G, An P, Carvalho-Silva D, Cham JA, Fumis L, Gasparyan R, Hasan S, Karamanis N, Maguire M, Papa E,等。开放靶标:治疗靶标识别和验证的平台。核酸Res. 2016;45(D1): 985-94。

    文章谷歌学术

  18. 18。

    PiñeroJ,Queralt-Rosinach N,Bravoà,deu-Pons J,Bauer-Mehren A,Baron M,Sanz F,弗隆李。DISGENET:用于人类疾病及其基因的动态探索的发现平台。数据库2015。https://doi.org/10.1093/database/bav028

  19. 19。

    Rodchenkov我,巴布尔O,卢娜,Aksoy英航,黄合资,方D,弗朗茨·M, sip MC,张M, Wrana M, Mistry H, Mosier L, Dlin J,温家宝问,奥卡拉汉C,李W,老G,史密斯PT, Dallago C,斯拉米E、B,总值Dogrusoz U, Demir E,巴德GD,桑德C通路下议院2019更新:数据集成、分析和探索途径。核酸学报2019;48(1):489-97。https://doi.org/10.1093/nar/gkz946

  20. 20.

    Chen Ey,Tan Cm,Kou Y,Duan Q,Wang Z,Meirelles GV,Clark NR,Ma'ayan A. Enrichr:Interactive and Collaborative HTML5 Gene列表浓缩分析工具。BMC生物素。2013; 14(1):128。

  21. 21.

    谢Z,Bailey A,Kuleshov MV,Clarke DJ,Evangelista Je,Jenkins S1,Lachmann A,Wojciechowicz ML,Kropiwnicki E,Jagodnik Km,等。基因与enrichr设置知识发现。Curr protoc。2021; 1(3):90。

    文章谷歌学术

  22. 22.

    肯德尔毫克。等级相关方法。1948.

  23. 23.

    Wilkinson MD, Dumontier M, Aalbersberg IJ, Appleton G, Axton M, Baak A, Blomberg N, Boiten J-W, da Silva Santos LB, Bourne PE,等。科学数据管理和管理的公平指导原则。科学数据。2016;3(1):1 - 9。

    文章谷歌学术

  24. 24.

    Gruenpeter M, Di Cosmo R, Koers H, Herterich P, Hooft R, Parland-von Essen J, Tana J, Aalto T, Jones S. M2.15“软件公平性”评估报告。Zenodo, 2020年。https://doi.org/10.5281/zenodo.4095092

  25. 25。

    Cokelaer T, Pultz D, Harder LM, Serra-Musach J, Saez-Rodriguez J. Bioservices:一个通用的python包,以程序访问生物web服务。生物信息学)。2013;29(24):3241 - 2。

    中科院文章谷歌学术

  26. 26。

    Türei D, Korcsmáros T, Saez-Rodriguez J. Omnipath:文献策划的信号通路资源指南和门户。Nat方法。2016;13(12):966 - 7。

    文章谷歌学术

  27. 27。

    张晓东,李晓东,李晓东,等。基于bp神经网络的bp神经网络研究[J]。瑞典乳腺癌分析网络(scan-b)计划:一个大规模的多中心基础设施,用于在临床常规中实施乳腺癌基因组分析。基因组医学。2015;7(1):1 - 12。

    文章谷歌学术

  28. 28。

    Parker Js,Mullins M,Cheang Mc,Leung S,Voduc D,Vickery T,Davies S,Fauron C,他X,Hu Z等人。基于内在亚型的乳腺癌风险预测因子。J Clin Oncol。2009; 27(8):1160。

    文章谷歌学术

  29. 29。

    Liberzon A, Subramanian A, Pinchback R, Thorvaldsdóttir H, Tamayo P, Mesirov JP。分子特征数据库(MSigDB)。生物信息学。2011;27(12):1739 - 40。

    中科院文章谷歌学术

  30. 30.

    iCOBRA:开放的、可重复的、标准化的、活的方法基准。Nat方法。2016;13(4):283。

    文章谷歌学术

  31. 31.

    Willforss J, Chawade A, Levander F. Normalyzerde:改进组学表达数据规范化和高灵敏度差异表达分析的在线工具。蛋白质组学杂志2018;18(2):732-40。

    文章谷歌学术

  32. 32.

    使用概括基准的可重复和可复制比较。生物信息学,2019,35(1):137 - 9。

    中科院文章谷歌学术

  33. 33.

    苏S,Tian L,Dong X,Hickey PF,Freytag S,Ritchie Me。Cellbench:R / Biocuconductor软件,用于比较单细胞RNA-SEQ分析方法。生物信息学。2020; 36(7):2288-90。

    中科院文章谷歌学术

  34. 34.

    Germain P-L,Sonrel A,Robinson MD。PIPECOMP,用于评估计算管道的一般框架,揭示了性能单电池RNA-SEQ预处理工具。基因组Biol。2020; 21(1):1-28。

    文章谷歌学术

  35. 35.

    Hall M, Frank E, Holmes G, Pfahringer B, Reutemann P, Witten IH。WEKA数据挖掘软件:更新。中国科学:地球科学。2009;11(1):10-8。

    文章谷歌学术

下载参考

致谢

我们感谢Milena Kraus和Ralf Teusner对手稿的宝贵反馈,这极大地提高了手稿的整体质量。本文发表的结果部分基于TCGA研究网络生成的数据:https://www.cancer.gov/tcga

资金

由Projekt DEAL支持和组织的开放获取资金。

作者信息

从属关系

作者

贡献

系统实施、分析、构思、文稿撰写由CP完成,所有作者阅读并批准最终稿件。

相应的作者

对应到辛迪Perscheid

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

提交人声明他们没有竞争利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

额外的文件1。

描述数据预处理并为应用搜索条款提供映射表的补充材料。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Perscheid,C.Pleor:促进基于基于知识的特征选择方法的实施和自动化基准测试基因表达数据集。欧宝娱乐合法吗22,401(2021)。https://doi.org/10.1186/s12859-021-04308-z

下载引用

关键字

  • 特征选择
  • 先验知识
  • 基因表达
  • 可再生的基准测试