跳过主要内容

MegaR:一个交互式的R包,用于快速样本分类和表型预测,使用宏基因组概况和机器学习

摘要

背景

不同的微生物群落驱动着生态系统中动物的生物地球化学过程和进化。许多微生物组项目已经证明了利用宏基因组学来理解环境中影响微生物组功能的结构和因素的力量。为了描述微生物组组成对人类健康、疾病甚至生态系统的影响,我们必须首先了解不同样品中的微生物及其环境之间的关系。为此,我们鼓励使用宏基因组测序数据运行机器学习模型,但为所有不同的宏基因组数据集建立合适的机器学习模型并非易事。

结果

我们介绍MEGAR,R闪亮的包和Web应用程序,以毫无偏见的机器学习模型,与交互式视觉分析毫无偏见。Megar采用来自整个Metagenome测序或16S RRNA测序数据的分类程序分布,以开发机器学习模型,并将样本分为两个或更多类别。它为整个分析管道提供了各种选项,例如数据处理,例如数据处理,多台机器学习技术,模型验证和未知样本预测,可用于实现任何给定数据集的最高预测准确性,同时仍然保持用户 -友好的体验。

结论

宏基因组样本分类和表型预测是非常重要的,特别是当它应用于识别和预测微生物相关人类疾病的诊断方法时。MegaR为用户提供了各种交互式可视化,可以轻松构建精确的机器学习模型。使用经过适当训练的MegaR模型对未知样本进行预测,可以提高研究人员在短时间内识别样本属性的能力。

背景

在没有培养的情况下,研究微生物群落和从环境样本的环境样本中的多样性,适用于最近二十年的许多研究项目,旨在了解对人,动物,植物,海洋和环境利基的微生物的影响[1].

人微生物是微生物的聚集簇,其在暴露的表面上殖民,如皮肤,呼吸道和胃肠道。人类微生物项目,如Metahit联盟和人类微生物组项目(HMP),寻求通过先进的Metagenomic测序技术研究健康或病态的微生物多样性[23.].不仅是人类,还有多种微生物生态系统都使用宏基因组学进行了研究,包括Tara Oceans项目,这是另一个研究海洋微生物群的大型财团,以了解其在全球范围内的功能作用[4].这些大规模的宏基因组学项目提供了大量公开可用的数据集。对这些宏基因组数据集的深入分析可以揭示自然界中微生物与宿主相互作用的秘密。

分析宏基因组数据是一项挑战,因为一个样本可能包含数千个物种,每个物种的丰度不同,基因组序列的多个副本被剪切和碎片化。分析微生物组成和多样性最常用的技术是16S rRNA基因扩增分析,它扩增16S rRNA区域,以区分本质上已识别的基因区域[5].分类作业依赖于特定16S rRNA基因与分类的关联;这些关联被定义为运营分类单位(OTUS)。由于OTU在Phyla或Genera分辨率下常见地分析,因此16S RRNA测序技术在物种和应变水平分析微生物群体的范围有限。最近,全基因组霰弹枪测序(WGS)已采用以增加序列读取深度,并将捕获范围扩展到物种水平分辨率和其他微生物,包括病毒[6].提供了广泛的覆盖范围,WGS允许在物种中更多样化的微生物图像甚至应变水平。目前用于研究微生物景观,并已针对其固有的强度和缺点进行评估[7].选择16S rRNA测序或WG的选择通常取决于研究的性质:16S对诸如纵向研究的许多样品的大规模分析是适当的,纵向研究和WG通过识别菌株和甚至病毒提供更高分辨率的潜力更大的潜力16S方法不能。为解决这一技术差距,继续开发和评估新的高级测序技术,包括浅霰弹枪测序[8].

宏基因组学中的分类是指在宏基因组样本中从密切相关的生物体中鉴定微生物基因组。QIIME (QIIME 2)是利用OTU bininning法从微生物群落中分析16S rRNA基因序列的一种广泛使用的工具[9].在WGS中,通过针对参考基因的读取检查分类分类型材[10.1112),分析k- 读取的频率[1314],或与包括MetaPhlAn2在内的进化枝特异性标记基因进行比对[1516].多种工具,包括从头组装器、菌株水平分析器和功能分析工具,也在宏基因组研究中广泛使用[17181920.21].与标准的偏见组件(如鉴定和定量微生物群落组成)相比,研究和相关软件工具进行了高级研究和相关软件工具。例如,糖尿病项目旨在研究微生物,免疫系统和疾病的相互作用和开发[222324].另一个有趣的宏基因组项目是MetaSub,旨在研究城市微生物群落它们在世界上最大的地铁系统中的差异[25].这些类型的研究和挑战可以通过调查样品的微生物模式来解决。机器和深度学习技术在有效准确地识别样本的这种微生物模式方面有很大的前景[2627].

目前已有几种基于机器学习的软件工具来分析微生物测序数据与样本表型的关系。MetAML通过不同的机器学习分类器利用微生物组特征来研究微生物与表型的关联[28].元adprof拟合平滑样条回归模型以识别样本的差异丰度[29].MetaLonDa是一个R包,能够在纵向研究中识别方式不同的丰富微生物特征的大量时间间隔[30.].MetaNN提供一个神经网络分类器,从宏基因组数据识别宿主表型[31].

这种软件工具为微生物组表型关联预测提供了一些优势,但也有一些限制。MetAML只支持WGS数据,不支持16S rRNA数据集分析。16S rRNA测序仍然是宏基因组学中最常用的测序技术,提供一种同时利用16S和WGS数据的工具是非常重要的。MetaDprof和MetaLonDa可以有效地执行来自纵向研究的数据集,但它们不是为表型预测的样本一般分类而设计的。MetaNN仅利用16S rRNA序列,不利用WGS序列[31].

因此,我们开发了MegaR (https://github.com/BioHPC/MegaR)有效,精确地研究微生物组 - 表型关联,包括疾病预测能力。我们拟议的框架Megar有以下三个主要贡献:

  1. 1。

    MEGAR支持16S RRNA和霰弹枪偏心测序数据,可以使用不同的分类水平和不同机器学习技术生成模型。

  2. 2.

    MegaR通过交互web支持库R-Shiny为数据预处理,模型开发和模型交叉验证提供了用户友好的功能。

  3. 3.

    MegaR基于所开发的模型对未知样本进行精确、快速的分类和预测。

本研究使用DIABUMME项目的三个不同研究来评估16S和WGS数据独立预测模型的准确性,并比较实际使用微生物组作为预测工具的策略。我们还使用MetAML提供的数据集提供了MegaR针对MetAML的基准测试结果,以显示模型的准确性、有效性,以及用户友好的微调选项,只需点击几下鼠标就可以生成优化的模型。

实现

Megar数据输入

我们开发了MegaR作为一个R包,使用16S或全基因组分类概要数据集来训练机器学习模型,对未知概要进行分类。MegaR管道的概述如图所示。1.为了测试我们的包,我们使用了两种广泛使用的分类分析工具QIIME (QIIME 2) [9] 16S RRNA数据和Metaphlan2 [15获取整个宏基因组数据。QIIME套件是16S rRNA微生物组分析的主要软件工具之一。QIIME从用户那里获取原始测序数据,对数据进行预处理,识别otu,并分配分类单元。MetaPhlAn2利用荟萃基因组测序数据,通过将序列映射到内置分枝特异性标记基因,来描绘微生物群落的组成。QIIME和MetaPhlAn2已被用于许多微生物组研究项目,包括深入调查的HMP和DIABIUMME项目。大多数宏基因组分类剖面仪(包括QIIME和MetaPhlAn2)生成分类剖面输出为OTU表或BIOM(生物观察矩阵)格式[32通过提供简单的脚本将多个分类法概要文件合并在一起。MegaR采用合并的OTU表或bim格式作为输入。用户还需要提供一个元数据文件,其中包含数据集中每个示例的类。

图1
图1

MegaR流程图的说明。MegaR从16S rRNA和散弹宏基因组数据中提取任何分类概况。在选择分类特征、机器学习方法和多种选项后,用户可以训练模型。在预测未知样本之前支持交叉验证

机器学习方法

对于Megar的机器学习模型,我们纳入了三种机器学习分类器:第一个是广义线性模型(GLM),第二个是支持向量机(SVM),第三个是随机森林(RF)。通过整合墨卡佩[33[randomforest [34)包。

一般线性模型(GLM)是一种统计线性模型,也称为多元回归模型[35].GLM与其他机器学习模型有几个优点。一个是,由于在模式下使用系数,因此更容易解释。许多其他精确的预测模型可用于降低误差率,但GLM在保持效力的同时提供清晰度的能力是该模型已被采用的原因是玛格。

支持向量机(SVM)是一种广泛使用的非概率监督机器学习方法,它试图找到最佳超平面,最大化超平面周围的边距[36].支持向量机支持基于标记数据的线性和非线性分类。支持向量机结构在多维空间中形成一个或多个超平面,用最大裕度分类器分离数据点。

随机森林(Random forest, RF)由于预测精度高,也是一种常用的基于决策树的分类和回归方法[34].随机森林建立了大量的决策树,这些决策树经过bagging方法的训练,随机选择特征。使用RF方法的主要好处是不需要对许多树进行过拟合,从而提供了相当高的预测精度。使用射频模型的另一个重要优点是可以很容易地提取和提取重要的特征。这些重要的特征可以在许多研究中起到至关重要的作用,如识别靶标相关特征和生物标志物。

数据处理和模型开发

用户可以在机器学习模型中选择属、种和所有级别的定量微生物组概况作为特征。由于宏基因组数据集通常具有不同的序列大小和深度,MegaR提供了CSS (Cumulative Sum Scaling)、Quantile (Quantile)、TMM (trim Mean of m -value)和NO (none)四种归一化选项对样本间聚合的宏基因组计数进行归一化[37].该包还允许用户设置最小丰度阈值,以过滤掉可能无法提供有用信息的低丰度微生物。

在选择合适的机器学习方法进行分类并修改参数以最适合数据后,用户可以生成一个模型。MegaR提供了生成的每个预测模型的错误率错误率选项卡。在测试集上预测的错误率是对模型精度的一个较好的估计,它可以使用由下的程序生成的混淆矩阵来估计混乱矩阵选项卡。MegaR还提供了模型下的AUC图AUC选项卡。从实际的角度来看,重要的是识别可用于鉴定均衡样本类别的特征。Megar将此数据提供作为前十个最重要的物种或属的列表,这在识别样本类以及它们的可变重要性之下至关重要重要的特性选项卡(图。2).Megar的另一个特征是“删除”选项,可以提高预测准确性。当数据集中存在两个以上的类时,可以用户不考虑数据集的特定类别。忽略阶级也可以通过缩小特征来提高预测精度。

图2
图2.

MegaR快照工具。模型构建快照重要的特性选项卡

交叉验证

交叉验证是访问,判断和审查机器学习模型性能的方式。首先,交叉验证对于验证模型准确性和模型偏置至关重要。这意味着开发的模型不应过度且没有偏见。

为了构建更好的模型,通常不将所有数据集用于训练目的,而是将其分割为训练和验证/测试集。例如,在k-fold交叉验证,数据集被洗牌和划分k子样本。的k−1个样本作为训练数据集,单个分区进行验证。这个过程是重复的k表示模型性能的时间。MegaR提供交叉验证选项,允许精确的预测测量。如果拟合到一个小的数据集,模型拟合的方差往往会更高,因此k-fold交叉验证可以有很高的方差。MegaR为用户提供选择N独立运行十倍交叉验证,以最小化如此高的方差。

样本的预测

MegaR提供了一个预测选项卡,用户上传未知样本,并获得未知样本在类中属于哪个类别的预测。一旦为数据集创建了一个满意的模型,用户就可以将一组未知的样本加载到MegaR中。然后,MegaR为类别、类别或状态集合中的每个样本生成分类预测。这一功能有助于识别个体的疾病状态,通过使用微生物组成物作为诊断生物标志物,为精准医疗提供了一条途径。MegaR还有一个功能,允许用户下载训练过的模型,以便以后使用预测.如果用户在培训后单击Download Model按钮,则生成并下载模型(RDS类型)文件。然后,用户可以加载该模型来预测未知样本,而无需重新训练模型。

结果

数据集

为了证明MegaR作为疾病样本预测工具的有效性,DIABIMMUNE (https://pubs.broadinstitue.org/diabimmune.)微生物组项目数据集用于在MegaR中执行样本管道执行。DIABIMMUNE项目旨在发现西方和发展中国家在早期接触细菌和感染方面的限制是否与自身免疫性疾病和过敏性疾病的发病率增加有关。DIABIMMUNE项目提供了三套公开可用的数据集。

第一个数据集包括来自三个不同国家的812个宏基因组样本和1584个16S样本:爱沙尼亚、芬兰和俄罗斯。一些没有标签的样品被丢弃。我们还分析了16S rRNA数据集,其中448个来自芬兰,664个来自俄罗斯。第二个队列被命名为T1D队列,包括来自爱沙尼亚和芬兰19名儿童的126个宏基因组样本:92个T1D样本;不含T1D样品32个;筛选出2个无T1D状态的样本。该队列由28个样本组成,从出生到1岁,62个样本从1岁到2岁,38个样本从2岁到3岁。在T1D队列中,有777份16S rRNA样本,其中175份有T1D, 85份没有T1D。出生至1岁儿童314份,1至2岁儿童297份,2至3岁儿童166份。第三个队列称为抗生素队列,由来自39名受试者的240个宏基因组样本组成。 There were 139 samples from children who were treated antibiotics and 101 samples from children who were not treated with antibiotics. In the 16S rRNA data set, there are 528 samples from children who were not treated with antibiotics while 520 samples were from children who were treated with antibiotics.

为了对MegaR与其他包的性能进行基准测试,我们使用了来自MetAML项目的数据集[28].从这个数据集中,我们比较了MegaR和T2D的MetAML的性能[3839]及肝硬化[40)数据集。使用的T2D数据集是两个独立研究的汇总数据集,总计490名参与者,345名中国人和145名欧洲人。这些研究的样本取自粪便样本。肝硬化数据集由98例患者和83例对照组组成。

分类分析

预先处理的猎枪宏基因组数据集从DIABIMMUNE项目下载。左端和右端配对读被连接在一起。使用参数-t rel_ab_w_read_stats通过MetaPhlAn2运行结果数据,以获得相对丰度和从每个分支派生的读的数量。这个估计从每个样本中提取并合并到一个文件中。在DIABIMMUNE项目网站上可以找到的MetaPhlAn2表将相对丰度作为特征值。我们的测试表明,由上面的MetaPhlAn2选项生成的计数估计对于分类来说要好得多。相关元数据文件已从DIABIMMUNE网站下载。所有16S rRNA分类文件以bio格式或标签分离格式的OTU表从DIABIMMUNE项目网站下载。

模型和预测准确性

我们使用MegaR分析了来自糖尿病免疫研究小组的不同数据集。在前期研究中,我们测试了MegaR中可用的每种机器学习模型;每个数据集的GLM、SVM和RF1).总体而言,当为特征而不是Genus选择物种时,该模型更准确。因此,我们的所有分析都使用用于分析的物种。在RF的情况下,该模型对于三国队列和T1D队列中的16S RRNA数据比16S RRNA数据更准确。在SVM和GLM的情况下,来自16s的所有型号rRNA Metagenomics的精度高于WG。在RF,SVM和GLM中,RF最适用于SVM和GLM,除了16S rRNA T1D队列之外,SVM执行最佳,然后是RF和GLM。

表1来自淡紫色研究组三个数据集的RF,SVM和GLM的精度

我们使用Megar检查是否优化具有阈值的样本的阈值和百分比,以及用于训练和测试的数据分离改善了模型(图。3.、表2).我们的结果显示,在所有情况下,比从初步分析中获得的准确性略有提高。采用交叉验证方法对改进后的模型进行了验证。除WGS的抗生素队列交叉验证准确率为72%外,其余模型的验证准确率均在80 ~ 90%范围内。

图3
图3.

利用射频对T1D队列的MegaR模型预测结果。一个错误率,b混乱矩阵,c重要的特性,dAUC图

表2优化后的RF和交叉验证结果在DIABIMMUNE研究小组的三个数据集上的准确性

我们还检查了我们的工具是否有任何年龄差异来对模型进行分类。虽然该模型的整体性能在77%至90%的准确性内,但95%的间隔非常大(66-95%,3年为3年),显示了该模型的不可靠性。这可能是由于可用于构建模型的样本数量较少。

基准测试

我们使用T2D对MegaR和MetAML进行了基准测试[3839]及肝硬化[40]元aml计划提供的数据集[28].与MetAML项目报告的结果相比,使用MegaR,我们能够对两个数据集获得略高的预测精度(表3.).用MegaR实现这些结果所用的模型参数如下。阈值0.003使用90% 5 T 5P分割。我们认为,这一轻微的增长是由于MegaR包能够对模型参数进行微调,从而轻松地针对每个数据集优化模型。

表3 MegaR和MetAML在T2D和肝硬化数据集上观察到的最高交叉验证精度

结论

MegaR包是一个易于使用的多功能工具,旨在鼓励使用机器学习分析宏基因组数据集,以实现表型预测和分类的目的。用户友好的界面允许用户为使用中的特定数据集微调模型,以最大限度地提高预测精度,因此增加了机器学习的潜在功能。

为每一个分析,MegaR提供了各种有用的指标表和图的形式,允许用户确定(1)有足够的可用数据建立一个模型,(2)模型的错误率的误差图和混淆矩阵,(3)十大最重要的功能的列表确定的模型,这使得研究人员可以专注于这些特性,以进行进一步的研究或药物开发,(4)可下载的数字将用于进一步的出版物。

我们的结果表明,与SVM和GLM相比,RF模型在大多数宏基因组分类场景中提供了最高的准确性。与WGS数据集相比,GLM对于16S rRNA的检测是有用的,因为它具有大量的样本,尽管GLM对于高维数据集的效率较低。机器学习的标准分割标准为80:10:10 (train:validation:test),我们测试了各种分割标准,并根据数据获得了不同的准确率。如果特征非常稀疏,许多机器学习模型表现不佳。如预期的那样,去除少量稀疏特征提高了机器学习模型的准确性。对改进模型的交叉验证表明,该模型具有较强的稳健性,可用于预测。在不久的将来,我们计划测试其他机器学习分类器和深度学习方法,以提高预测精度和快速周转时间。

可用性和需求

项目名: MegaR。

项目主页欧宝直播官网apphttps://github.com/BioHPC/MegaR

操作系统(年代): Windows、Mac和Linux(平台独立)。

编程语言: R。

其他需求:R 3.6或更高。

执照: GNU GPL-3。

对非学者使用的任何限制:没有。

数据和材料的可用性

我们主要使用来自淡紫苋微生物项目的数据集(https://pubs.broadinstitue.org/diabimmune.) [222324].Megar的加工数据集也可以在Megar项目网站下找到(https://github.com/BioHPC/MegaR).我们也使用T2D基准梅加[3839]及肝硬化[40]元aml计划提供的数据集[28].

缩写

16 s:

16 s rRNA测序

BIOM:

生物观察矩阵

CAMDA:

海量数据分析的关键评估

glm:

广义线性模型

HMP:

人类微生物组计划

醯亚氨:

免疫介导的炎性疾病

OTU:

运营分类单位

射频:

随机森林

支持向量机:

支持矢量机器

近年来:

I型糖尿病

T2D:

二型糖尿病

WGS:

全基因组测序

参考文献

  1. 1。

    Thomas T,Gilbert J,Meyer F. Metagenomics-A抽样到数据分析的指南。Microb通知exp。2012; 2(1):3。

    文章谷歌学术搜索

  2. 2.

    hutenhower C, Gevers D, Knight R, Abubucker S, Badger JH, Chinwalla AT, Creasy HH, Earl AM, FitzGerald MG, Fulton RS, et al.;健康人体微生物组的结构、功能和多样性。大自然。2012;486(7402):207 - 14所示。

    中科院文章谷歌学术搜索

  3. 3.

    秦吉,李河,Raes J,Arumugam M,Burgdorf Ks,Manichanh C,Nielsen T,Pons N,Levenez F,Yamada T,等。由Metagenomic测序建立的人体肠道微生物基因目录。自然。2010; 464(7285):59-65。

    中科院文章谷歌学术搜索

  4. 4.

    Sunagawa S,Coelho LP,Chaffrons,Kultima JR,Labadie K,Salazar G,Djahanschiri B,Zeller G,Mende Dr,Alberti A等。海洋浮游生物。全球海洋微生物组的结构与功能。科学。2015; 348(6237):1261359。

    文章谷歌学术搜索

  5. 5.

    Sanschagrin S,Yergeau E.下一代测序16S核糖体RNA基因扩增子。j Vis exp。2014;(90):51709。

  6. 6.

    Quince C, Walker AW, Simpson JT, Loman NJ, Segata N. Shotgun宏基因组学,从取样到分析。生物科技Nat》。2017;35(9):833 - 44。

    中科院文章谷歌学术搜索

  7. 7.

    Wang W, Wang W, hote N, O 'Keefe S, mitchell T, Perry T, Kao D, Mason AL, Madsen KL, et AL ., et AL .利用16S或shotgun宏基因组学对肠道微生物组进行表征。Microbiol前面。2016;7:459。

    文章谷歌学术搜索

  8. 8.

    liu d, liu d, liu d, liu d, liu D. the information content of shallow shotgun宏基因组学。mSystems。3 (6): e00069-18。2018;

    文章谷歌学术搜索

  9. 9.

    Bolyen ERJ,狄龙先生、Bokulich NA Abnet CC, Al-Ghalith GA,亚历山大·H Alm EJ, Arumugam M, Asnicar F,白Y, Bisanz我,bitting K, Brejnrod, Brislawn CJ,棕色的CT,卡拉汉BJ, Caraballo-Rodriguez,追逐J, EK, Da Silva R, Diener C, Dorrestein PC,道格拉斯·通用Durall DM, Duvallet C, Edwardson CF,恩斯特M, Estaki M, Fouquier J,Gauglitz JM,长臂猿SM,吉布森DL,冈萨雷斯,Gorlick K,郭J, Hillmann B,福尔摩斯年代,Holste H, Huttenhower C, Huttley GA,詹森,贾木许AK,江L, Kaehler BD,康KB, Keefe CR、Keim P,凯利圣,骑士D,凯斯特我,Kosciolek T,《J, Langille MGI,李J,雷R,刘YX, Loftfield E, Lozupone C,马赫M, Marotz C,马丁BD,麦当劳D, McIver LJ, Melnik AV,麦特卡尔夫杰,摩根SC,莫顿JT, Naimey, Navas-Molina是的,Nothias低频,Orchanian某人,皮尔森T,人民SL,佩特拉维,就ML, Pruesse E,拉斯穆森磅,河流,罗伯逊女士,罗森塔尔P, Segata N,谢弗米,Shiffer, Sinha R,歌曲SJ,矛JR Swafford广告,汤普森LR,托雷斯PJ,陈P,特里帕西,Turnbaugh PJ, Ul-Hasan S, van der Hooft JJJ, Vargas F, Vázquez-Baeza Y, Vogtmann E, von Hippel M, Walters W, Wan Y, Wang M, Warren J, Weber KC, Williamson CHD, Willis AD, Xu ZZ, Zaneveld JR, Zhang Y, Zhu Q, Knight R, Caporaso JG。使用QIIME 2的可重复、交互式、可扩展和可扩展的微生物组数据科学。生物科技Nat》。2019;37:852-7。

    中科院文章谷歌学术搜索

  10. 10。

    刘志强,刘志强,刘志强,等。基于宏基因组散弹枪序列的植物分类图谱分析。基因组学杂志。2011;12(增刊2):4。

    中科院文章谷歌学术搜索

  11. 11.

    宏基因组数据的MEGAN分析。基因组研究》2007;17(3):377 - 86。

    中科院文章谷歌学术搜索

  12. 12.

    王志强,王志强,王志强,等。基于宏基因组分析的生物监测基因组的株级推断。生物信息学,2015,31(2):170 - 7。

    中科院文章谷歌学术搜索

  13. 13.

    Brady A, Salzberg S. PhymmBL扩展了:信心分数,定制数据库,并行化等等。Nat方法。2011;8(5):367。

    中科院文章谷歌学术搜索

  14. 14.

    Patil Kr,Haider P,Pope PB,Turnbaugh PJ,Morrison M,Scheffer T,Mchardy AC。具有结构化输出模型的分类学聚物序列分配。NAT方法。2011; 8(3):191-2。

    中科院文章谷歌学术搜索

  15. 15.

    Truong DT, Franzosa EA, Tickle TL, Scholz M, Weingart G, Pasolli E, Tett A, Huttenhower C, Segata N. MetaPhlAn2 for enhanced metagenomics taxonomic profiling。Nat方法。2015;12(10):902 - 3。

    中科院文章谷歌学术搜索

  16. 16.

    吴敏,斯科特·AJ。用AMPHORA2对细菌和古细菌序列进行系统发育分析。生物信息学,2012,28(7):1033 - 4。

    中科院文章谷歌学术搜索

  17. 17.

    Douglas GM, Maffei VJ, Zaneveld J, Yurgel SN, Brown JR, Taylor CM, Huttenhower C, Langille MGI。PICRUSt2:改进的、可扩展的宏基因组推断方法。bioRxiv 2019; 672295年。

  18. 18.

    牛淑英,杨娟,McDermaid A,赵娟,康颖,马强。微生物数量和功能宏基因组和元转录组数据分析的生物信息学工具。短暂的Bioinform。2018;19(2):360。

    文章谷歌学术搜索

  19. 19.

    刘志强,刘志强,刘志强。metaSPAdes:一种新的多功能宏基因组汇编器。基因组研究》2017;27(5):824 - 34。

    中科院文章谷歌学术搜索

  20. 20。

    关键词:微生物,种群结构,宏基因组,遗传多样性基因组研究》2017;27(4):626 - 38。

    中科院文章谷歌学术搜索

  21. 21。

    刘建军,刘建军,刘建军,等。Kraken 2改良宏基因组分析。基因组医学杂志。2019;20(1):257。

    中科院文章谷歌学术搜索

  22. 22。

    Yassour M,Vatanen T,Siljander H,Siljander H,Harkonen T,Ryhanen Sj,Franzosa EA,Vlamakis H,HuttenHower C,Gevers D等人。婴幼儿肠道微生物组的自然历史与抗生素治疗对细菌应变多样性和稳定性的影响。sci翻译med。2016; 8(343):343-81。

    文章谷歌学术搜索

  23. 23。

    Kostic AD, Gevers D, Siljander H, Vatanen T, Hyotylainen T, Hamalainen AM, Peet A, Tillmann V, Poho P, Mattila I, et al.;人类婴儿肠道微生物群在1型糖尿病的发展和进展中的动态。细胞宿主微生物。2015;17(2):260-73。

    中科院文章谷歌学术搜索

  24. 24.

    Vatanen T, Kostic AD, d’hennezel E, Siljander H, Franzosa EA, Yassour M, Kolde R, Vlamakis H, Arthur TD, Hamalainen AM,等。微生物组LPS免疫原性的变化有助于人类自身免疫。细胞。2016;165(6):1551。

    中科院文章谷歌学术搜索

  25. 25.

    元苏比克。地铁和城市生物群落的元基因组学和元设计(MetaSUB)国际联盟成立会议报告。微生物。2016;4(1):24。

    文章谷歌学术搜索

  26. 26.

    免疫介导的炎症性疾病中肠道微生物群的比较研究——是否存在一种常见的失调?微生物。2018;6(1):221。

    文章谷歌学术搜索

  27. 27.

    哈里斯ZN, Dhungel E, Mosior M, Ahn TH。使用基于丰度的机器学习进行大规模宏基因组数据分析。直接杂志。2019;14(1):12。

    文章谷歌学术搜索

  28. 28.

    大型宏基因组数据集的机器学习元分析:工具和生物学见解。公共科学图书馆。2016;12(7):e1004977。

    文章谷歌学术搜索

  29. 29.

    Luo D, Ziebell S . An L. An information approach for differential abundance analysis of时序宏基因组测序数据。生物信息学。2017;33(9):1286 - 92。

    中科院PubMed谷歌学术搜索

  30. 30.

    杨建军,杨建军,戴勇,杨建军。MetaLonDA:一个灵活的R包,用于识别宏基因组纵向研究中差异丰富特征的时间间隔。微生物。2018;6(1):32。

    文章谷歌学术搜索

  31. 31。

    利用神经网络从宏基因组数据准确分类寄主表型。BMC Bioinform。2019;20(12):314。

    文章谷歌学术搜索

  32. 32。

    McDonald D, Clemente JC, Kuczynski J, Rideout JR, Stombaugh J, Wendel D, Wilke A, Huse S, Hufnagle J, Meyer F,等。生物观察矩阵(BIOM)格式,或者:我如何学会停止忧虑,爱上生命。Gigascience。2012;1(1):7。

    文章谷歌学术搜索

  33. 33。

    Kuhn M.使用插入符号包在R中构建预测模型。j stat softw。2008; 28(5):1-26。

    文章谷歌学术搜索

  34. 34。

    刘志强,刘志强。基于随机森林的分类与回归。R新闻。2002;2(3):在18到22岁的。

    谷歌学术搜索

  35. 35。

    Nelder Ja,Wedderburn RWM。广义线性模型。J R STAT SOC SER A. 1972; 135(3):370-84。

    文章谷歌学术搜索

  36. 36.

    支持向量网络。马赫学习。1995;20(3):273 - 97。

    谷歌学术搜索

  37. 37.

    微生物标记基因调查的差异丰度分析。Nat方法。2013;10(12):1200 - 2。

    中科院文章谷歌学术搜索

  38. 38.

    秦军,李勇,蔡志,李胜,朱军,张飞,梁松,张伟,关勇,沈东,等。2型糖尿病患者肠道微生物群的宏基因组关联研究大自然。2012;490(7418):则高达55 -。

    中科院文章谷歌学术搜索

  39. 39.

    卡尔森FH,Tremaroli V,Nookaew I,BERGSTROM G,贝雷CJ,法格贝格B,尼尔森Ĵ,BäckhedF.肠道宏基因组在欧洲女性正常,受损和糖尿病血糖控制。自然。2013; 498(7452):99-103。

    中科院文章谷歌学术搜索

  40. 40。

    秦宁,杨飞,李爱萍,陈勇,邵磊,郭杰,勒夏特列E,姚建军,吴磊,等。肝硬化患者肠道微生物组的改变。大自然。2014;513(7516):59 - 64。

    中科院文章谷歌学术搜索

下载参考

确认

不适用。

资金

作者透露,本文的研究、作者身份和/或出版获得了以下资金支持。TA由美国国家科学基金会(Accession ID: 1564894)和圣路易斯大学校长研究基金资助。MR由韩国海洋科学与技术促进研究所(KIMST)的基因组合作计划(Collaborative Genome Program)支持,由海洋和渔业部(MOF)资助。20180430)。资助者没有在这个软件的开发或手稿的写作中扮演任何角色。

作者信息

隶属关系

作者

贡献

ed -项目设计、实施、文档和手稿。YM-Implementation、测试、手稿。HG-Testing和验证。AR-Testing和验证。mr -生物学相关功能的概念,原稿审查。构思构思,项目设计,准备手稿。所有作者阅读并批准了最终的手稿。

通讯作者

对应到Tae-Hyuk安

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

Dhungel,E.,Mreyoud,Y.,Gwak,HJ。et al。MegaR:一个交互式的R包,用于快速样本分类和表型预测,使用宏基因组概况和机器学习。欧宝娱乐合法吗22,25(2021)。https://doi.org/10.1186/s12859-020-03933-4

下载引用

关键字

  • Metagenomics.
  • 机器学习
  • r-packet.
  • 表型预测
  • 样本分类