跳到主要内容

带贝叶斯变量选择的dirichlet树多项回归模型-一个R包

一个更正本文于2020年12月28日发布

这篇文章一直在更新

抽象的

背景

了解人类微生物组和调制因素之间的关系,例如饮食,可以帮助研究人员设计促进和维持健康的微生物社区的干预策略。可以通过自动化可变选择方法使用多种分析工具来帮助识别这些关系。然而,可用工具经常忽略微生物分类群之间的进化关系,调制因子之间的潜在关系,以及模型选择不确定性。

结果

我们呈现Microbvs,R包用于Dirichlet-Tree多型模型,具有贝叶斯变量选择,用于识别与微生物分类群丰富数据相关的协变量。底层贝叶斯模型在丰富数据和协变者纳入概率的丰富数据中提供系统发育结构。

结论

虽然开发学习人类微生物组,但我们的软件可以在各种研究应用中使用,其中目的是产生与或没有已知的树状结构的一组协变量和组成数据之间的关系的洞察。

背景

人类微生物组是一系列原核生物,古痤疮,真菌和病毒,这取决于个体的健康,饮食和环境1,2]。高通量测序技术使研究人员能够通过定量丰富度、多样性和丰度来表征微生物组的组成(见[2]有关详细的审查)。微生物组的表征对于研究诸如癌症和糖尿病的慢性疾病的研究尤为重要,这可能与微生物组的关键变化相关[2]。

开发用于调查人类微生物组上收集的微生物分类群丰度数据的模型必须能够处理在实践中观察到的众多分析挑战,包括过度分解,复杂的相关结构,稀疏性,高维度和已知的生物信息[2]。最近,Dirichlet-multinomial (DM)分布被用来模拟微生物计数数据,因为它可以容纳由样本异质性和样本间不同比例引起的过度分散[3.- - - - - -6]。但是,DM模型仅假定计数是负相关的。或者,Dirichlet-Tree多项式模型(DTM)继承了DM处理过度分散的数据的能力,并且可以在计数之间建模一般相关结构以及自然地包含结构信息[7,8]。特别地,微生物丰富数据已被证明依赖于系统发育树代表的分类群中的进化关系[9- - - - - -11]。

人类微生物组研究中的一个重要问题是识别微生物丰富数据和临床协变量之间的关联,例如Kegg纠正途径或膳食摄入量[5,6,9,12- - - - - -16]。为此,研究人员经常使用惩罚的可能性方法来估计回归系数,并选择协变量[6,9]。这些模型通常非常有效,并显示出良好的预测精度[6,9]。然而,由于复杂优化常规的要求,这些模型将关于协变量之间已知关系的信息的能力限制了[9]。此外,它们在执行选择时不会容纳模型选择不确定性。

或者,贝叶斯变量选择方法能够容纳复杂的高维数据结构和完全占COOVARIATE选择的模型不确定性[17,18]。贝叶斯变量选择的常见方法是在回归系数之前采用尖峰和板,这取决于每个协变量的潜在包含指示器[18]。在该模型配方中,从模型中推出未经关联的协变量,并自由估计相关的协变量的回归系数。最近,Wadsworth等人。[5[开发了一种识别与多变量计数数据相关联的方法,该方法使用具有尖峰和板式前导者的DM回归模型与多变量计数数据相关联。通过仿真,他们证明了与替代方法相比选择协变量的方法的改进性能,包括[的惩罚似然方法6]。

我们呈现Microbvs,一个R为识别与微生物类群丰度数据相关的协变量,包装的dirichlet树多项模型与贝叶斯变量选择。底层的贝叶斯模型扩展了Wadsworth等人的工作[5]通过在组成数据之间容纳类似的树形结构,还包括协变量的共同概率的各种参数化。虽然开发学习人类微生物组,但我们的软件可以在各种研究应用中使用,其中目的是产生与或没有已知的树状结构的一组协变量和组成数据之间的关系的洞察。

执行

软件实现

我们的贡献RPackage提供了一种识别与组合数据相关的协变量的通用方法。该算法的核心是生成模型参数后验样本进行推理的马尔可夫链蒙特卡罗(MCMC)算法。MCMC算法是用c++编写的,以增加性能时间和访问R使用Rcpp和RcppArmadillo的包装函数[19,20.]。该包装扩展了Wadsworth等人的工作。[5通过DTM回归模型在组成数据之间容纳类似树形的结构。结果,我们的方法纳入了[5[作为特殊情况,还灵活地灵活于包含参数化的各种现有概率。该包具有内置功能,以模拟用户指定的研究方案中的数据,以评估选择性能并进行灵敏度分析。另外,各种辅助R函数被融入为帮助研究人员评估会聚,从MCMC样本中推断推断,并绘图结果。该包包括使用模拟数据的具有工作示例的Vignette。

数据输入和输出

虽然旨在研究微生物丰富数据,但我们的包装可以处理旨在识别与组成数据相关的因素的任何研究环境。因此,在微生物组分析中,我们的包装对用于量化微生物样品的测序方法无关。除了组成数据之外,该方法还需要一组用于每个主题的协调因子和可以由可以读取的树对象R包ape [21]。在分析之前,我们建议使用指示器变量标准化连续协变量和Reparameterize分类协变量。任何贝叶斯方法的标准,我们的算法要求在模型中规范各种超参数。虽然我们为每个封立参数设置了默认值,但Vignette包含其在算法中的功能的详细信息以及调整的建议。该模型的技术细节可以在补充材料中找到。

一旦算法运行,每个参数后验分布的MCMC样本列表将被输出。此列表包括截距项的MCMC样本、协变量各自的回归系数以及协变量的潜在包含指标,这些指标的值为0或1,分别对应模型中的排除或包含。当每个协变量-分支组合的MCMC包含指标样本的平均的边际后验概率(MPPI)≥0.50时确定模型是否包含[22]。可以使用贝叶斯虚假发现率获得替代的包含阈值,该衰减率是针对多重性的控制[23]。除了在包中提供的功能绘制后部推理外,输出可以很容易地转换为CODA包中可读的格式R有关进一步摘要、绘图和诊断[24]。

应用

为了展示软件的功能,我们将其应用于收集的基准数据集,以研究膳食摄入和人体肠道微生物组之间的关系[15]。以前,王和赵[9]提出了惩罚的DTM回归模型,以确定与这些数据的子集上与属级运营分类单位(OTUS)相关的膳食摄入协变量。为了比较,我们将软件应用于相同的数据。简而言之,在该分析中使用的数据由来自16S rRNA测序的28个属型OTU计数组成,以及使用在98个受试者上使用食物频率问卷收集的饮食信息的相应的97次膳​​食摄入协变量。

在此分析中,使用DTM回归模型对这些数据运行模型。本分析中使用的系统发育树如图所示。1。我们假设包含指标的非信息性beta -二项式先验(一个=b= 1)。MCMC算法运行150,000次迭代。经过75,000个样本的烧伤后,从剩下的75,000中抽出了推论。对模型中活跃协变量的数量的微量地块的目视检查和日志后部分布表明了良好的收敛性和混合。使用0.01的贝叶斯假发现率确定协变量的包含在模型中,对应于MPPI≥0.89。此外,我们还运行了[9]有惩罚参数γ.=0.25,对应于稀疏分组套索先验,在一个网格λ价值观,类似于他们的分析。对于惩罚方法,通过最小化Akaike信息准则来选择最佳模型[25]。

图。1
图1

应用数据的生长期树

结果与讨论

我们确定了232个膳食因子分支协会与我们的DTM回归模型的贝叶斯变量选择方法,而惩罚方法也确定了271个联想。见图。23.用于每个模型所标识的关联的网络表示。数字4捕捉我们所提出的方法发现惩罚方法被排除的协会。我们观察到,惩罚方法倾向于识别出跨素食的类似饮食因素。这些结果可能反映了罚款方法中使用的稀疏分组的套索惩罚所施加的结构。虽然β二项式用于纳入指示剂在协变量之间没有施加任何结构关系,但可以用基于图形的包容前沿指定MicroBVS包,类似于[26,27]。有关包含指示器先前规格的详细信息,请参阅小插图。

图2
图2.

利用提出的DTM MCMC算法发现的关联网络。确定的关联由微生物分类群(红色)和饮食因素(蓝色)之间的边缘表示。

图3.
图3.

使用[的方法相关联的关联网络9]。确定的关联由微生物分类群(红色)和饮食因素(蓝色)之间的边缘表示。

图4.
图4.

使用所提出的DTM MCMC算法找到的关联网络,而不是[9]。确定的关联由微生物分类群(红色)和饮食因素(蓝色)之间的边缘表示。

类似于我们的方法,王和赵的方法确定了与系统发育树的每个分支相关的因素。为了总结本群级的关联结果,他们报告了沿着从系统发育树的根节点的路径到表示先前用于定义人微生物组的肠肠的叶节点的叶节点的最常选择的膳食摄入协变量[15,28],Bacteroides和Fvootella,跨越100个随机分割测试和训练数据集。为了比较,我们展示了我们模型确定的膳食摄入协变量的网络图,但不是[9],使用完整的数据集沿这些相同的路径(图。5)。

图5.
图5.

使用所提出的DTM MCMC算法而发现拟合DTM MCMC算法的诱导和PREVOTELA的关联网络,而不是[9]。确定的关联由微生物分类群(红色)和饮食因素(蓝色)之间的边缘表示。

如在wu等人。[15[我们发现菌体和各种氨基酸和脂肪酸之间的关联。氨基酸和菌体之间的关系也在[9]。两个(9] 和 [15]发现Fvootella与碳水化合物的饮食有关。如同 [9],我们鉴定了柚皮素,黄兰松全反/顺反亚油酸与pvootella相关联。此外,我们确定了Pvootella之间的关系甲硫氨酸,苯丙氨酸,总胆碱,没有甜菜碱, 和甜菜碱和胆碱的总和, 如同 [15]。(相比6]为DM模型提出了惩罚的似然方法,我们也发现拟菌和霉菌之间的关系动物脂肪,Eriodictiol,黄酮酮, 和麦芽糖以及Pvototella和胆碱,磷脂酰胆碱

回归模型的贝叶斯变量选择方法显示出比惩罚方法更好的选择性能[5,29,30.]。然而,这些方法通常在计算上效率较低。对于本文的DTM回归模型,模型空间的尺寸随着协变量的数量,叶片(或根)节点的数量和系统发育树的复杂性而大幅增长。专门为B分支机构P协变量,有2个B×P可供选择的潜在模型。除了大的参数空间外,模型的收敛性高度依赖于协变量与计数数据之间的相关结构以及模型的稀疏程度。在本文的分析中,DTM模型在一个2.5 GHz双核Intel Core i5处理器和8gb RAM上运行150000次迭代花费了大约9个小时。为了保持合理的计算时间和选择性能,我们建议将Bayesian DTM模型应用于中小型微生物组数据集,即组成成分小于100个,树形结构中大型的数据集B×P>>n。较大的数据集可以采用Wadsworth等人的dirichlet -多项式回归模型进行分析[5],它不包含系统发育树。此选项可在MicroBvs软件中找到。

我们的软件实现包含了一些最常用的包含指标。在实践中,研究人员通常感兴趣的是识别高阶项,如交互作用,或分组的协变量。该软件未来的发展可能包括处理以下这类设置的功能[31]。此外,我们假设模型中的所有协变态关系都是线性的,这可能不是现实的。回归系数的替代前沿可用于处理非参数关系(例如,Dirichlet Process Priors)。随着模型的维度的增长,推论变得具有挑战性。除了我们在此版本中提供的后部推理工具R包,更高级的可视化工具可能允许更深入地了解模型在应用程序中的结果。在使用完全贝叶斯MCMC算法的后部推理的同时,参数估计和模型选择不确定性,我们的方法可能不会缩放以及近似贝叶斯方法,这可能低估模型不确定性,以极大的数据集。对于DM和负二项式回归模型,[32]设计了一种有效的变形贝叶斯可变选择方法,通过钉子和板式前沿。在未来的工作中,我们的目标是融合DTM回归模型的变分替代方案,以及扩展我们的包装,以处理微生物组研究中常见的其他数据结构(例如,零充气计数,负二项式分布)。

结论

该软件包提供了一般的贝叶斯方法,用于识别与组成数据相关的因素,这些方法可能具有已知的树状结构。此外,该包伴随着详细的Vignette,其中包含一个逐步教程,演示如何在实践中使用该包。我们的用户友好的包装使研究人员能够调查各种协变者解释的组成数据中的异质性。虽然我们在人类微生物组数据的上下文中展示了我们的包,但它可以应用于各种研究设置。

数据和要求的可用性

项目名称:Microbvs项目主页:https://githu欧宝直播官网appb.com/mkoslovsky/microbvs操作系统:Linux,Mac OS,Windows编程语言:R和C ++其他要求:R RCPP RCPParmadillo APE McMcpack MVTnorm GGPLOT2 GGMSelect DevTools APEIGraphLicense:非学术界使用的麻省资格:无。数据可用性:可以使用R包生成所有模拟数据。在案例研究中分析的数据可在R包中获得[15]。

改变历史记录

  • 2020年12月28日

    对本文的修订已发布,并可通过原始文章访问。

缩写

DM:

dirichlet-multinomial.

DTM:

Dirichlet树多项式

GB:

千兆字节

GHz:

兆赫

Kegg:

Kyoto基因和基因组的百科全书

密度:

马尔可夫链蒙特卡罗

MPPI:

边缘的夹杂物

OTU:

操作分类单位

内存:

随机存取存储器

参考文献

  1. 1

    Sanz Y,Olivares M,Moya-PérezÁ,Agostoni C.了解肠道微生物组在代谢疾病风险中的作用。Pediastr res。2014;77(1-2):236-44。

    PubMed.文章谷歌学术

  2. 2

    微生物组学、宏基因组学与高维成分数据分析。Annu Rev Stat Appl. 2015;2:73 - 94。

    文章谷歌学术

  3. 3.

    关键词:多元统计数据,回归模型,多元统计数据J计算机图形统计。2017;26(1): 1-13。

    PubMed.pmed中央文章谷歌学术

  4. 4

    La Rosa PS, Brooks JP, Deych E, Boone EL, Edwards DJ, Wang Q, Sodergren E, Weinstock G, Shannon WD。基于分类学的人类微生物组数据的假设检验和功率计算。PloS ONE。2012;7(12): 52078。

    文章CAS谷歌学术

  5. 5

    Wadsworth WD,Argiento R,Guindani M,Galloway-Pena J,Shelburne SA,Vannucci M.一种综合性贝叶斯Dirichlet-Multimomial回归 - 微生物组数据中的分类学丰富分析。欧宝娱乐合法吗BMC生物信息学。2017年;18(1):1-12。

    文章CAS谷歌学术

  6. 6

    陈家,李H.稀疏Dirichlet-Multimomial分析的变量选择,对微生物组数据分析进行了应用。Ann appl stat。2013;7(1):418-42。

    文章谷歌学术

  7. 7

    Dennis III SY。在Hyper-dirichlet 1型和超级荔枝块分布。配置统计理论方法。1991年;20(12):4069-81。

    文章谷歌学术

  8. 8

    Minka T. Dirichlet树分布。1999年。https://www.microsoft.com/en-us/research/publication/dirichlet-tree-distribution/

  9. 9

    王T,赵H.一种用于将膳食营养素与肠道微生物相关联的Dirichlet树多项回归模型。生物识别技术。2017年;73(3):792-801。

    PubMed.pmed中央文章谷歌学术

  10. 10

    唐y,ma l,nicolae dl等。微生物组数据的Dirichlet树多聚体模型的系统发育扫描试验。Ann appl stat。2018;12(1):1-26。

    文章谷歌学术

  11. 11

    Tang Z-Z,Chen G,Alekseyenko AV,李H.一种综合分析分类树的微生物群体的一般框架。生物信息学。2017年;33(9):1278-85。

    CASPubMed.谷歌学术

  12. 12

    陈恩泽,李辉。纵向微生物群落组成数据分析的两部分混合效应模型。生物信息学。2016;32(17): 2611 - 7。

    CASPubMed.pmed中央文章谷歌学术

  13. 13

    麦克梅德PJ,福尔摩斯S.浪费,不想:为什么稀有稀土的微生物组数据不可受理。PLOS计算BIOL。2014;10(4):1003531。

    文章CAS谷歌学术

  14. 14

    Garcia TP, Müller S, Carroll RJ, Walzem RL。通过正则化方法确定重要的回归组、亚组和个体:在肠道微生物组数据中的应用。生物信息学。2013;30(6): 831 - 7。

    PubMed.pmed中央文章CAS谷歌学术

  15. 15

    吴邦,陈俊,赫夫曼C,叮当k,陈y-y,keilbaugh sa,bewtra m,骑士d,walters wa,骑士r等人。将长期膳食模式与肠道微生物肠溶液相同联系起来。科学。2011;334(6052):105-8。

    CASPubMed.pmed中央文章谷歌学术

  16. 16

    Koslovsky MD, Hoffman KL, Daniel CR, Vannucci M.微生物组数据的贝叶斯模型用于同时识别协变量关联和预测表型结果。Ann Appl Stat. 2020。在出版社。

  17. 17

    棕色pj,vannucci m,fearn t.j r stat soc ser b stat方法。1998年;60(3):627-41。

  18. 18

    乔治·艾,麦卡克雷。贝叶斯变量选择方法。统计罪。1997年;7(2):339-73。jstor。

    谷歌学术

  19. 19

    EddelBuettel D,Sanderson C. RCPParmadillo:加速R为高性能C ++线性代数。计算统计数据肛门。2014;71:1054-63。

    文章谷歌学术

  20. 20.

    关键词:Rcpp, Rcpp, c++,无缝集成,RcppJ Stat soft . 2011;40(8):队。

    文章谷歌学术

  21. 21

    R语言的系统发育与进化分析。生物信息学。2004;20(2): 289 - 90。

    CASPubMed.文章谷歌学术

  22. 22

    Barbieri MM,Berger Jo,等。最佳预测模型选择。安统计。2004;32(3):870-97。

    文章谷歌学术

  23. 23

    Noecker C, Eng A, Srinivasan S, Theriot CM, Young VB, Jansson JK, Fredricks DN, Borenstein E.基于代谢模型的微生物组分类学和代谢组学整合阐明了生态和代谢变异之间的机制联系。MSystems。2016;1(1): 13比5。

    文章谷歌学术

  24. 24

    Plummer M,Best N,Cowles K,Vines K. Coda:MCMC的收敛诊断和输出分析。新闻。2006;6(1):7-11。

    谷歌学术

  25. 25

    信息理论与极大似然原理的扩展。见:《信息理论的第2次Int Symp》,1973。p . 267 - 81。

  26. 26

    联合贝叶斯变量和图选择的回归模型与网络结构预测器。统计地中海。2016;35(7): 1017 - 31所示。

    PubMed.文章谷歌学术

  27. 27

    关键词:生物信息,线性模型,贝叶斯方法,基因选择Ann Appl Stat. 2011;5(3): 1978 - 2002。

    PubMed.文章谷歌学术

  28. 28

    Arumugam M,Raes J,Pelletier E,Le Paslier D,Yamada T,Mende Dr,Fernandes Gr,Tap J,Bruls T,Batto J-M等。人体肠道微生物组的肠型。自然。2011;473(7346):174-80。

    CASPubMed.pmed中央文章谷歌学术

  29. 29

    Kyung M, Gill J, Ghosh M, Casella G等。惩罚回归、标准误差和贝叶斯套索。贝叶斯肛门。2010;5(2): 369 - 411。

    文章谷歌学术

  30. 30.

    关益,斯蒂芬斯M.贝叶斯变量选择回归基因组 - 宽协会研究和其他大规模问题。Ann Appl Stat. 2011;5(3):1780-815。

    文章谷歌学术

  31. 31

    Chipman H.贝叶斯变量选择相关预测器。可以j stat。1996年;24(1):17-36。

    文章谷歌学术

  32. 32

    关键词:Bayesian变量选择,统计数据,Bayesian变量选择,Bayesian变量选择灵活的贝叶斯回归模型。爱思唯尔:2020。p . 187 - 219。

下载参考

致谢

我们感谢Tao Wang、Hongyu Zhao和Hongzhe Li提供的案例研究数据。15]。

资金

Matthew Koslovsky通过NSF通过研究培训小组奖DMS-1547433提供支持。该资助者在设计的研究,收集,分析和解释和准备稿件中没有作用。

作者信息

隶属关系

作者

贡献

MV和MK构思了这个方法。可开发的R包裹并起草稿件。所有作者都阅读并批准了稿件的最终版本。

通讯作者

对应到Matthew D. Koslovsky.

道德声明

伦理批准并同意参与

不适用。

同意出版

不适用。

相互竞争的利益

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家《自然》杂志对已出版的地图和附属机构的管辖权主张保持中立。

对原文进行了修改,去掉了公式1。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。“创作共用公共领域”豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Koslovsky,M.D.,Vannucci,M. Microbvs:Dirichlet-Tree多项式回归模型,贝叶斯变量选择 - R包。欧宝娱乐合法吗21日,301(2020)。https://doi.org/10.1186/s12859-020-03640-0

下载引用

关键词

  • 贝叶斯分析
  • 成分数据
  • Dirichlet树多项式回归
  • 微生物组
  • 变量选择
\