跳到主要内容gydF4y2Ba

progperm:渐进式释放用于微生物组发现的鲁棒性的动态表示gydF4y2Ba

抽象的gydF4y2Ba

背景gydF4y2Ba

特征识别是微生物组研究的关键任务,微生物组数据高维和异构的事实使其复杂化。由于数据的复杂性,分离信号(组间的差异特征)和噪声(组间没有差异的特征)的问题变得具有挑战性和麻烦。例如,在执行差异丰度测试时,多次测试调整往往过于保守,因为第一类错误(假阳性)的概率随着假设的大量增加而急剧增加。此外,兴趣的分组效应会被异质性所掩盖。这些因素可以错误地导致微生物组组成没有差异的结论。gydF4y2Ba

结果gydF4y2Ba

我们翻译并表示鉴别差异特征的问题,这些特征在两组比较中是不同的(例如,处理与控制),作为从随机背景中分离信号的动态布局。更具体地说,我们逐步排列微生物组样本的分组因子标签,并在每个场景中执行多个差异丰度测试。然后,我们将与原始数据差异最大的特征的信号强度与其排列性能进行比较,如果从数据中识别出这些特征为真正,将观察到一个视觉上明显的下降趋势。仿真和实际数据的应用表明,所提出的方法在绘制显著特征的数量与混合比例时创建了一个u型曲线。u型曲线的形状可以传达微生物组与分组因子之间整体关联的强度。我们还定义了一个脆弱性指数来衡量发现的稳健性。最后,通过比较,推荐识别的特征gydF4y2BapgydF4y2Ba- 观察到的数据中的值gydF4y2BapgydF4y2Ba- 在完全混合数据中的值。gydF4y2Ba

结论gydF4y2Ba

我们已将其开发为具有可视化的用户友好而有效的R-Shiny工具。默认情况下,我们使用Wilcoxon等级和测试来计算gydF4y2BapgydF4y2Ba-values,因为它是一个稳健的非参数检验。我们提出的方法也可以利用gydF4y2BapgydF4y2Ba-从其他测试方法获得的值,如DESeq。这证明了渐进排列方法可以扩展到新的设置。gydF4y2Ba

背景gydF4y2Ba

随着下一代测序技术的出现来量化人微生物组的组成,微生物组研究的数量和微生物组分析的巨大改善存在急剧增加[gydF4y2Banba欧宝直播 ]。近几十年来,强烈建议人类微生物群成为了解人类健康和生理学的重要关键[gydF4y2Ba2gydF4y2Ba,gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba4gydF4y2Ba,gydF4y2Ba5gydF4y2Ba,gydF4y2Ba6gydF4y2Ba,gydF4y2Ba7gydF4y2Ba,gydF4y2Banba欧宝直播 ]。在实践中,微生物生物标志物的鉴定通常需要单曲出特异性征集,这些分类是两组兴趣组(例如治疗与控制)之间的差异丰富。差分丰度分析[gydF4y2Banba欧宝直播 然而,在这种情况下,是具有挑战性的。一方面,微生物组数据具有高维、结构复杂的特点。一个样本可以产生多达数万个不同的测序序列。这些reads被聚类为操作分类单元(OTUs),并根据参考库映射到微生物物种。同时,OTUs(可被认为是最低层次的分类单元)定期向较高的分类层次(门、目、纲、科、属或种)聚集。另一方面,由于微生物组样本与不同的身体环境相互作用,可能通过多种临床结果来描述,因此微生物组数据在不同人群中是异构的。很可能并不是所有这些宿主表型都被收集并包含在本研究中,但根据当前数据中所有可用的临床因素,我们希望探索和调查与微生物组组成差异最相关的一个子集。然后,我们想要确定与这些临床结果显著和可靠相关的相应微生物组特征。gydF4y2Ba

研究人员对RNA测序数据(如Edger)开发了适用的经典差分分析工具[gydF4y2Banba欧宝直播 ]和DESeq [gydF4y2Banba欧宝直播 ,因为这两种数据类型本质上都是读计数数据。其他人提出了解释微生物组数据组成性质的方法,包括ANCOM [gydF4y2Banba欧宝直播 ]和ALDEx2 [gydF4y2Banba欧宝直播 ]。Segata等人[gydF4y2Banba欧宝直播 ]开发了lefse(线性判别分析效果大小),通过使用标准测试来识别组之间的差分分类特征,以进行统计学意义。做多次测试时,I型错误(假阳性)的概率随着测试高吞吐量排序数据而显着增加[gydF4y2Banba欧宝直播 ]。诸如本杰里尼 - 霍奇伯格程序的调整方法将变得过度保守,不正确地导致结论微生物组中没有差异,因为拒绝每种微生物的零假设的阈值变得非常小,因为测试数量增加[gydF4y2Banba欧宝直播 ]。虽然这些差分测试方法能够在与单一临床结果相关联时识别单个微生物市场的重要性,但它们并不回答更一般的问题,以及哪些分组因素更好地确定微生物组群中的更多差异,并且当多个临床结果时应该得到进一步的分析呈现在观察到的数据中。研究人员通常在开始之前使用尺寸减小图(例如PCOA或NMDS),以探讨进一步调查之前的临床结果和微生物组成之间的总体关联。但是,根据样品和群体的异质性程度可以观察到预期的聚类效果,这可能导致微生物组与临床因素无关的错误结论。因此,需要一种系统工具来探索整体和个人关联,并提供对发现的稳健性以及结果的可靠性的措施。gydF4y2Ba

我们提出了一种名为渐进式排列的新型方法。该方法逐渐吹扫微生物组样本的分组因子标签,并在每个场景中的允许数据上执行差分测试(例如Wilcoxon Rank-Sum测试或Kruskal-Wallis测试)。然后我们比较信号强度(gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba-values)的top hits从观察数据和他们的测试性能在排列数据集。我们可以观察到信号强度从没有排列情景到完全排列情景的明显下降趋势,如果从数据中识别出这些top hits是真正的。因为脆弱指数是衡量临床试验结果稳健性的指标[gydF4y2Banba欧宝直播 ,gydF4y2Banba欧宝直播 ],我们在渐进式排列中提出了一个类似的概念,用来衡量将变量的显著性改变为不显著性的最小排列步骤数。我们还使用相关检验(如Kendall 's tau或Spearman秩相关检验)将这些概念扩展到连续结果。我们将该方法开发成一个用户友好、高效、可视化的RShiny工具,使该方法易于应用,结果易于理解,分析过程组织良好。Hawinkel等人[gydF4y2Banba欧宝直播 ]提出了一种排列过滤方法,通过剔除类群的过滤损失来衡量类群的重要性。该方法随机排列分类单元的标记,并评估总方差损失的比例。我们的方法排列样本标签,重新分组,并评估组差异的稳健性。我们通过仿真和实际数据的应用验证了我们的方法。我们得出的结论是,所提出的方法不仅可以比较微生物组和多个分组因素(可能被异质性掩盖)之间的整体关联,而且还可以挑选出稳健的个体命中率。它通过测量排列方案中重要命中数的变化趋势和对已发现微生物的脆弱性指数进行排序来实现前者。它通过比较两者来实现后者gydF4y2BapgydF4y2Ba观察到的数据(信号)的值gydF4y2BapgydF4y2Ba- 完全混合数据(噪声)的值。为了完成结果,rshiny工具列出了发现,其效果大小和个人丰富。gydF4y2Ba

本文的结构如下。在“gydF4y2Banba欧宝直播 章节中,我们包含了建议方法的详细描述。在“gydF4y2Banba欧宝直播 “部分,我们运行模拟,并使用U形曲线和脆弱索引来测量与分组因子的整体关联以及微生物组发现的鲁棒性。在“gydF4y2Banba欧宝直播 “部分,我们将方法应用于实际数据以测试整体关联并识别强大的命中。在“gydF4y2Banba欧宝直播 ,在一个简单的设置中,我们展示了所提出的方法的分析性质。我们以“gydF4y2Banba欧宝直播 ”一节。gydF4y2Ba

方法gydF4y2Ba

假设我们收集gydF4y2BaNgydF4y2Ba样品和获得gydF4y2BapgydF4y2Ba微生物类群。我们将微生物特征表示为gydF4y2Ba\ ({{\ varvec {X}}} = ({{\ varvec {X}}} _1, \ ldots, {{\ varvec {X}}} _p) \)gydF4y2Ba,每个gydF4y2Ba\({{\ varvec {x}}} _ i \)gydF4y2Ba是一个gydF4y2BaNgydF4y2Ba- vimensional vector。我们的目标是通过两个组的分组因子确定哪些变量是差异的gydF4y2Ba\({{\ varvec {g}}} =({{\ varvec {g}}} ^ 1,{{\ varvec {g}}} ^ 2)\)gydF4y2Ba(如。gydF4y2Ba\ ({{\ varvec {g}}} ^ 1 \)gydF4y2Ba表示治疗组,而gydF4y2Ba\({{\ varvec {g}}} ^ 2 \)gydF4y2Ba表示控制组)。我们将第1组中的分组标签表示为gydF4y2Ba(g ^ 1_i = 1,i = \ {1,\ ldots,n_1 \} \)gydF4y2Ba和第2组一样gydF4y2Ba(g ^ 2_i = 2,i = \ {1,\ ldots,n_2 \} \)gydF4y2Ba,在那里gydF4y2Ba\(n_1 + n_2 = n \)gydF4y2Ba。对每个变量执行的假设测试表示为gydF4y2Ba\(H_j, j=\{1,\ldots, p\}\)gydF4y2Ba。相应的gydF4y2BapgydF4y2Ba-Value表示为gydF4y2Ba(p_j, j=\{1,\ldots, p\}\)gydF4y2Ba。gydF4y2Ba

我们用gydF4y2Ba\(k=\{0,1,\ldots, k \}\)gydF4y2Ba描述逐步排列的情景。gydF4y2Ba\(k = 0 \)gydF4y2Ba描述没有任何排列的观察数据。gydF4y2Ba\(k = {\ mathrm {min}}(n_1,n_2)\)gydF4y2Ba是最大排列场景。排列的场景gydF4y2BakgydF4y2Ba构造如下。每次,我们都从原始的分组标签开始gydF4y2Ba\({{\ varvec {g}}} =({{\ varvec {g}}} ^ 1,{{\ varvec {g}}} ^ 2)\)gydF4y2Ba。我们随机画gydF4y2BakgydF4y2Ba第1组样品(样品标签gydF4y2Ba\ \ (\ {i_1 ^ 1日ldots, i_k ^ 1 \} \ subseteq \ {1 \ ldots n_1 \} \)gydF4y2Ba),gydF4y2BakgydF4y2Ba2组样品(样品标签gydF4y2Ba\(\ {i_1 ^ 2,\ ldots,i_k ^ 2 \} \ subseteq \ {1,\ ldots,n_2 \} \)gydF4y2Ba),然后交换它们的分组标签,意思是gydF4y2Ba\ (g ^ 1 _{我}= 2,i = \ {i_1 ^ 1 \ ldots i_k ^ 1 \} \)gydF4y2Ba和gydF4y2Ba\(g^2_{i}=1, i=\{i_1^2,\ldots, i_k^2\}\)gydF4y2Ba。在里面gydF4y2BakgydF4y2Ba- 我们有折叠情景gydF4y2Ba\(\ left({\ begin {array} {c} n_1 \\ k \ neat {array}} \ left({\ begin {array} {c} n_2 \\ k \ neg {array}}正确的)\)gydF4y2Ba选择。选择的数量gydF4y2Ba\(\ left({\ begin {array} {c} n_1 \\ k \ neat {array}} \ left({\ begin {array} {c} n_2 \\ k \ neg {array}}正确的)\)gydF4y2Ba何时接近其最大值gydF4y2BakgydF4y2Ba等于最接近的整数gydF4y2Ba\(\ frac {n_1n_2-1} {n_1 + n_2 + 2} \)gydF4y2Ba。我们称它为完全排列情景gydF4y2Ba\(k_f = \ lceil \ frac {n_1n_2-1} {n_1 + n_2 + 2} \ rceil \)gydF4y2Ba。如果gydF4y2Ba\ (n_1 =甲烷= n \)gydF4y2Ba,然后gydF4y2Ba\ (K_f = \ lceil \压裂{n} {2} \ rceil \)gydF4y2Ba。把所有情况的选项加起来,我们得到下面的方程gydF4y2Ba

$ ${对齐}\ \开始和_ {k = 0} ^ {k} \离开({\{数组}{c} n_1开始\ \ k \结束{数组}}\)\离开({\{数组}{c}甲烷开始\ \ k \结束{数组}}\右)= \离开({\{数组}{c}开始N \ \ k结束\{数组}}\右)。\结束{对齐} $$gydF4y2Ba
(1)gydF4y2Ba

上述方程可由二项式系数的Vandermonde卷积恒等式导出。详细信息显示在附加文件gydF4y2Banba欧宝直播 :教派。S1。左侧列出了脱节的所有渐进置换方案,这意味着分组标签在场景之间是不同的。右侧列出了组的所有可能组合gydF4y2BaNgydF4y2Ba样品分为两个亚组gydF4y2Ba\ (n_1 \)gydF4y2Ba和gydF4y2Ba\(n_2 \)gydF4y2Ba样品分别。增加gydF4y2BakgydF4y2Ba在美国,这两个群体之间的交流越来越多。换句话说,在所有随机分组分配中,如果微生物组变量与观察到的分组因素密切相关,那么与原始数据(观察到的分组因素)更相似的排列分配将使两组比不太相似的组更有区别。gydF4y2Ba

图。1gydF4y2Ba
图1gydF4y2Ba

跟踪的情节gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba- 用混合比例改变。X轴表示混合的比例。y轴表示gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba- 100个功能的值。每条曲线表示迹象gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba- 单个微生物组特征的值。彩虹颜色的比例显示了曲线的对比gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba-较显著变量的值将高于较不显著变量的值。垂直条描述了95%的量级置信区间gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba- 横跨排列方案的值gydF4y2Ba

接下来我们介绍如何执行差异测试并利用所有逐行排列方案的测试结果。在允许的和不遵守的数据中,我们对每个功能进行差异测试,并获得相应的gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba值。默认情况下,我们使用Wilcoxon等级和测试来计算gydF4y2BapgydF4y2Ba-values,因为它是一个稳健的非参数检验。我们提出的方法也可以利用gydF4y2BapgydF4y2Ba- 从其他测试方法获得的值,例如Deseq [gydF4y2Banba欧宝直播 ]。gydF4y2Ba

每个置换方案包括多种组合选择,如下实现。对于每个置换方案gydF4y2BakgydF4y2Ba(gydF4y2Ba\ (k \通用电气1 \)gydF4y2Ba),我们从随机种子开始,执行一个子集gydF4y2Ba\(\ nu = n \ left(\ log \ left({\ begin {array} {c} n_1 \\ k \ nea {array}} \ left)+ \ log \ left({\ begin {array} {c} n_2 \\ k \ of {array}} \右)\右)\)gydF4y2Ba(四舍五入到最接近的整数)从总数中抽取gydF4y2Ba\(\ left({\ begin {array} {c} n_1 \\ k \ neat {array}} \ left({\ begin {array} {c} n_2 \\ k \ neg {array}}正确的)\)gydF4y2Ba吸引了。每种情况下的每一次抽奖gydF4y2BakgydF4y2Ba,我们表演gydF4y2BapgydF4y2Ba独立测试以区分两组之间的每个微生物组特征并计算所有gydF4y2BapgydF4y2Ba值。因此,对于每个变量gydF4y2BajgydF4y2Ba(gydF4y2Ba\ (j = 1, \ ldots p \)gydF4y2Ba),我们得到gydF4y2Ba\(\ nu \)gydF4y2Ba样本gydF4y2BapgydF4y2Ba值gydF4y2Ba\ (p_ {j} (k) \)gydF4y2Ba。我们总结了他们的中位数的这些样本的分布gydF4y2Ba\(p ^ m_j(k)\)gydF4y2Ba和2.5-97.5%的分位数间隔。可视化这些gydF4y2BapgydF4y2Ba-value以有组织的方式排列gydF4y2BapgydF4y2Ba值(定义为gydF4y2Ba\ (p_ {j} (0) \)gydF4y2Ba),然后将其作图gydF4y2Ba\(——\ \日志_ {10}\)gydF4y2Ba中位数gydF4y2BapgydF4y2Ba-值在不同的排列场景中具有相同的顺序。请注意,观测数据可视为一幅图(gydF4y2Ba\(\ nu = 1 \)gydF4y2Ba),所以是中位数gydF4y2BapgydF4y2Ba-价值gydF4y2Ba\ (p ^ m_ {j} (0) \)gydF4y2Ba相当于gydF4y2BapgydF4y2Ba-价值gydF4y2Ba\ (p_ {j} (0) \)gydF4y2Ba。如图。gydF4y2Banba欧宝直播 ,我们提出了痕迹gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba-Values用于具有100微生物功能的示例数据集。通常,并联痕迹gydF4y2Ba\(——\ \日志_ {10}\)gydF4y2Ba中位数gydF4y2BapgydF4y2Ba-较显著变量的值将高于较不显著变量的值。随着混合量的增加,显著gydF4y2BapgydF4y2Ba- 逐渐变得不显着,表明信号较弱,噪音更强。如果数据完全混合,则几乎没有信号,更多gydF4y2BapgydF4y2Ba-值在完全排列情况下接近于1gydF4y2Ba\(k = k_f \)gydF4y2Ba。我们在附加文件中描述了进展释放方法的计算缩放gydF4y2Banba欧宝直播 S2:教派。gydF4y2Ba

对于微生物组数据,分类群数量gydF4y2BapgydF4y2Ba通常是一个较大的数字。要显示和比较大量的痕迹是不容易的。我们对个体进行总结gydF4y2BapgydF4y2Ba-值转化为单个数量,即重要分类单元的数量。我们可以得到显著分类群的数量为gydF4y2Ba\ ({\ mathrm {nsig}} (k) = \总和_ {j = 1} ^ p I_ p {^ m_j (k)αle \ \} \)gydF4y2Ba,在那里gydF4y2Ba\(\α\)gydF4y2Ba被预先确定的意义级别(默认值为0.05)。我们希望看到最低点gydF4y2Ba\ ({\ mathrm {nsig}} (k) \)gydF4y2Ba在完全排列的情况下gydF4y2Ba\ (K_f \)gydF4y2Ba,因为更多的gydF4y2BapgydF4y2Ba- 在这里,值得靠近1。重要特征的数量gydF4y2Ba\ ({\ mathrm {nsig}} (k) \)gydF4y2Ba随着混合比例的增加而减小gydF4y2BakgydF4y2Ba/gydF4y2BaKgydF4y2Ba,当gydF4y2Bale K_f \ (k \ \)gydF4y2Ba。gydF4y2Ba\ ({\ mathrm {nsig}} (k) \)gydF4y2Ba随着混合比例的增加而增加gydF4y2BakgydF4y2Ba/gydF4y2BaKgydF4y2Ba,当gydF4y2Ba\(k \ ge k_f \)gydF4y2Ba。如果两组具有平衡样本尺寸(即gydF4y2Ba\(n_1 = n_2 \)gydF4y2Ba),如果我们绘制了混合比例的显着特征的数量,我们将可视化对称U形曲线gydF4y2BakgydF4y2Ba/gydF4y2BaKgydF4y2Ba。u型曲线的形状测量了信号强度,两组之间微生物组组成的差异。我们可以使用u型曲线作为一个全球性的度量来描述微生物组组成和不同临床结果之间的整体关联。gydF4y2Ba

允许跨多个数据集的U形曲线相当,具有不同数量的微生物组特征,我们缩放了重要特征的数量gydF4y2Ba\ ({\ mathrm {nsig}} (k) \)gydF4y2Ba通过考虑的特征总数gydF4y2BapgydF4y2Ba,这被命名为重要特征的比例gydF4y2Ba\ ({\ mathrm {nsig}} (k) / p \)gydF4y2Ba(取值范围为0 ~ 1),如图所示。gydF4y2Banba欧宝直播 ,我们将感兴趣区域(AOI)定义为覆盖曲线(绿色加紫色)的矩形区域,实际上测量了重要特征的比例gydF4y2Ba\ ({\ mathrm {nsig}} (k) / p \)gydF4y2Ba。为了描述u型曲线的形状,我们定义了混合曲线下面积(area under the mixture curve, AUMC)和观测数据初始点的斜率递减。AUMC测量图中紫色区域。gydF4y2Banba欧宝直播 ,可以在数字上计算。初始点的斜率被计算为连接前两个点的线的斜率。较大的AUMC意味着显着特征的数量从观察到的数据中更大差异(gydF4y2Ba\(k = 0 \)gydF4y2Ba)改为完全混合的数据(gydF4y2Ba\(k = k_f \)gydF4y2Ba),表明观察数据中临床结果和微生物组合物之间的较高关联。对于两种临床结果,给出了相同的AOIS,如果一个结果提供较小的斜率(意味着信号在开始时稳定)和更大的AUMC,我们将得出结论,这种结果与微生物组特征之间的整体联系更高。gydF4y2Ba

图2gydF4y2Ba
figure2gydF4y2Ba

U形曲线的例证图与混合比例的显着特征比例。X轴描述了两组数据混合的比例。Y轴描述了重要特征的比例。红色三角形描述了观察到的数据。黑点描述允许的数据。垂直条描述了95%的量级置信区间gydF4y2Ba

脆弱指数最初被定义为临床试验结果的稳健性的衡量标准[gydF4y2Banba欧宝直播 ,gydF4y2Banba欧宝直播 ]。我们介绍了类似的概念来测量信号随着混合增加而断裂的速度。我们介绍并定义脆弱指数gydF4y2BajgydF4y2Ba在排列场景中每一个绘制的变量gydF4y2BakgydF4y2Ba作为gydF4y2Ba\({\ mathrm {fi}} _ j = \ min _k \ left(p ^ m_j(k)> \ alpha \右)\)gydF4y2Ba,在那里gydF4y2Ba\(p ^ m_j(k)\)gydF4y2Ba是中位数gydF4y2BapgydF4y2Ba-value在每个场景中获得gydF4y2BakgydF4y2Ba。换句话说,一个变量的脆弱性指数是将该变量的显著性变为不显著的排列步骤的最小数目。因此,脆弱性指数小于全排列情景gydF4y2Ba\ (K_f \)gydF4y2Ba,所有人gydF4y2BapgydF4y2Ba-值不重要。因此,我们可以得到标度的脆弱性指数为gydF4y2Ba\({\ mathrm {sfi}} _ j = {\ mathrm {fi}} _ j / k_f \)gydF4y2Ba。脆弱指数越大,所识别的分类率越稳定。因此,在相同的数据集中,我们可以通过脆弱指数对分类群的重要性进行排名。对于两种临床结果,如果一个结果与微生物组特征更有关,则该结果将提供更高的平均脆弱指数。gydF4y2Ba

如果我们将我们提出的方法(即Eq。gydF4y2Banba欧宝直播 ),我们将发现一个类比的科学研究,违反分组标签实际上列出了来自同一随机现象的所有可能的观察安排。然而,在一项研究中,研究人员仅观察一个安排,并且期望在所有其他方面的这种偶然的布置可以传达两组是差异的信号。我们提出了逐步排列来恢复缺失的安排。我们假设观察到的数据是两组之间的差异。然后,该方法以系统的方式生成所有其他脱位的布置,其具有固定的样本大小,使得信号从不置换场景(观察到的数据)逐渐减小到全排列方案。换句话说,如果分组因子与两组之间的微生物差相关联,则定义信号的观察数据将容易地区分特征噪声的完全混合数据。因此,我们通过判断重要意义来达到强大的变量的识别gydF4y2BapgydF4y2Ba- 从观察到的数据获得的值位于完全混合数据的95%置信区间之外。gydF4y2Ba

模拟gydF4y2Ba

在这一节中,我们首先生成两种类型的仿真来展示我们的方法的性能。首先,我们改变组均值、方差、相关性和显著变量的数量来模拟具有不同信号水平的数据。其次,我们控制了显著变量的数量,并模拟了三个具有不同异质性水平的数据集。然后我们比较了我们的渐进式排列方法在这些数据上的性能。gydF4y2Ba

表1不同模拟参数(包括相关性)的多个模拟数据集渐进排列结果比较gydF4y2Baρ\ (\ \)gydF4y2Ba,显着变量(NSV)的数量,组平均差异(gydF4y2Ba\(m_1-m_2 \)gydF4y2Ba),色散gydF4y2Ba\ (\ kappa \)gydF4y2Ba

我们遵循[中的相同的模拟设置gydF4y2Banba欧宝直播 ]。我们模拟OTU计数作为从负二项式分布中汲取的随机样本gydF4y2Ba\({\ mathcal {f}}(m,\ kappa)\)gydF4y2Ba,在那里gydF4y2Ba\ (\ kappa \)gydF4y2Ba被称为离散参数,就像方差一样gydF4y2Ba\(m + \ frac {m ^ 2} {\ kappa} \)gydF4y2Ba。为了模拟OTUs之间的依赖关系,我们使用高斯copula [gydF4y2Banba欧宝直播 ]结合相关结构gydF4y2Ba\({{\ varvec {r}}} \)gydF4y2Ba用负二项分布。下面是模拟步骤。首先,我们画的高斯样本gydF4y2Ba({{\ varvec {z}}} \ sim {\ mathcal {n}}(0,{{\ varvec {r}})\)gydF4y2Ba。其次,我们得到负二项样本gydF4y2Ba\ ({{\ varvec {X}}} _j = {\ mathcal {F}} ^{1}(\φ({{\ varvec {Z}}} _j)), j = 1, \ ldots p \)gydF4y2Ba。gydF4y2Ba\(\ phi(\ cdot)\)gydF4y2Ba表示高斯累积分布函数。第三,我们通过划分每个元素来获得组合物gydF4y2Ba\(x_ {ij} \)gydF4y2Ba通过一个大于每一行之和的常数。gydF4y2Ba

为了获得U形曲线的形状如何描绘信号的强度和稳健性,我们构造多个数据集,改变模拟参数并在每个数据集上执行渐进置换。让gydF4y2Ba1 \ \(间{ij} ^ sim {\ mathcal {F}} (m_j ^ 1 \ kappa _j ^ 1) \)gydF4y2Ba为第1组模拟数据。让gydF4y2Ba\(间{ij} ^ 2 \ sim {\ mathcal {F}} (m_j ^ 2 \ kappa _j ^ 2) \)gydF4y2Ba表示来自组的模拟数据。两组具有相同的样本大小gydF4y2Ba\(n_1 = n_2 = 30 \)gydF4y2Ba同样的关联结构gydF4y2Ba\(r_ {ij} = \ rho ^ {i-j} \)gydF4y2Ba。我们模拟了感兴趣的分组因素gydF4y2BaygydF4y2Ba作为gydF4y2Ba\([1,\ ldots,1,2,\ ldots,2] \)gydF4y2Ba。假设两组都包含100个变量。设“nsv”表示分布均值为的微分变量的个数gydF4y2Ba\(m_j ^ 1 \)gydF4y2Ba或者gydF4y2Ba\ (m_j ^ 2 \)gydF4y2Ba,所有其他变量的均值设为1。如表所示gydF4y2Banba欧宝直播 ,我们将第1组的手段设置为gydF4y2Ba\(\{10、10、10 \}\)gydF4y2Ba和第2组的手段gydF4y2Ba\(\{1、6、10 \}\)gydF4y2Ba,因此两组之间的平均差异是gydF4y2Ba\(\ {9,4,0 \} \)gydF4y2Ba。例如,使用数据集gydF4y2Ba\ \) (m_1-m_2 = 9gydF4y2Ba和nsv = 30,这意味着100个变量的30%具有强烈的差异(gydF4y2Ba10 \ \ (m_j ^ 1 =)gydF4y2Bavs。gydF4y2Ba\ (m_j ^ 2 = 1 \)gydF4y2Ba,在那里gydF4y2Ba\(j= 1,\ldots, 30\)gydF4y2Ba),其余70个变量均无差异(均差为0)。基于上述模拟,我们总结了以下观察结果。AOI总体上随着显著特征在模拟数据中所占比例的增加而增加。当方差增加时gydF4y2Ba\ (\ kappa \)gydF4y2Ba变小,两组之间的差异效应随着gydF4y2Ba\ (\ kappa \)gydF4y2Ba。因此,ACUC和前50个功能的平均脆弱性变小。差异效果随两组之间的两个平均差异而增加。因此,当平均差异较小时,相应的AUMC和前50个特征的平均脆弱性变小。如图所示。gydF4y2Banba欧宝直播 ,当两组差异较小时,u型曲线的形状变平。因此,一个分组因子对特征的区分度越大,得到的AOI、AUMC和脆弱性指数就越大。特别是当两组间的均值差值接近0时,AOI和AUMC几乎为零,说明在没有差分信号的情况下,显著特征个数的u型曲线是平坦的。此外,微生物组特征之间的相关性不影响AOI和AUMC的值。该方法识别的重要特征是其特征的子集gydF4y2BapgydF4y2Ba- 观察到数据中的值小于0.05。gydF4y2Ba

然而,在先前的模拟中,U形曲线的陡度的行为尚不清楚。在以下模拟中,我们控制数据以产生相同的AOI,但具有不同的斜率。换句话说,所识别的特征的数量是相同的,但实际上这些特征的鲁棒性是不同的。而不是考虑所描绘的重要性gydF4y2BapgydF4y2Ba-Values,我们可以进一步考虑使用来自逐行排列的U形曲线和脆弱性指数来评估特征结果关联的鲁棒性。我们将展示一些未知的异构性可能是影响鉴定为差异的特征的稳健性的一个原因。我们生成三个模拟数据集,其表示为Simdata 1,Simdata 2和Simdata 3.它们具有相同的示例大小gydF4y2Ba\(n_1 = n_2 = 30 \)gydF4y2Ba和相同数量的变量gydF4y2Ba\(p = 100 \)gydF4y2Ba。60个样本在组1(30个样本)和组2(30个样本)之间存在显著差异。我们将第1组的数据表示为gydF4y2Ba\(d_1 \)gydF4y2Ba和第2组的数据gydF4y2Ba\(d_2 \)gydF4y2Ba。对于100个变量,我们将重要特征的比例定义为0.6,这意味着60个变量很大。为了构建异质性,通过将组1分成两个样本的子组来创建第二个差异来源,这表示为gydF4y2Ba\ (D_ {11} \)gydF4y2Ba和gydF4y2Ba\(d_ {12} \)gydF4y2Ba。同样,我们将2组样本分为两个子组,记为gydF4y2Ba\ (D_ {21} \)gydF4y2Ba和gydF4y2Ba\(d_ {22} \)gydF4y2Ba。兴趣的分组因素gydF4y2BaygydF4y2Ba是gydF4y2Ba\([1,\ ldots,1,2,\ ldots,2] \)gydF4y2Ba。gydF4y2Ba

图3.gydF4y2Ba
图3gydF4y2Ba

三组不同异构程度的模拟数据集的结果比较。第一行(gydF4y2Ba一个gydF4y2Ba- - - - - -gydF4y2BacgydF4y2Ba)使用Bray-Curtis距离显示NMDS图。第二行(gydF4y2BadgydF4y2Ba- - - - - -gydF4y2BafgydF4y2Ba)显示了显着特征比例的U形曲线。AOI对于感兴趣的区域是短暂的,这表示了所有特征的重要特征(绿色加紫色区域)的比例。AUMC在混合曲线下的区域短路,其表示U形曲线(紫色面积)下的区域。斜率表示红色三角形的斜率。红色三角形表示真实数据。第三行(gydF4y2BaggydF4y2Ba- - - - - -gydF4y2Ba我gydF4y2Ba)显示脆弱性指数。每个条形图的高度代表给定特征的脆弱性指数值。每种颜色代表的特征都具有相同的脆弱性。为了节省空间,省略了列出50个特性名称的图例gydF4y2Ba

我们描述如下数据生成。我们用gydF4y2Ba\((m)_c \)gydF4y2Ba表示包含的序列gydF4y2BacgydF4y2Ba的数量gydF4y2Ba米gydF4y2Ba。gydF4y2Ba\({\ mathrm {rn}}(\ mu _0,\ sigma _0)\)gydF4y2Ba描述从正常分布的随机数用平均值gydF4y2Ba\μ_0 (\ \)gydF4y2Ba和方差gydF4y2Ba\(\ sigma _0 \)gydF4y2Ba。我们定义了相关结构gydF4y2Ba\(r_ {ij} = \ rho ^ {i-j} \)gydF4y2Ba。gydF4y2Baρ\ (\ \)gydF4y2Ba设置为0.5。零充气是微生物组数据的主要特征之一。注意gydF4y2Ba\(\亩\)gydF4y2Ba控制每个样本中每个变量和零数的幅度。跨Simdata 1,Simdata 2和Simdata 3的样本和变量的分布与实际数据中的零的分布相当,请参阅附加文件中的直方图gydF4y2Banba欧宝直播 :教派。S3。gydF4y2Ba

  • 辛迪塔1gydF4y2Ba:gydF4y2Ba\ (D_ {11} \)gydF4y2Ba包含8个样本。的意思是gydF4y2Ba([(6)_ {30},(4)_ {30},(1)_ {40}] \)gydF4y2Ba。色散参数gydF4y2Ba\ (\ kappa \)gydF4y2Ba是2。gydF4y2Ba\(d_ {12} \)gydF4y2Ba包含22个样本。的意思是gydF4y2Ba\ ([(4) _ {30}, (6) _ {30}, (1) _ {40}] \)gydF4y2Ba。色散参数gydF4y2Ba\ (\ kappa \)gydF4y2Ba是36。gydF4y2Ba\(d_2 \)gydF4y2Ba包含30个样本。的意思是gydF4y2Ba\ [(15) _ {30}, (0.5) _ {30}, (1) _ {40}] \)gydF4y2Ba。色散参数gydF4y2Ba\ (\ kappa \)gydF4y2Ba是36。gydF4y2Ba

  • 辛迪塔2.gydF4y2Ba:gydF4y2Ba\ (D_ {11} \)gydF4y2Ba包含16个样本。的意思是gydF4y2Ba\ [(8) _ {30}, (2) _ {30}, (1) _ {40}] \)gydF4y2Ba。色散参数gydF4y2Ba\ (\ kappa \)gydF4y2Ba是25。gydF4y2Ba\(d_ {12} \)gydF4y2Ba包含14个样本。的意思是gydF4y2Ba\ ([(2) _ {30}, (8) _ {30}, (1) _ {40}] \)gydF4y2Ba。色散参数gydF4y2Ba\ (\ kappa \)gydF4y2Ba是24。gydF4y2Ba\ (D_ {21} \)gydF4y2Ba包含20个样本。的意思是gydF4y2Ba\ [(15) _ {30}, (0.5) _ {30}, (1) _ {40}] \)gydF4y2Ba。色散参数gydF4y2Ba\ (\ kappa \)gydF4y2Ba是26。gydF4y2Ba\(d_ {22} \)gydF4y2Ba包含10个样本。的意思是gydF4y2Ba([(m_1)_ {60},(m_2)_ {40}] \)gydF4y2Ba,在那里gydF4y2Ba\(m_1= {\math {RN}}(5, 1.2)\)gydF4y2Ba和gydF4y2Ba\(m_2 = {\ mathrm {rn}}(1,0.1)\)gydF4y2Ba。色散参数gydF4y2Ba\ (\ kappa \)gydF4y2Ba是24。gydF4y2Ba

  • 辛迪塔3.gydF4y2Ba:gydF4y2Ba\ (D_ {11} \)gydF4y2Ba包含24个样品。的意思是gydF4y2Ba\ [(8) _ {30}, (2) _ {30}, (1) _ {40}] \)gydF4y2Ba。色散参数gydF4y2Ba\ (\ kappa \)gydF4y2Ba是14。gydF4y2Ba\(d_ {12} \)gydF4y2Ba包含6个样品。的意思是gydF4y2Ba\ [(1) _ {30}, (10) _ {30}, (1) _ {40}] \)gydF4y2Ba。色散参数gydF4y2Ba\ (\ kappa \)gydF4y2Ba是14。gydF4y2Ba\ (D_ {21} \)gydF4y2Ba包含20个样本。的意思是gydF4y2Ba\ [(15) _ {30}, (0.5) _ {30}, (1) _ {40}] \)gydF4y2Ba。色散参数gydF4y2Ba\ (\ kappa \)gydF4y2Ba是14。gydF4y2Ba\(d_ {22} \)gydF4y2Ba包含10个样本。的意思是gydF4y2Ba([(m_1)_ {60},(m_2)_ {40}] \)gydF4y2Ba,在那里gydF4y2Ba\(m_1 = {\ mathrm {rn}}(5,1.6)\)gydF4y2Ba和gydF4y2BaRN \ (1 = {\ mathrm {}} (1 - 0.3) \)gydF4y2Ba。色散参数gydF4y2Ba\ (\ kappa \)gydF4y2Ba是12。gydF4y2Ba

基于上述设置,我们预计通过将Simdata 1从Simdata 2构建到Simdata 3,我们希望看到越来越多的异质性。结果,微生物组特征与感兴趣的分组因子之间的关联是较弱的较弱的是因为第1组和第2组之间的差异样本的比例较低且较低。传统上,非度量多维缩放(NMDS)用于将来自多维特征的信息折叠到仅几个内容中,以便在将它们链接到感兴趣的分组因子时,将可视化和解释聚类效果[gydF4y2Banba欧宝直播 ]。然而,在降维图中,无法看到预期的聚类效应,因为这种主要的差异效应混杂着异质性。如图所示。gydF4y2Banba欧宝直播 但是,只有Simdata 1的NMDS曲线图显示了组1和组2之间的清晰集群分离。但Simdata 2的NMDS图和Simdata 3的NMDS图类似地示出了组1和组2的重叠。因此,NMDS图不能区分微生物组组合物与感兴趣的分组因子之间整体关联的强度。此外,我们不能在Simdata 2和Simdata 3之间可视化异质性的差异。gydF4y2Ba

在检验解释变量与结果之间的关系时,变量的效应可能会被其他变量所修正,并被潜在的系统偏差、混淆或效应修正所扭曲。u型曲线和脆弱性指数图为我们提供了与收集数据中的主要信号混合的所有这些干扰的度量。u曲线提供了一个动态描述,如何我们的方法逐步从随机试验单选信号。在每个小区中,从观测数据到完全排列情景,显著特征的数量逐渐减少。当关联不太稳定(有更多干扰)时,形状变得更陡峭。我们使用AUMC(混合曲线下面积)来量化u型曲线的形状。AUMCs在无花果。gydF4y2Banba欧宝直播 D-F为0.392,0.283和0.163,其排名微生物组合物与分组因子之间的关联的稳健性降低。对于Simdata 2的Simdata 1,7.44为10.12,为Simdata 2的平均脆弱索引为10.12,为Simdata 3.24为3.自完整排列方案gydF4y2Ba\(k_f = 15 \)gydF4y2Ba,平均缩放碎片指数为SIMDATA 1,SIMDATA 2的0.496为0.675,为SIMDATA 3为0.349。gydF4y2Ba

请注意,在生成U形曲线图时(图1中的D-F。gydF4y2Banba欧宝直播 ),黑点描述中值。黑条描述了gydF4y2Ba\(2.5 \%\)gydF4y2Ba和gydF4y2Ba\(97.5 \%\)gydF4y2Ba分量距间隔。我们在所有后续数据中遵循相同的设置。gydF4y2Ba

表2不同方法的识别性能比较。gydF4y2Ba

在应用我们提出的渐进排列方法时,我们考虑gydF4y2BapgydF4y2Ba-使用Wilcoxon检验和DESeq得到的值。具体来说,对于DESeq,我们依赖于R [gydF4y2Banba欧宝直播 ),与multiplicity-adjustedgydF4y2BapgydF4y2Ba-用于确定命中的值。我们认为特征是重要的,如果他们gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba-Values在未经审慎的场景中,在完整排列方案中的95%分位数之外。我们应用这两个置换方法,以及DESEQ,LEFSE和LOGISTION方法的标准版本到模拟数据。gydF4y2Ba

我们现在描述我们的数据生成程序。微生物组数据通常被过度分散和零充气。由于负二项式分布不能捕获过量的零值,因此我们使用另一代机制“sparsedossa”(gydF4y2Bahttps://huttenhower.sph.harvard.edu/sparsedossa/gydF4y2Ba)为了允许模拟数据中的零充气。在我们的模拟中,我们考虑一个设置有60个样本的设置(每个组中的30个样本)和100个变量。每个微生物变量的模拟丰度被三个参数共同控制:零充气的比例,平均值和方差。gydF4y2Ba

为了研究过多的零值对测试方法性能的影响,我们对每个变量保持(两组之间)的平均差值和方差相同。我们将数据生成模型适合于DeFilippo数据的一个子集(参见“gydF4y2Banba欧宝直播 “部分”并获得100个变量的零充气参数。然后,我们将零充气参数的估计值从最低到最高排列,使得模拟数据的平均丰度从第一变量的第一变量具有减小的顺序。让gydF4y2Ba\ ({\ mathrm {nsv}} \)gydF4y2Ba表示真正有微分的变量的数目。我们设置了第一个的均值参数gydF4y2Ba\ ({\ mathrm {nsv}} \)gydF4y2Ba在第1组中为3,在第2组中为0。所有变量的方差参数设为1。通过这个设置(称为集1),具有较小零膨胀参数的变量应该比具有较大零膨胀参数的变量具有更大的差异。gydF4y2Ba

我们还考虑替代设置(命名为SET 2),以观察测试方法如何更改对平均差异。在此设置中,我们将零充气的比例固定为每个变量的零充气(设置为0.1)和方差(设置为0.2)。我们将与第一个变量的平均差异的顺序减少。使用此设置,具有更大平均差异的变量应比具有较小平均差异的变量更差异。我们还在具有密集信号和稀疏信号的数据集之间设计比较。对于具有密集信号的数据,前70个变量(gydF4y2Ba\ ({\ mathrm {nsv}} = 70 \)gydF4y2Ba)被模拟为微分的。对于具有稀疏信号的数据,前30个变量(gydF4y2Ba\({\ mathrm {nsv}} = 30 \)gydF4y2Ba)被模拟为微分的。gydF4y2Ba

我们报告表中所有性能措施的平均值gydF4y2Banba欧宝直播 。FP代表假阳性,该方法识别了一个真正非微分的特征。FN代表假阴性,即该方法不能识别真正有差异的特征。RC表示等级相关性(Spearman’sgydF4y2Baρ\ (\ \)gydF4y2Ba)在特征的真实和估计等级之间。在比较两个置换方法时,基于Wilcoxon测试的版本比基于DESEQ的版本实现更高的精度。这可能是因为Wilcoxon测试是一个非参数测试,而Deseq是需要分布假设的参数测试。如在有效功能数量的U形曲线图中所示(附加文件gydF4y2Banba欧宝直播 :图。S4,S6,S8和S10),当数据高度膨胀时,显着特征的数量在完全置换场景中不接近零。此结果表明,当数据不遵循假定的分布时,DESEQ方法错误地将噪声识别为信号。简而言之,在处理具有未知复杂分布的数据时,威尔科克松测试的排列更加灵活。gydF4y2Ba

当我们将所提出的置换方法与标准版本的DESeq和LEfSe进行比较时,我们注意到DESeq在设置1中具有很高的特异性,但在设置2中由于违反了其参数假设而增加了假阳性率。与其他方法相比,LEfSe方法过于慷慨,假阳性率较高。LEfSe使用两种gydF4y2BapgydF4y2Ba-值和效果大小来确定命中;但是,它不调整gydF4y2BapgydF4y2Ba-值的多样性,我们的结果表明,默认阈值的效应大小可能过于慷慨。我们也注意到逻辑回归在设置2中有很高的假阴性。Logistic回归以二元结果为响应变量,以微生物特征为自变量。该模型假设响应变量的logit与预测变量之间存在线性关系,如果违反这一假设,可能表现不佳。gydF4y2Ba

图4.gydF4y2Ba
装具gydF4y2Ba

Smitsdata 1的分组效果比较1(gydF4y2Ba一个gydF4y2Ba)和SmitsData 2 (gydF4y2BabgydF4y2Ba)使用PCOA图。直线的长度表示每个单独的点到质心的距离。标记每个组的质心。椭圆表示对质心的1个标准偏差。在绘图A中,蓝色圆圈表示干组的PCOA评分,而红色三角形表示湿群的PCOA评分。在Plot B中,蓝色圆圈表示LDew组的PCoA得分,而红色三角形表示LWed组的PCOA得分gydF4y2Ba

应用gydF4y2Ba

在本节中,我们将提出的方法应用于两个微生物组研究。第一项研究包括五组。我们重新组合它们来构建具有不同级别的异质性的两个数据集。在第二项研究中,我们将微生物组组合物与两种不同的结果联系起来。gydF4y2Ba

图5.gydF4y2Ba
figure5gydF4y2Ba

重组数据的结果比较gydF4y2BaA1gydF4y2Ba- - - - - -gydF4y2BaA4gydF4y2Ba)和smitsdata 2(gydF4y2BaB1gydF4y2Ba- - - - - -gydF4y2BaB4gydF4y2Ba)具有不同水平的异质性。gydF4y2BaA1gydF4y2Ba和gydF4y2BaB1gydF4y2Ba绘制U形曲线的倍数。在gydF4y2BaA2gydF4y2Ba和gydF4y2BaB2gydF4y2Ba,我们对786个特征的重要性进行排序,然后绘制它们的分布图gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba-值在不同的排列场景中具有相同的顺序。gydF4y2BaA3gydF4y2Ba和gydF4y2BaB3gydF4y2Ba绘制显著命中比例的u型曲线。gydF4y2BaA4gydF4y2Ba和gydF4y2BaB4gydF4y2Ba以递减顺序绘制前100个特征的脆弱性指数。为了节省空间,省略了列出100个特性名称的图例gydF4y2Ba

图6.gydF4y2Ba
figure6gydF4y2Ba

将微生物组组成与位置联系起来时的结果比较(gydF4y2BaA1gydF4y2Ba- - - - - -gydF4y2BaA4gydF4y2Ba)和性别(gydF4y2BaB1gydF4y2Ba- - - - - -gydF4y2BaB4gydF4y2Ba)。A1和B1绘制显著命中数的u型曲线。在A2和B2中,我们对267个特征的重要性进行排序,然后作图gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba-值在不同的排列场景中具有相同的顺序。A3和B3绘制大量击中比例的U形曲线。A4和B4用下降顺序绘制前50个功能的脆弱索引。为了节省空间,省略了列出50个特性名称的图例gydF4y2Ba

第一项研究对350份粪便样本的肠道微生物群进行了检测,这些粪便样本是从坦桑尼亚的哈扎采猎者那里纵向收集了一年多的时间。随后采集5个季节组:2013-LD(晚干)、2014- ew(早湿)、2014- lw(晚湿)、2014- ed(早干)和2014- LD(晚干)。Smits SA等[gydF4y2Banba欧宝直播 ]发现,哈德扎人肠道微生物群落组成具有周期性和季节性差异。他们观察到,枯水期的样品与丰水期的样品有明显区别,而与连续年份的其他枯水期的样品没有明显区别。我们结合2014-ED (gydF4y2Ba\(n = 33 \)gydF4y2Ba)和2014-ld(gydF4y2Ba\(n = 133 \)gydF4y2Ba)作为“干”组,并结合2014-EW(gydF4y2Ba\ \ (n = 62)gydF4y2Ba)和2014-LW(gydF4y2Ba\(n = 58 \)gydF4y2Ba)为“湿”组。我们将这个重新分组的数据称为SmitsData 1。同样,我们将2013-LD (gydF4y2Ba\ \ (n = 64)gydF4y2Ba)和2014年 - ew(gydF4y2Ba\ \ (n = 62)gydF4y2Ba)为“LDEW”集团,并合并2014-LW (gydF4y2Ba\(n = 58 \)gydF4y2Ba)及2014-ED (gydF4y2Ba\(n = 33 \)gydF4y2Ba)为“LWED”组。我们将这个重新分组的数据称为SmitsData 2。我们预计SmitsData 1在Dry和Wet组之间的差异要大于SmitsData 2在LDEW和LWED组之间的差异。如两个数据的PCoA图所示(图。gydF4y2Banba欧宝直播 ),SMITSDATA 1中的干燥和湿法组(gydF4y2BapgydF4y2Ba-gydF4y2Ba文本\ ({\ {value}} = 1 e {-} 5 \)gydF4y2Ba基于alporova)比Smitsdata 2中的群体更差异(gydF4y2BapgydF4y2Ba-gydF4y2Ba\({\ hbox {value}} = 2e { - } 5 \)gydF4y2Ba基于PERMANOVA)。gydF4y2Ba

总共有786个分类特征。我们在Smitsdata 1上执行渐进式排列测试(干燥gydF4y2Ba\ \ (n_1 = 166)gydF4y2Ba与潮湿gydF4y2Ba\(n_2 = 120 \)gydF4y2Ba)和smitsdata 2(LDewgydF4y2Ba\(n_1 = 126 \)gydF4y2Ba和lwgydF4y2Ba\ \(甲烷= 91)gydF4y2Ba)。SmitsData 1(A1-A4)和SMIsDATA 2(B1-B4)的结果如图2所示。gydF4y2Banba欧宝直播 。在观察到的数据(无排列)中,差分测试提供更大的命中(gydF4y2BapgydF4y2Ba- 从Smitsdata 1(A1中的672)比Smitsdata 2(B1中的345)少于0.05)。还有更多gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba- 比价值大于gydF4y2Ba\( - \,\ log _ {10} 0.05 \)gydF4y2Ba(A2 VS. B2)。Smitsdata 1(AUMC为0.53)的U形曲线比SMISDATA 2(AUMC为0.148)陡峭。基于脆性指数的曲线,SMITSDATA 1的前100个特征的整体稳健性(平均脆弱指数为54.93,在A4中)不仅仅是SMISDATA 2(平均脆弱指数为B4中的29.93)。smitsdata 1的完整排列方案是gydF4y2Ba\(k_f = 70 \)gydF4y2Ba。因此SmitsData 1的平均脆弱性指数是0.785。SmitsData 2的完整排列场景是gydF4y2Ba\(k_f = 53 \)gydF4y2Ba。因此,SmitsData 2的平均脆弱性指数是0.565。此外,SmitsData 1和SmitsData 2的第一个点的初始斜率分别为−0.153和−0.463,这也说明SmitsData 1的显著性更加稳健。这些结果表明,递进排列结果能够传达和量化被异质性干扰的整体关联。在特征识别方面,该方法获得了smitsdata1的656个特征和smitsdataa2的271个特征。gydF4y2Ba

第二项研究通过将14岁儿童的14岁儿童的肠道微生物群与同龄15欧洲的肠道微生物肠道的肠道微生物群体进行比较,调查了饮食的影响。de filippo等。[gydF4y2Banba欧宝直播 [两组之间的肠道微生物群在这两个地方的儿童有不同的饮食习惯。其中11人是女性。其中18人是男性。微生物组合物的性别几乎没有差异。总的来说,我们在Defilippo数据中有267个分类特征。我们执行逐行排列试验,分别将微生物组合物与位置和性别联系起来。位置(A1-A4)和性别(B1-B4)的结果如图2所示。gydF4y2Banba欧宝直播 。在观察到的数据中,差分测试提供比性别的位置更加重要的位置(161 in A1)(11对于A2)。结果表明,微生物组合物与位置而不是性别相关的,因为位置(A3中的0.253)的AUMC大于性别(B3中0.035)的AOMC。性别(B1和B3)的U形曲线几乎是平坦的,这意味着微生物组成和性别之间的整体联系较弱。基于脆弱指数的曲线,位置前50个特征的整体鲁棒性(平均脆弱指数为4.12,在A4中)比性别(平均脆弱指数为0.98)。位置的完整置换方案是gydF4y2Ba\ (K_f = 7 \)gydF4y2Ba,位置的平均鳞片脆性指数为0.589。性别的完整排列方案是gydF4y2Ba\ (K_f = 7 \)gydF4y2Ba,性别脆弱性量表的平均评分为0.14。此外,前7个点的位置和性别的平均斜率分别为−1.17和−0.03,也表明性别在所有情景下都不显著。所有这些结果表明,渐进排列方法可以测量和排序微生物组和多个感兴趣的结果之间的整体关联。对于相关性高的结果,我们将继续识别与它们相关的微生物组特征。gydF4y2Ba

图7.gydF4y2Ba
figure7gydF4y2Ba

发现清单,效应大小和个体丰度。gydF4y2Ba一个gydF4y2Ba表示前50个功能的覆盖图,顺序减少。颜色点表示gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba- 原始数据中的前50个功能(排列比例为0)。水平杆描述了95%的量级置信区间gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba- 在完整的排列方案中的值。gydF4y2BabgydF4y2Ba为识别特征的效应量。gydF4y2BacgydF4y2Ba,gydF4y2BadgydF4y2Ba用中分位数垂直线表示普氏菌和密螺旋体丰度的点图gydF4y2Ba

我们包括通过观察我们的软件中的个别功能的识别gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba- 目标特征的值位于95%的中位数的置信区间内gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba-完全排列场景的值。该方法识别了155个位置特征和0个性别特征。如图左上面板所示。gydF4y2Banba欧宝直播 ,所有前50个功能都很重要。这些50个显着特征的效果大小绘制在右上面板中。我们的研究结果与已发表的结果一致[gydF4y2Banba欧宝直播 ]。欧洲儿童的责任比非洲儿童更丰富。Fvootella和Treponema(Spirochaetaceae)在非洲儿童中更丰富,而不是在欧洲儿童(如图的下面板所示。gydF4y2Banba欧宝直播 )。gydF4y2Ba

总之,我们的方法首先探讨了微生物组组合物和结果变量之间的整体关联(可能因异质性复杂)。如果协会是合理的,它将确定个体命中的重要性,列出其效果大小并绘制个人丰富。gydF4y2Ba

分析性质gydF4y2Ba

诸如均值,差异,中位数和等级的各种汇总统计,已被用于分析两组之间的差异。每个统计数据都与样品分布的假设一起,包括正常,负二项式等。其中,在正常假设下的平均测试是用于组比较的最广泛使用的统计技术之一。其他类型的测试将标准扩展到需要具体假设或限制的更广泛的情况。因此,在执行Z测试的基本设置中追求渐进式置换方法的理论方面是值得的。参数测试的理论结果可以为渐进式置换耦合耦合非参数测试提供洞察,因为我们希望观察它们之间的类似模式。为了简化问题,我们假设观察高斯家庭的两组变量。两个组都具有相同数量的变量gydF4y2BapgydF4y2Ba。第1组的总体分布是gydF4y2Ba\({\ mathcal {n}}(\ mu _j ^ 1,\ sigma ^ 2)\)gydF4y2Ba和第2组的人口分布是gydF4y2Ba\({\mathcal {N}}(\ _j^2,\sigma ^2)\)gydF4y2Ba。我们的目标是测试假设gydF4y2Ba\(h_ {0j}:\ mu _j ^ 1 = \ mu _j ^ 2,\,{\ mathrm {与}} \,h_ {1j}:\ mu _j ^ 1 \ ne \ mu _j ^ 2 \)gydF4y2Ba。gydF4y2Ba

对于示例数据,我们使用gydF4y2Ba1 \ \(间{ij} ^)gydF4y2Ba表示这一点gydF4y2Ba我gydF4y2Ba的观察gydF4y2BajgydF4y2Ba第1组和gydF4y2Ba\(间{ij} ^ 2 \)gydF4y2Ba表示这一点gydF4y2Ba我gydF4y2Ba的观察gydF4y2BajgydF4y2Ba组中的变量。数据样本是由高斯分布生成的gydF4y2Ba\(x_{ij}^1\sim {\mathcal {N}}(m_j^1,\sigma ^2)\)gydF4y2Ba和gydF4y2Ba\(x_{ij}^2\sim {\mathcal {N}}(m_j^2,\sigma ^2)\)gydF4y2Ba。每个组中每个变量的观察都是独立的并相同分布的。我们表示第1组中的分组标签gydF4y2Ba\ (^ 1 = \ {1 \ ldots n_1 \} \)gydF4y2Ba。我们表示第2组中的分组标签gydF4y2Ba\ (^ 2 = \ {1 \ ldots甲烷\}\)gydF4y2Ba。检验总体均值差值(gydF4y2Ba\ \(μ_j ^ 1 - \μ_j ^ 2 \)gydF4y2Ba)的gydF4y2BajgydF4y2Ba第两个组之间的变量,我们计算样本均值差如下:gydF4y2Ba

$$ \ begined {legiled} {{\ varvec {\ bar {x}}}} _ j ^ 1 - {{\ varvec {\ bar {x}}} _ j ^ 2 = \ frac {1} {n_1}sum _ {i = 1} ^ {n_1} x_ {ij} ^ 1- \ frac {1} {n_2} \ sum _ {i = 1} ^ {n_2} x_ {ij} ^ 2 \ sim {\ mathcal {左(m_j ^ 1-m_j ^ 2,\ frac {n_1 + n_2} {n_1n_2} \ sigma ^ 2 \右)。\结束{对齐} $$gydF4y2Ba
(2)gydF4y2Ba

现在我们执行渐进式排列方法和随机绘制gydF4y2BakgydF4y2Ba来自第1组和的样品gydF4y2BakgydF4y2Ba来自第2组的示例,然后交换它们的分组标签。我们表示第1组中所选标签gydF4y2Ba\ (I_k ^ 1 = \{我^ 1 _1 \ ldots ^ 1 _k \} \)gydF4y2Ba。我们表示第2组中所选标签gydF4y2Ba\(i_k ^ 2 = \ {i ^ 2_1,\ ldots,i ^ 2_k \} \)gydF4y2Ba。然后是样本均值差gydF4y2BajgydF4y2Ba置换情景中的变量gydF4y2BakgydF4y2Ba成为gydF4y2Ba

$$ \ begined {对齐} {{\ varvec {\ bar {x'}}}} _ j ^ 1 - {{\ varvec {\ bar {x'}}} _ j ^ 2&= \ frac {1} {n_1} \ sum _ {i \ In i ^ 1 \ setminus i ^ 1_k} x_ {ij} x_ {ij} ^ 1 + \ frac {1} {n_1} \ sum _ {i \在i ^ 2_k} x_ {ij} ^ 2 -\ frac {1} {n_2} \ sum _ {i \ In i ^ 2 \ setminus i ^ 2_k} x_ {ij} ^ 2 - \ frac {1} {n_2} \ sum _ {i \ In i ^ 1_k}x_ {ij} ^ 1 \\&\ sim {\ mathcal {n}} \ left(\ left(1- \ frac {n_1 + n_2} {n_1n_2} k \右)\ left(m_j ^ 1-m_j ^ 2\右),\ frac {n_1 + n_2} {n_1n_2} \ sigma ^ 2 \右)。\结束{对齐} $$gydF4y2Ba
(3)gydF4y2Ba

我们假设gydF4y2Ba\(m_j ^ 1> m_j ^ 2 \)gydF4y2Ba。置换后的样本意味着差异(gydF4y2Banba欧宝直播 )小于排列前的那些(gydF4y2Banba欧宝直播 )。表示gydF4y2Ba\(\ delta _j = \ frac {m_j ^ 1-m_j ^ 2} {\ sigma} \)gydF4y2Ba。这gydF4y2BapgydF4y2Ba价值的gydF4y2BajgydF4y2Ba原假设下的第一个变量为gydF4y2Ba

$ $ \{对齐}开始p_j (k) & = P \离开(z | | > \压裂{({{\ varvec{\酒吧{x}}}} _j ^ 1 - {{\ varvec{\酒吧{x '}}}} _j ^ 2),(\μ_j ^ 1 - \μ_j ^ 2)}{\√6{\压裂{n_1 +甲烷}{n_1n_2} \σ^ 2}}\境\绿色H_ j{0}: \μ_j ^ 1 - \μ_j ^ 2 = 0 \) \ \ & = 2 P \左(z + \压裂{{{\ varvec{\酒吧{x}}}} _j ^ 1 - {{\ varvec{\酒吧{x}}}} _j ^ 2}{\√6{\压裂{n_1 +甲烷}{n_1n_2} \σ^ 2}}< 0 \)\ \ &φ= 2 \ \左(- \√6{\压裂{n_1n_2} {2 (n_1 +甲烷)}}(1 - \压裂{n_1 +甲烷}{n_1n_2} k) \δ_j \右)\{对齐}$ $gydF4y2Ba
(4)gydF4y2Ba

在哪里gydF4y2Ba\(k \ le \ lceil \ frac {n_1n_2-1} {n_1 + n_2-1} \ rceil \)gydF4y2Ba。gydF4y2Ba\(\ phi(\ cdot)\)gydF4y2Ba表示标准正态分布的累积函数。因此,随着交换标签的增多gydF4y2BakgydF4y2Ba,gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba值更小。当我们在每个场景中执行双面z检验时,排列结果(gydF4y2BapgydF4y2Ba-values)对于完全混合的情况是对称的gydF4y2Ba\ (K_f = \ lceil \压裂{n_1n_2-1} {n_1 +甲烷+ 2}\ rceil \)gydF4y2Ba。然后我们可以得到gydF4y2BapgydF4y2Ba价值的gydF4y2BajgydF4y2Ba当时变量gydF4y2Ba\ (k = K_f \ ldots k \)gydF4y2Ba作为gydF4y2Ba\(p_j(k)= 2 \ phi \ left(\ sqrt {\ frac {n_1n_2} {2(n_1 + n_2)}} \ left(1- \ frac {n_1 + n_2} {n_1n_2} k \右)\delta _j \右)\)gydF4y2Ba。gydF4y2Ba\(——\ \日志_ {10}p_j (k) \)gydF4y2Ba随gydF4y2BakgydF4y2Ba当gydF4y2Bale K_f le k \ \ (0 \ \)gydF4y2Ba和增加gydF4y2BakgydF4y2Ba当gydF4y2Ba\(k_f \ le k \ le k \)gydF4y2Ba。gydF4y2Ba

对于真实世界的数据,比例样本的平均值差异gydF4y2Baδ_j \ (\ \)gydF4y2Ba取一系列不同的数字。例如,假设gydF4y2Ba\ (n_1 =甲烷= n \)gydF4y2Ba和gydF4y2Baδ_j \ (\ \)gydF4y2Ba取值范围为0到2,然后为gydF4y2Ba\(k = 0 \)gydF4y2Ba,gydF4y2BapgydF4y2Ba值gydF4y2Ba\(p_j(0)= 2 \ phi( - \ frac {\ sqrt {n}} {2} \ delta _j)\)gydF4y2Ba将均匀地分布在0到1.如果我们假设所有样本平均差异的极端情况,则相同且等于0(gydF4y2Ba\(\ delta _j = 0 \)gydF4y2Ba),表明没有组间差异gydF4y2BapgydF4y2Ba-values将是1在所有的排列方案,使曲线gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba- 值和重要特征的数量将成为一个平坦的水平线。我们定义gydF4y2Ba\(\ frac {k} {k} \)gydF4y2Ba作为混合的比例。我们让gydF4y2Ba\ (n_1 =甲烷= 20 \)gydF4y2Ba。如果我们使用组差异生成示例数据,这意味着gydF4y2Baδ_j \ (\ \) > 0gydF4y2Ba,然后我们可以在图中观察。gydF4y2Banba欧宝直播 ,gydF4y2Ba\(——\ \日志_ {10}p_j (k) \)gydF4y2Ba是一个U形曲线gydF4y2Ba\(\ frac {k} {k} \)gydF4y2Ba。为了简化可视化,我们假设所有gydF4y2Baδ_j \ (\ \)gydF4y2Ba是一样的,所以那么gydF4y2BapgydF4y2Ba-值也是一样的。如果样本均值的差异越大,u曲线越陡峭。样本标准差越大,u型曲线越平坦。因此,u型曲线的形状衡量了两组之间兴趣的量化差异。gydF4y2Ba

图8gydF4y2Ba
figure8gydF4y2Ba

U形曲线图gydF4y2BapgydF4y2Ba- 从公式计算的值(gydF4y2Banba欧宝直播 )。两个样本尺寸gydF4y2Ba\ (n_1 \)gydF4y2Ba和gydF4y2Ba\(n_2 \)gydF4y2Ba是20. x轴是gydF4y2Ba\(\ frac {k} {k} \)gydF4y2Ba。在gydF4y2Ba一个gydF4y2Ba,标准偏差gydF4y2Ba\(\ sigma \)gydF4y2Ba固定为2。在gydF4y2BabgydF4y2Ba, 平均差gydF4y2Ba\(m_j ^ 1-m_j ^ 2 \)gydF4y2Ba固定在1gydF4y2Ba

讨论gydF4y2Ba

在这项工作中,我们提出了一种分析微生物组数据的方法,该数据逐步吹扫分组因子并在每个场景中进行差异丰度测试。传达与分组因素的整体联系,我们总结了由此产生的gydF4y2BapgydF4y2Ba- 由大量击中数量的值。如果微生物组和分组因子之间的整体关联不为零,则该数字将在混合深度呈现U形曲线。AUMC提供了逐行置换结果的概述,允许定量整体信号强度,这有趣地受到异质性的影响。仿真结果表明,U形曲线的形状可以量化数据集中的不同级别的异质性。如果我们有多个分组因素,我们可以通过将每个分组因子与整体微生物组合物联系起来,通过将每个分组因子与微生物组组成相关联。一般来说,我们建议重点关注具有较高AUMC值的分组因素,以便随后进行深入分析。gydF4y2Ba

一旦我们确定了一个感兴趣的分组因素,我们就可以寻找与分组因素紧密相关的微生物组特征。根据排列结果,我们可以将所有微生物群落特征按其脆弱性指数进行排序,脆弱性指数的值越大,对应的发现越稳健。我们可以确定潜在的相关微生物组特征通过比较gydF4y2BapgydF4y2Ba-置信区间为的观测数据的值gydF4y2BapgydF4y2Ba- 完全混合数据的值。仿真和实际数据应用表明,我们的提出方法可以传达微生物组成和感兴趣的结果之间的整体关联,对所发现的特征的鲁棒性进行排名,并识别强大的个人命中。gydF4y2Ba

通过仿真,我们表明观察特征的信号强度由若干因素控制,包括零的比例,平均差异和方差。信号排序的正确性部分受到用于获得的测试的选择的影响gydF4y2BapgydF4y2Ba- 在每个置换设置中的值。Wilcoxon测试是一个非参数测试,其考虑了每个分类群的丰富级别。虽然订购结果并不完美,但我们通过模拟显示所提出的方法可以以高精度率识别差分特征。我们的论文主要是为微生物组数据的一般探索和可视化设计,并且不具有正式推理方法。我们提出的措施,例如AOI或AOUC,旨在描述,但研究人员可以从我们的方法中获取结果作为帮助识别强大功能的指南。此时,我们的方法不控制错误的发现率或计算调整gydF4y2BapgydF4y2Ba值。在未来的工作中,我们将考虑使用渐进式置换结果来调整gydF4y2BapgydF4y2Ba-值通过控制经验贝叶斯错误发现率。gydF4y2Ba

为了更好地了解渐进式排列和假设检测之间的关系,我们使用信号和噪声的语言来描述假设检测。可以将空假设识别为数据仅包含噪声和无信号的情况。替代假设是数据包含重要信号和噪声的情况[gydF4y2Banba欧宝直播 ]。渐进式排列使两组样本逐渐混合。随着混合次数的增加,信号所占比例减小,而噪声所占比例增加。因此,完全排列的数据可以看作是零假设的实现,而观察到的数据(没有排列)可以看作是备选假设的实现。从概念上讲,渐进式排列以连续的方式将假设检验的二元端点从备择假设连接到零假设。因此,该方法将信号识别问题视为从原始数据集的排列随机版本中逐步分离出信号。gydF4y2Ba

在本文中,我们将重点放在将微生物组组成与二元结果联系起来,创建一个新的框架来理解微生物组特征的重要性和鲁棒性。按照同样的逻辑,我们可以将二元结果扩展为连续结果。当构造渐进排列场景时,我们排列一个比例(选择gydF4y2BakgydF4y2Ba样品和计算gydF4y2Ba\ \(压裂{k} {n} \)gydF4y2Ba)连续结果。在每种情况下,我们都执行Kendall的Tau和Spearman的秩相关试验,以将微生物组成与允许的连续结果相关联。然后,我们采用类似的程序与二进制结果一起总结置换结果。我们已经将渐进式应用于示例数据集的连续结果(参见其他文件gydF4y2Banba欧宝直播 :教派。S5)。gydF4y2Ba

我们已将这些方法开发成使用可视化的用户友好且高效的R闪亮的工具。在我们的实现中,我们首先对每个功能进行差异测试,然后获得gydF4y2Ba\( - \,\ log _ {10} p \)gydF4y2Ba- 从数据排列中值。默认情况下,我们使用Wilcoxon等级和测试来计算gydF4y2BapgydF4y2Ba-values,因为它是一个稳健的非参数检验。我们提出的方法也可以利用gydF4y2BapgydF4y2Ba-从其他测试方法获得的值,如DESeq。这表明了渐进排列法在新环境下的巨大潜力。gydF4y2Ba

数据和材料的可用性gydF4y2Ba

Smits的数据与以下出版物一起提供:Smits等人的《坦桑尼亚哈扎狩猎采集者肠道微生物的季节性循环》,gydF4y2Ba科学gydF4y2Ba。2017; 357(6353):802-806。16S rRNA扩增子序列数据和霰弹枪代理数据已经存放在项目IDS prjna392012,prjna392180(gydF4y2Bawww.ncbi.nlm.nih.gov/sra.gydF4y2Ba)。Defilippo数据与以下出版物相关联:De Filippo等人。“欧洲农村儿童的比较研究表明,饮食对成型肠道微生物的影响”,gydF4y2Ba美国国家科学院院刊gydF4y2Ba。2010; 107(33):14691-14696。使用ISA工具(iSacreator和iSaconverter,将16S RRNA扩增子序列数据提交到序列读取存档(SRA),gydF4y2Bahttp://isatab.sourceforge.net/index.html.gydF4y2Ba)。数据集可用gydF4y2Bahttp://www.ebi.ac.uk/ena/data/view/ERP000133gydF4y2Ba。此外,rshiny应用程序可访问gydF4y2Bahttps://biostatistics.mdanderson.org/shinyapps/ProgPermgydF4y2Ba。R代码和示例数据可用gydF4y2Bahttps://github.com/lyonszhang/progperm.gydF4y2Ba。gydF4y2Ba

缩写gydF4y2Ba

AOI:gydF4y2Ba

感兴趣的领域gydF4y2Ba

AUMC:gydF4y2Ba

混合曲线下的区域gydF4y2Ba

参考文献gydF4y2Ba

  1. 1。gydF4y2Ba

    Knight R,Vrbanac A,Taylor Bc,Aksenov A,Callewaert C,Debelius J,等。分析微生物瘤的最佳实践。NAT Rev Microbiol。2018; 16(7):410。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  2. 2。gydF4y2Ba

    acta photonica sinica, 2011, 41(6): 985 - 989 .杰志,夏华,钟双林,冯强,李松,梁松,等。动脉粥样硬化性心血管疾病中的肠道微生物群Nat Commun。2017;8(1):845。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  3. 3.gydF4y2Ba

    Vogt NM,Kerby RL,Dill-McFarland Ka,Harding Sj,Merluzzi AP,Johnson Sc等。肠道微生物组在阿尔茨海默病中的改变。SCI批准。2017; 7(1):13537。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  4. 4。gydF4y2Ba

    Cani Pd,乔丹BF。肠道微生物会介导的肥胖症中的炎症:与胃肠癌的联系。NAT Rev Gastroenterol肝肝肝。2018; 15:1。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  5. 5。gydF4y2Ba

    Wei X,Tao J,Xiao S,Jiang S,Shang E,Zhu Z等。谢鑫唐通过调节肠道微生物肿瘤改善2型糖尿病大鼠的症状。SCI REP。2018; 8(1):3685。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  6. 6。gydF4y2Ba

    Gopalakrishnan v,Helmink Ba,Spencer CN,Reuben A,Wargo Ja。肠道微生物组对癌症,免疫和癌症免疫疗法的影响。癌细胞。2018; 33(4):570-80。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  7. 7。gydF4y2Ba

    Ong IM,Gonzalez JG,McIlwain SJ,Sawin Ea,Schoen Aj,Adluru N等人。肠道微生物群体与白质架构的结构特定变化相关联。翻译精神病学。2018; 8(1):6。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  8. 8。gydF4y2Ba

    Riquelme E,张Y,张L,Montiel M,Zoltan M,Dong W等人。肿瘤微生物组多样性和组成影响胰腺癌结果。细胞。2019; 178(4):795-806。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  9. 9。gydF4y2Ba

    Paulson JN,Stine OC,Bravo HC,Pop M.微生物标记基因调查的差分丰度分析。NAT方法。2013; 10(12):1200。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  10. 10。gydF4y2Ba

    罗宾逊MD,麦卡锡DJ,SMYTH GK。编辑:用于数字基因表达数据的差异表达分析的生物导体包。生物信息学。2010; 26(1):139-40。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  11. 11.gydF4y2Ba

    爱情MI,Huber W,Anders S.使用DESEQ2的RNA-SEQ数据的折叠变化和分散的调节估计。基因组Biol。2014; 15(12):550。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  12. 12.gydF4y2Ba

    Mandal S,Van Treuren W,White Ra,Eggesbøm,骑士r,peddada sd。微生物瘤组成分析:一种研究微生物组合物的新方法。微生物ECOL健康。2015; 26(1):27663。gydF4y2Ba

    谷歌学术gydF4y2Ba

  13. 13。gydF4y2Ba

    Fernandes AD, Reid JN, Macklaim JM, McMurrough TA, Edgell DR, Gloor GB。统一高通量测序数据集分析:通过成分数据分析来表征RNA-seq、16S rRNA基因测序和选择性生长实验。微生物。2014;2(1):15。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  14. 14。gydF4y2Ba

    segaata N, Izard J, Waldron L, Gevers D, Miropolsky L, Garrett WS等。宏基因组生物标志物的发现和解释。基因组医学杂志。2011;12 (6):R60。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  15. 15.gydF4y2Ba

    基因组学的多重假设检验。统计医学。2014;33(11):1946 - 78。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  16. 16。gydF4y2Ba

    Jiang L,Amir A,Morton JT,Heller R,Arias-Castro E,Knight R.离散错误发现率改善了差异丰富的微生物的鉴定。MSYSTEMS。2017; 2(6):E00092-17。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  17. 17。gydF4y2Ba

    Walsh M,Srinathan SK,Mcauley DF,Mrkobrada M,Levine O,Ribic C等人。随机对照试验结果的统计学意义经常是脆弱的:脆弱指数的情况。J Clin流行病。2014; 67(6):622-8。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  18. 18。gydF4y2Ba

    单位脆弱性指数:对两个比例对比的“统计显著性”的附加评价。临床流行病学杂志。1990;43(2):201-9。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  19. 19。gydF4y2Ba

    Smirnova E,Huzurbazar S,Jafari F.完美:微生物组数据的排列滤波测试。生物统计学。2019; 20(4):615-31。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  20. 20。gydF4y2Ba

    Anders S,Huber W.序列计数数据的差异表达分析。nat proc。2010; 11:1。gydF4y2Ba

    谷歌学术gydF4y2Ba

  21. 21。gydF4y2Ba

    Hawinkel S,Mattiello F,Bijnens L,Thas O.破碎的承诺:微生物族差分丰度方法不控制错误的发现率。简短生物形式。2019; 20(1):210-21。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  22. 22。gydF4y2Ba

    欧文ab。蒙特卡罗理论,方法和例子;2013年。gydF4y2Bahttps://statweb.stanford.edu/~owen/mc/gydF4y2Ba。gydF4y2Ba

  23. 23。gydF4y2Ba

    考克斯助教,考克斯硕士。多维标度。伦敦:查普曼和霍尔;2000.gydF4y2Ba

    书gydF4y2Ba谷歌学术gydF4y2Ba

  24. 24。gydF4y2Ba

    Smits SA, Leach J, Sonnenburg ED, Gonzalez CG, Lichtman JS, Reid G等。坦桑尼亚哈扎族狩猎采集者肠道微生物的季节性循环。科学。2017;357(6353):802 - 6。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  25. 25。gydF4y2Ba

    liu liu, liu liu, liu liu,等。欧洲和非洲农村儿童的比较研究揭示了饮食对塑造肠道微生物群的影响。中国科学院学报,2010;gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  26. 26。gydF4y2Ba

    Carlin J,Doyle L.临床医生的统计:4:统计推理的基本概念:假设试验和T检验。J Paediad儿童健康。2001; 37(1):72-7。gydF4y2Ba

    中科院gydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

下载参考gydF4y2Ba

致谢gydF4y2Ba

作者感谢J. Jack Lee教授为我们提供了关于模拟的重要建议,帮助我们在服务器上启动闪亮的应用程序gydF4y2Bahttps://biostatistics.mdanderson.org/shinyapps/ProgPermgydF4y2Ba。gydF4y2Ba

资金gydF4y2Ba

KAD部分由MD Anderson Moon Shots程序,前列腺癌孢子P50CA140388,NIH / NCI CCSG Grant P30CA016672,CCTS 5UL1TR000371和CPRIT RP160693授予。CBP由NIH / NCI CCSG Grant P30CA016672和MD Anderson Moon Shot程序部分支持。RRJ由NIH R01 HL124112部分支持,CPRIT RR160089补助金。该资助者在研究的设计中没有作用,数据分析或写作稿件。gydF4y2Ba

作者信息gydF4y2Ba

隶属关系gydF4y2Ba

作者gydF4y2Ba

贡献gydF4y2Ba

RJ构思了这项研究。RJ,CP和KD为此项目提供了指导。LZ和RJ提出了该方法。LZ实现了模拟和方法。LZ在YS,KD,CP和RJ的帮助下分析结果。LZ在CP和RJ的帮助下写了稿件。所有作者都读过并批准了稿件。gydF4y2Ba

通讯作者gydF4y2Ba

对应到gydF4y2Ba梁良张gydF4y2Ba。gydF4y2Ba

伦理宣言gydF4y2Ba

伦理批准并同意参与gydF4y2Ba

不适用。gydF4y2Ba

同意出版gydF4y2Ba

不适用。gydF4y2Ba

相互竞争的利益gydF4y2Ba

提交人声明他们没有竞争利益。gydF4y2Ba

额外的信息gydF4y2Ba

出版商的注意事项gydF4y2Ba

欧宝体育黑玩家《自然》杂志对已出版的地图和附属机构的管辖权主张保持中立。gydF4y2Ba

补充信息gydF4y2Ba

附加文件1.第S1节gydF4y2Ba

:数学符号。gydF4y2Ba第S2部分gydF4y2Ba:计算时间。gydF4y2Ba第S3节gydF4y2Ba:零的分布。gydF4y2Ba第S4节gydF4y2Ba:两种排列方法的结果。gydF4y2BaS5部分gydF4y2Ba:连续结果的结果。gydF4y2Ba

权利和权限gydF4y2Ba

开放访问gydF4y2Ba本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的创作共用许可中,除非在材料的信用线中另有说明。如果材料没有包含在文章的创作共用许可证中,而您的预期使用不被法律法规允许或超过允许的使用,您将需要直接获得版权持有人的许可。如欲浏览本许可证的副本,请浏览gydF4y2Bahttp://creativecommons.org/licenses/by/4.0/gydF4y2Ba。Creative Commons公共领域奉献豁免(gydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/gydF4y2Ba)适用于本文提供的数据,除非在数据的信用额度中另有说明。gydF4y2Ba

再版和权限gydF4y2Ba

关于这篇文章gydF4y2Ba

通过Crossmark验证货币和真实性gydF4y2Ba

引用这篇文章gydF4y2Ba

张玲,石勇,杜卡。gydF4y2Baet al。gydF4y2BaProgperm:渐进式释放用于微生物组发现的鲁棒性的动态表示。gydF4y2Ba欧宝娱乐合法吗22,gydF4y2Ba126(2021)。https://doi.org/10.1186/s12859-021-04061-3gydF4y2Ba

下载引用gydF4y2Ba

关键字gydF4y2Ba

  • 微分测试gydF4y2Ba
  • 脆弱性指数gydF4y2Ba
  • 特征选择gydF4y2Ba
  • 微生物组gydF4y2Ba
  • 排列gydF4y2Ba
  • 鲁棒性gydF4y2Ba
\gydF4y2Ba