跳到主要内容

CytoGLMM:用于流式细胞术和流式细胞术实验的条件微分分析

摘要

背景

流式和流式细胞术是检测单个细胞上多种蛋白表达水平的重要现代免疫学工具。目的是通过研究蛋白质的差异表达,更好地理解在单个细胞基础上的反应机制。大多数当前的数据分析工具比较许多计算发现的单元格类型的表达式。我们的目标是专注于一种细胞类型。我们较窄的应用领域允许我们定义更具体的统计模型,更容易控制统计保证。

结果

由于标记的相关性和学科间的异质性,标记表达的差异分析可能是困难的,特别是在人类免疫学研究中。我们用两种多元回归策略来解决这些挑战:自举广义线性模型和广义线性混合模型。在模拟数据集上,我们比较了两种策略对标记相关性和异质性的鲁棒性。在配对实验中,我们发现两种策略在中等相关性下都保持了目标错误发现率,并且在正确的模型规范下混合模型在统计上更强大。对于非配对实验,我们的结果表明,需要更大的患者样本量来检测差异。我们说明了cytoglmm.R.怀孕数据集的两种策略的包和工作流程。

结论

我们在流动和质量细胞测定数据中寻找差异蛋白质的方法减少了从标记相关性产生的偏差,并防止受患者异质性引起的虚假发现的偏差。

同行评审报告

背景

流(1]及细胞计数法[2[允许研究人员同时评估各个细胞上大量蛋白质的表达模式,允许深入询问细胞反应。这种研究的目标是通过定义与特定刺激或实验条件相关的蛋白质表达模式来改善单细胞的响应机制的理解。发现差异表达的蛋白质可以帮助识别细胞如何在实验条件下起作用。我们自己工作的一些例子包括:流感菌株之间的比较[3.],孕妇与非孕妇的比较[4.],在健康对照和艾滋病毒+个人之间进行比较[5.,多发性硬化症患者使用达利珠单抗或安慰剂治疗的比较[6.],比较上脑性工作者与健康控制的比较[7.].

分析流动和质量细胞术产生的数据的统计工作流程通常通过聚类细胞进入已知和新细胞类型。[8.提供了许多当前聚类算法的基准比较研究。聚类步骤之后是细胞类型之间和细胞类型内部的差异表达分析。最流行的差异分析工具有:柑橘类[9.], 这生物体工作流程借[10],赛达尔[11],CellCnn[12], 和diffcyt[13].

我们可以将差分分析方法分类为边缘回归分析,这些分析专注于各个标记 - 以及同时在多个标记上工作的多元回归分析。这生物体工作流程借[10],赛达尔, 和diffcyt是边际回归方法。边际回归方法的优势在于,它们允许灵活的实验设计——多因素、相互作用的设计、连续变量的设计、样条曲线等。这种方法的主要缺点是,在研究特定的蛋白质标记时,对每种蛋白质的差异表达进行单独测试,而忽略所有其他标记。因此,这些方法容易受到标记相关性引起的偏差的影响。

柑橘类CellCnn是多元回归方法。它们的优点是可以提供蛋白质对结果影响的条件解释,从而减少由于标记相关性造成的偏差。缺点是柑橘类通过取每个细胞类型的中位数来总结蛋白质表达,这可能导致统计功率的下降。功率的降低来自于细胞样本大小从数千个细胞减少到每个样本一个细胞。另一方面,CellCnn使用神经网络,目前还不清楚如何建立置信区间,推导\(p \)- 和控制错误报告的标记的数量。

考虑一个例子可以进一步说明边缘和多元回归方法之间的差异是有帮助的。考虑两个涉及干扰素的细胞内蛋白质 -\(\gamma\)介导的信号STAT1IRF1.假设应用刺激STAT1激活转录IRF1.进一步假设刺激不会直接激活IRF1.如果我们在蛋白质上进行了单独的差异分析STAT1IRF1,我们可以观察到两者的微分表达式STAT1IRF1即使只有STAT1已直接激活。相比之下,将报告多元回归方法STAT1鉴于差异表达IRF1, 和IRF1没有差异表达STAT1

cytoglmm.实现多元回归,解释标记相关性,没有上述限制。我们的方法与现有方法的主要区别在于,我们专注于细胞特异性差异分析和一种固定的细胞类型,而当前的方法(柑橘类CellCnn赛达尔, 和diffcyt)共同学习细胞类型并进行差异分析。更窄的应用领域允许我们定义更具体的统计模型,更容易控制统计保证。只有生物体工作流程借[10]专注于特定的细胞类型,但如前所述,它们采用了边际回归,这与我们的多元回归方法难以比较;随着两种方法有不同的目的。

我们介绍了两种版本的多元回归:(1)用于未配对样本的广义线性模型(GLM)。GLM是一个回归模型,允许遵循不同分布的响应和错误术语而不是正常。(2)限制的广义线性混合模型(GLMM),其是允许随机和固定效果的GLM,用于配对样本 - 当相同的供体提供两个样本时,每个条件都是一个。GLM和GLMMS是对非正常数据的最小二乘范围的概括。在我们的情况下,我们将使用Logistic回归来模拟实验条件作为不公平的硬币翻转 - 当硬币​​翻转头部抬起头,然后宣布将细胞刺激,否则是未刺激的刺激。在应用变换后,使用标记表达的线性模型模型模拟硬币公平性,该转换确保每个硬币翻转的概率为零和一个。

我们的模型从经典模型出发,其中标记表达是响应变量。在我们的glms中,如果回归系数为零,则实验条件与给定其他标记的兴趣的标记表达无关([[14]). 相反,通常的边际回归分析不允许这种条件陈述。例如,它不允许我们排除仅仅与其他制造者相关,但独立于实验条件的标记,如前面的例子所示。

总之,我们的两个主要捐款是:

  1. 1.

    我们提出了一种有条件的差异分析,以避免通过使用多元回归而不是边缘回归来引起标记相关性引起的偏差。

  2. 2.

    我们提出了两种多元回归策略,它们与未汇总的表达数据一起工作,以最大限度地提高统计能力,并解释患者异质性,以防止错误发现:(1)具有患者级bootstrap的glm,以及(2)具有患者级随机效应的glm。

这 ”结果“部分评估了我们所实施的两种策略的统计特性R.cytoglmm.在不同的模拟数据集上,并说明了真实妊娠数据的完整工作流程。在里面 ”讨论“部分,我们在偏见和混乱方面讨论了我们的结果。在里面 ”方法“部分,我们审查了GLM和GLMM的统计背景。

结果

我们首先对模拟数据集上的配对和非配对样本评估GLM和GLMM程序。然后我们在一个真实的怀孕数据集上测试它们。

模拟数据集

我们生成了细胞和供体水平可变性的模拟数据。我们考虑到标记之间的负相关和正相关以及广泛的相关强度。我们模拟了从弱到强的患者/细胞可变性的不同场景。为了确保我们生成了正数,我们使用了泊松噪声模型,然后用指数函数将生成的表达式转换为正实数。这类似于使用泊松glm的日志链接函数。总的来说,有四个主要参数:相关性\(\ rho _b \)和标准偏差\(\ sigma _b \)在细胞水平和相关性\ \(ρ_U \)和标准偏差\ \(σ_U \)在捐助者水平。此外,我们可以调节每个样本的细胞数量和每个数据集的捐赠者的数量。通过在对数标度上移动平均矢量来引起差分表达信号。在模拟细胞暴露于具有两种水平的实验条件下,研究三种标记中的三种标记的差异表达:刺激与未刺激的细胞。这 ”模拟数据集的构建“部分提供了模拟数据集的统计模型的详细数学描述。

我们用各种不同的参数进行模拟。所有模拟都有16个样本。对于配对样本,这16个样本来自8个捐献者。对于未配对的样本,这16个样本来自16位捐赠者。每个样本有1000个细胞。我们比较了错误发现率(FDR)和功率。FDR测量了统计第1类错误,即错误申报的发现占报告发现总数的预期比例。统计能力表示正确报告的发现占真实发现总数的比例。

图1
图1

每个样本的1000个细胞的实验概述平均超过100个运行。水平虚线表示目标FDR。后缀BH和Acce at atte of相应的fdr控制程序。下标B.表示细胞和供体级标准偏差\(\ sigma \)和相关性ρ\ (\ \), 分别

图2
figure2

每个样本的1000个细胞的实验概述平均超过100个运行。水平虚线表示目标FDR。后缀BH和Acce at atte of相应的fdr控制程序。下标B.表示细胞和供体级标准偏差\(\ sigma \)和相关性ρ\ (\ \), 分别

数字12显示一个具有效果大小的配对样本和非配对样本实验100次以上的平均摘要\(delta _p^{(1)}- delta _p^{(0)} = 1.8\)\(\ delta _p ^ {(1)} - \ delta _p ^ {(0)} = 15 \),以及不同的标准偏差\(\ sigma \)和相关性ρ\ (\ \)参数。虚线表示的是目标FDR\(0.05 \)

首先,让我们考虑配对的样本实验。当我们在固定量的细胞中改变细胞和供体水平相关时,左侧显示结果\(\ sigma _b = 1 \)和捐赠者\(\ sigma _u = 1 \)标记标准偏差。我们只观察到捐赠者相关性的小差异\ \(ρ_U \)随着相关性增加的力量增加。相比之下,作为细胞相关性的功能存在大的功率增加\(\ rho _b \).在右边的图中,我们将两者的相关性设置为零,并改变标记的标准偏差。在这种情况下,我们在细胞水平上再次观察到随着标准差的增加而发生的主要变化\(\ sigma _b \):细胞水平变化越大,功率越低。对于供体水平的可变性也是如此,尽管程度要小得多。在中等细胞水平标记相关性下,FDR被控制在目标水平以下(\(| \rho _B | \le 0.4\))除非细胞变异性为零\(\ sigma _b = 0 \),捐赠者变异性是一个\(\ sigma _u = 1 \). 正如所料,Benjamini–Yekutiel(BY)程序比Benjamini-Hochberg(BH)程序更为保守,即FDR和功率都较低。有趣的是,功率随着细胞水平相关性的增加而增加\(\ rho _b \),并且几乎不受捐助率相关性的影响\ \(ρ_U \).总体而言,GLMM方法比GLM方法更强大。数字3.显示了功率和FDR的模拟,每个样本和成对样本的单元数不同。单元格和供体标准偏差均设置为\(\sigma\U B=\sigma\U=1\),并将相关性设置为\rho _B = rho _U = 0\.我们使用相同的效应大小\(delta _p^{(1)}- delta _p^{(0)} = 1.8\)如在图1的实验中那样。1.当我们比较需要多少配对的样本来实现80%的功率时,效率增益清晰可见。我们观察到,使用1000个细胞,GLMM-BH需要七个配对样本超过80%的功率阈值,而GLM-BH需要13个配对样本以实现相同的样本。我们还可以看出GLMM-BH以每种样本少于1000个细胞的足够功率。我们添加结果柑橘类为了说明功率增益。注意,我们使用留一交叉验证来选择正则化参数,并选择预测误差最小的参数。最初的柑橘类实现使用FDR计算选择正则化参数。在我们的模拟研究中,原始程序在所有样本大小上产生零功率。

图3
图3

实验总结,每个样本有不同的细胞数量,平均超过100次。幂:水平虚线表示0.8的幂。FDR:水平虚线表示目标FDR为0.05

在未配对的样本实验中,我们只显示GLM结果随着GLMM结果有零的功率,没有数据来估计捐赠者水平随机效应项。我们观察到最多20%的FDR,目标FDR为5%。要具有非零功率,我们需要将效果大小增加到15(相比,对于配对实验,效果大小设定为1.8)。此外,FDR仅使用更保守的程序在中等细胞级标记相关性下控制,BH超过\(0.05 \)在大多数情况下,除非我们没有供体水平的可变性\(\ sigma _u = 0 \).如前所述,通过丧失权力。

实验数据集

我们重新分析了已发表的孕妇免疫系统数据集[15].该研究提供了在怀孕期间在两个队列期间在妊娠期间收集的富含质量细胞仪数据集。作者将来自血液样品的细胞分离,并用几种激活因子刺激它们。目标是解释免疫细胞如何对这些刺激作出反应,以及这些反应如何在整个妊娠中变化。这些实验中的结果可能识别涉及妊娠相关病理学的免疫偏差。

数据在早期,妊娠晚期,妊娠晚期和产后六周收集。样品留下未刺激或刺激。刺激条件包括:\(text{干扰素-}\alpha \text {2A}\)\(\ text {ifn} \ alpha \)),脂多糖,以及含Il-2和IL-6的白细胞介素(ILS)的鸡尾酒。它们在Cytof 2.0质量型细胞仪仪器上加工样品,并将珠子标准化数据以考虑来自仪器性能变化的时间随着时间的推移[16].

在我们的分析中,我们专注于比较早期(前三个月,\(y_i = 0 \))有晚期(三个三个月,\(y_i = 1 \)) IFN刺激的妊娠样本\α(\ \)在第一个16名女性的队列中。我们将单元格进入小区类型并在数据帧中组织它们。我们遵循[15]使用使用的12个细胞类型R.开放细胞[17:记忆型CD4阳性T细胞(CD4+Tmem)、naive型CD4阳性T细胞(CD4+Tnaive)、记忆型CD8阳性T细胞(CD8+Tmem)、naive型CD8阳性T细胞(CD8+Tnaive)、\(\ gamma \ delta \)T细胞(gdT)、调节性T记忆细胞(Tregsmem)、调节性T幼稚细胞(Tregsnaive)、B细胞、经典单核细胞(cMC)、中间单核细胞(intMC)、非经典单核细胞(ncMC)和自然杀伤细胞(NK)。在每个细胞上测量的32个蛋白质标记中,作者定义了22个标记为门控标记,10个标记为功能标记。功能标记物为pSTAT1、pSTAT3、pSTAT5、pNF\ (\ kappa \)B、 总计I\ (\ kappa \)B、 pMAPKAPK2、pP38、prpS6、pERK1/2和pCREB(图中希腊符号替换为拉丁符号)。

我们绘制最大可能性(对于GLMS),以及矩阵(针对GLMMS)的方法,用于固定效果的95%置信区间\(\ varvec {\ beta} \)(无花果。4.).我们使用四种不同的转换来转换原始计数—a日志\ (\ \)变换与三的作用用不同的辅助因子转换。估计是在的日志\ (\ \)- DDS比例。所有四种转型都显示出类似的趋势。这日志\ (\ \)转换是在的作用用余因子1和5。我们发现pSTAT1是妊娠晚期的一个强有力的预测因子。对于标准辅助因子5,这意味着在转换后的标记表达中增加一个单位使其介于之间\(\ exp(1)= 2.7 \)\(\ exp(1.5)= 4.5 \)(GLMM的95%置信区间)更有可能是来自妊娠晚期的细胞,同时保持其他标记物不变。pSTAT3和pSTAT5的系数为负。这意味着pSTAT3和pSTAT5可以预测妊娠前三个月,同时保持其他标志物不变。只有pSTAT1、pSTAT3和pSTAT5低于0.05的FDR。我们的结果证实了之前的发现[15]报告IFN三个三个月期间PSTAT1增加\α(\ \)刺激样本。

图4
装具

方法比较Bootstrap GLM(Cytoglm)和GLMM(Cytoglmm)的比较。水平轴在Log-odds尺度上。垂直轴是蛋白质标记。每种颜色代表模型适合之前的数据变换

GLMM方法对含有178,872 NK细胞的妊娠数据集耗时1-2秒。GLM需要对数据进行多次重采样。对于1000个引导复制,怀孕数据集需要5分钟。我们在一台2.3 GHz四核处理器的笔记本电脑上获得了这些运行时间。

讨论

我们的新R.cytoglmm.提供适用于各种细胞术研究的功能。除了对配对样本的比较外,在不同的实验条件下可用于同一主题的样品,我们cytoglmm.适用于未配对的样品,其中在两个单独的个体组上收集样品。

我们的仿真实验比较了多元回归GLM和GLMM,如实施所示细胞分裂素细胞分裂素在我们的R.包中。在模拟配对样本实验中,GLMM与Benjamini-Hochberg (GLMM- bh)和Benjamini-Yekutieli (GLMM- by)程序均通过自回归结构控制FDR在细胞水平标记相关性下低于靶FDR的FDR\(0.4下午\ \).GLMM方法比对配对样品的GLM方法更强大。GLMM方法可以解释模型中的患者对患者的变化,而GLM方法将这种变化视为噪声,这导致噪声,从而导致强大的估计。对于未配对的样本,我们被迫使用Glms的非参数释放方法,因为没有可用于估计随机效应项的配对样本。在模拟的未配对实验中,仅通过控制目标FDR来控制。在实践中,这意味着我们需要更高的供体样品尺寸来检测与配对实验相比的差异表达。

有趣的是,我们的权力分析表明,GLMM-BH可实现足够的功率,每个样品1000个细胞。通过将10,000或更多的细胞获得并不多。在细胞研究中,这种细胞计数并不罕见。我们的研究结果表明cytoglmm.不会检测稀有细胞类型的任何差异表达,每种样品约100个细胞。柑橘类在我们的仿真分析中显示了低功耗。这是有道理的柑橘类不打算用于预定义的细胞类型 - 其主要焦点是细胞类型发现。

总体而言,较大的细胞级和供体级相关性增加功率并减少观察到的FDR。任意依赖结构下的假设测试仍是一个活跃的研究主题[141819].更容易解释的是功率和FDR的减少,因为细胞级方差增加。测量误差模型的研究表明,测量的协变量中的不确定性增加与偏置估计有关[20.21].例如,考虑实验结果(垂直轴)和一个标记表达(水平轴)的散点图。目标是适合一条线,以便我们可以预测来自标记表达的实验结果。现在假设我们测量了与增加的测量误差增加的标记。这将沿水平轴展开点,压平线合适,倾斜零点,并将回归系数朝向零。在GLMMS中,捐赠者级相关性仅对电力和观察到的FDR影响弱,因为我们明确地与随机效应项进行了模拟相关性。

除了在原始研究中证实PSTAT1的差异表达[15,我们也发现pSTAT3和pSTAT5在NK细胞群体中有差异表达。这个额外的发现可能是我们方法的改进的结果,但也可能是不同的回归分析策略的结果。在最初的研究中,作者同时分析了所有类型的细胞。这种对其他细胞类型的条件作用可能会影响差异表达估计。一般来说,当我们在分析中忽略蛋白质时,glm和glm的系数估计会出现偏差。假设我们想把不同的蛋白质联系起来\ \ (X)实验条件\ (Y \).如果存在第二种蛋白质\ (Z \)两个相关的\ \ (X)\ (Y \), 然后\ (Z \)被称为混杂因素,不将其包括在分析中可能会改变系数估计。在妊娠数据中,如果我们从分析中删除pSTAT1,pSTAT3和pSTAT5的置信区间可能会改变。如果pSTAT1是一个混杂因素,则预期会出现这种差异。如果pSTAT1不是混杂因素,则无论是否包含pSTAT1,pSTAT3和pSTAT5的系数估计值都将相同。取决于模型中包含的标记的系数变化可能会产生强烈的影响。我们在一些真实的数据集中观察到,一个标记可以让其他标记根据我们是否包含它们而改变它们的符号。在妊娠数据中,从分析中删除pSTAT1后,pSTAT5将符号从负值翻转为正值。在这种情况下,我们建议在分析中保留所有标记,以避免引入混淆偏差。

我们在怀孕数据中分析10个功能标记。cytoglmm.而GLM则具有快速的数值优化程序。例如,在带有2.3 GHz四核处理器的笔记本电脑上,对40个标记、16个样本和每个样本10,000个单元进行GLMM分析需要10秒。然而,由于有效样本量将在样本量和细胞数之间的任何地方存在统计权衡。为了将我们的方法扩展到两个以上的组,我们建议运行一个单独的两组cytoglmm.对每一对进行分析,并结合P.价值tables-using的概括功能——控制整个罗斯福总统。

我们的模拟仅限于泊松混合效果模型,用于蛋白质标志物表达。我们的结论仅对此模型有效。实际数据生成过程可能是不同的。要注意两个主要警告。首先,我们只能编码比较两组的实验设计。其次,我们需要门控细胞类型。为了减少手工门控的人偏见,我们就业R.开放细胞[17].维度的诅咒使得将这种方法缩放到非常高维门控计划的挑战。例如,考虑20个门控标记并假设每个标记在两个细胞群之间区分。这种看似无害的门控程序可以产生\(2^{20}\)或大约100万可能的细胞类型。在该设置中,甚至大的细胞样本大小也可以提供不可靠的小区类型估计。

GLMM的可能替代方案是广义估计方程(GEE)。当已知残留的协方差结构时,GEE在统计上更有效。在我们的情况下,协方差结构未知,需要从数据估算。在大多数免疫学研究中,我们只有几个没有给定协方差结构的捐赠者(例如,没有时间依赖性),导致艰难和可能不稳定的协方差估计问题,这可能导致效率的总体损失[22].

结论

我们提出了一个条件差异分析,以避免由标记相关性引起的偏差。我们建立了未汇总表达数据的统计模型,以最大限度地提高统计能力,并为患者异质性建模,以防止错误发现。我们和相关程序的主要区别是,我们假设细胞类型是已知的,或者可以高精度地估计。这一假设在许多使用细胞检测数据的研究中是合理的。在我们自己的工作中,我们申请了cytoglmm.在广泛的免疫学研究中:在[3.研究发现,2009年A/California/07/2009流感大流行病毒株与季节性A/Victoria/361/2011流感病毒株之间存在CD112和CD54的差异表达。在 [4.,我们发现与非孕妇相比,孕妇CD56dim和CD56bright NK细胞上CD38和NKp46的表达增加。在 [5.],我们发现TIGIT上调了未经治疗的HIV +女性的NK细胞,但不在抗逆转录病毒治疗的女性中。在 [6.,我们发现,在cd56亮NK细胞上,用daclizumab beta治疗增加了NKG2A和NKp44的表达,降低了CD244、CD57和NKp46的表达。最近,在[7.],我们发现在一组贝宁性工作者和健康对照组中,来自高度暴露血清阴性个体的NK细胞增加了NKG2A、NKp30和LILRB1的表达,以及Fc受体CD16的表达,并降低了DNAM-1、CD94、Siglec-7和NKp44的表达。

GLM和GLMM方法都构建了可以模拟其他数据类型的广义线性模型,而不是二进制响应。因此可以延伸cytoglmm.到连续响应变量。更具挑战性的下一步是扩展cytoglmm.包括更复杂的实验设计;例如双胞胎研究[23].

方法

预处理

我们建议纠正标记表达式批量效应[1024252627],并使用方差稳定变换进行转换,以考虑异方差,例如在流式细胞仪中将辅助因子设置为150,在大规模细胞仪中将辅助因子设置为5的反双曲正弦变换[2].该转换假设测量误差的双组分模型[2829如果小计数比大计数少得多。直观地,这对应于具有附加和乘法噪声的噪声模型,具体取决于标记表达的大小;看 [30.详情)。

广义线性模型(GLM)

GLM的目标是找到与感兴趣的条件相关的蛋白表达模式,比如对刺激的反应。我们建立了GLM,通过蛋白质标记表达来预测实验条件,因此我们的实验条件是响应变量,标记表达是解释变量。响应变量\ (Y_i \)是编码实验条件的二进制变量为零或一个。响应变量可以用概率建模为伯努利随机变量\ \(π_i \)为每一个细胞。然后我们使用\(文本{分对数}}{\ \)链接将线性模型与二进制响应相关联。线性模型预测了赔率的对数我\ \ ()th细胞被\(y_i = 1 \)代替\(y_i = 0 \).线性模型具有每个蛋白质标记的一个系数\(\beta\u 1、\dots、\beta\u P\)和一个拦截\(\ beta _0 \).如果\ \(π_i \)如果为0.5,则该单元格可能来自任何一个\(y_i = 1 \)或者\(y_i = 0 \)具有相同的概率。如果\ \(π_i \)是非常接近1或0,那么该细胞是强烈代表性的细胞观察下\(y_i = 1 \)或者\(y_i = 0 \),分别。观察蛋白标记物的表达\({\varvec{x}}}\u i\).对于我们测量的每个细胞\(p \)蛋白质标记。

响应概率\ \(π_i \)没有直接观察到\ (Y_i = Y_i \)\({\varvec{x}}}\u i\)被观察到。注意\({\varvec{x}}}\u i\)是有误差的。这里,我们做一个近似的假设,即协变量是固定的。我们的结果将表明,这一假设是保守的,并引入了估计系数的正则化。我们估计\ \(π_i \)从数据使用最大似然函数GLM.R..我们的Logistic回归模型,即GLM一般的一般类别的一部分,可以以下形式概述:

$$ \ begined {对齐} \ begin {对齐} y_ {i}&\ sim {\ text {bernoulli}}(\ pi _ {i}),\\ \ log \ left(\ frac {\ pi _i} {1- \ pi _i} \右)&= {\ varvec {x}} _ i ^ t \ varvec {\ beta}。\结束{对齐} \结束{对齐} $$

对于似然推论,我们使用非参数举止的引导和重塑整个捐赠者,以便更换以保留群集结构。在细胞级,我们将细胞重塑在每个供体内的替代品。我们构建百分位置信区间和计算\(p \)- 通过反转假设具有相同尾部的双面间隔的间隔来值[31].我们使用黑洞[32]和BY [33控制罗斯福总统的程序。我们把带有BH控制的GLM称为GLM-BH,把BY控制称为GLM-BY。

广义线性混合模型(GLMM)

我们通过在标准逻辑回归模型中添加随机效应项来进行额外的建模假设,以占主体效果。协变量\({\ varvec {x}} _ {ij} \)与固定效果GLM相同,除了现在我们有一个额外的索引\(j\)表明该细胞的供体。每个细胞我\ \ ()地图给捐赠者\(j\).额外的术语\({\ varvec {u}} _ j \)代表因供体而变化的回归系数。统计模型可以概括为,

$ ${对齐}\ \开始开始{对齐}Y_ {ij} & \ sim{伯努利}}{\文本(\π_ {ij}),日志\ \ \ \离开(\压裂{\π_ {ij}}{1 - \π_ {ij}} \右)& =间{ij} ^ T \ varvec{\β}+间{ij} ^ T {\ varvec{你}}_ {j},结束\{对齐}\{对齐}$ $

具有多元正态分布和协方差矩阵\ (\ varvec{\σ}\)对于随机效应项\({\ varvec {u}} _ j \)

$$ \ begin {aligned} {\ varvec {u}} _ j \,|\,\ varvec {\ sigma} \ sim {\ text {normal}} \ left({\ varvec {0}},\ varvec {\ sigma} \右)。\结束{对齐} $$

模拟到我们的GLM,我们使协变量是固定的近似假设。

混合效果模型是两个极端之间的折衷。一方面,我们可以为每个捐赠者估计单独的回归系数。这对应于用多元正常分布建模的随机效果,其具有无限标准偏差,没有关于系数如何彼此相关的约束。另一方面,我们可以将所有捐助者汇集到一个组中并忽略捐助者信息。这对应于没有随机效应的GLM,除了固定效应项之外没有额外的变化。这两个极端之间的折衷是估计随机效应从数据的标准偏差,允许回归模型从其他捐赠者学习。混合效应程序与经验贝叶斯程序有关[13].经验贝叶斯程序的第一步将估计随机效应项的平均值和协方差矩阵。第二步将在其估计值下修复随机效果参数并估计固定效果参数。相反,混合效果过程共同估计了两个步骤的参数。由于蛋白质数量相对较小,因此可以对流动和质量细胞术数据进行。

我们使用矩量的方法来实现R.m估计模型参数\(\ varvec {\ beta} \)\({\ varvec {u}} _ j \), 和\ (\ varvec{\σ}\).对于似然推论,我们使用通过[的渐近理论34].作者证明了估计参数的抽样分布可以近似为正态分布。我们用这个数学方法来代替bootstrap方法来创建近似的置信区间\(p \)值。在GLM的情况下,我们使用BH和BY程序来控制FDR。我们将GLMM与BH对照称为GLMM-BH,将BY对照称为GLMM-BY。

模拟数据集的构建

图5
figure5

用于构造模拟数据集的Poisson GLM的图形表示

我们通过从Poisson Glms采样来构建模拟数据集。在现有的工作中,我们确认预测后检查 - 具有混合效应的泊松胶,在同一怀孕数据集上提供了良好的质量细胞仪数据[35].我们考虑一种底层数据生成机制,该机制由层次模型描述我\ \ ()细胞和\(j\)捐赠者:

{{}}{{{{{{{{{{}}{{{{{{{{}}}}{{{{{{}}}}{{{{{{{{{{}}}}{{{{{{{{{{{}}}}{{{{{{}}}}{{{{{{}}}}}{{{{{{{{{{{}}}}{{{{{{{}}}}}{{{{{}}}}}}{{{{{{}}}}}}}}{{{{{{{{{{{}}}}}}}}}}}{{{{{{{{{}}}}}}}}}}}}}}}}}}{{{{{{{{{{{{{{{{}}}}}}}}}}}}}}}}}}}}{{{{{{{{{{{{{{{{ll}\text{Normal}(\varvec{\delta}^{(0)}\varvec{\Sigma}\U B)和{}\text{if}Y{ij}=0,\text{cell unstimulated}\\\text{Normal}(\varvec{\delta}{(1)}、\varvec{\Sigma}u B)和{}\text{if}Y{ij}=1、\text{cell-stimulated}\end{array}\right.}{\varvec{U}}j&\sim\text{Normal}({\varvec{0}},\varvec{\Sigma}U)\end{aligned}\end{aligned}$$

数字5.显示分层模型的图形表示形式。刺激激活蛋白质并诱导标记物表达的差异。我们将效应大小定义为受刺激细胞与未受刺激细胞的预期表达水平之间的差异日志\ (\ \)剂量。属于活动集的所有标记C,具有非零效应大小,而所有非零效应大小的标记均为零:

$$ \ begined {legined} {\ left \ {\ begin {array} {ll} \ delta ^ {(1)} _ p - \ delta ^ {(0)} _ p> 0&{} \ text {if incom}p \ text {在激活集} p \中c \\ \ delta ^ {(1)} _ {p'} - \ delta ^ {(0)} _ {p'}} _ {p'}} _ {p'}} _ {p'}} _ {p'} = 0&{} \ text {如果蛋白质} p'\ text {不在激活集} p'\ indin \ end {array} \右。} \结束{对齐} $$

两个协方差矩阵都有自回归结构,

$$\begin{aligned} \begin{aligned} \Omega _{rs}&= \rho ^{|r-s|} \\ \varvec{\Sigma }&= {\text {diag}}(\varvec{\sigma }) \, \varvec{\Omega } \, {\text {diag}}(\varvec{\sigma }), \end{aligned} \end{aligned}$$

在哪里\(\ omega _ {rs} \)是个R.第四排和S.相关矩阵的列\ (\ varvec{ω\}\).我们调节两个单独的相关参数:细胞级\(\ rho _b \)和一个施主能级\ \(ρ_U \)系数。非零\(\ rho _b \)或者\ \(ρ_U \)诱导条件和标记表达式之间的相关性,即使标记的效果大小为零。

妊娠数据集的处理

我们根据补充材料(图S1)重现原始门控策略(图S1)15]使用R.开放细胞[17].在我们的分析中,我们聚焦于178,872个NK细胞。每个样本的细胞数在6480到21,348之间。完整的开放细胞工作流可作为一个小插图在我们的软件包网站上:https://christofseiler.github.io/cytoglmm/articles/pregnand_dataset.html.

可用性数据和材料

本研究中分析的所有数据都包含在[15].所有的结果和数字都可以通过运行原稿复制RMD.可以在GitHub:https://github.com/christofseiler/CytoGLMM_BMC/;我们的R.软件包可在GitHub上获得:https://github.com/christofseiler/cytoglmm/;我们的R.包装网站:https://christofseiler.github.io/cytoglmm/articles/cytoglmm.html.

缩写

全球语言监测机构:

广义线性模型

GLMM:

广义线性混合模型

罗斯福:

错误发现率

BH:

Benjamini-Hochberg

经过:

Benjamini-yekutieli.

参考文献

  1. 1.

    SAEYS Y,Van Gassen S,Lambrecht BN。计算流式细胞仪:有助于了解高维免疫学数据。NAT Rev Immunol。2016; 16:449。

    中科院文章谷歌学者

  2. 2.

    Bendall SC,Simonds EF,Qiu P,El ad DA,Krutzik PO,Finck R等。人类造血连续体中不同免疫和药物反应的单细胞质谱分析。科学。2011;332:687–96.

    中科院文章谷歌学者

  3. 3.

    Kronstad LM,Seiler C,Vergara R,霍尔梅斯SP,Blish Ca.IFN的差异诱导α调节CD112和CD54的表达控制NK细胞IFN-的大小γ对甲型流感病毒的反应。J Immunol。2018;201:2117-31。

    中科院文章谷歌学者

  4. 4.

    Le Gars M,Seiler C,Kay Aw,Bayless NL,Starosvetsky E,Moore L等人。妊娠诱导的NK细胞表型和功能的改变。前免疫。2019; 10:1-13。

    文章谷歌学者

  5. 5。

    Vendrame E,Seiler C,Ranganath T,Zhao NQ,Vergara R,Alary M等。TIGIT通过HIV-1感染来上调,并标记高功能性的自适应和成熟的天然杀伤细胞子集。艾滋病。2020; 34:801-13。

    中科院文章谷歌学者

  6. 6。

    Ranganath T,Simpson LJ,Ferreira A-M,Seiler C,Vendrame E,Zhao NQ等。用大规模细胞术对裂解物β对循环天然杀伤细胞的影响的表征。前免疫。2020; 11:1-13。

    文章谷歌学者

  7. 7。

    Zhao NQ,Vendrame E,Ferreira A-M,Seiler C,Ranganath T,Alary M等人。在艾滋病毒暴露的血清上女性中改变了天然杀手细胞表型。Plos一个。2020; 15:E0238347。

    中科院文章谷歌学者

  8. 8.

    Weber Lm,Robinson MD。高尺寸单细胞流量和质量细胞谱系数据聚类方法的比较。Cytom A. 2016; 89:1084-96。

    中科院文章谷歌学者

  9. 9

    Bruggner RV,Bodenmiller B,Dill DL,Tibshirani RJ,Nolan GP。自动识别细胞群中分层鉴定。PROC NATL ACAD SCI。2014; 111:E2770-7。

    中科院文章谷歌学者

  10. 10。

    Nowicka M, Krieg C, Weber L, Hartmann F, Guglietta S, Becher B,等。CyTOF工作流:高通量高维细胞计数数据集的差异发现[版本2;裁判:2)批准。F1000Research。2017; 6。

  11. 11.

    LUN AT,Richard AC,Marioni JC。质量细胞测定数据中差异丰度测试。NAT方法。2017; 14:707。

    中科院文章谷歌学者

  12. 12.

    基于表征学习的细胞亚群检测方法。Nat Commun。2017;8:14825。

    中科院文章谷歌学者

  13. 13.

    Weber LM,Novicka M,州州C,罗宾逊MD。Diffcyt:通过高分辨率聚类在高尺寸细胞术中的差异发现。Communic Biol。2019; 2:1-11。

    文章谷歌学者

  14. 14.

    Candèse,粉丝y,janson l,lv J. Plinning for Gold:“Model-X”淘汰高维控制变量选择。j r stat soc ser b stat方法。2018; 80:551-77。

    文章谷歌学者

  15. 15。

    Aghaeepour n,ganio ea,mcilwain d,tsai as,tingle m,van gassen s等人。人类怀孕的免疫时钟。SCI免疫素。2017; 2:eaan2946。

    文章谷歌学者

  16. 16。

    Finck R,Simonds EF,Jager A,Krishnaswamy S,Sachs K,Fantl W等人。具有珠子标准的质量细胞仪数据的标准化。Cytom A. 2013; 83:483-94。

    文章谷歌学者

  17. 17。

    Finak G,Frelinger J,Jiang W,Newell EW,Ramey J,Davis MM,等。OpenCyto:一种用于可扩展、健壮、可复制和自动化端到端流式细胞术数据分析的开源基础设施。计算机生物学。2014;10:e1003806。

    文章谷歌学者

  18. 18。

    Barber RF, Candès EJ。通过仿冒品控制错误发现率。安Stat。2015;43:2055 - 85。

    文章谷歌学者

  19. 19

    菲律人W,Lei L.根据依赖性的虚假发现速率控制的条件校准。arxiv:2007.10438.2020。

  20. 20。

    Fuller WA。测量误差模型。Wiley;1987年。

  21. 21。

    Carroll RJ,Ruppert D,Stefanski La,Crainiceanu Cm。非线性模型中的测量误差:现代的视角。CRC压力;2006年。

  22. 22。

    韦克菲尔德J.贝叶斯和频繁的回归方法。纽约:斯普林克;2013年。

    谷歌学者

  23. 23.

    Brodin P,Jojic V,Gao T,Bhattacharya S,Angel CJL,Furman D等人。人类免疫系统的变异在很大程度上受到不可遗传的影响。细胞。2015; 160:37-47。

    中科院文章谷歌学者

  24. 24.

    悬液和成像质细胞术中信号溢出的补偿。细胞系统。2018;6:612-20。

    中科院文章谷歌学者

  25. 25.

    Schuyler RP, Jackson C, Garcia-Perez JE, Baxter RM, Ogolla S, Rochford R,等。最大限度地减少批量检测数据的影响。Immunol前面。2019;10:2367。

    中科院文章谷歌学者

  26. 26.

    van Gassen S,Gaudilliere B,Angst MS,SAEYS Y,Aghaeepour N.挑剔患者:一种用于细胞测定数据的标准化算法。Cytom A. 2020; 97:268-78。

    文章谷歌学者

  27. 27。

    杜莎特M,德策,谭天,梁立,格雷DH,速度TP。使用CytofRUV去除不需要的变异,集成多个CyTOF数据集。eLife。2020; 9: e59630。

    中科院文章谷歌学者

  28. 28。

    分析化学中测量误差的双组分模型。技术计量学。1995;37:176 - 84。

    文章谷歌学者

  29. 29。

    关键词:微阵列数据,参数估计,方差稳定abstract:Stat Appl Genet Mol Biol. 2003;2:66。

    文章谷歌学者

  30. 30.

    福尔摩斯S,Huber W.现代生物学的现代统计。剑桥大学出版社;2019年。

  31. 31。

    埃夫隆B,蒂布什拉尼RJ。引导的介绍。华润出版社;1994

  32. 32。

    控制错误发现率:一种实用而强大的多重检测方法。[J R Stat Soc Ser B method . 1995; 57:289-300 .]

    谷歌学者

  33. 33。

    Benjamini Y,Yekutieli D.在依赖性下进行多种测试中的虚假发现率的控制。安统计。2001; 66:1165-88。

    谷歌学者

  34. 34。

    佩里PO。基于矩的快速估计层次模型。J R Stat Soc Ser B Stat methodology . 2017; 79:267-91。

    文章谷歌学者

  35. 35.

    Seiler C, Kronstad LM, Simpson LJ, Gars ML, Vendrame E, Blish CA, et al.;多变量混合模型中大量细胞计数数据的不确定性量化。arXiv:1903.07976. 2019

下载参考

致谢

不适用。

资金

这项工作是由美国国立卫生研究院(U01AI131302出租车和SH, R56AI124788出租车和SH, R21AI130523出租车和SH, DP1DA046089出租车,R21AI130532出租车,R01AI133698出租车,R21AI135287出租车,5 t32ai007290-29 LMK, TL1TR001084 EV, T32AI007502 EV, 1 f32ai126674 lj);A.P. Giannini奖学金[对LMK];以及斯坦福儿童健康研究所博士后奖学金[MLG]。CAB是来自妇幼健康研究所的Tashia和John Morgridge捐赠的儿科转化医学教师学者,也是陈-扎克伯格研究员。

作者信息

隶属关系

作者

贡献

CS、AMF、LMK、LJS、MLG、EV、CAB和SH对这项工作的概念做出了实质性的贡献。CS起草了最初的手稿。CAB和SH对其进行了实质性的修改。CS开发了这个软件。CS、AMF、CAB和SH设计并分析了仿真实验。LJS提出使用妊娠数据,CS对此进行了分析。所有作者阅读并批准了最终的手稿。

通讯作者

对应到Christof Seiler.

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

重印和许可

关于这篇文章

通过交叉标记验证货币和真实性

引用这篇文章

塞勒,C.,费雷拉,AM.,克朗斯塔德,L.M。等等。CytoGLMM:流式细胞术和质谱仪实验的条件差异分析。欧宝娱乐合法吗22,137(2021)。https://doi.org/10.1186/S12859-021-04067-021-04067-0.

下载引用

关键词

  • 高尺寸细胞术
  • 广义线性模型
  • 广义线性混合模型
\