跳到主要内容

用两个独立收集的数据集建立复杂疾病联合遗传分析的耦合混合模型

摘要

背景

在过去的十年中,全基因组协会研究(GWASs)通过发现与各种疾病相关的许多遗传变异,为破译人类基因组做出了贡献。许多后续调查包括联合分析的多个独立生成GWAS数据集。虽然大多数联合分析而开发的计算方法是基于汇总统计,联合分析基于个体层面的数据考虑混杂因素遗骸是一个挑战。

结果

在本研究中,我们提出了一种称为耦合混合模型(CMM)的方法,该方法能够对两组独立收集的不同表型的GWAS数据进行联合GWAS分析。CMM方法不要求数据集具有相同的表型,其目的是利用一组多元稀疏混合模型来推断未知的表型。此外,CMM还解决了由于群体分层、家庭结构、隐相关性以及在数据收集过程中出现的混杂变量,如在联合遗传学研究中经常出现的批效应。通过仿真实验对三坐标测量机的性能进行了评价。在实际数据分析中,我们通过应用CMM来评估阿尔茨海默病和物质使用障碍的常见遗传关联,使用独立收集的两种复杂人类疾病的数据集来说明CMM的效用。与以前的实验和分析结果的比较支持了我们方法的实用性,并为疾病提供了新的见解。该软件可在https://github.com/HaohanWang/CMM

背景

全基因组关联研究(GWASs)帮助揭示了人类基因组中的基因变异与疾病之间的约10,000种关联[1].随着GWASS的成功涉及单一数据集的分析,自然随访是调查多个数据集[2,我们称之为联合分析。联合分析可以揭示单一分析无法发现的遗传机制[3.].例如,最近的研究揭示了影响多重精神病疾病的重叠遗传因素[4.,精神分裂症、多动症、抑郁症和大麻使用之间的基因相关性[5.]以及精神分裂症和非法药物的关联[6.].此外,在国家流行病学调查中观察到物质使用障碍(SUDS)和精神病理学的共同发生[7.8.],这表明另外的联合分析应进行到两个肥皂水和疾病涉及认知功能障碍底层发现潜在的共同遗传因素。

然而,使用两个独立收集的数据集进行联合遗传分析可能非常具有挑战性。除了一般预期的单一数据集的问题,如人口分层[9.],为联合分析而提出的单一数据集的计算方法的直接应用可能会导致错误发现,这些错误发现是由混杂因素造成的,例如由于不同的数据收集程序造成的批效应。此外,两个独立收集的数据集往往不共享感兴趣的表型。为了更好地理解这些挑战,我们将在图中详细说明它们。1。对于最初收集的两种数据集1和2,分别用于对红色和蓝色表型的独立研究,联合分析旨在发现与这两种表型相关的常见遗传变体。但是,为了执行这种分析,如图所示。1,需要推断出用虚线的盒子中括在盒子中的所有信息,这可能对这些分析构成重大挑战;需要回答问题涉及,例如,数据集1中的样品的蓝色表型是什么样的,因为当生成数据集1时可能不会收集蓝色表型?如何应对不同数据集中存在的不同混淆因素,包括人口分层,家庭结构,隐秘相关性和数据收集混淆?

图1
图1

在具有两种不同表型的两个独立收集的数据集进行联合分析时,现有挑战的插图

关于遗传数据的联合分析方法主要基于总结统计而建立在例如,[1011121314151617181920.].最近,[21]引入了GWAS的多性状分析(MTAG),利用重叠样本的队列计算的汇总统计量进行联合分析。[22提出了一种称为IMAP的正则化高斯混合模型,可将SNP与相关表型之间的关联推断出来。[23[介绍了一种可信地通知的功率优化方法,可以找到关联系数的最佳线性组合。

虽然摘要统计可以帮助揭示共同分析的常见遗传因素,但仍然包含更多信息,允许分析师调整患者级协变量,重复措施,等。[24].最近,(25]提出了一种将个体级数据与汇总级数据相结合的联合分析方法。[26]直接使用单独的数据进行与不同队列分开收集的特征的联合分析。然而,这些方法都没有利用了个性级数据中SNP分布的丰富信息,这允许分析师推断和纠正样本人口结构或其他潜在的混杂因素。在这项工作中,我们利用各个级别数据来介绍一种用于联合遗传分析的计算方法,校正潜在的混杂因子。

这里,我们提出了一种方法,即耦合的混合模型(CMM),用于联合关联分析,其直接在两个GWAS序列数据集上操作。CMM旨在通过推断缺失的信息来解决上述所有挑战并提供对数据集的可靠性联合分析,如图4所示。1。CMM采用最大似然估计法对缺失的表型和各种混杂因素进行推断。同样值得注意的是,我们的方法与缺失表型归因的方法不同,例如[2728在没有经验数据的情况下,我们的方法旨在解决允许测量不同表型之间的相关性的相关性的相关性的挑战 - 用于独立收集的数据集的常见情况,这些数据集不是用于联合分析目的的独立收集的数据集。我们首先验证我们使用仿真实验的方法的性能,然后将我们的方法应用于先前生成的用于研究与物质使用障碍(SUDS)和阿尔茨海默病(AD)相关的遗传变异以进行关节分析。

结果

仿真实验

我们将CMM与使用模拟数据集进行多种方法进行比较。

  • HG(W):用超光检测进行关节分析[10当这两个独立的问题都通过标准的单变量Wald检验和Benjamini-Hochberg (BH)程序解决时[29].这是GWAS单个数据集最流行的方法。

  • HG(L):用超高度测试进行的联合分析[10]当两个独立的问题各自通过与本杰里尼 - Hochberg(BH)程序的标准线性混合模型来解决时[29].

  • CD:组合数据集方法。CD合并两个数据集\ (X_1 \)\(X_2 \)进入一个\(x = [x_1; x_2] \)并创建一个伪表型\(y \ in \ {0,1 \} ^ {n_1 + n_2} \)在哪里\(y(i)= 1 \)如果一世TH.样本有两种疾病中的一种。

  • iMAP: integrative MApping of multiple - tropic association,这是一种联合分析方法,通过在模型中整合SNP注释来汇总GWAS结果的统计数据[22].为了公平地比较这些方法,我们不使用SNP注释与此方法。

  • MTAG:GWAS的多特征分析[21]这也是使用汇总统计的GWAS数据集合分析GWAS数据集的方法,这占人口分层或隐秘相关性的潜在混杂。

  • LR:\(\ ELL _1 \)-正则logistic回归,可直接应用于两个独立的数据集进行联合分析。我们选择与每个表型相关的snp的交集作为与两个表型联合相关的snp。

  • AL:自适应套索,它是套索的延伸,用于衡量正规化术语[30.](由[31[用于高维数据)。AL应用于独立数据集的方式与LR相同。如果表型是二元的,我们使用该方法的逻辑回归版本。

  • PL: Precision Lasso, Lasso的一种新变体,用于分析具有相关和线性依赖特征的数据,通常见于基因组研究[32].PL应用于独立数据集的方式与LR相同。

  • JL:联合套索,这是我们在本研究中实施的方法,以进行公平比较我们所提出的CMM方法。JL与约束共同解决了套索问题\(\ beta ^ {(1)} = \ beta ^ {(2)} \)与admm。这种方法可以被视为CMM方法,而不考虑数据中的混杂因子。

  • CMM:耦合混合模型。我们提出的方法。

我们模拟两个独立的数据集的二进制表型,其单核苷酸多态性通过SimuPop [生成33.与人口结构有关。我们还引入了混杂因素的影响,导致效果大小的信噪比大约为0.25。我们主要用两种不同的设置进行实验:相关SNPs的数量和这些与两种表型联合相关的SNPs的比例。我们用10种不同的随机种子重复实验。模拟的细节在附加文件中1S5.1:部分。

我们首先评估这些方法,重点是找到与两种表型相关的SNPs,并将竞争方法的性能与ROC曲线进行比较。对于单变量检验方法(HG, CD, MTAG),曲线是通过改变p值的零假设拒绝阈值绘制的,而对于多元正则化回归方法,曲线是通过改变正则化超参数绘制的(200个不同的选择均匀分布在从logspace\(10 ^ { - 5} \)\ (10 ^ 5 \)),除了Precision Lasso测试只有20个选择,因为它在可伸缩性的限制。

数字2显示了比较方法的ROC曲线,以发现与两种表型相关的snp的能力。总的来说,结果对CMM方法有显著的优势。与其他方法相比,所提出的CMM方法在每组数据中关联的SNPs较少以及与两种表型相关的SNPs较少的情况下,其优越性更加明显。例如,如图所示。2,只有\ (0.1 \ % \)SNP与表型(第一行)有关,可以清楚地看到CMM的优点;但是,当\(1 \%\)单核苷酸多态性与表型相关(最后一行),CMM方法几乎优于HG(L)方法。

图2
figure2

比较方法在识别与两种表型联合相关的snp方面的ROC曲线

通过比较图2中不同列的比较方法的性能。2,我们可以看到共同的SNPs(即与两种表型相关的那些)是如何影响结果的:随着共同的SNPs的百分比增加,总的来说,所有比较方法的性能都会增加。此外,我们注意到CMM的性能并没有随着常见SNPs数量的变化而发生显著变化,这一观察表明约束(3.)在我们的优化问题中并不一定会恶化方法的性能,即使当两种表型相关性较低时。

有了CMM的明显优势,我们现在继续讨论其他竞争的方法。我们注意到,多变量方法(LR, AL, JL)在关联SNPs和常见SNPs较少的情况下往往表现良好,而单变量方法(HG(W), HG(L), CD)倾向于相反的情况,关联SNPs更多,常见SNPs更多。例如,JL,可以看作是CD的多元版本,其表现几乎不超过CD。随着常见SNPs数量的增加,CD的表现明显改善,而JL的表现则没有。这一结果可以解释为:CD仅旨在恢复共同SNPs,而JL则在最小化两个logistic回归成本函数和最小化可能不会导致更有效地恢复共同SNPs的系数差异之间进行平衡。不幸的是,基于汇总统计的方法(iMAP和MTAG)在我们的模拟实验设置中表现不佳,这很可能是由于模拟数据中存在多个混淆因素。此外,iMAP作为一种利用SNP注释的力量进行联合分析的方法被引入,但为了公平比较,我们在实验中不包含注释信息。

我们还注意到当有许多相关的SNP时,LMM会令人惊讶地表现出令人惊讶。例如,当有的时候\(1 \%\)相关的SNP(图1的最后一行)。2), LMM则是第二好的方法。然而,LMM在相关SNPs较少的情况下表现不佳,如图Fig.的前两行所示。2。此外,我们绘制了比较方法的ROC曲线的结果,关于它们在每个数据集单独揭示相关SNPs的能力,这在附加文件中显示1S4.2:部分。总之,这些模拟结果表明,在发现与两种表型相关的共同SNPs以及发现与个体表型相关的SNPs方面,CMM优于其他方法。

我们还测试了CMM方法,用于预测数据集中的表型与其他基于竞争的回归的方法相比。结果是额外的1:第S5.2和第5.3节。

真实数据分析:阿尔茨海默病和物质使用障碍的联合遗传分析

CMM在AD和sud两组GWAS数据集上的应用

在实际的数据分析,我们应用我们提出的CMM方法之前生成的独立调查为AD并且抑泡剂遗传关联性,两个分别GWAS数据集。AD数据集是从阿尔茨海默氏病神经成像倡议(ADNI)收集脚注1萨姆特数据集由匹兹堡大学雪松中心收集脚注2。对于AD数据集,我们只使用了AD诊断个体或正常对照组产生的数据。最终的AD数据集中有477人,其中188例病例样本和289例对照样本。SUD的数据集,我们考虑受试者与病例组和药物滥用历史学科与滥用毒品和酗酒行为作为对照组,不包括受试者只有酒精滥用行为(但不是吸毒历史),因为酗酒通常被认为是与毒品有关。最终的SUD数据集中有359例患者,其中153例病例样本和206例对照样本。根据之前的研究建议,我们也排除了x染色体上的SNPs [34.].剩下的这两个数据集中有257361个SNP。即使广告和SUD数据集的样本尺寸很小,这是众所周知的是复杂人类疾病的遗传研究的常见情况,特别是对于泡沫,我们的结果表明我们的CMM方法可以帮助确定值得拥有的遗传变异进一步的调查。

由于使用高维数据中的交叉验证和信息标准选择超参数的统计限制[32,我们根据我们想要选择的snp的数量来调整超参数,遵循之前的工作[3235.36.],我们的模型超参数将根据我们查询的snp的数量,通过二元搜索来自动调整参数集。这种超参数选择过程已被证明比交叉验证产生更少的假阳性,即使查询的SNPs数量(合理地)被错误指定[32].为了缓解计算负载,算法将终止何时报告的SNP的数量在我们查询的数量的50-200%范围内。

我们查询在每个数据集中选择的30个SNP,CMM标识了五个与SUD和AD相关联的SNP,该SUD和AD相关联1。CMM分别报告了SUD和AD的15个额外SNPs和35个额外SNPs,这些SNPs报告在表S1和S2中(附加文件1:S7部分)。值得注意的是,我们在我们的研究结果和来自GWAS目录中的先前研究之间的研究中没有发现太多重叠[37.,我们相信这是因为我们的方法明确地倾向于识别与两种疾病表型共同相关的snp。然而,我们发现了许多支持我们发现的证据。下面将重点讨论这5个snp的验证。

表1 CMM方法从SUD和AD数据集识别的SNP

AD和sud相关的常见snp的验证

统计验证为了验证五个鉴定的常见SNP,我们首先将SNP与每个疾病中的案例和对照样品之间的分布差相比。我们注意到,在大多数情况下,等位基因频率在案例和控制样本之间存在不同(如表所示2).此外,我们还研究了在对照组与与学生的单核苷酸多态性独立的病例组之间的统计学意义T.测试。十项试验中有七项报告具有统计学意义的独立性(见表)2).

表2中的次要的情况下(“AD”列)的五个鉴定的SNP的等位基因频率(的MAF)和对照(“C”列)的样品。整体的MAF(“全”栏目报道了参考

文学支持由于SNPS和疾病表型缺乏信息,我们还通过基于所识别的SNP所存在的基因与表型的基因之间的关系来验证我们的研究结果。

我们的结果表明RS224534.通过CMM鉴定为与两个AD相关联,并且SUD驻留在TRPV1它编码瞬时受体电位阳离子通道亚家族V成员1。先前的证据表明,正调制TRPV1渠道可能是对AD缓解的潜在目标[38.,表明与…有重要关系TRPV1在广告中。此外, [39.还表明了TRPV1在吗啡成瘾中起着关键作用。布莱德诺夫和哈里斯[40]表明删除了TRPV1在小鼠中,乙醇的行为效应,表示与之间的连接TRPV1和酗酒。

而且,TRPV1在海马介导长期突触抑制[41.,这是与奖励相关的学习和成瘾的关键[42.].此外,我们注意到在“TRP信道的炎症调解员调控”中的KEGG数据库的途径[43.],TRPV1用作CA2 +通道。Ca2 +与钙调蛋白(凸轮)的结合激活Ca2 + / Cam依赖性蛋白激酶II(Camkii)。Camkii参与了许多信号级联,是学习和记忆的重要调解员[44.],在包括药物成瘾、精神分裂症、抑郁症和多种神经发育障碍在内的神经精神疾病中发挥重要作用[45.46.].

采用独立的方式补充证据除了统计和文献的支持,我们也验证TRPV1作为一种sud相关蛋白,采用独立的药靶相互作用分析研究。

在该药物靶酰胺分析中,我们通过在药物银行中编译的药物/配体 - 靶相互作用鉴定了每个基因的相应蛋白质的已知配体[47.]及STITCH [48.)数据库。此外,应用概率矩阵分解(PMF)模型获得了高置信度的预测配体[49.]在药物银行和针脚中已知的药物/配体 - 靶相互作用。数据和方法可在我们的在线服务器上访问(http://quartata.csb.pitt.edu).在已知和预测的配体中,我们重点关注与SUD或AD相关的药物。结果表明,已知有4种与sud相关的药物相互作用TRPV1预测与5种sud相关药物相互作用TRPV1,支持之间的关联TRPV1和SUD。

特别地,如图所示。3.,我们的分析表明TRPV1是医疗大麻(植物大麻使用的),以及三个大麻素(nabiximols,cannabidivarin,和大麻)大麻的已知的目标,根据DrugBank注释。在PMF预测模型,TRPV1是从大麻提取的两种大麻素(四氢甘油蛋白,大麻致铬)的预测靶标,两个合成大麻素(Dronabinol和Nabilone)提取\三角洲(\ \)9-THC(来自大麻的另一个大麻素),以及中枢神经系统(CNS)抑郁症(Flunitrazepam)。这些药物通常称为滥用药物,因此这些结果有助于验证与之间的关联TRPV1和SUD。

图3
图3

之间的相互作用TRPV1和9种脂肪相关的药物。紫罗兰椭圆代表滥用药物;黑色固体边缘代表药物银行的已知相互作用;红色虚线表示使用PMF模型的预测交互

这些结果表明我们的调查结果虽然探索,但可能会揭示苏打和广告之间的新型遗传联系。更多关于表中显示的SNP的讨论1在附加文件中呈现1:S6部分。对于由与广告或SUD相关联的CMM标识的其他SNP,我们在附加文件中详细讨论它们1:第S7。

结论

在使用基于汇总统计的方法进行联合遗传分析取得成功之后,我们提出了一种新的方法,耦合混合模型(CMM),该方法对个体水平的SNP数据进行操作,旨在解决如图所示的挑战。1。我们进一步提出了一个算法,允许一个有效的参数估计的目标函数从我们的模型。

通过大量的仿真实验,我们证明了CMM方法与其他几种竞争方法相比的优越性能。在实际数据分析中,我们应用我们的方法来识别与AD和SUD相关的常见snp。CMM鉴定出5个与这两种疾病表型相关的snp。值得注意的是,其中一个单核苷酸多态性驻留在基因中TRPV1通过多项证据,包括病例和对照样本之间等位基因频率差异的统计检验、文献中先前的证据,以及药物-靶标相互作用分析的独立研究结果,已将其与AD和SUD联系起来。总之,我们表明,我们提出的CMM方法能够发现与不同疾病表型相关的有希望的遗传变异,使用单独收集的GWAS数据集,并揭示疾病之间的新联系。

方法

耦合混合模型

下面是我们在这项工作中使用的符号下标表示数据集的标识符,而且括号中的上标表示表型的标识符。基因型和表型表示为\({\ mathbf {x}} \)\ ({\ mathbf {y}} \),分别。同时,N表示样本大小和P.表示SNP的数量。具体地,考虑如图1所示的场景。1\ ({\ mathbf {X}} _1 \)\ ({\ mathbf {X}} _2 \)代表数据集1和2中样品的基因型,其尺寸p \ \ (n_1 \倍)p \ \(甲烷\倍),分别。\({\ mathbf {y}} _ 1 ^ {(1)} \)\({\ mathbf {Y}} _ 1 ^ {(2)} \)表示尺寸的表型1和2的载体1 \ \ (n_1 \倍)对样品中的数据集1.注意\({\ mathbf {Y}} _ 1 ^ {(2)} \)没有观察到。相似地,\ ({\ mathbf {y}} _2 ^ {(1)} \)\ ({\ mathbf {y}} _2 ^ {(2)} \)表示尺寸的表型1和2的载体1 \ \(甲烷\倍)对于数据集2中的样本。\ ({\ mathbf {y}} _2 ^ {(1)} \)没有观察到。

我们的方法不需要\(N_1 = N_2 \)。但是,为了方便讨论,我们将假设\(n_1 = n_2 = n \)。的情况下\(n_1 \ ne n_2 \)可以通过称重相应的成本函数组件来容易地推广\(1 / n_1 \)\(1 / n_2 \),分别。在类似的逻辑之后,我们介绍了我们使用最简单的线性模型的方法,但我们的方法可以扩展到广义线性模型的情况;例如,对于案例控制数据,可以直接将我们的方法应用于二进制特征数据,如前一个例子所做的[2250.51.52.53.].此外,可以使用我们的方法在回归其他额外的协变量(例如,年龄或性别)后用残留表型。

直截了当地,对于图1所示的场景。1,我们有:

$ $ \开始{对齐}{\ mathbf {y}} _1 ^ {(1)} = {\ mathbf {X}} _1{\β}^ {(1)}+ {\ mathbf{你}}_1 ^ {(1)}+ {\ mathbf {v}} _1 + \ mathbf{\ε}_1 ^ {(1)}\ nonumber \ \ {\ mathbf {y}} _1 ^ {(2)} = {\ mathbf {X}} _1{\β}^ {(2)}+ {\ mathbf{你}}_1 ^ {(2)}+ {\ mathbf {v}} _1 + \ mathbf{\ε}_1 ^ {(2)}\ nonumber \ \ {\ mathbf {y}} _2 ^ {(1)} = {\ mathbf {X}} _2{\β}^ {(1)}+ {\ mathbf{你}}_2 ^ {(1)}+ {\ mathbf {v}} + _2 \ mathbf{\ε}_2 ^ {(1)}\ nonumber \ \ {\ mathbf {y}} _2 ^ {(2)} = {\ mathbf {X}} _2{\β}^ {(2)}+ {\ mathbf{你}}_2 ^ {(2)}+ {\ mathbf {v}} + _2 \ mathbf{\ε}_2 ^{(2)}\{对齐}$ $
(1)

在哪里\({\ mathbf {u}} _ i ^ {(j)} \)由于人口分层,家庭结构和数据集隐藏相关性而占用的混淆效应一世用表型j;和\({\ mathbf {v}} _ i \)说明数据集中由于数据收集(例如批处理效应)而产生的混杂效应一世\(\ mathbf {\ epsilon} _i ^ {(j)} \)代表数据组残余噪声一世用表型j, 和\(\ mathbf {\ epsilon} _i ^ {(j)} \ sim n(0,\ mathbf {i} \ sigma _ \ epsilon ^ 2)\),在那里\ (\ mathbf{我}\)单位矩阵的形状是\ (n \ n \)。请注意,我们将删除不明的术语\(\ mathbf {\ epsilon} _i ^ {(j)} \)稍后在参数估计期间,否则这些术语将使整个型号不合格。

我们有\ ({\ mathbf{你}}_i ^ {(j)} \ sim N (0, {\ mathbf {K}} _i \σ_ {u ^ {(j)}} ^ 2) \)对于数据集一世用表型j。如[9.,人口分层可能导致错误发现,因为存在具有与其实际与表型实际相关的一些类型的SNP具有类似等特频率的表型和没有类别的SNP之间的实际关联,这可能导致误操作表型和类型的SNP。由于这些错误关联因人口分层的混乱是特定的表型,因此我们模特\(\ sigma _ {u ^ {(j)}} ^ 2 \)作为表型特异性。因此,虽然我们有四种不同的方差术语(即,\({\ mathbf {u}} _ 1 ^ {(1)} \)\({\ mathbf【U}} _ 1 ^ {(2)} \)\ ({\ mathbf{你}}_2 ^ {(1)}\), 和\ ({\ mathbf{你}}_2 ^ {(2)}\)),它们只被两个标量参数化,\(\ sigma _ {u ^ {(1)}} ^ 2 \)\ \(σ_ {u ^ {(2)}} ^ 2 \)\({\ mathbf {K}} _ I = {\ mathbf {X}} _ I {\ mathbf {X}} _我^ T \)是亲属矩阵,根据遗传公约构建[54.].更复杂的亲属矩阵的结构可用于改善信号的检测,但这些细节超出了本文的范围。人们可以参考[55.56.57.] 更多细节。

为了模拟由于数据收集而模拟混淆,我们有\ ({\ mathbf {v}} _i \ sim N (0 \ mathbf{我}\σ_ {v_i} ^ 2) \)对于数据集一世。因为这些混杂因素只与数据收集过程有关,所以我们进行建模\ \(σ_ {v_i} ^ 2 \)作为数据集特定的。

对于独立收集的数据集,我们只观察到\(\ langle {\ mathbf {x}} _ 1,{\ mathbf {y}} _1 ^ {(1)} \ rangle \)\(\ langle {\ mathbf {x}} _ 2,{\ mathbf {y}} _ 2 ^ {(2)} \ rangle \)。由于我们有兴趣估计\({{\ beta}} ^ {(1)} \)\({{\β}}^ {(2)}\),我们也需要估计\({\ mathbf {Y}} _ 1 ^ {(2)} \)\ ({\ mathbf {y}} _2 ^ {(1)} \)\ \(σ_ {u ^ 1} ^ 2 \)\(\ sigma _ {u ^ 2} ^ 2 \)\ \(σ_ {v_1} ^ 2 \), 和\(\西格玛_ {V_2} ^ 2 \)在情商。1。如前所述,我们放弃了\(\ mathbf {\ epsilon} _i ^ {(j)} \)。避免模​​型变得无法辨认。

为了估计\({{\ beta}} ^ {(1)} \)\({{\β}}^ {(2)}\),我们最小化联合负对数似然函数。因为只有一个子集的snp对表型有贡献,我们引入了标准\(\ ELL _1 \)的先验分布\({{\ beta}} ^ {(1)} \)\({{\β}}^ {(2)}\)作为拉普拉斯分布。此外,为了鼓励我们的方法找到与两种表型相关的共同SNPs,我们使用了一个简单的约束,如约束(3.).一起参加了在eq中解决模型的优化问题。1可以表示为:

$ ${对齐}& \ \开始mathop {\ arg \分钟}\ limits_{{\β^{{(1)}},β\ ^ {{(2)}},t}} \压裂{{\ widehat{{\σ_ {{22}}}}}}{{2 t}} | | {\ mathbf {y}} _ {1} ^ {{(1)}} - {\ mathbf {X}} _{1} \β^{{(1)}}| | _{2}^{2}+ \压裂{{\ widehat{{\σ_ {{11}}}}}}{{2 t}} | | {\ mathbf {y}} _ {2} ^ {{(2)}} - {\ mathbf {X}} _{2} \β^{{(2)}}| | _{2}^{2}\ \ & \四+ \压裂{1}{2}\ t +日志β\λ_{1}| | \ ^{{(1)}}| | _{1}^{1}+ \λ_{2}| | \β^{{(2)}}| | _{1}^{1}\ \ \{对齐}$ $
(2)
$ ${对齐}和{\ \开始文本{酸处理}} \四| |{{\β}}^{(1)}-{{\β}}^{(2)}| | <习\ \{对齐}$ $
(3)

在哪里

$$ \开始{对齐} \ widehat {\西格玛_ {11}}&=({\ mathbf {Y}} _ 1 ^ {(1)})^ T({\ mathbf {Y}} _ 1 ^ {(1)})+({{\的β}} ^ {(1)})^ T({\ mathbf {X}} _ 2)^ T({\ mathbf {X}} _ 2)({{\的β}} ^{(1)})\ nonumber \\&\四2 {\ mathbf {TR}}({\ mathbf {K}} _ 1个\西格玛_【U ^ {(1)}} ^ 2)+ \西格玛_{V_1} ^ 2 + \西格玛_ {V_2} ^ 2 \ nonumber \\?\ widehat {\西格玛_ {22}}&=({\ mathbf {Y}} _ 2 ^ {(2)})^ T({\ mathbf {Y}} _ 2 ^ {(2)})+({{\的β}} ^ {(2)})^ T({\ mathbf {X}} _ 1)^ T({\ mathbf {X}} _1)({{\的β}} ^ {(2)})\ nonumber \\&\四2 {\ mathbf {TR}}({\ mathbf {K}} _ 2 \西格玛_【U ^ {(2)}} ^ 2)+ \西格玛_ {V_1 ^} 2 + \西格玛_ {V_2} ^ 2 \ nonumber \\吨&= | \ mathbf {\西格玛} |\结束{对齐} $$
(4)

在哪里σ\ (\ \)为协方差矩阵定义为:

$ ${对齐}\ \开始mathbf{\σ}= {bmatrix} \ \开始widehat{\σ_{11}}和{}\四\ widehat{\σ_ {12}}\ \ \ widehat{\σ_{21}}和{}\四\ widehatσ_ {22}}{\ \ {bmatrix}结束\{对齐}$ $

我们有:

$$ \ begined {senugent} \ widehat {\ sigma _ {12}}}}}}}} = \ widehat {\ sigma _ {21}}&=({\ mathbf {y}} _ 1 ^ {(1)})^ t {mathbf {x}} _ 1 \ beta ^ {(2)} +(\ beta ^ {(1)})^ t {\ mathbf {x}} _ 2 {\ mathbf {y}} _ 2 ^ {(2)}} \\&\quad +\,{\mathbf{tr}} ({\mathbf{K}}_1\sigma _{u^{(1)}}^2) + {\mathbf{tr}} ({\mathbf{K}}_2\sigma _{u^{(2)}}^2) +\sigma _{v_1}^2 + \sigma _{v_2}^2, \end{aligned}$$

\(\ xi \)表示小数。详细的推导过程在附加文件中描述1:S1部分。关键步骤涉及更换\({\ mathbf {Y}} _ 1 ^ {(2)} \)\ ({\ mathbf {X}}β_1 \ ^ {(2)}\),更换\ ({\ mathbf {y}} _2 ^ {(1)} \)\({\ mathbf {x}} _ 2 \ beta ^ {(1)} \)然后写出eq的联合似然函数。1

解决优化功能(2),我们提出以下策略:我们首先估计参数\(\ {\西格玛_【U ^ {(1)}} ^ 2,\西格玛_【U ^ {(2)}} ^ 2,\西格玛_ {V_1} ^ 2,\西格玛_ {V_2} ^2 \} \)遵循P3D设置[58.].然后,我们建议去耦之间的依赖关系的迭代更新算法\(\ {\ beta ^ {(1)},\ beta ^ {(2)} \} \)T.在优化功能中2并解决\(\ {\ beta ^ {(1)},\ beta ^ {(2)} \} \)T.与小组ADMM [59.,它自然地使用了约束3.。给出了迭代更新算法收敛的证明。算法的细节和收敛性证明在附加文件中给出1:分别为S2和S3节。虽然上面介绍的方法相当有效(如下所示),但我们希望提醒读者,另一种方法是边缘化\({\ mathbf {Y}} _ 1 ^ {(2)} \)\ ({\ mathbf {y}} _2 ^ {(1)} \)而不是用MLE估计代替它们。但是,这一方法并不是本文的重点,我们将其留给以后的研究。

实现

CMM方法的实现可用作Python软件。无需安装,可以使用单个命令行运行软件。它将标准的PLINK格式作为输入。如果数据集之间存在不匹配的SNP,CMM将使用这些SNP的交点。我们建议用户查询CMM以识别每个数据集的特定数量的SNP,CMM可以相应地调整HyperParameter [32].但是,用户还可以选择指定正则化参数。如果指定了以上信息,CMM将自动进行五倍的交叉验证以调谐参数。\(\ xi \)不需要指定或调优,因为它可以由于ADMM而删除。该实现可作为独立软件使用(https://github.com/HaohanWang/CMM).有关如何使用该软件的更详细说明见附加文件1:部分S4。

理论上,该算法第一步的计算复杂度为\(o(n ^ 3)\)和第二步的复杂性是O.NP.).在实践中,正如我们在与数百个样本和200K SNP的两个数据集上观察到,它需要CMM左右,以便在现代服务器上的一组超参数(2.30 GHz CPU和128G RAM,Linux OS)上收敛到一个小时才能完成整个HyperParameter调整过程。

可用性数据和材料

CMM的程序可在https://github.com/HaohanWang/CMM本研究中使用和分析的数据集可在合理要求下由通讯作者提供。

笔记

  1. 1.

    http://adni.loni.usc.edu/

  2. 2.

    http://www.pitt.edu/~cedar/

缩写

LMM:

线性混合模型

CMM:

耦合混合模型

加:

轻微的等位基因频率

SNP:

单核苷酸多态性

广告:

阿尔茨海默病

苏克斯州

物质使用障碍

GWAS:

全基因组关联研究

参考

  1. 1.

    Visscher的PM,·雷NR,张Q,斯克拉P,麦卡锡MI,布朗MA,杨J.10年GWAS发现:生物学,功能和翻译。我是j嗡嗡声的遗传。2017; 101(1):5-22。

    中科院PubMed.公共医学中心文章谷歌学术

  2. 2.

    吴C,王Z,歌曲X,冯X-S,ABNET CC,HE J,HU N,Zuo X-B,Tan W,Zhan Q等。中国人群食管鳞状细胞癌三种基因组关联研究的联合分析。NAT Genet。2014; 46(9):1001-6。

    中科院PubMed.公共医学中心文章谷歌学术

  3. 3.

    Mukherjee S,Thornton T,Naj A,Kim S,Kauwe J,Fardo D,Valladares O,Wijsman e,Schellenberg G,Crane P.联合数据集的Gwas识别与晚期Alzheimer疾病相关的新型常见变体。Alzheimer的Deming J Alzheimer的Assoc。2013; 9(4):550。

    文章谷歌学术

  4. 4。

    疼痛O,Dudbridge楼Cardno AG,弗里曼d,路Y,伦德斯特伦S,列支敦士登P,与精神障碍的青少年精神病样的经验显示遗传重叠罗纳德A.全基因组分析。bioRxiv;2018. 265512。

  5. 5。

    Walters RK, Adams MJ, Adkins AE, Aliev F, Bacanu S-A, Batzler A, Bertelsen S, Biernacka J, Bigdeli TB, Chen L-S, et al.;酒精依赖的跨祖先GWAS揭示了精神疾病的共同遗传基础。bioRxiv;2018.257311.

  6. 6。

    Mallard TT,Harden Kp,Fromme K.精神分裂症的遗传风险影响物质在新兴成年期间用途:事件级多种预测模型。bioRxiv;2018.157636。

  7. 7。

    Grant BF, Goldstein RB, Saha TD, Chou SP, Jung J, Zhang H, Pickering RP, ruwj, Smith SM, Huang B,等。dsm-5酒精使用障碍的流行病学:全国酒精及相关疾病流行病学调查结果iii。JAMA精神病学。2015;72(8):757 - 66。

    PubMed.公共医学中心文章中科院谷歌学术

  8. 8。

    Grant BF,Saha Td,Ruan Wj,Goldstein RB,Chou Sp,Jung J,Zhang H,Smith Sm,Pickering RP,Huang B等。DSM-5药物用途障碍的流行病学:国家流行病学调查对酒精和相关条件-III的结果。贾马精神病学。2016; 73(1):39-47。

    PubMed.公共医学中心文章谷歌学术

  9. 9.

    关键词:关联研究,基因组对照,基因工程abstract:生物识别技术。1999;55(4):997 - 1004。

    中科院PubMed.文章公共医学中心谷歌学术

  10. 10.

    McGeachie MJ,Clemmer GL,Lasky-Su J,Dahlin A,Raby Ba,Weiss St.联合GWAS分析:在不同基因组分辨率下比较类似的GWA鉴定具有六种复杂疾病的新型途径关联。基因组学数据。2014; 2:202-11。

    PubMed.公共医学中心文章谷歌学术

  11. 11.

    关键词:遗传关联,贝叶斯,共定位,贝叶斯检验,统计分析公共科学图书馆麝猫。2014;10(5):1004383。

    文章中科院谷歌学术

  12. 12.

    Kang Ey,Han B,Furlotte N,JOO JWJ,SHIH D,Davis RC,Lusis AJ,Eskin E. Meta-Analysis识别了在4,965只小鼠的研究中所证明的基因 - 环境相互作用。Plos Genet。2014; 10(1):1004022。

    文章中科院谷歌学术

  13. 13.

    诸X,丰T,大冶BO,梁Ĵ,杨JH,弗朗西N,史密斯JA,Yanek LR,太阳YV,爱德华兹TL,等。通过从GWASs汇总统计与高血压的相关应用性状meta分析。我是j嗡嗡声的遗传。2015; 96(1):21-36。

    中科院PubMed.公共医学中心文章谷歌学术

  14. 14。

    Bulik-Sullivan B,Finucane HK,Anttila V,Gusev A,Day Fr,Loh P-R,Duncan L,Perry Jr,Patterson N,Robinson Eb,等。人类疾病和特征的遗传相关性的图谱。NAT Genet。2015; 47(11):1236。

    中科院PubMed.公共医学中心文章谷歌学术

  15. 15。

    niuwboer HA, Pool R, Dolan CV, Boomsma DI, Nivard MG。GWIS:多个表型功能的全基因组推断统计。中国科学院院刊。2016;99(4):917-27

    中科院PubMed.公共医学中心文章谷歌学术

  16. 16。

    关键词:遗传相关疾病,多基因风险预测,联合建模,功能标注公共科学图书馆麝猫。2017;13(6):1006836。

    文章中科院谷歌学术

  17. 17。

    Wen X,Pique-Regi R,Luca F.将分子QTL数据与基因组遗传结合分析进行集成:富集和共级化的概率评估。Plos Genet。2017; 13(3):1006646。

    文章中科院谷歌学术

  18. 18。

    刘建军,万旭,王超,杨超,周旭,杨春华。LLR:一种潜在的低秩方法在多个GWAS中共定位遗传风险变异。生物信息学。2017;33(24):3878 - 86。

    中科院PubMed.文章公共医学中心谷歌学术

  19. 19.

    沙Q,王Z,张X,张S.一种聚类线性组合方法,共同分析了GWA的多种表型。生物信息学。2019; 35(8):1373-79。

    中科院PubMed.文章公共医学中心谷歌学术

  20. 20。

    郭B,吴B.使用GWAS汇总数据跨多种表型测试功能强大而有效的SNP集合测试。生物信息学。2019; 35(8):1366-72。

  21. 21。

    Turley P,Walters Rk,Maghzian O,Okbay A,Lee JJ,Fontana Ma,Nguyen-Viet Ta,Wedow R,Zacher M,Furlotte Na等。MTAG的基因组关联概要统计多特征分析。NAT Genet。2018; 50(2):229。

    中科院PubMed.公共医学中心文章谷歌学术

  22. 22.

    Zeng P,Hao X,Zhou X.在基因组协会研究中的抗血级映射和注释选择与惩罚高斯混合模型。生物信息学。2018; 34(16):2797-807。

    中科院PubMed.公共医学中心文章谷歌学术

  23. 23.

    QI G,Chatterjee N.遗传性信息明智的功率优化(HIPO)导致多种性状的遗传关联的检测。Plos Genet。2018; 14(10):1007549。

    文章中科院谷歌学术

  24. 24.

    在个体参与者数据元分析中协调纵向非相称测量的多重imputation。统计地中海。2015;34(26):3399 - 414。

    PubMed.公共医学中心文章谷歌学术

  25. 25.

    戴敏,万旭,彭华,王艳,刘勇,刘军,徐志华,杨超。基于多效度的个体层面和汇总层面GWAS数据联合分析。生物信息学,2019,35(10):1729 - 36。

  26. 26。

    杨勇,戴男,黄Ĵ,林X,杨C,陈敏,刘J. LPG:四组概率方法在全基因组关联分析利用多效性。BMC基因组学。2018; 19(1):503。

    PubMed.公共医学中心文章谷歌学术

  27. 27。

    达尔,Iotchkova V, Baud A, Johansson Å, Gyllensten U, Soranzo N, Mott R, Kranis A, Marchini J.一种用于遗传研究的多表型归位方法。Nat麝猫。2015;(3):466。

    谷歌学术

  28. 28。

    Hormozdiari F,Kang Ey,Bilow M,Ben-David E,Vulpe C,McLachlan S,Lusis AJ,Han B,Eskin E.冒险成分基因组协会研究的表型。我是j嗡嗡声的遗传。2016; 99(1):89-103。

    中科院PubMed.公共医学中心文章谷歌学术

  29. 29。

    控制错误发现率:一种实用而强大的多重检测方法。J R Stat soc Ser B(方法论)。1995; 57:289 - 300。

    谷歌学术

  30. 30.

    zou h. Adaptive Lasso及其Oracle属性。J AM Stat Assoc。2006; 101(476):1418至1429年。

    中科院文章谷歌学术

  31. 31。

    黄杰,马,张c-h。适用于稀疏高维回归模型的自适应套索。统计罪。2008; 18:1603-18。

    谷歌学术

  32. 32。

    王H,Lengerich BJ,Aragam B,邢埃埃。精密套索:占高维基因组数据中的相关性和线性依赖性。生物信息学。2019; 35(7):1181-87。

  33. 33。

    彭志强,王志强。一种新型的遗传模拟方法。生物信息学。2005;21(18):3686 - 7。

    中科院PubMed.文章公共医学中心谷歌学术

  34. 34.

    Bertram L, Lange C, Mullin K, Parkinson M, Hsiao M, Hogan MF, Schjeide BM, Hooli B, DiVito J, Ionita I,等。全基因组关联分析揭示了除载脂蛋白外可能的阿尔茨海默病易感性位点。中国科学(d辑:地球科学)2008;

    中科院PubMed.公共医学中心文章谷歌学术

  35. 35.

    吴tt,陈yf,hastie t,sobel e,lange K.基因组关联分析由套索惩罚逻辑回归。生物信息学。2009; 25(6):714-21。

    中科院PubMed.公共医学中心文章谷歌学术

  36. 36.

    马凯迪-鲍威克M,尹杰,霍瑞拉克JA,邢EP。动态复杂性状全基因组关联研究的时变群稀疏加性模型。生物信息学。2016;32(19):2903 - 10。

    中科院PubMed.公共医学中心文章谷歌学术

  37. 37.

    等。NHGRI GWAS目录,一个SNP-trait关联的策划资源。核酸学报2013;42(D1): 1001-6。

    文章中科院谷歌学术

  38. 38。

    在阿尔茨海默病的实验模型中,瞬时受体电位香草醛亚型1 (TRPV1)调节剂对行为、生化和结构损伤的保护作用。大脑研究》2016;1642:397 - 408。

    中科院PubMed.文章公共医学中心谷歌学术

  39. 39。

    nguyen t-l,kwon s-h,hong s-i,ma s-x,jung yh,hwang j-y,金h-c,李s-y,jang c-g。瞬态受体潜在的香草型1型通道可以调节阿片类药物奖励。神经咽部医生。2014; 39(10):2414-22。

    中科院PubMed.公共医学中心文章谷歌学术

  40. 40.

    Blednov Y, Harris R.小鼠香草醛受体(TRPV1)的缺失改变了乙醇的行为效应。神经药理学。2009;56(4):814 - 20。

    中科院PubMed.公共医学中心文章谷歌学术

  41. 41.

    吉布森·他,爱德华兹JG,Page Rs,Van Hook MJ,Kauer Ja。TRPV1频道在海马互连突触的突触中介导长期抑郁症。神经元。2008; 57(5):746-59。

    中科院PubMed.公共医学中心文章谷歌学术

  42. 42。

    Kauer Ja,Malenka RC。突触可塑性和成瘾。NAT Rev Neurosci。2007; 8(11):844。

    中科院PubMed.文章公共医学中心谷歌学术

  43. 43。

    Kanehisa M,Furumichi M,Tanabe M,Sato Y,Morishima K. Kegg:关于基因组,途径,疾病和药物的新观点。核酸RES。2016; 45(D1):353-61。

    文章中科院谷歌学术

  44. 44。

    Yamauchi T.神经元Ca2 + /钙调蛋白依赖性蛋白激酶II-Discovery,在一个百年钟表中的进展,观点:对学习和记忆的含义。Biol Pharm Bull。2005; 28(8):1342-54。

    中科院PubMed.文章公共医学中心谷歌学术

  45. 45。

    罗宾逊A.新兴神经精神疾病的CaMKII的作用。趋势神经科学。2014; 37(11):653-62。

    中科院PubMed.文章公共医学中心谷歌学术

  46. 46.

    Müller CP, Quednow BB, Lourdusamy A, Kornhuber J, Schumann G, Giese KP。Cam激酶:从记忆到成瘾。医药科学。2016;37(2):153-66。

    PubMed.文章中科院公共医学中心谷歌学术

  47. 47.

    Wishart DS,Feunang Yd,Guo Ac,Lo Ej,Marcu A,Grant Jr,Sajed T,Johnson D,Li C,Sayeea Z等,Z等,Z等,Z等,Li C,Li C.Drugbank 50:2018年核酸库的药物商数据库的重大更新。核酸RES。2017; 46(D1):1074-82。

    文章中科院谷歌学术

  48. 48.

    sacharczyk D, Santos A, von Mering C, Jensen LJ, Bork P, Kuhn M. STITCH 5:增强蛋白化学相互作用网络与组织和亲和数据。核酸Res. 2015;44(D1): 380-4。

    文章中科院谷歌学术

  49. 49.

    基于概率矩阵分解的药物靶标相互作用预测。J Chem Inf Model. 2013;53(12): 3399-409。

    中科院PubMed.公共医学中心文章谷歌学术

  50. 50.

    Moser G, Lee SH, Hayes BJ, Goddard ME, Wray NR, Visscher PM。基于贝叶斯混合模型的复杂性状同时发现、估计和预测分析。公共科学图书馆麝猫。2015;11(4):1004969。

    文章中科院谷歌学术

  51. 51.

    Speed D,秃头DJ。Multiblup:改进的基于snp的复杂性状预测。基因组研究》2014;24(9):1550 - 7。

    中科院PubMed.公共医学中心文章谷歌学术

  52. 52.

    Weissbrod O,Geiger D,Rosset S. Multiekernel线性混合模型用于复杂表型预测。Genome Res。2016; 26(7):969-79。

    中科院PubMed.公共医学中心文章谷歌学术

  53. 53.

    周X,Carbonetto P,斯蒂芬斯M.多基因模型与贝叶斯稀疏线性混合模型。Plos Genet。2013; 9(2):1003264。

    文章中科院谷歌学术

  54. 54。

    杨军,Zaitlen NA,戈达德ME,Visscher的PM,价钱AL。优点和缺陷在混合模型关联方法的应用。NAT Genet。2014; 46(2):100-6。

    PubMed.公共医学中心文章中科院谷歌学术

  55. 55。

    Listgarten J,Lippert C,Heckerman D. Fast-LMM-SELECT用于解决空间结构和罕见变种的混淆。NAT Genet。2013; 45(5):470。

    中科院PubMed.文章公共医学中心谷歌学术

  56. 56。

    基于群体分层和pc选择的混合选择算法。遗传学。2014;197(3):1045 - 9。

    PubMed.公共医学中心文章谷歌学术

  57. 57。

    王浩,Aragam B,邢EP。异构数据集中的变量选择:一个截断秩稀疏线性混合模型及其在全基因组关联研究中的应用。IEEE生物信息学与生物医学国际会议(BIBM)。IEEE。2017.

  58. 58.

    Zhang Z,Ersoz E,Lai C-Q,Todhunter RJ,Tiwari HK,Gore Ma,Bradbury PJ,Yu J,Arnett DK,Ordovas JM等。混合线性模型方法适用于基因组关联研究。NAT Genet。2010; 42(4):355-60。

    中科院PubMed.公共医学中心文章谷歌学术

  59. 59.

    Boyd S,Parikh N,Chu E,Peleato B,Eckstein J.通过乘法器的交替方向方法分布式优化和统计学习。发现趋势马赫学习。2011; 3(1):1-122。

    文章谷歌学术

  60. 60。

    雪利酒ST,沃德M-H,Kholodov男,贝克Ĵ,藩L,Smigielski EM,Sirotkin K.的dbSNP:遗传变异的NCBI数据库。核酸RES。2001; 29(1):308-11。

    中科院PubMed.公共医学中心文章谷歌学术

下载参考

致谢

作者要感谢seunhak Lee和Ben Lengerich在准备本手稿时提出的建议和评论。同时感谢刘妙峰对算法收敛性证明的帮助。作者还想感谢阿尔茨海默病神经成像计划(ADNI)(美国国立卫生研究院拨款U01 AG024904)和国防部ADNI(国防部奖励号W81XWH-12-2-0012)提供的数据。

资金

这项工作是由卫生赠款R01-GM093156全国学院和P30-DA035778的支持。资金来源的研究,收集,分析和解释数据的设计或书面的稿子没有作用。

作者信息

隶属关系

作者

贡献

HW提出了想法,进行了实验并撰写了手稿。FP分析了结果。MMV准备了酒精中毒数据。WW设计了实验,阅读并撰写了手稿。IB和EPX阅读并撰写手稿。所有作者阅读并批准了最终的手稿。

相应的作者

对应到魏武或者Eric P.兴

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1。

支持信息,包括派生的数学细节,软件说明和其他的实验结果。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

王华,裴飞,万宇可夫,M.M.等等。用两个独立收集的数据集建立复杂疾病联合遗传分析的耦合混合模型。欧宝娱乐合法吗22,50(2021)。https://doi.org/10.1186/s12859-021-03959-2

下载引用

关键词

  • 联合分析
  • 混合模型
  • Deconfounding.
\