跳到主要内容

多向性的偏最小二乘惩罚

摘要

背景

越来越多的全基因组关联研究(GWAS)揭示了几个与多种不同表型相关的位点,提示存在多效性效应。强调这些交叉表型的遗传关联有助于识别和理解某些疾病的常见生物学机制。常用的方法是在SNP水平上检验遗传变异和多个性状之间的联系。在本文中,我们提出了一种新的基因和途径水平的方法,在几个独立的GWAS在独立的性状可用的情况下。该方法基于广义稀疏群偏最小二乘(sgPLS)来考虑变量组,以及连接所有独立数据集的Lasso惩罚。这种方法,称为联合- sgpls,能够令人信服地检测信号在可变电平和组水平。

结果

该方法的优点是在处理数据结构的同时,提出了一个全局可读的模型。它可以超越传统方法,并在先验信息方面提供更广泛的见解。我们在模拟数据上比较了该方法与其他基准方法的性能,并给出了在真实数据上的应用实例,旨在突出常见的乳腺癌和甲状腺癌易感性变异。

结论

联合sgpls在信号检测方面表现出有趣的特性。作为PLS的一种扩展,该方法适用于变量较多的数据。Lasso惩罚的选择处理的是一组变量和观察集的结构。此外,尽管该方法已被应用于遗传研究,但其公式适用于任何具有大量变量的数据和暴露在其他应用领域的先验架构。

背景

全基因组关联研究(GWAS)已经确定链接到多个表型无数的遗传标记,这表明发生当单个变体或基因可影响几个表型性状[多效性的存在123.4.].突出多效性提供了相关的疾病之间理解共享遗传基础的机会。然而遗传信息可以是不同的研究中传播的(a),因为信号小且较大的样本量可以增加检测(b)中的能力,因为在罕见的表型的情况下,分析需要来研究对应于不同的表型不同的数据集。因此各研究的数据组合是必要的交叉表型或多效性的关联分析。各研究在不同的表型相结合的数据也可能允许增加统计力量,检测弱相关的几个表型的新的信号。这导致从不同的来源考虑数据集,具有共同的基因型数据,但表型性状可以从一个学习的不同而不同。

在本文中,我们对处理独立研究数据的元分析方法感兴趣。遗传信息来源于单核苷酸多态性(SNP)。基因是由一组位于遗传序列相同位置的snp定义的。途径是一种共同的生物机制所涉及的基因群。遗传分析的目的是在SNP、基因或通路水平上检验遗传变异和表型之间的联系。因此,关于独立数据集的信息根据观察集给出了一个架构,而关于基因或路径的信息则根据变量组给出了一个架构。多向性的挑战是如何利用这些架构。

此外,在基因研究中,观察集之间可能会产生偏差,特别是由于研究人群、使用的技术或实验方案的差异。所谓的“批处理效应”是元分析的一个常见问题[5.]而且对Pleiotropy的方法必须考虑到。此外,这些方法必须应对遗传变量对一个特征产生积极影响的情况和对另一个性状的负面影响。标准元分析方法无法突出显示那些相反的效果[6.7.].

提出了各种统计方法,用于基因设定分析或分析肺炎。最近的胸膜复制分析依赖于来自基因集分析的统计方法与Meta分析相结合[18.9.10.].可以给出的基因组方法的非详尽清单。负担检验和方差分量测试已经发展到分析罕见变异[7.11.12.13.].另一种方法是降维方法[14.15.贝叶斯模型也被大量利用[16.17.].我们也可以引用基于两两相似度的模型[18.],U形统计模型[19.20.,线性模型族方法[21.22.]和基于网络的方法[23.].此外,其他OMICS字段正在上升[24.25.26.27.]和基因组学方法在这些分析[经常重用28.].

我们旨在将不同数据集的元分析视角整合到基因集方法框架中。提出了一种适用于多向性元分析的稀疏偏最小二乘(sPLS)方法。它处理观察集和一组变量信息,同时考虑到相反影响的可能性,即一个遗传变量对一个性状有积极影响,对另一个性状有消极影响的情况。作为一种sPLS族方法,它可以处理大量的变量。该方法同时制定了一组套索响应。一个关节套索惩罚表示的一组变量。一系列的观察。

PLS是由Wold开发的一维减少方法[29.],已被广泛用于分析具有大量变量的数据[30.].在遗传学研究之外也有应用,例如化学计量学[31.]或用于神经成像[32.].不同的是,其表弟法(PCA),主成分分析(PCA)33.[PLS涉及两种数据块,这用于基因型 - 表型分析。此外,它使用套索惩罚的稀疏扩展已经成功提供可读模型[34.].特别是稀疏组部分最小二乘范围可以考虑变量组作为先验信息[35.36.].在不同的研究小组中,Obozinski提出了另一种套索惩罚方法[37.进行线性回归,以处理由不同组的观测所得的数据。一种套索惩罚的改编,联合sgpls,最近被提议用于PLS [38.,回答这两组变量和观察结果的具体情况。在本文中,我们利用相同的想法来利用多效性效应,特别是因为该方法应对了检测微小可能的相反效应的挑战。

该方法与遗传学研究中两种建立良好的统计方法进行了比较。第一个,ASSET [6.扩展了标准的固定效应元分析方法,用于检测来自同一遗传特征的相反方向的效应。第二个metaSKAT [7.允许进行基于基因的meta分析,扩展了SKAT和SKAT-o方法用于meta分析。

开发的统计方法将应用于真实数据集,以丰富关于甲状腺和乳腺癌类型的遗传机制的见解。我们有兴趣探索每个癌症类型的基因级和途径级关联,以及两种癌症类型。

方法

符号

数据由\(x \ in \ mathbb {r} ^ {n \ times p} \)(Y \in \mathbb {R}^{n \times q}\),两个矩阵,代表N观察P.预测和问:独立变量。关于矩阵的Frobenius范数被表示\(\左\ | ~~右\ | _f \).我们注意到\(x ^ t \)的转置矩阵X和一套的红衣主教S.而著称\ #年代(\ \).实数的正值X而著称\((X)_ + = \压裂{| X | + X} {2} \)和等于所述数目如果数字是正,等于否则为零。一般情况下,观察集可以表示一个事实,即不同组的观察来自不同的源,并且必须相应地进行分析。例如,数据从不同的研究未来可能会出现偏差。变量基团可以表示一组已知或怀疑是相同的信号的一部分的变量。例如,在遗传学基因SNP定义变量和途径的建立组限定建立基因组。让我们考虑一下m不同的观察数据。注意的是,(m \in \mathbb {N}\)\ (\ mathbb {M} _m \)的一个子集\(\{1, \点,n\}), 让\(\ mathbb {m} =(\ mathbb {m} _m)_ {m = 1.. m} \)是的分区\(\ {1,...,N \} \)对应于观察集。我们注意到\ (\ \ mathbb {M} _m = n_m \).行块由此分区定义。让我们考虑收集变量K.团体。让\ (\ mathbb {P} = (\ mathbb {P} _k) _ {k = 1 . . k} \)是的分区\(\ {1,...,p \} \)对应于这个可变的组架构。我们注意到\(\#\ mathbb {p} _k = p_k \).然后,我们有我们\(\sum _{k=1}^ k p_k =p\).列块由这个分区定义。观察集结构和变量群结构可以同时定义,如图所示。1.对于矩阵,表示法\ \ cdot \ ()用来指矩阵的块。例如\(X_{cdot, \mathbb {P}_k}\)矩阵块是X对应的列K.-第一类变量和\(x_ {\ mathbb {m} _m,\ cdot} \)矩阵块是X对应的列m个组观察。

图1
图1

由变量组和观察组构成的数据的例证。假设变量和观察由RESP订购。变量组和观察组。符号P.表示的矩阵的变量的数目X问:矩阵变量数量yN为观察次数。\(n_1, \cdots, n_M)是职责。每个观测集的观测次数。\(p_1, \cdots, p_K\)是职责。每组变量中的变量数

结构化数据的稀疏偏最小二乘法

在文献中,将PLS的若干制剂存在[39.].虽然它们可以有类似的表现[40],PLS1 [41.]已盛行于最新进展[35.4041.].在本文的范围内,选择这个提法是为了能够沿用以前的方法。PLS找到连续的一对向量\(\ {U_1,V_1 \},\点,\ {u_r,V_R \} \)为了\(r < \text{rank}(X)\),夫妻由长度的载体组成。P.问:,最大化\(COV(xu_i,yv_i)\ text {for} \ text {任何} i \ in \ {1,\ dots,r \} \)的约束下\(U_1,\点,u_r \)与正交分量族相关[29.].可以考虑连续的最大化问题来解决它[42.),对\(h \in \{1, \dots, r\}\)

$$ \ begined {seconaled} \ underet {|| u_h || _2 = || v_h || _2 = 1} cov(x ^ {(h-1)} u_h,y ^ {(H-1)} V_H),\ END {对齐} $$
(1)

在哪里\(X_0 = X \)\(y_0 = y \)\ (X ^ {(h)} \)\ (Y ^ {(h)} \)是从中计算的矩阵\ (u ^ {(h)} \)\(v ^ {(h-1)} \)\ (X ^ {(2)} \)\ (Y ^ {(2)} \)为了\(H \在\ {2,\点,R \} \).通货紧缩取决于所选择的PLS模式[29.43.].在下文中,符号H,以简化公式,因为我们只对其中一个感兴趣R.该PLS的步骤。

稀疏PLS (sPLS)算法提出在载荷向量上增加一个惩罚V..使用以下等价:

$ ${对齐}\ \开始暗流{| |你| | _2 = | | v | | _2 = 1, u \ \ mathbb {R} ^ p, v在\ \ mathbb {R} ^ q} {{argmax}} \文本浸(徐,青年志愿)= \暗流{| |你| | _2 = | | v | | _2 = 1, u \ \ mathbb {R} ^ p, v在\ \ mathbb {R} ^ q}{\文本{argmin}} \左\ | X ^ TY -紫外线^ T \ \ | _F ^ 2 \{对齐}$ $
(2)

证据可以在[35.].

期限(42.]可以写为

$$ \ {开始对准} \ {ù^ {(优化)},V ^ {(OPT)} \} = \底流{|| ||Ü_2 = || v || _2 = 1,U \在\mathbb {R} ^ p,v \在\ mathbb {R} ^ q} {\文本{argmin}} \左\ |X ^ T Y- U,V,^ T \右\ |_ {F} ^ 2 + \ underbrace {\拉姆达P(U)} _ {\底流{\文本{为} \文本{稀疏} \文本{PLS}} {\文本{套索} \文本{罚金} \文本{短期}}}。\结束{对齐} $$
(3)

稀疏PLS在这个问题的表述中引入了惩罚。惩罚\(p(\ cdot)\)强制最小的参与设置为零。控制模型中稀疏度的参数是\λ(\ \).在本公式中,稀疏仅适用于载体,但可以定义类似的惩罚V..在这篇文章中,我们只讨论惩罚但所有的结果也代表了一个V.惩罚。

备注1

在分析之前,通过减去列平均值来改变X和Y矩阵。通过其平均值和标准偏差缩放每列也是推荐的[44.].因此,横向产品矩阵\ (X ^ T Y \)当X和Y列居中时,与X和Y变量之间的经验协方差成正比。当这些列标准化后,\ (X ^ T Y \)与X变量和y变量之间的经验相关性成正比。在本文中,标准化是克服“批效应”问题或从不同研究中汇总观测结果的重要步骤。这一点已在[38.].

备注2

提出的框架估计了一对重量载体(V.),这是方法在方法论方面的主要贡献。然后可以将该估计步骤包括在PLS的全局框架中,其中用于模拟若干组件的通货步骤。

稀疏部分最小正方形的延伸

在下面,将介绍考虑观察或/和可变集架构的sPLS扩展。最后一种方法是最近才发展起来的[38.并处理这两种类型的建筑。这是这篇文章的主题。本文提出的模型是Eslami等人提出的多群sPLS的扩展[40].

为了应对架构,sgPLS已经提出[35.]:

$ ${对齐}\ \开始开始{对齐}\ {u ^{(选择)},v ^{(选择 )} \} &= \ u暗流{| | | | _2 = | | v | | _2 = 1, u \ \ mathbb {R} ^ p,v \中\ mathbb {R} ^ q}{\文本{argmin}} \左\ | Z - u v ^ T \ \ | _ {F} ^ 2 + \λ\离开(1 -α\ \右)P_{集团}(u) +αλ\ \ \ \ P_{变量}(u) \ \ & \四\文本{和}P_{集团}(u) = \总和_ {k = 1} ^ {k} \ sqrt {p_k} \左\ | u_ {\ mathbb {P} _k} \右\ |{_2 \文本,} P_{变量}(u) = \总和_ {i = 1} ^ {p} \左\ | u_{我}\右\ | _2 \ \ \文字{和}Z = X ^ T y \{对齐}结束\{对齐}$ $
(4)

装载矢量的地方V.是由响应组成的。P.问:元素。惩罚\ (P_{变量}\)收缩变量分别趋向于零,而处罚\ (P_{集团}\)将整组变量缩小到零。驱动模型稀疏度的参数为\λ(\ \)虽然控制两种稀疏之间的平衡的参数是\α(\ \).在这个模型元素对应的最小相关变量和最小相关的变量组设为零。

来自Obozinski的使用关节套索惩罚的延伸([37.)已被建议[38.].这种方法是本文研究的对象。sgPLS的配方为:

$ ${对齐}\ \开始开始{对齐}& \ {U ^{(选择)},V ^{(选择)}\}= \暗流{\暗流{| | U_ {\ cdot, m} | | _2 = | | V_ {\ cdot, m} | | _2 = 1 \文本为}{m \ \ {1 \ cdotsM \}} {U \ \ mathbb {R} ^ {p \乘以M} \文本V{和}\ \ mathbb {R} ^{问\乘以M}}}{\文本{argmin}} _ {M = 1} \和^ {M} \左\ | Z ^ {(M)} U_ {\ cdot, M} {V_ {\ cdot, M}} ^ T \ \ | _ {F} ^ 2 \ \ & \四+ \ \λ\离开(1 -α\ \右)P_{集团}αP_ (U) + \λ\{变量}(U) \ \ & \文本{和}P_{集团}(U) = \总和_ {k = 1} ^ {k} \ sqrt {p_k} \ \ | U_ {\ mathbb离开了{P}_k,\cdot } \right\| _F \text{, } P_{variable}(U) =\sum _{i=1}^{p} \left\| U_{i,\cdot } \right\| _2 \\ & \text{ and } Z^{(m)}=X_{\mathbb {M}_m, \cdot }^{T} Y_{\mathbb {M}_m, \cdot }, \end{aligned} \end{aligned}$$
(5)

装载集合的地方由...组成\(p \ times m \)元素(P.每个元素\ (U_ {\ cdot, m} \)).这组负载的V.由...组成\(问\乘以m \)元素(问:每个元素\ (V_ {\ cdot, m} \)).在这个模型元素对应的最小相关变量和最小相关组变量设为零。所有的变量和与最小参与变量对应的变量组被设为零\ (U_ {\ cdot, m} \)\(m \in \{1,\dots, m \})同时。

Eq的解。5.是:

$$ \ begined {对齐} u ^ {(opt)} _ {\ mathbb {p} _k,\ cdot} = u ^ {(1)} _ {\ mathbb {p} _k,\ cdot} \ left(1- \ frac {\ lambda \左(1- \ alpha)\右)} {2 \ left \ |U ^ {(1)} _ {(\ mathbb {p} _k,\ cdot)} \ \ \ \ |_F} \右)_ + \结束{对齐} $$
(6)
$$ \ begined {对齐} \ text {with} u ^ {(1)} _ {i,\ cdot} = u ^ {(0)} _ {i,\ cdot} \ left(1- \ frac {\lambda \ alpha} {2 \ left \ | u ^ {(0)} _ {i,\ cdot} \右\ | _2} \右)_ + \结束{对齐} $$
(6 b)
$$ \开始{对齐} \文本{和} \文本{与} U ^ {(0)} _ {\ CDOT,M} = X _ {\ mathbb {M},\ CDOT} ^ TY _ {\ mathbb {M},\ CDOT} \ {端对齐} $$
(6)

其中一个实数的正值X而著称\((X)_ + = \压裂{| X | + X} {2} \)

计算方法分为三步。第一步(Eq。6A)表示每个M单独研究的简单PLS解。第二步(Eq。6B.)对所有研究的每个变量同时应用稀疏性。第三步(Eq。6C.)立即将各组的所有研究变量稀疏。对于所有的稀疏方法,优化参数驱动处罚(\λ(\ \)\α(\ \))必须选择。这里使用K折叠交叉验证。对于必须测试的每组惩罚参数:

  • 观测被分成的分区L.样品:\(\ {\ mathbb {S} _1,\ cdots,\ mathbb {S} _ {L} \} \).对于一个定性的结果,样本是根据结果的总体比例选择的。为了(l \in \{1, \cdots, l \}\),子集\(\{1, \cdots, n\})在哪里\(\ mathbb {s} _ {l} \)被省略了\ (\ mathbb{年代}_ {- l} \)

  • 为了(l \in \{1, \cdots, l \}\),则在其上执行模型\(间{\ mathbb{年代}_ {- l}, \ cdot} \)\ (Y_ {\ mathbb{年代}_ {- l}, \ cdot} \).从这个模型的预测是在执行\(x _ {\ mathbb {s} _ {l},\ cdot} \)给出了一个预测\({\帽子{Y}} _ {\ mathbb{年代}_ {- l}, \ cdot} \).通过比较,计算了预测误差\({\帽子{Y}} _ {\ mathbb{年代}_ {- l}, \ cdot} \)\ ({Y} _ {\ mathbb{年代}_ {- l}, \ cdot} \).对于定性结果,计算错过分类率。对于定量结果,计算L2标准。对于多变量结果,计算每个可变结果的平均预测。

  • 在预测误差的平均值L.模型是计算的。

选取了与上述过程预测误差最小相对应的一组参数。有关程序的一个例子,可在多个扩展的实施中找到[35.36.40].

k折程序依赖于预测性能。然而,如果信号太小,则预测可能差,并且在交叉验证框架中的最佳参数的计算可能是有问题的。当变量数量大时,其他套索惩罚方法已经挣扎[42.45.].由于基因组数据中有大量的变量,在预测性能方面的差异不足以突出一个明确的惩罚参数的选择。在本文中,提出了一种可选的自举策略:在给定的数据参数下对sgPLS和joint-sgPLS进行评估。然后,执行一个引导过程B.时代。然后在每个引导程序上实现方法SGPLS和关节SGPLS。计算出在引导程序上的变量(resp.or overs变量)的选择率。根据在真实数据上计算的模型是否选择变量,考虑速率。选定的变量(resp。变量组)其速率高于任何未选择的变量的速率在最终选择中。

备注3

所提出的联合惩罚是双凸而非凸的,因此可能存在多个局部极小值。然后,该方法对其算法的起点是敏感的。有些开发使用几个起点可以提高达到全局最优的概率,有些甚至可以确保达到全局最优的概率。在降维方法中,提出了一种保证收敛性的半定松弛方法[46.以计算效率为代价。依赖于随机初始化的方法增加了找到全局最优解的机会,但理论保证较低。继承这种发展为联合- sgpls将是有趣的未来发展。

备注4

在重叠变量组的情况下,需要扩展组稀疏维度减少方法,例如SGPLS和联合SGPLS [47.].在本文的范围,变量组都应该是脱节的。

基准的方法

ASSET和metaSKAT都被认为是基准方法。

ASSET是一种适合于提供跨研究p值的元分析方法[6.].该方法的输入是由该方法组合的单变量汇总统计量。ASSET详尽地探索了在同一方向或可能相反方向的真实关联信号的存在的研究子集。

对于给定的变量(i \in \{1, \cdots,p\}\)和一组给定的研究\(米\在\ {1,\ cdots,男\} \)估计参数\(\{β _{i,m},s_{i,m} \})关于数据的线性模型\(间{\ mathbb {M} _m, \ cdot} \)\ (Y_ {\ mathbb {M} _m, \ cdot} \)和相应的统计数据\(Z_{i,m} = \frac{\beta _{i,m}}{s_{i,m}}\)计算。对于每个可能的子集\(S \子集\{1,\cdots,M\}\),平均值统计量\(Z_i(S)= \总和_ {1- \在S} \ SQRT {\ PI _l(S)} {Z_ I,L} \)与评估\(\ pi _l(s)= \ frac {n_l} {\ sum _ {l \ in s} n_l} \).资产以标准追求最佳观察子集\(\ unterset {s \ in \ mathbb {s}} {\ max} | z(s)| \).p值是从最终的统计量中计算出来的。ASSET依赖于可变水平的统计数据,因此不提供基因或通路水平的信息。此外,ASSET的当前版本提供了每个变体的多效性结果,为了控制可能的假阳性多效性效应,应该使用FDR校正来校正这些结果。

SKAT是一种检测区域罕见变异和表型(连续或二元)之间关联的方法。它是一个有监督的测试,一个区域的多个变异对一个表型的联合效应。metaSKAT方法可以做同样的事情,但可以聚合多个研究。这种方法输出对应于一组变量的p值,例如一个基因或一条路径。该方法基于不同研究的SKAT统计数据的加权总和[7.].

统计\ (S_ {m k} =间{\ mathbb {m} _m, \ mathbb {P} _k} ^ T \波浪号{Y} _ {\ mathbb {m} _m, \ cdot} \)计算哪里\(\代字号{Y} \)广义线性模型在Y上的协变量。然后对这些研究之间的统计数据求和,计算出一个加权的和,然后跟随变量:\(q = \ sum _ {m = 1} ^ {m} \ sum _ {k = 1} ^ {k}(w_ {m,k} s_ {m,k})^ 2 \)在哪里\ (w_ {\ cdot \ cdot} \)是必须选择的权重。接下来,计算p值。该方法依赖于统计的平方,然后可以从一项研究中检测到另一个研究的相反效果。

与Metaskat不同,SGPLS和联合SGPLS资产给出每个变量的一个结果,并且不给出整组变量的信息。我们可以注意到,这两个资产和Metaskat都是p值面向的方法,允许它们选择变量。但是,他们不能提出预测,而联合SGPL可以。

模拟数据

呈现的方法是关于呈现图1所示的架构的模拟数据。1.从一方面来说,SNP基因型被编码为次要等位基因计数\(\ {0,1,2 \} \)来自同一连锁不平衡区段的一组SNP之间存在一定的相关性。从另一方面来看,表型数据是二元的,并具有一个或多个遗传标记的真实影响。为了模拟snp之间的相关性,为一组变量\(\ mathbb {P} _K \)中,多元正态分布与N观察\(\ varvec {x} ^ {(连续)} _ k \ clizsim \ mathcal {n} _ {p_k}(\ mu _k,\ sigma _k)\)模拟在哪里\(\ mu _k \)是一个空的尺寸向量\ (p_k \)\(\ sigma _k \)是A.\(P_K \倍P_K \)对角线上为1的矩阵\(\ RHO _K \),在对角线外,控制组内SNPs之间相关性的系数。对该变量的模拟给出了一个矩阵,该矩阵表示一组变量的模拟观测值K..这些块被连接在p \ \ (n \倍)矩阵,\ (X ^{(连续)}\)代表整个数据。

为了拥有\(\ {0,1,2 \} \)基因型数据,进行离散化。对于给定的变量\(j \ in \ mathbb {p} _k \),我们的目的是模拟一个小等位基因频率(MAF)的SNP变量,我们注意到\(\ text {maf} _j \).这个MAF意味着:

$ $ \ P{对齐}开始(x_j = 0) & =(1 - \文本{加}_j) ^ 2 \ \ P (x_j = 1) & = 2 \{加}_j文本(1 - \文本{加}_j) \ \ P (x_j = 2) & ={加}\文本_j ^ 2。\结束{对齐} $$

以此目标,为定\(\ text {maf} _j \),分位数\ (q_1 ^ {(j)} \)\(q_2 ^ {(j)} \)被选为\(p(x_j \ le q_1)=(1-maf_j)^ 2 \)\(p(x_j \ le q_2)=(1-maf_j)^ 2 + 2 maf_j(1-maf_j)\)

一个离散的基因型,\(X ^ {(离散)} \),计算成本

$ ${对齐}\ \开始开始{对齐}间{i, j} ^{(离散)}= \左\{\{数组}{你}开始0 &文本{如果}{}\ X ^{(连续)}_ {i, j} \ le q_1 ^ {(j)} \ \ 1 &文本{如果}{}\ q_1 ^ {(j)} \ le X ^{(连续)}_ {i, j} \ le q_2 ^ {(j)} \ \ 2{如果}和{}\文本X ^{(连续)}_ {i, j} > q_2 ^ {(j)},{数组}\ \端。结束\{对齐}\{对齐}$ $

在哪里(i \in \{1,\cdots, n \}\)是模拟观测和\(j \ in \ mathbb {p} _k \)K.-第th组变量。

对于每个观测一世,二进制表型\(义\)模拟与Logit模型分析

$ ${对齐}\ \开始开始{分对数}{对齐}\文本(\π_i) ={日志}\文本(\压裂{\π_i}{1 -π\ _i}) = \α+ \总和_ {j = 1} ^ {p} X ^{(离散)}_ {i, j} \β_j \{对齐}结束\{对齐}$ $

在哪里\(y_i=1 |\text{data})\)\β_j (\ \)为了\(j \in \{1, \cdots, p \}\)是一个回归参数。

然后对该过程依次进行不同的模拟,以模拟多个研究。

结果

用于运行方法的代码可在github上获得(https://github.com/camilobroc/bmc_joint_sgpls.).

模拟

表1 8种模拟数据使用的值

在本文中,模拟基因型有25组20个变量。然后有500个变量和数据是由两个相同数量的观察组成的研究。参数的组合被认为是为了研究以下变化:(i)从一个观察集到另一个观察集是否存在相反的影响(ii)具有影响的组中snp的比例(iii)样本量。值的选择见表1.变化(ⅰ)允许看到方法的能力在时发生相反的效果,即使检测的信号。变化(ⅱ)允许观察组内稀疏上的方法的性能的影响。变化(III)所示的情况下,其中信号由于不同的样本大小是更容易或更难检索。

组内相关参数\(\ RHO _K \)为0.5,每个变量的MAF为0.3。前5组在模拟模型中有影响。对于每一组,一半的非零回归参数是正的(随机的),另一半是负的。在所有SNPs都有影响的情况下(情况1、2、5和6),这些参数的绝对值设置为\(\ text {exp}(0.1)\)而在单核苷酸多态性有半数效应的情况下(情况3、4、7和8),这些参数的绝对值设为\(\ text {exp}(0.5)\)

对于所有方法,将执行50次数据复制。若要实施“联合补偿计划”和“联合补偿计划”,惩罚参数的选择必须类似于[35.].惩罚参数\λ(\ \)\α(\ \)通过a优化K.倍处罚程序与预测的误差作为标准。选择一个参数\λ(\ \)相当于设置了一些选定的组的[35.].在此模拟中,所选组的数量网格\(\ {1,\ cdots,25 \} \)是用来和网格\α(\ \)\({0.1, 0.5, 0.9 \}\).数字23.在案例1的模拟中,通过对sgPLS和joint-sgPLS的交叉验证过程,显示不同水平的预测性能的误差\α(\ \)以及不同层次的群体选择。给出了在50次重复实验中观察到的错误率的平均值和方差。在该方法的框架内,保留了模型预测率误差最小时对应的一组参数。

图2
figure2

在sgPLS交叉验证的预测误差的平均值和方差,为一个模拟案例1的模拟。执行交叉验证\(\ alpha \ in \ {0.1,0.5,0.9 \} \)和用于对应于组选择的水平\(\ {1,\ cdots,25 \} \)

图3
图3

联合SGPLS交叉验证的预测误差的均值和方差,用于模拟的一个模拟案例1的模拟。执行交叉验证\(\ alpha \ in \ {0.1,0.5,0.9 \} \)和用于对应于组选择的水平\(\ {1,\ cdots,25 \} \)

对于ASSET、sgPLS和joint-sgPLS,将模型选择的变量与对真实模型有影响的变量进行比较。对于metaSKAT、sgPLS和joint-sgPLS,将模型选择的一组变量与对真实模型有影响的一组变量进行比较。

模拟的结果列于表1用于sgPLS, joint-sgPLS, ASSET和metaSKAT。测试结果为真阳性(TP)、假阳性(FP)、假阴性(FN)和真阴性(TN)2).

表2采用sgPLS、joint-sgPLS、ASSET和metaSKAT方法,在模拟案例1到8中TP、FP、FN和TN的平均数量方面的性能

考虑到案例1和2,我们可以看到资产和Metaskat的FP低于TP,反对SGPLS和联合SGPLS。然后,它们比两种以后的方法更保守。我们可以看到,当观察人数更高时,每个模型更好地执行(200次为400)。我们可以看出,当奇妙的分离设置为50%(3,4,7和8)而不是100%(案例1,2,5和6)时,资产SGPLS和关节SGPLS的可变级别结果充气超过一半。这可能是由于该方法难以区分变量在同一组内的效果。基因级结果与用于Metaskat,SGPLS和关节SGPLS相似的基因级结果类似。病例1,2,3和4在研究中具有相同的方向,而案例5,6,7和8在相反方向上显示出效果。我们可以看到,当效果处于相同方向或相反的方向时,SGPL可以与关节SGPLS竞争,以及其他基准方法,而不是保守的。另一方面,当效果处于不同的方向时,SGPLS性能效果,而其他方法保持类似的TP / FP比率。 Comparing closely ASSET to joint-sgPLS, we can see that joint-sgPLS have always a higher TP and the largest difference can be seen when all variables are involved within a group (cases 1, 2, 5, 6). This is probably due to the fact that joint-sgPLS can draw information at the group-level to infer single variable results. Comparing closely metaSKAT to joint-sgPLS, we can see that both methods can retrieve a large amount of groups participating to the effect. The method joint-sgPLS have always a higher TP in each cases. In cases 1 and 5, metaSKAT TP is especially low. Those are cases with the smallest number of observations and with small regression parameters\β_j (\ \)也就是信号强度最低的地方。

总的来说,我们可以看到SGPLS和联合SGPLS具有竞争性表现,用于检测相同方向的效果,而关节SGPLS是具有检测相反效果的最佳性能的方法。此外,SGPLS和呈现的关节SGPLS具有给予单一可变结果和组导致相同模型的优点。这允许组通过先验信息增强可变级别的结果。

乳腺癌和甲状腺癌的多倍体检查

将所开发的统计方法应用于实际数据,以丰富我们对甲状腺和乳腺癌致癌的遗传机制的认识。甲状腺癌和乳腺癌在生物学上有一些相似之处:两者在女性中更常见,受荷尔蒙和生殖因素的影响,并且是激素介导的。此外,被诊断为乳腺癌的患者比被诊断为其他类型癌症的患者更有可能发展为甲状腺癌,反之亦然[48.].乳腺癌发病率的遗传因素已经被广泛研究,已知遗传变异解释了大约49%的家族患病风险。使用GWAS,我们确定了313种乳腺癌风险变异[49.].另一方面,由于这种疾病的发病率较小以及缺乏数据,Gwas对甲状腺癌的研究一直很少。但是,已经表明甲状腺癌是遗传因素贡献超过环境因素的唯一癌症[50.].只有4个基因座与甲状腺癌风险有关,并在其他研究中复制了[51.].他们中的一个,2q35,之前还报道增加患乳腺癌的风险[52.].迄今为止,未进行研究以确定乳腺癌和甲状腺癌之间的常见遗传因素。探索两种癌症之间的遗传关系将有助于阐明两种疾病之间的共同机制,并可允许改善其诊断和治疗管理。

我们建议通过研究来自乳腺和甲状腺癌的候选途径的遗传变异的血液疗效来说明真实数据集的方法。

Beluhca数据集包括来自CECILE(法国乳腺癌病例对照研究)(1 125例,1 172例对照研究)和CATHY(法国甲状腺癌病例对照研究)(463例女性病例,482例女性对照研究)的数据。所有这些个体使用定制的微阵列进行基因分型,其中包括来自KEGG数据库和文献综述中选择的28个候选途径(648个基因)的8716个遗传变异(SNPs位于基因边界+/−50 kb处)。经过质量控制,我们保留了6677个用于两种类型癌症的单核苷酸多态性。缺失值用病例或对照的中位数估算,数据集中\ \(μ= 0 \).当2个SNPs在\ (r ^ 2 = 1 \),其中一个SNP被删除并对非常相关的(\(r ^ 2> 0.98 \)消除了属于同一基因的SNP。

由于sgPLS和joint-sgPLS等组稀疏降维方法需要在变量组重叠的情况下进行扩展[47.],选择10条不重叠的通路,最终数据库中只保留与这些组相关的3766个snp。经过这些预处理后,新的数据集由3766个SNPs组成,分组在337个非重叠基因和10个非重叠通路中。这些途径和基因的列表如表所示5.6.在附录1中。

本文实施的方法是:资产,Metaskat,SGPLS和联合SGPLS。对于Metaskat,SGPLS和联合PLS,SNP级,基因级和途径级结果是由该方法给出的,而资产仅提供SNP级结果。因此,在资产的情况下,考虑对应于所选SNP的基因。对于每个SNP.一世,对于甲状腺数据和乳腺数据,可以分别考虑基因与疾病关联的单变量logistic模型(甲状腺和乳腺癌,图。4.).

如前所述,对于SGPLS和关节SGPLS,通常通过交叉验证程序进行参数的校准。此过程依赖于性能度量的定义:模型预测错误。然而,在遗传研究中,效果很小,基于遗传单位的预测性能通常非常低。从一组惩罚参数到另一组惩罚参数,SGPLS和关节SGPL的预测性能并不不同。为了促进解释,我们将校准参数的结果呈现为20个基因和3个途径和3个途径\α= 0.5 (\ \).我们使用部分方法中描述的引导策略来探讨方法的稳定性。数字5.6.为预选和非预选特性提供这个速率。基因和关系当且仅当一个途径是预先选择的,并且它在自举过程中的选择率高于任何其他基因时,它才能在最终选择中被保留。路径),不是预先选择的。我们可以看到,联合- sgpls比其他方法选择较少的基因(4针对响应。metaSKAT和sgPLS的20和18)。

图4
装具

单因素模型中snp与结果关联的得分。分数计算为\(- \text{log}_{10} (p)\)在哪里P.是假定值。红线对应阈值0.01。蓝色的交替显示了不同的染色体

图5
figure5 figure5

在100个bootstrap上对sgPLS和关节sgPLS的基因选择百分比。一种甲状腺数据。B.sgPLS对乳房数据。C两个数据sgPLS。D.joint-sgPLS。在原始数据上选择的基因(预先选择的基因)是蓝色的,其他基因(非预先选择的基因)是红色的

选择的结果显示在表中3.基因和途径的名称。“sgPLS single”表示对甲状腺和乳腺数据分别使用sgPLS,而“sgPLS both”表示对两个数据集进行研究标准化的连接使用方法。只有通过至少一种方法选择的基因才会被提出。所有方法均未筛选出外源性代谢途径的基因。我们可以看到,专注于snp水平信息的方法从其中一个研究中选择基因,但从来没有同时从两个研究中选择基因,除了insr.它选择了这两项研究的SKAT。这个基因不是由荟萃分析方法中选择。通过组级方法中选择(ASSET,metaSKAT,sgPLS,联合sgPLS))不是由可变水平的方法选择的是这样的基因:PTEN,RORA,MSH3,IL18RAP,GNPDA2,LRRN6C,NEGR1,NR3C1,SEC16B,HEXA,HEXB,MAN2B2,NEU2,TGBR3,NMNAT2,CYP2C18,CYP2C19,MGST1。这些基因是进一步研究很好的候选人,因为他们没有被研究选取的研究分析,但分析荟萃选择。我们可以注意到,5出选择肥胖和肥胖相关表型途径和选择其他聚糖降解所有基因的8个基因是这些基因的一部分。这些途径不会是因为没有荟萃分析多在突出显示。通过荟萃分析选择用于甲状腺数据集和所选择的基因是:MAP2K2,GTF2H1和CYP2F1。然后,这些基因都与甲状腺癌,但荟萃分析表明它们可能与乳腺癌的共同作用有关。通过荟萃分析选择用于乳房数据和选择的基因是:PLAG2G6,ERCC3,ERCC6,MUTYH,MTHFD2,IL13,NAT2。 Meta-analyses suggest that these genes may also be involved with thyroid cancer in a common effect. We can see that joint-sgPLS selects a lower number of genes (resp.4) compared to ASSET, metaSKAT and sgPLS (resp. 19, 20, 18). Method sgPLS and joint-sgPLS select the glycan pathway and folate metabolism pathway and sgPLS selects also cell cycle pathway. PLS methods suggest that pathway-level effect could be involved.

备注5

结果基于不同选择SGPLS和关节SGPLS(50,100基因和5个途径)的校准参数。

表3在基因和途径方面选择了数据集。选择的选择。甲状腺数据集,乳房数据集和两个数据集都在RESP中表示。蓝色,绿色和阅读
图6.
figure6

在100个bootstrap上,sgPLS和连接sgPLS的路径选择百分比。一种甲状腺数据。B.sgPLS对乳房数据。C两个数据sgPLS。D.joint-sgPLS。在原始数据中选择的通路(预先选择的)用蓝色表示,其他通路(非预先选择的)用红色表示。这些途径如下:(1)细胞周期(2)昼夜节律(3)叶酸代谢(4)其他聚糖降解(5)肥胖和肥胖相关表型(6)DNA修复(7)外源性代谢(9)早熟或延迟性青春期(10)炎症反应

计算表演

在模拟案例1和案例2中给出了计算性能,这两个案例代表了具有500个预测器和1个输出的数据(表1)4.).观测次数分别为\(N = 200 \)\(n = 400 \).利用仿真所用的网格对sgPLS和joint-PLS惩罚超参数进行了估计。给出了超过50次重复的平均运行时间。

表4用于案例1(n = 200)和案例2的资产,Metaskat,SGPLS和联合SGPL的秒数为秒数(n = 400)

我们可以看到整体上有最小的运行时间。方法SGPLS和联合SGPLS具有最昂贵的计算。这是由于估计惩罚参数作为普遍的参数。然而,这种微积分在同一方法的连续应用中组成。它可以是百大平的。

讨论

在本文中,提出了关节SGPLS的性质,并与经典的SGPL,资产方法和Metaskat进行了比较。该方法资产,Metaskat和关节SGPLS适用于Meta分析,而SGPL则不是。资产仅提供可变级别的结果,而Metaskat和联合SGPLS可以评估组级结果。然而,联合SGPLS是唯一提出在相同模型变量结果和组结果中链接的方法。与基准方法相比,该方法具有更多的解释性,同时对模拟具有竞争性或优越的性能。因此,联合SGPLS似乎完全适用于荟萃分析,其中可以存在相反方向的影响,这邀请我们在复杂的研究中进行进一步调查,以遗传流行病学等血腥的流行病学。

结论

我们相信,进一步的调查可以就同一主题进行。在这篇文章中,sgPLS和合资sgPLS已应用于一个组成部分,但一些部件可以考虑。这可能导致的是垂直于第一组件的选择变量的选择,但有仍然有很大的参与协方差矩阵。

我们承认,在应用程序上,该方法的稳定性是一个重要的观点,因为交叉验证过程不符合选择惩罚参数。一个改进可以在利用例如稳定性措施中利用过程(误差预测)的标准来包括[53.].另一个改进可能在于使适应性套索[54.]对于我们可以绕过稳定性问题的方法。

提出的方法使用一组建筑,但添加组亚组架构是调查的考虑基因 - 和途径级信息在同一时间一个有趣的路径。方法sgsPLS([36.])已提供带组和子组的架构,其是sgPLS的延伸稀疏偏最小二乘框架。类似的工作可能会导致一个有前途的联合sgsPLS。

为了推进应用,这项研究应该在更大的数据库中进行复制。特别是对甲状腺癌的研究少于对乳腺癌的研究,在这一应用中,甲状腺的数据仍然稀缺。其他的多效性病例也可以进行研究,例如,每个受试者的表型都是多效性的。该联合sgpls适用于任何类型的表型,连续或定性。R代码可以从作者那里获得,用于复制结果,可以在github (https://github.com/camilobroc/bmc_joint_sgpls.).

可用性数据和材料

生成本文中分析过的模拟数据的代码可在https://github.com/camilobroc/bmc_joint_sgpls..它是为R软件(3.6.3及以上版本)而设计的。在当前的研究中使用的应用程序数据集“Beluhca”可以通过作者的合理请求获得。

缩写

GWAS:

全基因组关联研究

SNP:

单核苷酸多态性

加:

轻微的等位基因频率

请:

偏最小二乘

SPLS:

稀疏偏最小二乘

sgPLS:

稀疏群偏最小二乘

sgsPLS:

稀疏群稀疏偏最小二乘

SKAT:

SNP内核协会测试

TP:

真正的积极

FP:

假阳性

FN:

假阴性

TN:

真正的负

参考文献

  1. 1。

    Paby Ab,Rockman MV。肺炎的许多面孔。趋势类型。2013; 29(2):66-73。

    中科院PubMed.文章公共医学中心谷歌学术

  2. 2。

    GrattenĴ,Visscher的PM。对于基因药物的影响:在复杂性状和疾病的基因多效性。Genome Med。2016; 8(1):78。

    PubMed.公共医学中心文章中科院谷歌学术

  3. 3。

    solovieff n,cotsapas c,lee ph,purcell sm,snoller jw。复杂性状的肺炎:挑战和策略。NAT。Rev. Genet。2013; 14(7):483。

    中科院PubMed.公共医学中心文章谷歌学术

  4. 4.

    杨C,李成,王Q,涌达,赵H. Pleiotropy的影响:生物医学中挖掘大数据的挑战与机遇。正面。遗传。2015; 6:229。

    中科院PubMed.公共医学中心谷歌学术

  5. 5。

    Gagnon-Bartsch JA,Speed TP。使用控制基因校正微阵列数据的不需要变化。生物统计学。2012; 13(3):539-52。

    PubMed.公共医学中心文章谷歌学术

  6. 6。

    Bhattacharjee S, Rajaraman P, Jacobs KB, Wheeler WA, Melin BS, Hartge P, Yeager M, Chung CC, Chanock SJ, Chatterjee N,等。基于子集的方法提高了异质性状遗传关联研究的综合分析能力和解释能力。acta Human gene . 2012;90(5): 821-35。

    中科院PubMed.文章公共医学中心谷歌学术

  7. 7。

    Lee S,Teslovich TM,Boehnke M,Lin X.测序协会研究中罕见变种的荟萃分析的一般框架。am j人类遗传。2013; 93(1):42-53。

    中科院PubMed.文章公共医学中心谷歌学术

  8. 8。

    利用综合关联统计分析复杂性状的遗传。中国科学院院刊。2017;18(2):117-27。

    中科院PubMed.文章公共医学中心谷歌学术

  9. 9。

    Watanabe K, Stringer S, Frei O, Mirkov MU, de Leeuw C, Polderman TJ, van der Sluis S, Andreassen OA, Neale BM, Posthuma D.复杂性状多效性和遗传结构的全球概述。Nat麝猫。2019;51(9):1339 - 48。

    中科院PubMed.文章公共医学中心谷歌学术

  10. 10。

    Jang S-K,Saunders G,Liu M,Jiang Y,Liu DJ,Vrieze S. 23和Me Research Team,等,遗传相关性,Pleiotropy和物质使用与精神疾病之间的因果关系。心理医学。2020; 1-11

  11. 11.

    Neale BM, Rivas MA, Voight BF, Altshuler D, Devlin B, Orho-Melander M, Kathiresan S, Purcell SM, Roeder K, Daly MJ。检测罕见变异的异常分布。公共科学图书馆麝猫。2011;7(3):1001322。

    文章中科院谷歌学术

  12. 12.

    Lee S,Abecasis Gr,Boehnke M,Lin X.稀有变体关联分析:研究设计和统计测试。am j人类遗传。2014; 95(1):5-23。

    中科院PubMed.文章谷歌学术

  13. 13。

    陈Z,王K.基于基因顺序负担关联检验。统计医学。2019; 38(13):2353-63。

    PubMed.文章谷歌学术

  14. 14。

    LêCaoK-A,BEITARD S,BESSE P.稀疏PLS判别分析:用于多标菌问题的生物相关特征选择和图形显示。BMC生物素。2011; 12(1):253。

    PubMed.公共医学中心文章谷歌学术

  15. 15。

    蔡婷婷,马智,吴勇,等。稀疏主成分分析:最优速率和自适应估计。统计年鉴》2013年;41(6):3074 - 110。

    文章谷歌学术

  16. 16。

    Shahbaba B,Tibshirani R,Shachaf CM,葡萄酒SK。贝叶斯基因集分析识别重要的生物途径。j r stat soc ser c(应用统计)。2011; 60(4):541-57。

    谷歌学术

  17. 17。

    Evangelou E, Ioannidis JP。全基因组关联研究的meta分析方法。中国科学(d辑:地球科学)2013;14(6):379-89。

    中科院PubMed.文章谷歌学术

  18. 18。

    Mukhopadhyay I, Feingold E, Weeks DE, Thalamuthu A.使用基于核的个体间多位点基因型相似性的关联检验。遗传论文。2010;34(3):213 - 21所示。

    谷歌学术

  19. 19。

    Schweiger R,Weissbrod O,Rahmani E,Müller-Nurasyid M,Kunze S,Gieger C,Waldenberger M,Rosset S,Halperin E. RL-SKAT:遗传性和集合测试的精确和有效的分数测试。遗传学。2017; 207(4):1275-83。

    PubMed.公共医学中心文章谷歌学术

  20. 20。

    耿P,童X,对于多电平组学数据的联合分析路Q.一种综合方法ü。BMC遗传学。2019; 20(1):1-12。

    文章谷歌学术

  21. 21。

    范锐,王勇,王勇,陈伟,李勇,任华,loach I,熊明。基于功能线性模型的数量性状基因水平元分析。遗传学。2015;200(4):1089 - 104。

    PubMed.公共医学中心文章中科院谷歌学术

  22. 22。

    蒋勇,赵春燕,严强,陈伟,Gorin MB, Conley YP, Lakhal-Chaieb ML, Cook RJ, Amos CI, Wilson AF.等。基于基因的二分类性状与广义线性混合模型的关联检验:应用于年龄相关性黄斑变性。J Am Stat Assoc(刚刚接受)。1-35 2020;

  23. 23。

    Wang G, Srinivasan S, Colic M, Hart T. A network of human functional gene interactions from knockout fitness screens in cancer cells.(作者)生命科学联盟。2019;2(2)。

  24. 24。

    姚晨,陈炳辉,姚晨,张旭,刘超,Huan T, ttastan O, Cupples LA, Meigs JB,等。遗传变异和基因表达的整合分析确定心血管疾病表型网络。循环。2015;131(6):536 - 49。

    中科院PubMed.文章公共医学中心谷歌学术

  25. 25。

    等。基因型-组织表达(gtex)初步分析:人类多组织基因调控。科学。2015;348(6235):648 - 60。

    文章中科院谷歌学术

  26. 26.

    曼佐尼C,起亚DA,VandrovcovaĴ,哈迪Ĵ,木材NW,刘易斯PA,法拉利R.基因组,转录组和蛋白质组:组学数据的崛起及其在生物医学科学的整合。简报Bioinform。2018; 19(2):286-302。

    中科院PubMed.文章公共医学中心谷歌学术

  27. 27.

    Vizcaíno JA, Csordas A, Del-Toro N, Dianes JA, Griss J, Lavidas I, Mayer G, Perez-Riverol Y, Reisinger F, Ternent T, et al. 2016年pride数据库及其相关工具的更新。核酸Res. 2015;44(D1): 447-56。

    文章中科院谷歌学术

  28. 28.

    Gamazon er,Wheeler He,Shah Kp,Mozaffari SV,Aquino-Michaels K,Carroll RJ,Eyler AE,Denny JC,Nicolae DL,Cox NJ等。一种基于基因的基因关联方法,用于使用参考转录组数据映射特征。NAT Genet。2015; 47(9):1091。

    中科院PubMed.公共医学中心文章谷歌学术

  29. 29.

    WOLD H.潜在变量的路径模型:纳皮尔方法。1975; 307-357。

  30. 30.

    偏最小二乘:用于分析高维基因组数据的通用工具。简报Bioinform。2006;8(1):32-44。

    PubMed.文章中科院谷歌学术

  31. 31.

    Nørgaard L, Saudland A, Wagner J, Nielsen JP, Munck L, Engelsen SB.区间偏最小二乘回归(i pls):以近红外光谱为例的比较化学计量学研究。54: Spectrosc。2000;(3):413 - 9。

    文章谷歌学术

  32. 32.

    Giessing C,Fink Gr,Röslerf,泰尔厘米。FMRI数据预测尼古丁的行为效应的个体差异:局部最小二乘分析。J Cogniti Neurosci。2007; 19(4):658-70。

    中科院PubMed.文章谷歌学术

  33. 33.

    皮尔森Liii。在与空间点系最接近的直线和平面上。(2) .中国科学(d辑:地球科学)1901;

    文章谷歌学术

  34. 34。

    曹乐K-A,Rossouw d,罗伯特-GraniéC,贝斯P.甲集成组学数据时疏变量选择PLS。统计申请苹果蛋白酶生物乳头Biol。2008; 7(1)。

  35. 35。

    Liquet B,De Micheaux PL,Hejblum BP,ThiébautR.组和稀疏组偏最小二乘方法在基因组学环境中应用。生物信息学。2015; 32(1):35-42。

    PubMed.谷歌学术

  36. 36。

    李志强,李志强。基于群和子群结构的稀疏偏最小二乘。统计地中海。2018;37(23):3338 - 56。

    PubMed.文章谷歌学术

  37. 37。

    acta opzzinski, et al ., 2011, 37(4): 494 - 498。Stat第一版。2010;20(2):231 - 52。

    文章谷歌学术

  38. 38。

    Broc的C,Calvo的B,案情不明B.惩罚偏最小二乘施加到结构化的数据。阿拉伯Ĵ数学。2019; 1-16。

  39. 39。

    王志强,王志强,王志强,等。大数据:一个统一的并行算法正则化组Pls . Stat Surv. 2019; 13:119-49。

    文章谷歌学术

  40. 40。

    Eslami A,Qannari Em,Kohler A,Bougeard S.多组PLS的算法。J Chemometr。2014; 28(3):192-201。

    中科院文章谷歌学术

  41. 41。

    王涛,何光,叶凯,Strickler H, Elston RC。当多个标记具有基因型时,建立基因-基因和基因-环境相互作用模型的偏最小二乘方法。遗传论文。2009;33(1):6 - 15。

    中科院PubMed.公共医学中心文章谷歌学术

  42. 42。

    沉H,黄吉兹。稀疏的主成分分析通过正则化低级矩阵近似。J Multivar肛门。2008; 99(6):1015-34。

    文章谷歌学术

  43. 43。

    Vinzi Ve,Trinchera L,Amato S. Pls Pls路径从基础到最近的发展和开放问题的模型评估和改进。2010; 47-82。

  44. 44。

    Geladi P,科瓦尔斯基BR。偏最小二乘回归:一个教程。肛门chimacta。1986; 185:1-17。

    中科院文章谷歌学术

  45. 45。

    Colombani C,Croiseau P,Fritz S,Guillaume F,Legarra A,Ducrocq v,Robert-GraniéC。在法国乳制品中基因组选择中的偏最小二乘(PLS)和稀疏PLS回归的比较。j乳制品sci。2012; 95(4):2120-31。

    中科院PubMed.文章公共医学中心谷歌学术

  46. 46。

    D'Aspremont A,Ghaoui Le,Jordan Mi,Lanckraiet Gr。使用SEMIDEFINITE编程的稀疏PCA直接配方。在:神经信息处理系统的进步。2005; pp。41-48

  47. 47。

    jacob l,obozinski g,vert j-p。组套索与重叠和图表套索。在:第26届年度机器学习会议的诉讼程序。2009; pp。433-440。ACM.

  48. 48。

    尼尔森SM,白MG,香港S,Aschebrook-Kilfoy B,卡普兰EL,安吉洛P,库尔卡尼SA,Olopade OI,格罗根RH。乳房,甲状腺癌链接:一个系统回顾和荟萃分析。癌症流行病学杂志防止生物标志物。2016; 25(2):231-8。

    中科院文章谷歌学术

  49. 49。

    Mavaddat N, Michailidou K, Dennis J, Lush M, Fachal L, Lee A, Tyrer JP, Chen T-H, Wang Q, Bolla MK,等。预测乳腺癌和乳腺癌亚型的多基因风险评分。acta Human gene . 2019;104(1): 21-34。

    中科院PubMed.文章公共医学中心谷歌学术

  50. 50.

    瑞典家庭癌症数据库中960万个体中癌症的环境和遗传原因。中华癌症杂志。2002;99(2):260-6。

    中科院PubMed.文章公共医学中心谷歌学术

  51. 51.

    Gudmundsson J,Thorleifsson G,Sigurdsson JK,Stefansdottir L,Jonasson JG,Gudjonsson Sa,Gudbjartsson DF,Masson G,Johannsdottir H,Halldorsson GH等人。基因组 - 范围的协会研究产生了五种新的甲状腺癌风险基因座。NAT Communce。2017; 8:14517。

    中科院PubMed.公共医学中心文章谷歌学术

  52. 52.

    Stacey Sn,Manolescu A,Sulem P,Rafnar T,Gudmundsson J,Gudjonsson SA,Masson G,Jakobsdottir M,Thorlacius S,Helgason A等。染色体的常见变体2Q35和16Q12赋予雌激素受体阳性乳腺癌的敏感性。NAT Genet。2007; 39(7):865。

    中科院PubMed.文章谷歌学术

  53. 53.

    基于遗传算法的特征选择算法。J马赫学习Res。18.,174-1

  54. 54.

    zou h. Adaptive Lasso及其Oracle属性。J AM Stat Assoc。2006; 101(476):1418-29。

    中科院文章谷歌学术

下载参考

确认

作者感谢Pascal Guénel提供了乳腺癌和甲状腺癌的数据。作者还感谢微积分中心MCIA (Mésocentre de Calcul intenf Aquitain)提供的设施。“Ligue contre le Cancer”也因其对多效交叉癌症基因组研究项目的支持而获得认可。

资金

本研究得到了“Ligue contrle Cancer”的多效交叉癌症基因组研究项目的支持。

作者信息

隶属关系

作者

贡献

CB和BL设计了这种新方法。CB执行分析。TT对实际数据进行了解释。CB, TT, BL撰写手稿。所有作者阅读并批准了最终的手稿。

相应的作者

对应到卡米洛·气息

伦理宣言

伦理批准和同意参与

从所有参与者获得了本研究的书面知情同意书。研究方案由法国伦理委员会(CNIL,CCPPRB)(参考号码05-3144对于CATHY研究和04-53的CECILE研究)的批准。

同意出版

不适用。

相互竞争的利益

提交人声明他们没有竞争利益。

附加信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

附录1:基因和途径的表

附录1:基因和途径的表

见表5.6.

表5首次途径及其相应的基因。
表6最后的途径及其相应的基因。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

张志强,张志强,张志强,等。多向性的偏最小二乘法。欧宝娱乐合法吗22,86(2021)。https://doi.org/10.1186/s12859-021-03968-1

下载引用

关键词

  • 遗传流行病学
  • 高维数据
  • 套索可罚性
  • 荟萃分析
  • 肿瘤学
  • 部分最小平方
  • 途径分析
  • pleiotropy.
  • 稀疏方法
  • 变量的选择
\