跳到主要内容

预捕获多路复用提供额外的电源来检测外壳测序中的拷贝数变化

抽象的

背景

由于Exome测序(ES)集成到临床实践中,我们应该尽一切努力利用所产生的所有信息。复制数变型可能导致孟德尔疾病,但是小副本变体(CNVS)经常被推迟的数据收集忽略或遮挡。许多组开发了检测来自es的CNV的方法,但现有方法通常对小型CNV来说往往不良,并且依赖于临床实验室的大量样品。此外,方法通常依赖于需要用户定义的前沿的贝叶斯方向在现有知识不足的情况下。本报告首先展示了多路复用exome捕获的益处(在捕获之前池采样),然后提出了一种新颖的检测算法,MCCNV(“多路复用捕获CNV”),内置多路复用捕获。

结果

我们证明:(1)多路捕获减少了样本间方差;(2) mcnv方法是一种基于深度的从多路捕获ES数据中检测cnv的新算法,改进了对小型cnv的检测。我们将我们的新方法与常用的ExomeDepth进行了对比。在一项模拟研究中,mcnv证明了一个有利的错误发现率(FDR)。当与来自匹配基因组测序的调用进行比较时,我们发现mcCNV算法的性能与ExomeDepth相当。

结论

实现多路捕获增加了检测单外显子cnv的能力。新的mcnv算法可能提供比ExomeDepth更有利的FDR。我们的方法最大的好处来自于:(1)不需要参考样本数据库,(2)不需要关于变异的流行程度或大小的预先信息。

同行评审报告

背景

人类遗传学,个体通常具有在基因组中(一个来自每个亲本继承)每个基因座上的两个副本。从正常二倍体状态,从广义称为拷贝数变异,偏差可能会导致的表型变化和孟德尔疾病。技术,例如微阵列,存在用于可靠地检测大(大于100千碱基)拷贝数变异(CNV的)。在过去的十年中,可获得短读取DNA测序迫使许多努力以确定和识别较小的变种。测序成本,数据的负担,并进行分类的内含子和非编码变体的问题已导致外显子测序(ES)为优选临床测序模式。ES分析最多重点是确定致病的单核苷酸变异体和插入/缺失。CNV分析可以提供在诊断率适度改善[1]但现有数据/分析缺乏检测外来级别变化的力量[23.].迄今为止,低检测能力掩盖了小cnv的真正诊断潜力。

目前的分析方法充分检测到大型CNV,但需要大的样品尺寸(数十个)并缺乏用于内部外来水平变化的分辨率[4567].由于ES研究的力量不足和临床基因组测序数据有限,外显子级CNV的患病率和临床重要性仍然很大程度上是未知的。最近在1507个基因的子集上的工作表明,腺癌的CNVs占总变体的1.9%,但致病变异的9.8%[8].此外,作者展示了627/2844(22%)所识别的CNVs,跨越单个(598)或部分(29)外显子[8].

靶向测序需要使用序列特异性寡核苷酸诱饵捕获所需的基因座(例如外显子)。即使在精心设计和平衡时,BAIT的差分效率也会导致全面的可变读取深度。目标片段的GC含量和长度有助于观察到的可变读取深度[9];最ES分析平台并入校正GC含量和外显子的长度[10].可变读深度在ES排除了单样本窗口平滑办法在GS数据成功地应用于[11],例如Control-Freec [12],CONDEL [13],cnv_iftv [14],CNVnator [15],ERDS [16];因此,我们必须依赖于询问副本号的比较分析。比较分析需要一组参考控制;我们假设参考控件与测试主体的相同罕见的CNV并没有接受不识别普通的CNV。

比较多个单独捕获的样本会加剧可变读取深度问题。每个外显子的捕获概率与样本之间存在相关性,但具有很高的可变性[4].换句话说,我们可以从类似捕获的样本中获取信息,但独立的捕获引入了显着的噪声。ExoMeDepth试图通过识别来自具有低样本变异性的大型池的样本子集来规避捕获变异变化[4].或者,针叶树[5], XHMM [6]和Codex [7使用具有频谱值分解的潜伏因子模型来消除系统噪声,可能是通过捕获到捕获变化引入的系统噪声。这些方法通常需要非常大的样本尺寸,并且通常仍然仍然缺乏出口水平分辨率的力量(例如,Codex定义了跨越五个连续外显子的“短”CNV)。

在此,我们将我们的报告广泛分为两部分。首先,我们展示多路复用跨样品的捕获减少了采样间方差,并提供了适当的exoMeTepth控制器,从而增加了检测CNV的功率。其次,我们介绍了我们的小说算法,MCCNV(“多路复用捕获CNV”),专门设计用于利用多路复用捕获Exome数据,用于估计外部级别的情况而无需先前信息。

结果

多路复用捕获减少了样本间方差

ES在文库制备期间使用分子诱饵“捕获”exosind DNA片段(测序前)。为了加快患者的结果,简化工作流程,在我们经历大多数实验室(包括个人沟通,稿件的作者展示了复用捕获的成本效率[17])分别捕获每个样品。捕获效率与定时,温度和底物浓度而变化,使得相同捕获再现是不可能的。或者,可以捕获之前复用(池)的样品,同时捕获样品的池。在这里,我们个人简介与捕获捕获复用的样本间差异。

多项过程提供了用于建模目标捕获的逻辑框架,每个目标由个人结果表示。我们可以通过将每个外显子的总映射读数除以Exome的总映射读数来估计exome捕获的多项概率单纯x。Dirichlet分布,用于多项分布的缀合物,定义了概率单纯x的分布。Dirichlet分布由参数化\(\ varvec {\阿尔法} = \ {\阿尔法_1,\阿尔法_2,\ ldots,\阿尔法_n \} \),其中预期结果概率\(i=1,2,ldots,n\)) 是(谁)给的\(\ alpha _i / \ alpha _0,〜\ alpha _0 = \ sum \ varvec {\ alpha} \).如果\(\ varvec {\ pi} \)概率单形是从带参数的狄利克雷图中得到的吗\(\ varvec {\ alpha} \),则方差\(\ varvec {\ pi} \)是成反比的\(\ alpha _0 \).因此,我们可以通过将Dirichlet分布拟合到每个池并询问平均值来近似样本差异\(\α\)

使用多路复用捕获,我们使用Agilent Baits和两个带有IDT Baits的Agilent Baits和两个16样本池的两个8个样本池排序(表1)。要与单独捕获的安捷伦数据进行比较,我们会从NCGenes Cohort中随机选择5个16个样本池。我们在池中的所有样本中占有至少5个,并且在池中的所有样本中的内部计数为数字稳定性。然后我们使用了牛顿Raphson算法[18]将Dirichlet分布符合每个池;所有池都融合到稳定的估计。有一个例外,我们发现多路复用的捕获池更大\(\ alpha _0 \)而不是他们独立捕获的同行(图。1)。

图。1
图1

与独立捕获(IC)相比,多路捕获(MC)减少了方差,这是通过拟合狄利克雷分布估计的。横轴上给出的总计数/样本;的意思是\(\α\)给出垂直轴。\(\ alpha _0 \)与样本间方差成反比。每条线/点代表一个单独的池。该点表示池中总数的中位数,范围由该线给出。橙色表示多路捕获;蓝色表示独立捕获。三角形表示使用Agilent (AGL)捕获的池;方格表示集成DNA技术(IDT)

图2
图2.

平均方差关系在多路复用捕获中展示了较少的色散。一个安捷伦(AGL)捕获池;b集成DNA技术(IDT)捕获池。在水平轴上给出的每个外显子的平均值;在垂直轴上给出的每个外显子的平均方差。轮廓显示池分布点。虚线显示普通的最小二乘因子回归配合。橙色表示多路复用捕获池;蓝色表示独立捕获的池。虚线灰线表示泊松过程中预期的1:1的关系。绘图上方的线显示池的平均值密度;绘图右侧的线条显示池的差异值密度

表1总结的全基因组测序的。“池”表示取样池的名称;“捕获”指示池的采集平台;“N”给在池中的样品的数目;“medExon”给出映射每分子的外显子计数对象中值的中位数池;“medTotal”给出了总的池映射每个受试者分子数的中位数;“minTotal”和“maxTotal”得到的最小和最大总映射分子;“rsdTotal”给出总被映射分子的相对标准偏差(SD /平均值×100)
表2由“WGS”池的主题和算法的CNV呼叫数量

多路复用池没有降低的样本差异,IDT-MC,在池中测序深度有更大的扩散(表1, 无花果。1)。看着总映射分子,IDT-MC池的相对标准偏差(64.2%)的任何其他池都有两倍。我们假设在复用步骤期间,在文库平衡差的变化中不存在的变化降低。我们随后使用相同的DNA输入,IDT-RR捕获了一个新池,并找到了采样间方差的可比减少(最高的池\(\ alpha _0 \)在图中。1)。

检验均值-方差关系表明,Dirichlet参数估计所建议的样本间方差减少相同(图。2)。安捷伦池(图。2一)干净分离,与在复用捕获池少的分散体。再次,我们没有发现任何对IDT-MC池方差减小,与独立地捕获IDT-IC池(图重叠。2b).然而,我们确实观察到,对于更平衡的IDT-RR池,分散度几乎完全降低。

多路复用捕获提供了exoMedepth的控制

外显子深度需要一组对照受试者,在每个外显子上加总为计数的参考向量。ExomeDepth提供了从一组受试者中选择适当控制的功能,通常需要数百名受试者来识别适当的控制。规模较小的研究小组和临床实验室可能难以建立外显子组的大型数据库,而大量变异和定期改进捕获和测序化学物质又增加了难度。我们想知道通过多重捕获减少样本间方差是否可以为外显子肽提供合适的控制集,从而消除对类似捕获外显子的大型数据库的需要。我们发现,多重捕获减少的样本间方差导致了ExomeDepth的适当控制选择(图。3.)。池2,我们重复初始碎片五次,没有执行和其他多路复用池。我们还发现WGS池中的两个样本与池的其余部分没有良好相关。

图3.
图3.

exoMedepth控制选择。一个每外显子中位数计数;bexoMedepth的估计PHI参数;c可选择作为对照的可用样品的比例;d选择的控件总数。每个点代表一个样本,采用池分组的样本。三角形表示独立捕获的样本;圆圈表示池中的单个多路复用捕获。虚线垂直线分离两个捕获平台

当我们看待独立捕获的主题时,我们为112个NCGenes受试者中的大多数找到了适当的控制集(图。3.d)。然而,仅ExomeDepth选择的可用样本的12.2%作为对照,平均(图3.C)。同样,与独立捕获的IDT-IC池一起找到大多数样本的低控制号。虽然可以选择相同数量的控制但表现出不同的分散,但我们观察到独立和多路复用捕获之间的分散差异很小(图。3.b)总的来说,多路捕获为大多数测试的样品提供了适当的控制,并与从足够大的可用样品集中选择的独立捕获的控制进行比较。

MCCNV和EXOMEDEPTH在模拟研究中表现相当

比较我们的mcCNV算法和ExomeDepth,我们创造跨越不同的测序深度数据的合成池。基于我们的真实数据的观察,我们选择的分子的总数从定义为在指定深度的任一侧上的30%的窗口均匀分布每个样品;例如,1000万个的分子的特定深度,我们提请每个样品分子从7至13百万个分子。我们使用从“库1”每个外显子为起始捕获概率单纯每个模拟观测到的捕获概率。对于每一个深度范围从5至100个百万个分子,我们模拟了单个外显子的变体200 16样品池。我们允许纯合和杂缺失和重复(0-4册),使得所有变种都同样有可能,总变异概率为1/1000。我们使用,作为起始捕获概率(\({\mathbb{E}}}\)),通过池1池求和观察到的经验捕获概率。

我们使用我们的算法和ExomeDepth的两次迭代分析了4000个池中的每个池(200个复制,20个深度)。对于ExomeDepth的第一次迭代,我们使用了转移概率(1/10000)和预期变量长度(50KB)的默认值。对于第二次迭代,我们使用真实的模拟变量先验值作为转移概率(1/1000),预期变量长度为1KB。正如预期的那样,随着测序深度的增加,敏感性增加,错误发现率降低(图。4). 在这两个比较中,mcCNV显示出较低的错误发现率。在询问马修的相关系数时[19[敏感度,我们发现MCCNV在突出的exoMemepth具有边际性能,突出参数和边际性能下,具有仿真匹配参数(补充材料中提供的值表)。

图4.
图4.

比较mcCNV和ExomeDepth的算法性能。一个- - - - - -cMCCNV与exoMeDepth具有默认参数,1/10,000过渡概率和50 kB预期变体长度。d- - - - - -fMCCNV与展开仿真参数,1/1000过渡概率和1 KB预期变体长度。编号点表示数百万分子中的模拟深度。'MCC'表示马修的相关系数;'TPR'表示真正的阳性率/敏感性;'FDR'表示错误的发现率。虚线黑线显示1:1的关系

图5.
图5.

复制WGS池的编号变体呼叫一致性,除了与池其他池的相关性不相关的情况下,不包括NCG_00790和NCG_00851。一个预测重复;b预测删除。mccnv(mc)灰色;exoomepth(ed)蓝色;ERDS / CNVPYTOR(WG)橙色。重叠内的值给出了变体的数量

MCCNV和EXOMEDEPTH在WGS池中执行

为了使用真实数据比较mcCNV和ExomeDepth,我们对WGS库中的受试者进行了匹配的基因组测序。遵循Trost等人建议的最佳实践[20[我们使用基因组数据执行基于读取的基于CNV调用。符合Trost等人的建议,我们排除在比较分析中,任何重复或低复杂性地区的任何外显子(179,250分中的34,856)。然后,使用MCCNV和ExoMeDepth使用ERD的重叠来将Exome呼叫与基因组调用进行比较[16]和cnvpytor [15].桌子2列出主题的总呼叫。总体而言,MCCNV预测了最大的变种;然而,从两个样本(NCG_00790和NCG_00851)缺少85.7%的预测变体。ExoMedepth还预测了NCG_00790和NCG_00851的缺失次数,总计69.4%。

ExomeDepth只有选择的两个和三个控制用于池NCG_00790和NCG_00851,分别。此外,NCG_00790和NCG_00851具有比池(在图2点的异常值的其余部分高得多的分散体。3.b)。

认识到基因组调用并不代表一个准确的真相集,我们观察了mcCNV和ExomeDepth预测基因组调用的能力。由于NCG_00790和NCG_00851的大量缺失,这两种算法在预测基因组调用方面表现不佳3.)。当我们从分析中排除NCG_00790和NCG_00851时,MCCNV具有可比性,均匀的性能。这两种算法都显示出更大的功率来检测删除。数字5显示三种方法之间的调用重叠,不包括NCG_00790和NCG_00851。再次排除这两个样本,我们观察了单个外显子调用;37.4%的mcCNV单外显子调用和34.1%的外显子深度单外显子调用与基因组调用重叠。我们在补充材料中提供了不同尺寸的完整比较。

表3 MCCNV(MC)/ ExoMedepth(ED)呼叫“WGS”池(用作预测)与ERDS / CNVPYTOR调用来自匹配的基因组测序(用作真相)

讨论

医学遗传学社区仍然缺乏关于小(外显子水平)变异流行的可靠的外显子范围的信息。其他人已经确定了预捕获多路复用的可靠性和成本效益[1721222324]而且大多数商业Exome捕获平台具有用于预捕获复用的协议。在这里,我们展示了采样间差异的降低,具有预捕获多路复用,从而增加了检测外显子级拷贝数变化的功率。尽管有好处,但许多临床实验室不采用多路复用捕获协议,因为多路复用降低了捕获效率[20]并要求等待填充池,可能会延迟结果。虽然我们了解复杂性增加,但多路复用捕获可能会发现未错过的拷贝数变异并提高患者的诊断产量。

多路采集也不是没有限制的。我们提出了其中多路复用的捕获到没有改进过独立地捕获的样品提供小的例子(池IDT-MC)。我们得出的结论在样本间方差缺席的改善从捕获前穷人库平衡朵朵。重建与表现在帧间样本方差的大量减少同样的样品(池IDT-RR)的更平衡的池。因此,我们的例子显示了采用多路采集时的精心设计的重要性。

在评估样本间差异时,我们比较了两种捕获平台:(1)安捷伦SureSelectXT2和(2)集成DNA技术xGen锁定探针。我们没有足够的数据来确定一个优于另一个。比较均值-方差关系,IDT-RR池的总体离散度似乎较小(补充材料);然而,ExomeDepth的样本特定离散度估计表明WGS池的性能更好(图。3.b)。WGS池中的较高的池宽分散来自两个不相关的样本。

我们的结果表明,最大的样本数据库最多 - 通常提供适当的控制样本来估计拷贝数变化(图。3.)。但是,我们将展示实验室可以通过复捕获步骤规避大样本的需要。定义捕获池作为一组同时控制界限需要定期再分析随着数据库的增长,并消除了与同一变种样本的潜在过度选择。

通过为WGS池获得的读取深度,我们的简单模拟研究将建议MCCNV和ExoMeDepth具有检测具有> 85%灵敏度的单外显子变体,同时保持低假发现率(图。4,补充材料)。但是,将Exome调用与WGS池的基因组呼叫进行比较揭示了缺乏乐常的一致性。作为Trost等人。指出,基因组CNV呼叫者仍然与小于1 kB的变体挣扎[20].考虑到基于基于基于小变种和外壳收集参数的基于基于基于基于基于基于基于呼叫者的性能,极端的结果可以提供比基因组结果更高的可靠性。但是,鉴于在整个exome呼叫的分发,我们解除了千分之一的多余删除,要求NCG_00790和NCG_00851。观察到的过量缺失可能源于DNA降解,但我们缺乏额外的DNA来确认疑似的输入质量问题。个人电话的确认超出了这项工作的范围。

不陈旧的,MCCNV和ExoMedepth都未能呼吁从基因组数据调用许多重复。随着平均值的增加,负二项式的差异增加;我们预计从重复的基因座的读取深度的变化更大,使得更难以区分。类似地,二项式比例的方差在单调上增加[0,0.5)。更敏感的重复检测可能需要更大的测序深度。

采用可比性,我们强调了使用MCCNV算法的两个优势。首先,算法不需要任何用户定义的先前信息,而ExoMedepth需要有关普遍存求和拷贝数变体的普及和大小的先前信息。其次,分析仅在外显子水平处发生。虽然MCCNV方法没有定义变型断点,但是得到的模型不包括来自片段长度/ GC校正的偏差。

仿真研究强调测序深度的重要性(绝对分子而言)。我们可以通过测序收集增加碱基对覆盖更少的钱,再读取(例如,2×150对2×50),但是这样做降低了功率为基于深度CNV调用。在临床外显子组的测序深度努力之间差别很大,在临床测序探索性研究(CSER)的联盟的平均深度为63-233x [25];其他人已经建议SNP / Indel呼叫的理想深度为120倍[26].如果我们希望建立外来级别的变体,我们展示了更深入的测序。

此外,我们认识到使用独立的捕捉难以捕捉区域增加捕获效率;多路复用所述捕获步骤20-30%减少了捕捉效率[20].我们觉得多路复用捕获的差异效益超过了捕获效率的降低。没有精确估计因外显子级CNV引起的疾病负担,我们无法评论多路复用捕获的成本效益,具有足够的排序深度。在存在更大的信息之前,我们倡导多路复用捕获和深度测序以识别小型CNV。

我们相信,有关的患病率和外显子级的临床意义的不确定性变型权证大事业。即使我们采取了保守的做法,只在基因组外显子测序(图之间的一致呼吁一下。5),我们平均每种样品平均40个变体来抗争。存在两种可能性:(1)算法全部失败,或者(2)一些基因可以比其他基因更好地耐受内部拷贝数变异。从重复和低复杂性地区消除呼叫,我们认为可能性(2)更有可能。为了真正确定外显子水平变体的患病率(因此,临床意义),我们需要在大型队列中询问外显子级变体。来自Exome和基因组呼叫的数十万到数千个预测变体的确认测试将允许真正确定算法性能并告知临床公用事业。

结论

我们一起建议:(1)研究和临床努力考虑在任何有针对性的捕获之前调整对多重样品的协议;(2)在捕获之前,我们建议根据需要检查图书馆平衡并调整(我们在每种样品的测序分子的相对标准偏差低于25%时取得了良好的性能);(3)每目标收集225个过滤读数。然后,我们提供了一种易用和高效的R包,以利用负二项式分布估计拷贝数。

方法

exome测序

我们对从Wilhelmsen实验室收集获得的纯化DNA的人样品进行测序,NCGENES COHORT [27],以及科瑞尔研究所在联合国大学机构审查委员会监督下遵守所有准则和条例。我们还利用了来自NCGENES的现有读级数据[27] 项目。所有人类数据都在批准和在UNC机构审查委员会的监督下进行所有指南和条例收集。所有研究参与者或参与者的监护人在适用时,收到了适当的咨询,并提供了知情同意参与本研究。没有识别信息或序列级别数据包含在此稿件或附带的数据中。

我们比较了两种捕获平台的性能:(1)安捷伦SureSelect XT2(复用捕捉)/安捷伦SureSelect XT(独立捕捉);(2)集成DNA技术(IDT)XGEN锁定探针。我们利用人全外显子组V4诱饵(安捷伦)和外显子组研究小组V1诱饵(IDT)。所有捕获根据制造商方案进行,但有以下例外:(1)我们复用16个样本相对于用于一些池XT2协议建议8;(2)对于池2,我们进行破碎步骤5次试验的更均匀的片段长度分布是否会改善捕获。

所有测序与Illumina(2×100)配对结束化学进行了一个例外:我们最初用2×150化学进行测序,然后使用2×50化学在同一库上收集额外的测序。我们使用BWA-MEM对齐成对读取到HG19V0(GATK资源捆绑包)[28]使用Picard工具删除重复读取。然后我们使用我们的小说R包,MCCNV来计算每种外显子的重叠分子(读数)的数量。为了包含,我们需要具有明确映射的适当成对的分子,对于两个读取的一个读取和映射质量大于或等于20。全部咆哮[29]辅料中提供的管道。桌子1提供包含exame序列的概述。

池名称可以被认为是任意的。简而言之,“池1/2”是我们测序的第一个池,“SMA1 / 2”包括SMN1基因中已知缺失的样本(未使用的捕获平台未覆盖),“IDT-MC / IDT-IC”表示复用和使用IDT平台的独立捕获池“IDT-RR”是“IDT-MC”样本的重新捕获和重新排序,“WGS”是具有匹配的全基因组测序的池。

基因组测序

对于“WGS”池中的16个样本,我们使用Illumina 2×150化学进行基因组测序,平均为50×覆盖率。在图书馆制备期间,低可用输入DNA需要PCR扩增。我们跟进Trost等人。制作基于读取的CNV调用的建议[20].简单地说,我们描绘成对读取等同于我们的靶向测序数据。然后,我们询问的阅读深度四分使用范围samtools深度[30.],重新校准基本质量分数,并使用GATK调用序列变量[31.],并使用ERDS称为副本数变体[16]和cnvpytor(更新实施CNVnator的)15]算法。全蛇[29]辅料中提供的管道。

模拟目标测序

多项过程模拟具有不同结果的重复独立试验,每个结果都有一定的概率(例如,滚动骰子10次)。为了模拟靶向测序中的捕获,我们将捕获的每个分子建模为多项试验,并对每个靶向区域进行可能的结果。为了定义特定于主题的多项分布,我们从给出每个目标的基线捕获概率的共享概率单纯形开始。然后我们将基线概率乘以每个目标上的主体特定复制状态并进行归一化,得到主体特定的多项分布。我们使用另一种复制状态的定义,例如1表示正常的二倍体状态。

正式地说,让我们\(e_j \在{\ mathbb {E}} \)代表捕获目标的基线概率j\(你\)代表对象的分子总数(读对).对于每个主题,

  1. 1

    随机选择\(s_ {ij} \在{\ mathbb {s}} _ i \)中\(S={0.0,0.5,1,1.5,2\}\)作为目标的副本号j

  2. 2

    通过副本编号调整主题特定的捕获概率,\({\ mathbb {e}} _ i = \ frac {{\ mathbb {e}} \ ootot {\ mathbb {s}} _ {i}} _ {i}}} _ {i}} _ {i}}} _ {i}} _ {i}}} _ {i}} _ {i}} _ {sum _j {\ mathbb {e}} \ ootot {mathbb {s}} _ {i}} \)

  3. 3.

    \(你\)\(\ {文本多项式}({\ mathbb {E}} _ⅰ)\),给每个目标的分子计数j对于样本\(c_ {ij} \在{\ mathbb {c}} _ i \)中

我们用于产生可再现的模拟提供的mcCNVř封装内的功能性。请注意,用户必须提供\({\mathbb{E}}}\)(捕获的基线/未调整概率)。所述mcCNVř封装包括功能用于随机限定\({\mathbb{E}}}\)但是,在本工作中包含的模拟使用了观察到的“pool1”的捕获概率。

mccnv算法

所述mcCNV算法改编自SSEQ方法用于在具有小的样本大小RNA-SEQ实验定量差异表达[32.].yu等人。提供负二项式模型的详细理论背景,并使用收缩以改善色散估计。MCCNV算法通过为副本状态添加乘数来调整SSEQ概率模型:

$$ \开始{对齐} C_ {IJ} \ SIM {\ mathcal {N}} {\ mathcal {B}}(f_is_ {IJ} {{\帽子{\亩}}} _Ĵ,{\波浪号{\披}} _焦耳/ f_i)\ {端对齐} $$
(1)

随机变量的位置\(c_ {ij} \)表示观察到的分子计数受试者瞄准目标j\(f_i \)是主题的大小因素\ (s_ {ij} \)是副本状态,\(\亩_j \)是目标的二倍体状态下的预期意思j, 和\({\tilde{\phi}}}\u j\)是目标的萎缩phij.我们观察到\(c_ {ij} \)并希望估算\ (s_ {ij} \)\({\ hat {s}} _ {ij} \).通过设置初始化\({\ hat {s}} _ {ij} = 1 \)对所有人j.然后,

  1. 1

    调整估计的拷贝状态的观察值,

    $ $ \{对齐}开始c_ {ij} ^{\ '} = \压裂{c_ {ij}}{{{年代}\帽子}_ {ij}}。\{对齐}$ $
    (2)
  2. 2

    子集\(c_ {ij} ^ {\ prime} \)这样\(c_ {ij} ^ {\ prime}> 10,〜{\ hat {s}} _ {ij}> 0 \)

  3. 3.

    计算每个主题的大小因素

    $$ \ begined {对齐} f_i = \ text {median} \ left(\ frac {c_ {ij} ^ {\ prime}} {g_j} \ light),\结束{对齐} $$
    (3)

    在哪里\(g_j \)是目标的几何平均值吗j

  4. 4

    使用矩的方法来计算预期的分散

    $$ \开始{对齐} {\帽子{\披}} _ J = \最大\左(0,\压裂{{\帽子{\西格玛}} _ J 1 2 - \帽子{\亩} _j} {\帽子{\亩} _j ^ 2} \右)\ {端对齐} $$
    (4)

    在哪里\(\ hat {\ mu} _j \)\(\ hat {\ sigma} _j ^ 2 \)样本是均值和方差\(c_ {ij} ^ {\ prime} / f_i \)

  5. 5

    J代表的目标数量。收缩到披值

    $$ \ begined {alpiouned} {\ tilde {\ phi}} _ j =(1 - \ delta){\ hat {\ phi}} _ j + \ delta \ hat {\ xi} \ neg {aligned} $$
    (5)

    这样

    $$ \ begined {seconaled} \ delta = \ frac {\ sum \ limits _j \ left({\ hat {\ phi}} _ j - \ frac {1} {n_j} \ sum \ limits _j {\ hat {\ phi}} _ j \ over)^ 2 /(j - 1)} {\ sum \ limits _j \ left({\ hat {\ phi}} _ j - \ hat {\ xi} \右)^ 2 /(n_j - 2)}} \结束{对齐} $$
    (6)

    $$ \ {开始对准} \帽子{\ XI} = \ mathop {\文本{argmin}} \限制_ {\ XI} \左\ {\压裂{d} {d \ XI} \压裂{1} {\总和\限制_j \左({\帽子{\披}} _的J - \ XI \右)^ 2} \右\}。\{对齐}$ $
    (7)
  6. 6

    更新\({\ hat {s}} _ {ij} \)

    $ ${对齐}\ \开始mathop限制文本{argmax}}{\ \ _{\在年代}\左\ {\ mathcal {1} (s | c_ {ij}, f_i,{\μ}}{\帽子_j,{\波浪号{\φ}}_j)正确\ \}\{对齐}$ $
    (8)

    在哪里\(s = \ {0.001,0.5,1,1,1.5,2 \} \)

  7. 7

    重复,直到改变状态的数量低于阈值,或者达到最大迭代次数。

  8. 8

    收敛后,计算P.二倍体的价值观,\(\pi{ij}=\text{Pr}(s{ij}=1)\)

  9. 9

    调整P.使用Benjamini-Hochberg程序的值[33.]过滤到最终的呼叫集,以便调整P.值低于一些阈值,\(\α\)

可用性数据和材料

MCCNV实现为R包:https://github.com/daynefiler/mccnv..所有数据和功能都以在独立R包中提供的所有数据和功能,带有Vignette复制分析:https://github.com/daynefiler/filer2020a.

参考

  1. 1.

    Marchuk DS,Crooks K,Strande N,Kaiser-Rogers K,Milko LV,Brandt A,Arreola A,Tilley Cr,Bizon C,Vora NL,Wilhelmsen KC,Evans JP,Berg JS。通过拷贝数变体分析提高外壳测序的诊断产量。Plos一个。2018; 13(12):0209185。https://doi.org/10.1371/journal.pone.0209185

    CAS.文章谷歌学术

  2. 2.

    retterer k,scuffins j,schmidt d,lewis r,pineda-alvarez d,斯塔福德A,Schmidt L,Warren S,Gibellini F,Kondakova A,Blair A,Bale S,Matyakhina L,Meck J,Aradhya S,Haverfield E.基于大型临床队列中的CNV谱评估Exome测序和Exome阵列CGH的拷贝数。Genet Med。2015; 17(8):623-9。https://doi.org/10.1038/gim.2014.160

    CAS.文章PubMed.谷歌学术

  3. 3.

    姚R,张C,余T,李N,胡X,王X,王J,沈Y。使用全外显子组测序数据评估三种基于读取深度的cnv检测工具。摩尔细胞遗传学。2017;10:30.https://doi.org/10.1186/s13039-017-0333-5

    CAS.文章PubMed.pmed中央谷歌学术

  4. 4。

    Plagnol V,Curtis J,Epstein M,Mok Ky,Stebbings E,Grigoriadou S,Wood NW,Hambleton S,烧伤所以,Thrasher AJ,KumararaTne D,Doffinger R,Nehentsev S.一种难以读数数据在外壳测序实验中的鲁棒模型并对副本数字变体调用的影响。生物信息学。2012; 28(21):2747-54。https://doi.org/10.1093/bioinformatics/bts526

    CAS.文章PubMed.pmed中央谷歌学术

  5. 5。

    Krumm n,sudmant ph,ko a,o'roak bj,malig m,coe bp,quinlan ar,Nickerson da,Eichler EE。从Exome序列数据复制数变型检测和基因分型。Genome Res。2012; 22(8):1525-32。https://doi.org/10.1101/gr.138115.112.

    CAS.文章PubMed.pmed中央谷歌学术

  6. 6。

    Fromer M, Moran JL, Chambert K, Banks E, Bergen SE, Ruderfer DM, Handsaker RE, McCarroll SA, O 'Donovan MC, Owen MJ, Kirov G, Sullivan PF, Hultman CM, Sklar P, Purcell SM。全外显子组测序深度中拷贝数变异的发现和统计基因分型。中国科学(d辑:地球科学)2012;https://doi.org/10.1016/j.ajhg.2012.08.005

    CAS.文章PubMed.pmed中央谷歌学术

  7. 7。

    蒋Y,Oldridge DA,Diskin SJ,Zhang NR.Codex:全外显子组测序的标准化和拷贝数变异检测方法。《核酸研究》,2015年;43(6):39.https://doi.org/10.1093/nar/gku1363

    CAS.文章谷歌学术

  8. 8。

    Truty R,Paul J,Kennemer M,Lincoln Se,Olivares E,Nussbaum R1,Aradhya S.孟德利亚疾病基因患者患有内核拷贝数变异的患病率和性质。Genet Med。2019; 21(1):114-23。https://doi.org/10.1038/s41436-018-0033-5

    CAS.文章PubMed.pmed中央谷歌学术

  9. 9。

    Benjamini Y,Speed TP。总结和校正高吞吐量排序中的GC含量偏差。核酸RES。2012; 40(10):72。https://doi.org/10.1093/nar/gks001

    CAS.文章谷歌学术

  10. 10。

    Kadalayil L,Rafiq S,Rose-Zerilli MJJ,Pengelly RJ,Parker H,Oscier D,Strefford JC,Tapper WJ,Gibson J,Ennis S,Collins A. Exome序列读取深度方法来识别副本编号的深度方法。简短生物形式。2015; 16(3):380-92。https://doi.org/10.1093/bib/bbu027.

    CAS.文章PubMed.谷歌学术

  11. 11

    Chiang Dy,Getz G,Jaffe DB,O'Kelly MJT,Zhao X,Carter SL,Russ C,Nusbaum C,Meyerson M,Lander ES。具有大规模平行测序的复位映射复位映射。NAT方法。2009; 6(1):99-103。https://doi.org/10.1038/nmeth.1276

    CAS.文章PubMed.谷歌学术

  12. 12

    Boeva V,Popova T,Bleakley K,Chiche P,Cappo J,Schleiermacher G,Janoueix-Lerosey i,Delattre O,Barillot E.Control-Freec:使用下一代测序数据评估副本号和等位基因内容的工具。生物信息学。2012; 28(3):423-5。https://doi.org/10.1093/bioinformatics/btr670

    CAS.文章PubMed.pmed中央谷歌学术

  13. 13。

    袁X,白俊,张继,杨L,段J,Li Y,Gao M. Nemel:使用序列数据检测单个肿瘤样品的拷贝数变异和基因分型缺失Zygosity。IEEE / ACM反式计算BIOL BIOINFORM。2020; 17(4):1141-53。https://doi.org/10.1109/tcbb.2018.2883333

    CAS.文章PubMed.谷歌学术

  14. 14。

    袁晓霞,于建军,奚建军,杨磊,尚军,李振华,段建军。Cnv\_iftv:基于短读测序数据的Cnv全变异检测。IEEE/ACM Trans compput Biol Bioinform。https://doi.org/10.1109/TCBB.2019.2920889

  15. 15。

    阿贝佐夫A,城市AE,斯奈德男,格斯坦M. Cnvnator:一种方法来发现,基因型,并从家庭和人口基因组测序表征典型和非典型的CNVs。Genome Res。2011; 21(6):974-84。https://doi.org/10.1101/gr.114876.110

    CAS.文章PubMed.pmed中央谷歌学术

  16. 16。

    朱M,需要AC,韩义,GE D,Maia JM,朱Q,海因昂·埃尔,Cirulli等,Pelak K,He M,Ruzzo Ek,Gumbs C,Singh A,Feng S,Shianna KV,Goldstein DB。使用ERDS在高覆盖基因组中推断复制编号变体。我是j嗡嗡声的遗传。2012; 91(3):408-21。https://doi.org/10.1016/j.ajhg.2012.07.004

    CAS.文章PubMed.pmed中央谷歌学术

  17. 17。

    Shearer Ae,Hildebrand Ms,Ravi H,Joshi S,Guiffre Ac,Novak B,Happe S,Leproust Em,Smith RJH。预捕获复用提高了有针对性基因组富集的效率和成本效益。BMC基因组学。2012; 13:618。https://doi.org/10.1186/1471-2164-13-618

    CAS.文章PubMed.pmed中央谷歌学术

  18. 18。

    Minka TP。估计Dirichlet分布。技术报告。2000年。

  19. 19。

    马修斯BW。T4噬菌体溶菌酶的预测和观察的二级结构的比较。Biochim Biophys Acta。1975; 405(2):442-51。

    CAS.文章谷歌学术

  20. 20。

    培训B,Walker S,Wang Z,Thiruvahindrapuram B,Macdonald JR,Sung WWL,Pereira SL,Whitney J,Chan AJS,Pellecchia G,Reuter MS,Lok S,Yuen RKC,Marshall Cr,Merico D,Scherer SW。从全基因组序列数据的读取深度识别基于深度的识别的全面工作流程。我是j嗡嗡声的遗传。2018; 102(1):142-55。https://doi.org/10.1016/j.ajhg.2017.12.007

    CAS.文章PubMed.pmed中央谷歌学术

  21. 21。

    Ramos E,Levinson Bt,Chasnoff S,Hughes A,Yourfal,Thornton K,Li A,Vallania Flm,Province M,Druley Te。基于人口的罕见变体检测通过汇集的外销或定制杂交捕获,或没有个别索引。BMC基因组学。2012; 13:683。https://doi.org/10.1186/1471-2164-13-683

    CAS.文章PubMed.pmed中央谷歌学术

  22. 22。

    Wesolowska A,达尔加德MD,博斯特L,戈蒂埃L,Bak的男,Weinhold N,尼尔森BF,Helt LR,Audouze K,NerstingĴ,Tommerup N,Brunak S,Sicheritz-Ponten T,LEFFERS H,Schmiegelow K,古普塔R.捕获之前高性价比的复用允许筛选儿童急性淋巴细胞白血病25组000临床相关的SNP。白血病。2011; 25(6):1001-6。https://doi.org/10.1038/leu.2011.32

    CAS.文章PubMed.谷歌学术

  23. 23

    尼曼男,Sundling S,格伦贝格H,霍尔P,Czene K,林德伯格Ĵ,Klevebring D.文库制备和复用捕获用于大规模并行测序应用作出高效和容易。Plos一个。2012; 7(11):1-6。https://doi.org/10.1371/journal.pone.0048616

    CAS.文章谷歌学术

  24. 24

    用于多目标捕获的高成本效益、高通量dna测序库。基因组研究》2012;22(5):939 - 46。https://doi.org/10.1101/gr.128124.111

    CAS.文章PubMed.pmed中央谷歌学术

  25. 25

    绿色RC,戈达德KAB,加维科GP,阿门多拉LM,阿贝尔鲍姆PS,伯格JS,伯恩哈特BA,Biesecker LG,比斯瓦斯S,Blout CL,保龄球KM,兄弟KB,伯克W,毒素相关蛋白阿南CF,Chinnaiyan上午,钟WK,克莱顿EW,库珀GM,东K,埃文斯JP,富勒顿SM,Garraway LA,盖瑞特JR,灰色SW,亨德森GE,Hindorff LA,Holm的IA,刘易斯MH,胡特CM,詹恩PA,Joffe的S,考夫曼d,Knoppers BM,科尼格BA,克兰茨ID,Manolio TA,麦卡洛L,麦克尤恩Ĵ,麦奎尔A,Muzny d,迈尔斯RM,尼克森DA,区Ĵ,帕森斯DW,彼得森GM,普隆SE,雷姆HL,罗伯茨JS,鲁宾逊d,萨拉马JS, Scollon S, Sharp RR, Shirts B, Spinner NB, Tabor HK, Tarczy-Hornoch P, Veenstra DL, Wagle N, Weck K, Wilfond BS, Wilhelmsen K, Wolf SM, Wynn J, Yu J-H. Clinical sequencing exploratory research consortium: Accelerating evidence-based practice of genomic medicine. Am J Hum Genet. 2016;98(6):1051–66.https://doi.org/10.1016/j.ajhg.2016.04.011

    CAS.文章PubMed.pmed中央谷歌学术

  26. 26。

    Kim K,Seong M-W,Chung W-H,Park SS,Leem S,Park W,Kim J,Lee K,Park RW,Kim N.发现诊断变体发现的下一代Exome测序深度的影响。基因组学通知。2015; 13(2):31-9。https://doi.org/10.5808/GI.2015.13.2.31

    文章PubMed.pmed中央谷歌学术

  27. 27。

    Foreman Akm,Lee K,Evans JP。NCGENES项目:探索基因组排序的新世界。N C MED J. 2013; 74(6):500-4。

    PubMed.谷歌学术

  28. 28。

    关键词:BWA-MEM,序列比对,克隆序列,装配序列2013.arXiv: 1303.3997

  29. 29。

    Koster J,Rahmann S. Snakemake-A可扩展的生物信息学工作流引擎。生物信息学。2012; 28(19):2520-2。https://doi.org/10.1093/bioinformatics/bts480

    CAS.文章PubMed.pmed中央谷歌学术

  30. 30.

    李H,手机B,Wysoker A,Fennell T,Ruan J,Homer N,Marth G欧宝直播官网app,AbeCasis G,Durbin R.序列对齐/地图格式和SAMTools。生物信息学。2009年; 25(16):2078-9。https://doi.org/10.1093/bioinformatics/btp352

    CAS.文章PubMed.pmed中央谷歌学术

  31. 31。

    van der Auwera Ga,Carneiro Mo,Hartl C,Poplin R,Del Angel G,Levy-Moonshine A,Jordan T,Shakir K,Rozen D,Thibault J,Banks E,Garimella kV,Altshuler D,Gabriel S,Devisto Ma。从FASTQ数据到高置信范围调用:基因组分析工具包最佳实践管道。Curr Protoc生物信息学。2013; 43(1110):11-101111033。https://doi.org/10.1002/0471250953.bi1110s43

    文章PubMed.谷歌学术

  32. 32。

    Yu D,Huber W,Vitek O.在具有小样本尺寸的RNA-SEQ实验中的阴性二项式模型中分散的收缩估计。生物信息学。2013; 29(10):1275-82。https://doi.org/10.1093/bioinformatics/btt143

    CAS.文章PubMed.pmed中央谷歌学术

  33. 33。

    Benjamini Y,Hochberg Y.控制虚假的发现率:多种测试的实用和强大的方法。j r stat soc ser b(方法)。1995年; 57(1):289-300。https://doi.org/10.1111/j.2517-6161.1995.tb02031.x.

    文章谷歌学术

下载参考

致谢

我们感谢Jim Evans从养蜂业中休息,以提供周到的评论和建议。

资金

该工作得到了国家儿童研究所和人类发展研究所[F30HD101228]和国家一般医学研究所[5T32GM067553]。

作者信息

隶属关系

作者

贡献

DLF准备了文本/图表,编写了相关的R包,设计并执行了模拟实验,并为算法设计做出了重大贡献。FK和KCW对算法设计做出了重大贡献。ATB、CRT、PAM、JSB、KCW执行或促进测序。其余的作者在设计最终算法时提供了关键反馈。所有作者都审阅了手稿。

通讯作者

对应于泰恩L. Filer.

道德宣言

伦理批准和同意参与

所有人类数据都在批准和在UNC机构审查委员会的监督下进行所有指南和条例收集。所有研究参与者或参与者的监护人在适用时,收到了适当的咨询,并提供了知情同意参与本研究。没有识别信息或序列级别数据包含在此稿件或附带的数据中。

同意出版物

不适用。

相互竞争的利益

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

附加文件1。

Vignette显示提供的R代码和脚本来复制分析所需的。

权利和权限

开放存取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/. 知识共享公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

文件管理器,D.L.,郭,F.,勃兰特,A.T.等等。捕获前多路复用为检测外显子组测序中的拷贝数变化提供了额外的能力。欧宝娱乐合法吗22,374(2021)。https://doi.org/10.1186/s12859-021-04246-021-04246-021-04246-021-04246-0.

下载引用

关键词

  • exome测序
  • 复制号码变异
  • 捕获