跳转到主要内容

用于NGS种系面板分析的映射、变异调用和间隔填充管道的性能评估

摘要

背景

下一代测序(NGS)代表临床遗传学的显着进步。但是,它的使用会创造几种技术,数据解释和管理挑战。必须遵循一致的数据分析管道,以实现最高的准确性并避免错误的变体调用。在此,我们旨在比较NGS数据分析管道隔间二十八种组合的性能,包括短读取映射(BWA-MEM,Bowtie2,Stampy),变体调用(Gatk-HaplotypeCaller,Gatk-UnifiedGenotyper,SAMTOOLS)和间隔填充(无效,50bp,100bp)方法以及市售的管道(BWA富集,Illumina®)。来自乳腺癌患者的十四种种系DNA样品使用靶向的NGS面板方法测序并进行数据分析。

结果

我们强调,间隔填充需要准确检测内含子变异,包括剪接致病变异(pv)。此外,BWA Enrichment算法使用了几乎默认的参数,未能检测出这些剪切性PV和一个错意义PVTP53基因。我们还建议使用BWA-MEM算法进行序列比对,而变体调用应该使用变体调用算法的组合来执行;GATK-HaplotypeCaller和SAMtools用于准确检测插入/缺失,GATK-UnifiedGenotyper用于有效检测单核苷酸变体调用。

结论

这些发现对通过临床实验室环境中的面板测试来识别临床可操作的变异具有重要意义,而专职生物信息学人员可能并不总是可用。结果还表明,有必要改进现有的工具,同时开发新的管道,以生成更可靠、更一致的数据。

同行评审报告

背景

大规模平行测序,也被称为下一代测序(NGS),代表了临床遗传学的重大进展,并使分子遗传学领域发生了革命性的变化,因为它可以同时研究多个基因和样本[1]。为此,大规模平行测序,为发现新型疾病造成变体进行了地面[2]。然而,这些新集成技术也伴随着一些技术、数据管理和解释方面的挑战[3.]。虽然已经开发了不同的序列映射和不同的调用方法,但它们在调用之间呈现了变量一致性[3.,4,5,6,7,8,9,10.,11.,12.]。

在许多短读取映射算法中,挖掘机轮车对准器(BWA) - maximal完全匹配(MEM)[13.],Stampy [14.和Bowtie2 [15.]非常受欢迎。Bowtie2和BWA-MEM使用挖掘机 - 轮转器变换(BWT)算法,在此期间参考基因组是“折叠”并且索引并读取并读取与参考基因组的子串对齐[16.,17.]。随后,两者都产生了非常相似的结果[13.,18.]。相反,通过在15-MERS中散列参考基因组使用基于散列方法的冲压函数识别哈希表中的每个读取的候选对准位置,然后被滤波以发现具有最高读取相似度的序列[14.]。

多年来,发散型变体调用算法已经发展,其功能是通过区分真正的变体与对齐错误[10.]。基因组分析工具包(GATK)-HaplotypeCaller (GATK- hc) [19.、GATK-UnifiedGenotyper (GATK-UG) [20.]和samtools [21.变异调用算法被广泛使用。GATK-UnifiedGenotyper和SAMtools,采用贝叶斯变量调用方法建模测序错误,通过独立地将reads映射到参考基因组并评估基因型可能性建模测序错误并识别最可能的基因型调用来检测候选变量[10.,11.,12.,22.]。这种方法可以非常有效地检测单核苷酸变异(SNVs),但在将reads与候选插入或缺失(indels)周围的区域对齐时可能会遇到挑战[10.]。另一方面,GATK-HaplotypeCaller遵循基于汇编的方法,在此过程中,它首先在一个固定长度的窗口内对reads进行局部de-novo汇编,然后建立候选单倍型,并确定它们与参考基因组比较的可能性[10.]。具有最高可能性的候选单倍型被称为真序列,单倍型内的变体被称为真变体。与贝叶斯变量调用方法相比,这种基于程序集的方法可以更有效地检测小的甚至是大的indels,因为它可以解决候选indels旁边区域的错误对齐,从而提高总的准确率和召回率[10.]。

此外,变体调用需要一个间隔列表文件,该文件对应于文库准备期间的目标基因组区域,通常由试剂盒制造商提供。对于外显子组或靶向测序数据,GATK (https://gatk.broadinstitute.org/)套房最近建议额外的间隔填充(通常是100bp)。尽管在各种变体调用算法的文档中清楚地说明了间隔填充,但是使用了确实使用的间隔填充[23.],使用几乎默认参数运行的变体调用算法可能会错过潜在可操作的剪接致病变异(pv),而一些算法不包括该参数的选项。

遵循良好的临床NGS化验标准[22.[我们在每次运行中包括正控制,并注意到GATK最佳实践指南后的数据分析导致了已知PV的低检测率。由于不同管道的性能变化,Eurogentest项目和欧洲人类遗传学学会,提出了评估和验证NGS申请的遗传疾病诊断的准则[24.]。最终目标是为每种技术定义最合适的管道,实现尽可能高的准确性并减少错误变体调用。

在此,我们旨在比较管道隔间的二十八种组合的变体调用性能,包括三个短读对准算法-BWA-MEM,Bowtie2和Stamey-,三个变体呼叫算法-Gatk-HC,GATK-UG和SAMTOOLS- 三个不同的间隔填充长度(无效,50bp和100bp),以及商业上可用的管道(BWA富集,Illumina)。

结果

测序和映射评估

使用具有2×75或2×150个循环的高输出V2.5套件对NextSeq 500测序平台(Illumina)进行测序。两次运行都获得了高质量的评分(Q-得分)。Q30率为87.8%(> 80%)和78.6%(> 75%)读数,而聚类密度在最佳水平(平均为215 k / mm)2和210 k / mm2分别)。产量相对较高(77.9英镑和128.8英镑)。测序,平均生成206万条和1480万条读取,而集群平均生成10.3条和7.4条分别为每2 × 75和2 × 150次运行(附加文件3.)。

所有读数都被映射到HG19参考人类基因组组件(GRCH37)(https://genome.ucsc.edu/,最后访问19/07/2019),超过99%的读取与参考基因组正确对齐。但是,如图所示。1,与其他两种对准器相比,Stampy的测图效率较低。详细地说,与BWA-MEM和Bowtie2相比,与Stampy比对显示出更多的未映射读;这一趋势适用于本研究的所有样本(图。1,附加文件3.)。平均而言,Stampy未能对齐5.622%的读取,而BWA-MEM和Bowtie2分别未能对齐0.810%和0.967% (p值= 2.80 × 10-06年,pvalue = 6.70 × 10-06年克鲁斯卡尔-沃利斯)(图。1,附加文件4)。尽管BWA-MEM和Bowtie2算法都实现了很高的映射效率,但BWA-MEM工具拥有最高的映射能力(生成的读取的99.189%被映射)(附加文件4)。然而,差异并不具有统计学意义(p值= 1,kruskal-wallis)。

图1
图1

每个对准算法映射效率评估。点图显示未映射读取的分布(百分比)。标准偏差值显示在误差条中。详细的数字在附加文件中显示4。采用非参数Kruskal-Wallis检验进行统计分析

GATK深度胶体工具用于检查调查下的18个基因的覆盖率(DP)深度。每个基因的详细最大,平均值和最小DP值,如其他文件所示5。与预期的一样,2 × 75周期的测序,与2 × 150周期的测序相比,得到了大约一半的DP(额外文件5)。与BWA-MEM的对准导致平均每碱基(x)DP(范围:2-1188)和735x dp(范围:21-2452)分别对应于2×75和2×150个循环的测序。用Bowtie2映射,展示385(范围:4-1201)和739(范围25-2459)DP,分别对应2×75和2×150个循环测序。此外,与垃圾相比,用垃圾映射展示了较低的DP;382(范围4-1187)和699(范围16-2425),分别与2×75和2×150个循环分别测序。因此,用300个循环和用BWA-MEM或Bowtie2进行测序,平均DP导致更高的DP。

经过变异滤波,我们应用DP≥30X的截断值。对于所有的样本和比对方法,序列reads足够覆盖99%以上的目标区域。在300个周期的测序数据上,Bowtie2比对显示出最高的覆盖率(~ 100%),与BWA-MEM和Stampy方法(分别为99.982%和99.963%)的覆盖率接近。只有两个区域显示低(< 30X) DP;基因1号外显子的剪接供体位置MSH6基因和位于第5号外显子末端的23个核苷酸MSH2基因。与BWA-MEM和Bowtie(分别为99.522%和99.527%)相比,Stampy比对2 × 75周期测序数据的覆盖率略高(99.547%)。23个间隔显示低(< 30X) DP,其中覆盖较少(超过10%的外显子区< 30X)STK11_exon7,STK11_exon4,NF1_exon 25日atm_exon43,MSH2_exon5,NF1_exon14和NF1_exon30(附加文件5)。

管道比较和排名

我们使用来自14个样本的数据评估每个管道的性能。使用垂直距离进行排名(d)的每个点从“随机猜测”,所谓无歧视,对角线(图。2)。首先,比较了所有变型的管道性能。填充量为100 bp的BWA-MEM/SAMtools管道总体性能最好,填充量为50 bp的BWA-MEM/SAMtools管道紧随其后。2)。相应的 (d)值分别为0.673,0.670和0.670(图。2)。Stampy/SAMtools与100 bp填充,以及BWA-MEM/GATK-UG与50 bp填充,排名第二,垂直(d)值0.662和0.652。在比较马修斯相关系数(MCC)和F1分数时,我们观察了类似的结果(表1)。表格中提供了真正阳性和假阳性SnV和indel的详细数量2。Illumina BWA富集试验的垂直浓度为0.577 (d)与空填充管道的整体性能相比,略高,略高,d= 0.489)。基于垂直(垂直)的层次聚类d), MCC, F1得分,精度(p)和召回率(r)指标支持我们的观察(表1,附加文件6)。统计关联测试表明,读映射方法在统计上与全部变量调用性能相关(p值= 0.00416,单因素方差分析)。Bowtie2 (MCC = 0.517)的性能比BWA-MEM (MCC = 0.782,p值= 0.0043)和Stampy (MCC = 0.747,pvalue = 0.0144)(图。3.一种)。

图2
figure2

比较不同呼叫的接收机操作特征空间图。ROC空间比较变体召唤一个空间隔填充,b50 BP间隔填充和c100 bp间隔填充变异的实体(上面板),分为外显子SNVs (Ai/Bi/Ci),内含子SNVs (Aii/Bii/Cii),外显子indel (Aiii/Biii/Ciii)和内含子indel (Aiv/Biv/Civ)。桑格测序被用作评估呼叫准确性的金标准。在受试者工作特征(ROC)空间绘制真、假阳性率。每个点对应一个混淆矩阵的实例。标签对应垂直距离(d)的值。FPR.假阳性率,GATK基因组分析工具包,HCHaplotyppaller,TPR.真阳性,ug.统一的enotyper。TPR和FPR代表真正的积极和假阳性率。“随机猜测”线条显示为红色

表1 Matthews相关系数、垂直距离、真阳性率和假阳性率值
表2每个管道组合检测的单核苷酸真阳性和假阳性变异数和插入/缺失数
图3
图3

通过对齐、变量调用或填充方法来说明Matthews相关系数值的箱线图。一个实体的变体。b其实SNVs。cexonic indels。dintronic SNVs。eintronic indels。每个点表示一个观察结果,粗体横线表示MCC值的中位数。盒子从每组价值分布的第25个百分位数延伸到第75个百分位数。垂直延伸线(须)表示上下相邻的值。采用非参数Kruskal-Wallis或单向方差分析进行统计分析。所有MCC值的盒图,包括统计上不显著的相关性,显示在附加文件中7GATK基因组分析工具包,HCHaplotyppaller,ug.UnifiedGenotyper

MCC值用于对执行管道组合的顶层进行排序,并对对齐、变量调用和填充方法执行方差分析。Stampy / SAMtools 50个基点填充表现最好呼吁其实单核苷酸变异与MCC (SNVs) = 0.968,其次是BWA-MEM / GATK-UG补零,BWA-MEM / GATK-UG 50个基点填充、BWA-MEM / SAMtools 100个基点填充和BWA浓缩应用程序中,所有与MCC = 0.957(表1)。统计测试表明,读取映射会影响超声SNV调用性能(pvalue = 0.0002839, Kruskal-Wallis)。Bowtie2 (MCC = 0.576)的性能比BWA-MEM (MCC = 0.908,p值= 0.0024)和Stampy (MCC = 0.876,p值= 0.0024)(图。3.b).所有基于GATK-UG的管道显示外显子调用不足(p价值= 5.9×10-06年,kruskal-wallis)和intronic indels(p值= 0.01171,Kruskal-Wallis)(图。3.C,E,表1),而不考虑间隔填充。值得注意的是,在50 bp和100 bp间隔填充的所有基于SAMtools的管道中,intronic indel调用性能最高(MCC = 0.6742)。对于内含子SNV调用,Stampy和BWA-MEM映射结合填充50或100 bp的GATK-HC变体调用表现出最高的性能(MCC = 0.828)(表1),其次是BWA-MEM/GATK-UG,填充100 bp (MCC = 0.746)。统计分析表明,填充方法影响内含SNV调用性能(p值= 0.003845,Kruskal-Wallis)。在细节上,50 bp (MCC = 0.584)和100 bp区间填充(MCC = 0.603)相比null区间填充(MCC =−0.0369,p值= 0.019)(图。3.d).对对齐、变量调用和填充方法的MCC方差的详细分析显示在附加文件中7

检测可操作的变体

根据相应的MCC值选择最顶层执行管道,并比较它们对SNV调用的一致性。如图所示。4, 99.13%(340/343)和88.89%(48/54)的真阳性外显子和内含子snv被所有表现最好的管道调用。14个样本中有7个携带PVs的乳腺癌(BC)易感基因。其中3例患者携带高外显率易感基因剪接位点PVsPALB2.[C.1685-2A> G和C.3350 + 4A> G]。这些,仅在包含间隔填充(50或100bp)后检测到这些。同样,BWA富集应用程序未能检测到这些PV。因此,似乎与BWA富集申请(Illumina)的空填充和分析,导致剪切PVS的低检测率。另外三个样本携带帧移pvBRCA1[c。17.00dup, p.(Asn567fs)],BRCA2[C.3530_3533DEL,p。(ASP1177FS)]和PALB2.[C.487_488DEL,p。(Val163FS)]基因分别。除了基于GATK-UG呼叫之外,所有流水线组合检测到这些帧阈值PV,而不管间隔填充。另外,有一个病人误解了TP53[c.584p.(Ile195Thr);尽管所有的管道组合都实现了PV的检测,但在变异等位基因频率(VAF)阈值(≥30%)之后,该调用被过滤掉。只有BWA-MEM/GATK-UG with null padding (VAF = 31.405%), BWA-MEM/GATK-UG with 50bp padding (VAF = 30.579%)(图1. BWA-MEM/GATK-UG with 50bp padding (VAF = 30.579%))。4)和填充50 bp (VAF = 30.204%)管道的Stampy/GATK-UG,实现了VAF足够时的误检PV。另有3例患者携带临床意义不确定的误义变异(VUSs)。4)。其中两个携带VUSsatm[c。8734.一个 > G, p.(Arg2912Gly)] and one in theBrip1.[c。797C > T, p.(Thr266Met)] genes. All pipeline combinations detected both variants. The third patient carried an intronic VUS in theatm基因[c.2838 + 10G > A]。此变体仅在包含间隔填充时检测到。同样地,BWA浓缩应用程序也未能检测到这种内含电子VUS。

图4
装具

描述外显子和内含子真阳性单核苷酸变异体的维恩图,分别被表现最好的外显子和内含子单核苷酸变异体管道称为。进行了Sanger测序来验证这些调用。根据Matthews相关系数排序选择顶级执行管道。可操作变量属于用箭头描述的组。GATK基因组分析工具包,HCHaplotyppaller,ug.UnifiedGenotyper

假阳性的电话

Bowtie2/GATK-UG分析显示,无论间隔填充与否,总体假阳性率(FPR)最高(FPR = 59.16%)。2a - c)。这是由于外显子中经常出现SNV假阳性呼叫(FPR = 68.52%,图。2i)和内含子区(FPR = 62.5%,图。2ii).在所有GATK-HC管道中均检测到重复的假阳性内含子indels (FPR = 52.22%,图。2iv).统计分析(Kruskal-Wallis检验)表明,变异呼叫以统计上显著的方式影响内含子SNV呼叫的假阳性率(附加文件8)。详细地,与GATK-UG(FPR = 26.25%(FPR = 26.25%)没有用GATK-HC(FPR = 0)检测假阳性内肠SNV。,p值= 0.011)和BWA富集(FPR = 12.5%,p价值= 0.046)。然而,在内肾内诱导方面,GATK-HC呈现出CPR增加(FPR = 52.22%,p值= 0.00158)与GATK-UG,SAMTOOLS和BWA富集相比(图。2iv).统计上显著的FPR差异见附加文件8。在这一点上,我们需要注意的是,在PMS2._exon15,PMS2._exon7,MSH2_exon5,MSH6_exon1,STK11_exon3,STK11_exon9,PTEN_exon4,PTEN_exon3,NF1_exon1和NF1_exon5地区。

讨论

在本研究中,我们综合比较了短读序列比对(BWA-MEM, Bowtie2, Stampy)和变体调用算法(GATK-HC, GATK-UG, SAMtools),结合间隔填充长度(null, 50 bp和100 bp)对目标NGS数据进行分析的性能。使用来自单个BC患者NGS小组研究的14个样本的目标短读数据,我们基于几个标准评估了不同的管道,包括测绘效率、覆盖深度、变体调用性能、可操作变体的检测和假阳性率。这些结果为所选工具在BC易感性分子诊断方面的性能提供了有价值的信息,也为选择最准确的变异呼叫管道提供了见解,用于靶向面板和外显子组测序数据分析。

数据预处理和变异发现是根据eurogenest和欧洲人类遗传学学会关于评估和验证NGS应用于遗传疾病诊断的指南进行的[24.]。尽管有人认为删除重复项对变体调用精度的影响很小[25.],有一个公认的认识,即删除重复读取不会降低变量调用的准确性。因此,重复的删除是定期实现的,以限制任何对变量调用的潜在偏见[20.]。它也很好地描述了读修剪[26.]、indel重新校准和基线重新校准,提高了不同呼叫的精度[20.,22.,27.]。因此,我们将这些步骤实施为标准练习。

首先,我们调查了BWA-MEM,Bowtie2和Stampy对准器的映射效率。虽然BWA-MEM和Bowtie2展示了高度相当的映射效率,但BWA-MEM映射的实现具有最高的映射效率。我们的业绩同意报告BWA-MEM与Bowtie2相比具有较少数量的未对准读数[6,9,28.]。反对其他人报告的结果[29.], Stampy的映射效率最低,未映射的读取超过5%。此外,类似于康沃尔和古达的一项研究[29.],尽管BWA-MEM的映射效率相对较高,但与BWA-MEM相比,Bowtie2的平均DP值更高。我们的结果,证实了使用相似算法的工具可能会获得彼此相似的结果[13.,18.,因为两种基于bwt的算法(BWA-MEM, Bowtie2)都实现了类似的映射效率,并优于Stampy(基于哈希的算法)。然而,我们需要注意,观察到的三种对齐算法之间的映射效率差异相对较小。因此,读深度本身不太可能是变量调用精度的一个因素。

在此,我们介绍了对准方法影响总变体和外部SNV呼叫性能(p值< 0.05),与BWA-MEM和Stampy相比,Bowtie2表现出较低的性能。根据我们的比较,表现最好的管道是填充100 bp的BWA-MEM/SAMtools,其次是填充50 bp的BWA-MEM/SAMtools和Stampy/SAMtools管道,填充100 bp的Stampy/SAMtools和填充50 bp的BWA-MEM/GATK-UG管道。同样,填充50 bp的Stampy/SAMtools,其次是填充0和50 bp的BWA- mem /GATK-UG,填充100 bp的BWA- mem /SAMtools和BWA Enrichment应用,是顶级外子SNV调用管道组合。我们的结果与之前的数据部分一致[3.,4],支持BWA-MEM / SAMTOOLS管道向SNP呼叫显示最佳性能。与我们所呈现的鲜明对比,旺等人。[3.]显示Variant来电者的影响力比SNP呼叫上的读对方器更多,而Kumaran等人则。[4并没有观察到在性能最好的SNP调用管道中有任何显著的变化。值得注意的是,其他研究[6,9[证明BWA-MEM一直比Bowtie2更好。即便如此,精度和召回指标也取决于所使用的变体呼叫者,使用GATK-UG是最佳的变体呼叫者(对于SNV),无论使用的对齐方法如何[6,29.]。在我们的研究中也观察到这一点,BWA-MEM与带有空填充和50 bp间隔填充的GATK-UG结合,检测所有可行动的外显子SNV,并完成高SNV调用性能。与此一致,其他研究表明,与GATK-HC相比,GATK-UG在调用编码snv方面更好[30.,31.]和samtools [8]。然而,其他研究表明GATK-HC [22.[与GATK-UG相比,SAMTOOLS具有更高的变体调用效率[9]。

由于指南有限,诱导诱导和内读变体的精确检测更具挑战性。有趣的是,在我们手中,无论间隔填充和对准算法如何,与Gatk-HC,SAMTOOLS和BWA富集相比,所有基于GATK-UG的管道都未能检测到包括截断的PVS。这些结果与目前的知识相匹配,即GATK-HC和SAMTOOLS与GATK-UG相比呼叫诱导能力的卓越能力[8,11.,30.,32.]。此外,研究表明GATK-HC在indel调用方面优于SAMtools [3.,4,29.,32.,33.]这是与我们观察同意的结果,因为Samtools基础的管道未能检测到50%的内肾造型。算法的算法,SAMTOOLS和UnifiedGenotyper还支持这种观察,因为HaplotypPaller使用的本地De Novo组装方法与贝叶斯呼叫方法相比,HaplotypPlarer的局部效率更有效[10.]。尽管GATK-HC显示了较高的indel召回率,但由于大量的误报indel调用,准确率仍然处于较低水平。因此,与GATK-HC和GATK-UG (p值<0.05)。尽管如此,仍有报告支持indel呼叫效率比gatk-hc更好,而不是gatk-hc [6,10.,30.,31.]或samtools [6,10.,34.]。此外,我们强调,由于预期的间隔填充高度影响外显子侧边区域的变异召唤,零间隔填充和BWA富集分析会导致内含子变异召唤效率低,并降低可操作的pv(包括剪接snv)的检出率。值得注意的是,虽然GATK套件在其论坛中推荐间隔填充,但部分变体调用算法不包括该参数的选项,即使包括,这些都不是必需的参数。因此,一些应用具有几乎默认参数的工具的用户可能没有意识到间隔填充对于分析他们的测序数据的重要性。因此,我们指出间隔填充的重要性,并建议将其调整为必需参数,而不是可选参数。

虽然每个管道的灵敏度需要保持在较高的水平,但非常需要减少假阳性变体调用的数量。Bowtie2联合GATK-UG调用,无论间隔填充和变体类型如何,总体上假阳性率最高。这是由于它表现出最高的SNV假阳性呼叫率。除此之外,有证据表明GATK-HC产生了大量新的indels [30.,31.]。可以说,与Gatk-UG和SAMTOOLS相比,这对应于其高误态Indel呼叫速率[30.,31.]。我们确实注意到,当在管道中包含间隔填充(50bp或100bp)时,Gatk-hc在内路区域内表现出更高的伪正面呼出率。经常观察到,虚假的正呼叫被注释为新型PVS [33.]位于与感兴趣疾病有关的基因。当伪原干扰变体调用过程时,通常会出现这些呼叫。在本报告中,绝大多数虚假的正面呼叫发生在PTEN,PMS2.NF1已知具有潜在影响下游分析的伪原的基因[35.,36.]。因此,我们表明使用Sanger测序验证PVS是一个重要和决定性的步骤。

基因组分析工具包已被广泛接受,被认为是“金标准”,特别是对种系Illumina测序数据[37.]。它不断演变,性能优化参数多样化[34.]。尽管大量研究指出,其不同的呼叫者表现出最好的性能[8,19.,20.,22.,37.,38.,有证据表明,其他变体调用算法,如CASAVA [39.]和手术刀[40],可能在调用SNV和Indels时跑GATK。GATK团队提到,GATK-HC和GATK-UG呈现了呼叫SNV的平等力量,但GATK-HC具有卓越的呼叫indels的能力(https://gatk.broadinstitute.org/)。因此,从GATK 3.3版开始,他们建议在所有情况下都使用GATK- hc,没有例外[41.]。

如前所述,14个样本中有7个在已建立的BC易感基因中携带PVs。其中,三个样本中的两个剪接位点变异,仅在包含间隔填充时检测到。同样,使用BWA浓缩算法,我们未能检测到这些pv。另外三个样本携带帧移pvBRCA1,BRCA2PALB2.除基于GATK-UG调用外的所有管道组合均检测到这些基因,而不考虑间隔填充。另外,有一个病人误解了TP53PV。虽然所有的管道组合都实现了检测错义PV,但在VAF阈值之后,这个调用被过滤掉了,除了三个基于GATK-UG的管道组合,它们设法用足够的VAF检测它。然而,我们不能忽视这一观察结果可能归因于一种可能性,即这个错误PV可能是一个具有低VAF(< 30%)的真实镶嵌事件,而不是关于哪个变体调用算法表现更好的争论[42.]。因此,我们估计,当使用精度和召回率较低的管道时,很大一部分pv将被遗漏。如所示,这些低检出率可以对患者管理产生直接的临床影响,因为携带pv的个人可以受益于风险管理策略,包括在更早的年龄更密切的监测、预防性手术和化学预防,以及更个性化的靶向治疗。

尽管所有28个管道组合收敛于检测到的变体的相对较大的比例,但仍然存在很大程度的可变性,参数接近默认值。这种不一致性是不同对齐和不同调用方法的结果,以及不同对齐和不同调用参数的使用。需要注意的是,上述工具的性能绝不是恒定的,因为它们会随着时间的推移不断改进,而算法只有商业可用(如NovoAlign [18.)在这项工作中没有进行评估。此外,我们的发现只关注于生殖系目标测序数据。

最后,我们支持改进现有工具或开发新算法以实现更可靠、更一致的调用结果的必要性。虽然我们的研究结果需要使用更大的数据集进行验证,并进一步使用不同的NGS面板进行探索,但我们的研究结果对诊断分子基因检测实验室通过面板检测诊断BC易感性具有重要意义。高质量的临床基因检测是至关重要的。

结论

我们建议加入间隔填充和BWA-MEM对齐,以准确检测与疾病相关的内含子变异,包括剪接性PVs。我们还证明,使用几乎默认的参数,BWA Enrichment®未能检测到所有的剪接性PV和一个错误的PVTP53基因。此外,我们建议将GATK-HC和SAMtools结合使用,以实现对indels的准确检测,因为GATK-HC具有较高的召回率,而SAMtools具有较高的准确率。此外,建议采用GATK-UG对SNV调用进行有效检测。最后,随着精准医学的快速发展和NGS技术被广泛集成为常规诊断工具,我们强调了准确的变异呼叫和生物信息学专业知识的必要性。

方法

样本的选择

本研究中所描述的验证实验的结果来自于针对BC患者的NGS-panel研究。每个研究参与者都签署了一份知情同意书,并同意接受基因测试。所有的研究参与者都是已知的PVs或VUSs的携带者,这些都是之前通过Sanger测序确定的。

文库准备和测序

使用94个癌症易感基因对基因组DNA样本进行文库制备(Illumina TruSight cancer Sequencing panel - #FC-121-0202)。该小组包含了针对和富集超过1700个外显子的寡核苷酸,包括编码区和非编码外显子侧翼区(~ 50 bp),跨越94个癌症易感基因(附加文件)1)[43.]。根据制造商的协议(Illumina,#FC-140-1106),Trusight Rapid Capture Kit用于图书馆准备。使用高输出V2.5套件对NextSeq 500测序平台(Illumina)进行配对结束序列。我们执行了两个独立运行的2×75周期和2×150个周期,旨在检查读取深度在后续变体呼叫上的效果。

数据处理

为了符合国际准则,根据eurogenest和欧洲人类遗传学学会(European Society of Human Genetics)关于评估和验证NGS在遗传疾病诊断中的应用的建议,进行了数据预处理和变异发现(图。5,附加文件2)[24.]。

图5
figure5

数据预处理,序列对齐,后对齐处理,变体发现和验证工作流程。在序列对齐之前,使用CutadapT工具在FASTQ文件上应用适配器和低质量修剪。然后使用挖掘机轮式对准器(BWA) - Meximal精确匹配(MEM),Bowtie2和Stopy序列对准算法对齐FASTQ文件与HG19参考人类基因组组件(GRCH37)对齐。序列对齐后,使用Picard Sortsam工具坐标对SAM文件进行排序。使用Picard MarkDuplicates工具标记和删除重复项,并使用Picard AddRorePlacereadGroup添加读组。indels(插入/删除)局部重新调整使用基因组分析工具包(GATK)Indelrealigner工具,使用Gatk BaseRecalibrator工具进行基本质量评分重新校准。Gatk-UnifiedGenotyper,GATK-HAPLOTYPECALLER和SAMTOOLS MPIleUP /呼叫算法用于变体呼叫。使用Annovar工具在功能上注释遗传变体。使用Trusight癌症基因组间隔文件重复工作流程三次,其中50bp和100bp间隔填充。使用Illumina的BWA富集应用程序(图中未示出)进行数据分析。公元前乳腺癌,cd编码序列,DP深度报道,GATK基因组分析工具包,indel.插入/删除,VAF变异等位基因频率,vus.不确定临床意义的变体

在映射之前,使用CutadApt工具(V1.9)在FASTQ文件上执行适配器和低质量修剪。44.]。根据广泛的研究所建议,使用BWA-MEM算法(V0.7.17)将序列读取与HG19参考人类基因组组件(GRCH37,包括诱饵CONDIG)对齐[13.],bowtie2(v2.3.5.1)[15.]和Stampy序列对齐算法(v1.0.32) [14.]。映射后,SAM文件通过使用Picard(v2.20.3)坐标进行排序(https://broadinstitute.github.io/picard/)sortsam工具。使用Picard MarkDuplicates工具检测和删除重复,并使用Picard AddReLElacereadGroups工具添加读组。使用GATK(V3.6-0)进行indels附近的局部调整(https://gatk.broadintitue.org/hc/en-us.)根据最佳实践指南(GATK BaseRecalibrator)重新校准Indelrealigner工具和基础。使用GATK深度胶体工具计算覆盖深度。使用面板针对的基因组区域的坐标的间隔文件从Illumina的存储库下载(https://support.illumina.com/downloads/nextera-flex-for-enrichment-enrichment-manifest-files.html),用于变体调用。间隔文件就是这样使用的(空间隔填充),或者使用50 bp或100 bp填充进行扩展。使用GATK-UG、GATK-HC和SAMtools (v1.9) (http://samtools.github.io/bcftools/bcftools.html)堆积和调用工具。对齐和变体调用也使用Illumina公司的BWA Enrichment (v2.1.2)应用程序进行(https://basespace.illumina.com/apps/4797793包括BWA映射和GATK变体调用。适配器修整被选为高级选项。由于不采用50 bp或100 bp填充间隔,富集分析采用150 bp填充间隔。

使用ANNOVAR对基因变异进行功能注释[45.]。为了我们预期的临床验证目的,仅对已建立的和临床可操作的BC易感基因(BRCA1,BRCA2,PALB2,RAD51D,atm,CHEK2,PTEN,TP53)和其他癌症易感性基因(背景,Brip1,CDKN2A,MSH2,MSH6,NBN,NF1,PMS2,RAD51C,STK11)。下游分析包括基于位置的变体过滤(编码序列±10bp侧翼区域),DP≥30x和vAf≥30%。可能的马赛克事件(VAF <30%)被排除在分析之外。比较了二十八个变体调用管道组合,包括序列对准,变体调用算法和间隔填充长度的组合,以及Illumina的BWA富集应用程序(图。5)。使用的详细命令和参数在附加文件中提供9

管道性能

对于管道性能评估,变体分为四组;exonic snvs,emononic indels,内肾SNV(±1-±10)和内肾造型(±1-±10)。我们通过Sanger测序验证了通过质量控制过滤器的所有变体。在续集中,我们定义了真正的正(TP),假正(FP),真否定(TN)和假阴性(FN)变体。真正的阳性是Sanger测序确认的变体部位。真正的否定是正确称为参考的网站(如果在调查下的管道未检测到其他管道错误的变体,网站被视为真正的否定因素)。假阳性是作为变体(未经Sanger测序确认的参考站点)和错误的否定是变体部位,被误认为是参考。

管道在接收器操作特征(ROC)空间中排名。针对Variant呼叫的实体计算了假阳性和真正的阳性率(FPR和TPR)并绘制在ROC空间上。在ROC空间中,每个点对应于混淆矩阵的实例(报告FP,FN,TP和TN呼叫的数量的2×2表)。管道基于垂直距离排序(d来自对角线 - “随机猜测”线的每个点。为了进一步评估管道的性能,使用MCC,P,R和F1度量分析混淆矩阵[46.],计算结果如下:

$ $ \{对齐}matthews \开始,相关\系数= MCC = \压裂{TP \ * TN-FP \ * FN}{\√6{\左(TP + FP \) \左(TP + FN \右)(TN + FP) (TN + FN)}} \ \密特= p = \压裂{TP} {TP + FP} \ \回忆= r = \压裂{TP} {TP + FN} \ \ & {F} _{-}{1} \文本分数= 2 \ \压裂{r \ * p} {r + p} \{对齐}$ $

利用d、MCC、p、r和F1值进行基于Lance-Williams凝聚层次聚类算法的层次聚类分析,在每个阶段重新计算聚类之间的不相似性。使用Venn图分析顶级管道的变体调用顶层管道的一致性(http://bioinformatics.psb.ugent.be/webtools/venn/)。

值得注意的是,与snv相比,使用NGS数据分析检测到的indels的基因组位置并不总是由单一的、明确的坐标确定[47.]。具体来说,同样的插入位置“i”(在金标准数据的位置-Sanger测序)后,也可以标注为插入位置i + 1或i + 2等。这些注释经Sanger测序验证具有一致的生物学意义和相同的位置。因此,这些变体的明确NGS注释应该包括所有可选的indel位置[47.]。因此,虽然当比较不同算法调用的indels时,但如果它们在I±5位置的范围内,我们将它们视为TP [32.]。

统计分析

R (v3.3.2) (https://www.r-project.org/)采用统计计算语言进行统计分析。Shapiro-Wilk 's和Levene 's检验用于检验三组或三组以上计算的变量的正态性和方差相等。单向方差分析参数检验用于比较均一,正态分布和独立的数值变量的平均值。当单因素方差分析假设(方差齐性和正态性)不满足时,使用非参数Kruskal-Wallis检验来比较三组或三组以上的数值变量。使用Bonferroni方法进行事后多重比较[48.]。一个p值小于0.05被认为是统计学意义的。

可用性数据和材料

结果中包含的所有汇总数据均包含在补充材料中。如果需要,可以随时获得本文的数据和代码。

缩写

公元前:

乳腺癌

BWA:

burrows - wheeler对准器

BWT:

挖洞轮车变换

CD:

编码序列

d:

距离

DP:

深度报道

FN:

假阴性

FP:

假阳性

玻璃钢:

假阳性率

GATK:

基因组分析工具包

HC:

HaplotypeCaller

indel:

插入/删除

世纪挑战集团:

Matthews相关系数

MEM:

最大精确匹配

门店:

下一代测序

病人:

精确

PV:

致病变种

r:

记起

中华民国:

接受者操作特性

SNV:

单核苷酸变异

TN:

真正的负

TP:

真正的积极

TPR:

真阳性率

UG:

UnifiedGenotyper

VAF:

变异等位基因频率

VUS:

临床意义不确定的变异

参考

  1. 1。

    Metzker ML.测序技术的下一代。Nat Rev Genet, 2010; 11:31-46。

    中科院文章谷歌学者

  2. 2。

    Koboldt DC, Steinberg KM, Larson DE, Wilson RK, Mardis ER。下一代测序革命及其对基因组学的影响。细胞。2013;155:27。

    中科院文章谷歌学者

  3. 3.

    关键词:金标准,个人外显子组,变异呼叫管道,系统比较Sci众议员2015;5:1-8。

    谷歌学者

  4. 4。

    利用人类全外显子组测序和模拟数据评估不同调用管道的性能。BMC Bioinf。2019;20:342。https://doi.org/10.1186/s12859-019-2928-9

    中科院文章谷歌学者

  5. 5。

    O 'Rawe J,蒋涛,孙刚,吴勇,王伟,胡娟,等。多个变异调用管道的低一致性:外显子组和基因组测序的实际意义。基因组医学。2013;28。https://doi.org/10.1186/gm432

    中科院文章PubMed.公共医学中心谷歌学者

  6. 6.

    以瓶中基因组为参考的变体调用管道的比较。生物医学研究中心,2015。https://doi.org/10.1155/2015/456479

    文章PubMed.公共医学中心谷歌学者

  7. 7.

    ppabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M等。下一代基因组测序数据变异分析工具的调查。短暂的Bioinform。2013;15:256 - 78。https://doi.org/10.1093/bib/bbs086

    文章PubMed.公共医学中心谷歌学者

  8. 8.

    刘欣,韩胜,王卓,Gelernter J,杨伯仲。下一代测序数据的变体调用者:一项比较研究。PLoS ONE。2013; 8: e75619。https://doi.org/10.1371/journal.pone.0075619.

    中科院文章PubMed.公共医学中心谷歌学者

  9. 9.

    王俊杰,王俊杰,库斯勒D,祖克J, Vijayan V, Leibovich N等。从个人基因组中优化变异发现的分析框架。Nat Commun。2015;6:1-6。

    文章谷歌学者

  10. 10.

    李Z,王Y,王F.使用决策树从下一代测序数据的快速呼叫变体研究。BMC Bioinf。2018; 19:145。https://doi.org/10.1186/s12859-018-2147-9

    中科院文章谷歌学者

  11. 11.

    Ghoneim DH,Myers Jr,Tuttle E,Paciorkowski AR。插入/删除呼叫算法对人的下一代测序数据的比较。BMC RES笔记。2014; 7:864。https://doi.org/10.1186/1756-0500-7-864

    文章PubMed.公共医学中心谷歌学者

  12. 12.

    Yu X,Sun S.使用低覆盖序列测序数据进行比较一些SNP呼叫算法。BMC Bioinf。2013; 14:274。

    文章谷歌学者

  13. 13。

    李H,Durbin R.快速准确的短读对齐与挖洞轮转变换。生物信息学。2009; 25:1754-60。https://doi.org/10.1093/bioinformatics/btp324

    中科院文章PubMed.公共医学中心谷歌学者

  14. 14。

    Lunter G, Goodson M. Stampy:用于Illumina序列读取敏感和快速映射的统计算法。基因组研究》2011;21:936-9。

    中科院文章谷歌学者

  15. 15.

    Langmead B, Salzberg SL.快速缺口读对齐与领结2。Nat方法。2012;9:357-9。

    中科院文章谷歌学者

  16. 16.

    龙骨BN,斯奈林WM。基于Burrows-Wheeler变换的高通量全基因组测序映射算法的比较:在牲畜基因组Illumina数据中的应用麝猫。2018。https://doi.org/10.3389/fgene.2018.00035

    文章PubMed.公共医学中心谷歌学者

  17. 17.

    使用SOAP2短读对齐。In:分子生物学方法。胡玛纳出版社有限公司;2016.241 - 52页。https://doi.org/10.1007/978-1-4939-3167-5_13

  18. 18.

    Langmead B,Trapnell C,Pop M,Salzberg SL。超快和记忆高DNA序列对人类基因组的对准。基因组Biol。2009; 10:R25。https://doi.org/10.1186/gb-2009-10-3-r25

  19. 19.

    McKenna A,Hanna M,Banks E,Sivachenko A,Cibulskis K,Kernytsky A等人。基因组分析工具包:MapReduce框架,用于分析下一代DNA测序数据。Genome Res。2010; 20:1297-303。

    中科院文章谷歌学者

  20. 20.

    Depristo MA, Banks E, Poplin R, Garimella KV, Maguire JR, Hartl C,等。利用下一代DNA测序数据的变异发现和基因分型框架。Nat麝猫。2011;43:491 - 501。

    中科院文章谷歌学者

  21. 21.

    Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, 欧宝直播官网appHomer N等。序列对齐/映射格式和SAMtools。生物信息学。2009;25:2078-9。

    文章谷歌学者

  22. 22.

    piroznia m,kramer m,parla j,goes fs,potash jb,mccombie wr等。下一代测序变体调用管道的验证与评估。嗡嗡声基因组。2014; 8:14。https://doi.org/10.1186/1479-7364-8-14

    中科院文章谷歌学者

  23. 23。

    Cifaldi C,Brigida I,Barzaghi F,Zoccolillo M,Ferradini V,Betricone D等人。针对初级免疫缺失的遗传筛查和基因发现的目标NGS平台。前免疫。2019年。https://doi.org/10.3389/fimmu.2019.00316

    文章PubMed.公共医学中心谷歌学者

  24. 24。

    Matthijs G,Souche E,Alders M,Corveleyn A,Eck S,Feenstra I等。诊断下一代测序指南。EUR J HUM Genet。2016; 24:2-5。

    中科院文章谷歌学者

  25. 25。

    ebert mtw,Wadsworth Me,Staley La,Hoyt KL,Pickett B,Miller J等人。评估来自下一代测序数据的PCR重复移除的必要性和方法的比较。BMC Bioinf。2016; 17(SUP):7。

    谷歌学者

  26. 26。

    Del Fabbro C, Scalabrin S, Morgante M, Giorgi FM。在illumina NGS数据分析中阅读微调效应的广泛评价。《公共科学图书馆•综合》。2013;8 (12):e85024。https://doi.org/10.1371/journal.pone.0085024

  27. 27。

    刘Q,Guo Y,Li J,Long J,Zhang B,Shyr Y.确保从Illumina测序数据进行基因型和SNP准确性的步骤。BMC基因组。2012; 13:S8。https://doi.org/10.1186/1471-2164-13-S8-S8

  28. 28.

    Lee H, Lee K-W, Lee T, Park D, Chung J, Lee C,等。读图工具在临床面板测序中的性能评价方法。基因染色体组。2018;40:189 - 97。https://doi.org/10.1007/s13258-017-0621-9

    中科院文章谷歌学者

  29. 29.

    天S,Yan H,Neuhauser C,Slager SL。高度不同地区精确变体发现的分析工作流程。BMC基因组。2016; 17:1-15。https://doi.org/10.1186/s12864-016-3045-z

    文章谷歌学者

  30. 30。

    外显子组和靶向外显子研究的两种流行的变体调用包的详细比较。PeerJ。2014; 2: e600。https://doi.org/10.7717/peerj.600

  31. 31.

    Lescai F,Marasco E,Bacchelli C,Stanier P,Mantovani V,Beales P.临床环境中函数变体丧失的识别和验证。Mol Genet Genomic Med。2014; 2:58-63。

    文章谷歌学者

  32. 32.

    HASAN MS,HABBI S,WU X,张L.使用真实短读数据的Indel呼叫工具的性能评估。嗡嗡声基因组。2015; 9:20。https://doi.org/10.1186/s40246-015-0042-2

    中科院文章谷歌学者

  33. 33.

    陈继,李X,钟H,孟Y,Du H.种系际变体调用管道交叉多个下一代序列的系统比较。SCI批准。2019; 9:1-13。https://doi.org/10.1038/s41598-019-45835-3

    中科院文章谷歌学者

  34. 34.

    来自深度测序数据的插入-删除分析:最佳检测的软件评估。短暂的Bioinform。2013;14:46-55。https://doi.org/10.1093/bib/bbs013

    文章PubMed.谷歌学者

  35. 35。

    裴俊杰等[1]。用于多种遗传性癌症易感综合征分子诊断的下一代测序管道的验证。J Mol诊断。2017;19:52 - 13。https://doi.org/10.1016/j.jmoldx.2017.05.001

    中科院文章PubMed.谷歌学者

  36. 36。

    Jansen Aml,Tops Cmj,Ruano D,Van Eijk R,Wijnen JT,Ten Broeke S等人。从福尔马林固定石蜡包埋物中分离的DNA中筛选PMS2的复杂性。EUR J HUM Genet。2020; 28:333-8。

    中科院文章谷歌学者

  37. 37。

    易敏,赵燕,贾玲,何敏,Kebebew E, Stephens RM。SNP检测工具与illumina外显子组测序数据的性能比较——利用家系信息和样本匹配的SNP阵列数据进行评估。2014;42(12):e101。https://doi.org/10.1093/nar/gku392

  38. 38。

    变量调用比较CASAVA1.8和GATK。Nat prec》2011。https://www.nature.com/articles/npre.2011.6107.1

  39. 39。

    Cheng Ay,Teo Yy,Ong Rth。评估单核苷酸变体检测和基因型呼叫全基因组测序的个体。生物信息学。2014; 30:1707-13。

    中科院文章谷歌学者

  40. 40.

    acta photonica sinica, 2011, 38(5): 732 - 736 .王志平,王志平,等。利用微装配精确检测外显子组捕获数据中的新生插入和传输插入。Nat方法。2014;11:1033-6。https://doi.org/10.1038/nmeth.3069

    中科院文章PubMed.公共医学中心谷歌学者

  41. 41。

    广泛的研究所。GATK |种系短变异发现(SNPs + Indels)。https://software.broadinstitute.org/gatk/best-practics/workflow?id=11145。2018年1月24日通过。

  42. 42。

    Batalini F, Peacock EG, Stobie L, Robertson A, Garber J, Weitzel JN等。Li-Fraumeni综合征:不再是一个简单的诊断——低等位基因频率的致病变异和种系PVs、嵌合体和克隆造血之间的差异的解释。乳腺癌杂志2019;21:107。https://doi.org/10.1186/s13058-019-1193-1

    中科院文章PubMed.公共医学中心谷歌学者

  43. 43.

    Illumina。Trusight癌症测序面板。2016;:1-4。www.illumina.com/trusightcancer。2020年1月21日通过

  44. 44.

    Martin M. Cutadapt从高通量测序中删除适配器序列。EMBnet j . 2011;十七10。

    文章谷歌学者

  45. 45.

    关键词:高通量测序,基因变异,功能注释,序列分析核酸研究2010;38:e164-e164。https://doi.org/10.1093/nar/gkq603.

    中科院文章PubMed.公共医学中心谷歌学者

  46. 46.

    Chicco D,Jurman G. Matthews相关系数(MCC)的优势在二进制分类评估中的F1分数和准确性。BMC基因组。2020; 21:6。https://doi.org/10.1186/s12864-019-6413-7

    文章谷歌学者

  47. 47。

    Krawitz P,Rödelspergerc,jägerm,jostins l,Bauer S,Robinson Pn。短读取序列数据中的微indel检测。生物信息学。2010; 26:722-9。

    中科院文章谷歌学者

  48. 48。

    金H-Y。临床研究者的统计注释:事后多重比较。Restor Dent Endod. 2015;40:172。https://doi.org/10.5395/rde.2015.40.2.172

    文章PubMed.公共医学中心谷歌学者

下载参考

致谢

我们要感谢所有参与这项研究的患者及其家属。

资金

这项工作得到了塞浦路斯神经病学和遗传学研究所和欧盟委员会研究执行机构(REA)的BIORISE赠款(赠款号669026)的支持,该赠款在“传播卓越、扩大参与、科学与社会和为社会框架”下授予KC。

作者信息

从属关系

作者

贡献

MZ:概念化,数据策策,正式分析,调查,方法,资源,软件,验证,可视化,写作原稿草案,写作审查和编辑。KM:概念化,正式分析,方法,软件,可视化,写作审查和编辑。ML:概念化,正式分析,方法,软件,可视化,写作审查和编辑。CM:验证,写作审查和编辑。PP:验证,写作审查和编辑。KC:资助收购,项目管理,资源,写作审查和编辑。GMS:正式分析,方法,资源,软件,监督,可视化,写作和编辑。KK:概念化,资金收购,项目管理,资源,监督,可视化,写作审查和编辑。啊:概念化,数据策展,资助收购,调查,项目管理,资源,监督,验证,可视化,写作审查和编辑。所有作者阅读并认可的终稿。

相应的作者

对应到Andreas Hadjisavvas

伦理宣言

伦理批准并同意参与

根据塞浦路斯神经病学和遗传学研究所的伦理标准,所有研究参与者都获得了书面知情同意。该研究符合《赫尔辛基宣言》(由塞浦路斯国家生物伦理委员会批准,EEBK/EP/2015/33)的原则,所有实验方案都是在向患者提供临床诊断服务的背景下批准和执行的。来自塞浦路斯神经病学和遗传学研究所临床遗传学系。

同意出版

不适用。

相互竞争的利益

作者们宣称他们没有相互竞争的利益。

额外的信息

出版商的注意

欧宝体育黑玩家《自然》杂志对已出版的地图和附属机构的管辖权主张保持中立。

补充信息

附加文件1:表S1。

三驱癌(Illumina)按字母顺序靶向基因。

附加文件2:表S2。

EuroGentest和欧洲人类遗传学学会,NGS应用评估和验证指南。

附加文件3:图S1。

测序和映射评估。一个。每次运行生成的读取和集群数。b每个样本和对齐方法的未映射读取数。

附加文件4:表S3。

每个样本和映射工具的读数数。

附加文件5:表S4。

最小,平均和最大深度的覆盖,每个基因和对齐算法。NextSeq 500高输出试剂盒2x75循环和2x150循环测序的覆盖深度结果。

附加文件6:图S2。

工具的分层集群。利用d、MCC、p、r和F1值进行基于Lance-Williams凝聚层次聚类算法的层次聚类分析,在每个阶段重新计算聚类之间的不相似性。

附加文件7:图S3。

Matthew相关系数(MCC)的盒子图比较每个对齐,变体调用或填充方法。每个点表示一个观察结果,粗体横线表示MCC值的中位数。盒子从每组价值分布的第25个百分位数延伸到第75个百分位数。垂直延伸线(须)表示上下相邻的值。采用非参数Kruskal-Wallis或单向方差分析进行统计分析。

附加文件8:图S4。

框绘制虚假阳性率的比较(FPR)。只显示统计学上显着的差异。每个点代表一个观察和水平粗线,表示中值FPR值。盒子从每组价值分布的第25个百分位数延伸到第75个百分位数。垂直延伸线(须)表示上下相邻的值。使用非参数kruskal进行统计分析 - Wallis测试。

附加文件9。

用于数据预处理、序列比对、比对后处理和变体发现的详细命令和参数。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的创作共用许可中,除非在材料的信用线中另有说明。如果材料没有包含在文章的创作共用许可证中,而您的预期使用不被法律法规允许或超过允许的使用,您将需要直接获得版权持有人的许可。如欲浏览本许可证的副本,请浏览http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

Zanti, M., Michailidou, K., Loizidou, M.等等。用于NGS种系面板分析的映射、变异调用和间隔填充管道的性能评估。欧宝娱乐合法吗22日,218(2021)。https://doi.org/10.1186/s12859-021-04144-1

下载引用

关键词

  • 下一代测序(门店)
  • 种系NGS数据分析
  • 变量调用
  • 对齐
  • 区间填充
  • 管道比较
\