跳过主要内容

WACS:通过优化加权控制改进ChIP-seq峰值调用

摘要

背景

染色质免疫沉淀之后是高通量测序(ChIP-seq),最初于十多年前引入,被科学界广泛用于检测整个基因组的蛋白质/DNA结合和组蛋白修饰。每个实验都容易产生噪声和偏差,ChIP-seq实验也不例外。为了减少偏差,在ChIP-seq分析中加入控制数据集是必不可少的一步。控制用来解释背景信号,而ChIP-seq信号的其余部分捕获真正的结合或组蛋白修饰。然而,在不同的ChIP-seq实验中反复出现的问题是不同类型的偏倚。根据使用的控制,ChIP-seq偏差的不同方面得到了更好或更坏的解释,而峰值调用可以产生相同ChIP-seq实验的不同结果。因此,为特定ChIP-seq实验建立非信号效应模型的“智能”控制可以增强对比,增加结果的可靠性和可重复性。

结果

我们提出了一种峰值调用算法——加权芯片序列分析(WACS),它是对已知的峰值调用算法MACS2的扩展。在WACS中有两个主要步骤:首先,使用非负最小二乘回归估计每个控制的权重。目标是定制控制来模拟每个ChIP-seq实验的噪声分布。然后是高峰呼叫。我们证明,从motif富集和重现性分析的角度来看,WACS在基因组富集区域的检测上显著优于MACS2和AIControl(另一种用于生成智能控制的最新算法)。

结论

这最终提高了我们对芯片-SEQ控制及其偏置的理解,并表明WACS导致控制中噪声分布的更好近似。

背景

高通量测序技术有助于揭示基因调控和细胞适应外部和内部环境的机制[12].一种广泛使用的技术是染色质免疫沉淀,然后是下一代测序(芯片-SEQ)。它允许在基因组序列中编码的结构和功能元素,例如转录调节元件的基因组调查。芯片SEQ实验的主要目标是在各种细胞系和组织中检测蛋白质-DNA结合位点和组蛋白修饰基因组。已经提出了许多峰呼叫方法,用于鉴定芯片-SEQ数据中的富集(推定结合位点)的区域[3.4567].

每个实验都容易产生噪声和偏差,ChIP-seq实验也不例外。虽然一些读取堆叠对应于真正丰富的区域,但其他读取堆积可能是芯片-SEQ信号失真的结果。偏见或嘈杂的数据集(具有较大数量的假阴性或假峰)对下游生物和计算分析产生负面影响[8].因此,同时考虑噪声和偏差是很重要的。现有的峰值呼叫者通常通过在某些统计模型下评估统计显著性来考虑噪声。偏倚是一个更复杂的问题,通常只通过与ChIP-seq比较的一些控制数据来明确地解决。我们很快会回到控制的问题。

在ChIP-seq实验中有许多偏差来源。例如,在实验设计中,实验的质量是由抗体和免疫沉淀特异性决定的。由于与感兴趣的靶蛋白亲和力差,或与其他不相关蛋白的交叉反应导致特异性低,导致ChIP-seq实验质量下降[9].碎片化步骤也可能引入偏倚[10].在免疫沉淀之前,DNA蛋白复合物经历碎片。然而,由于染色质结构(DNA)的不均匀性,一些区域比其他区域更密集地填充(异铬胺素),因此更耐碎裂。较少密集的地区(Euchromatin)将接受更多的碎片化。另一个偏差源是可映射的,这是读取沿着基因组的区域唯一映射的程度[1011].在理想的情况下,使用足够长的读取,这样就有更高的覆盖率和覆盖的一致性。然而,在实践中,读取长度很短,并且存在映射到多个区域的“模糊”读取。这样的多个映射读可以被保留(创建模糊的ChIP-seq信号)或被丢弃(创建空的、不可映射的区域),这两种选择都会产生不同类型的偏差。GC含量偏倚[1213,也会导致沿着基因组的reads覆盖不平衡。例如,在PCR扩增中,GC富片段和GC贫片段在测序数据中的代表性都不足[12].这些覆盖率的变化会对所获得的结果产生重大影响。

系统和实验偏差阻碍了ChIP-seq分析的全部潜力。因此,输入样本的质量是重要的,特别是在大规模分析中,低质量的数据集有更大的影响[814].因此,在ChIP-seq被引入十多年后,ENCODE和modENCODE联盟开发了一套ChIP-seq质量控制指标和指南,以产生高质量的可重复数据[9].该协议解决了ChIP-seq实验的所有阶段,因为在不同阶段可能会引入偏差和噪声,如实验设计、执行、评估和存储方法[10].

减轻偏差的一个基本步骤是Chip-SEQ分析中的控制数据集结合。它有助于选择真正的浓缩绑定站点来自误报。等对照,例如输入DNA和IgG,试图最小化免疫沉淀,抗体不精确,PCR扩增,可用性偏差等的影响,从而提高结果的可靠性。在输入DNA中,使用与原始芯片-SEQ实验相同的条件,DNA经历交联和碎片化。但是,没有使用抗体或免疫沉淀[9].对于IgG对照,有时也被称为“模拟”ChIP-seq实验,所有步骤和条件都与原始ChIP-seq实验相同。然而,一种对照抗体(非特定于感兴趣的蛋白质)被采用与非相关的基因组位置相互作用[9].DNase-seq和ATAC-seq用于处理开放的染色质区域。根据ENCODE [9],输入DNA和IgG对照的测序深度应大于或等于原始ChIP-seq实验。推荐更高的测序深度,因为输入DNA信号比ChIP-seq代表更广泛的基因组染色质区域[910].协议涉及的其他关键因素包括但不限于生物/技术复制和图书馆复杂性。

与控制相比,许多现有的峰值调用算法允许测试富集[7151617181920.].然而,控制和ChIP-seq数据的偏差是否相同尚不清楚。这些方法都没有选择控制或估计背景信号。根据所选择的控件及其性质,峰值调用者可以对同一ChIP-seq实验产生不同的结果(即绑定位点位置)。BIDCHIPS [21], CloudControl [22]及AIControl [23研究表明,不同的ChIP-seq数据集可能会以不同的方式产生偏差。他们通过回归来改善富集分析,通过集成多个控制数据集来解决不同ChIP-seq数据集中的不同偏差。然而,这些研究也有一些局限性。

例如,BIDCHIPS [21]能够对已经由另一种峰值调用方法确定的峰值重新进行优先排序。然而,只有5个控制的概念被解释,并且没有基于联合控制的de novo峰值调用机制[21].Hiranuma等人。[2223研究证明了使用更多的控制来模拟背景信号的好处。在CloudControl [22,这些控件的回归拟合与它们的权重成比例。这样就允许将单个定制控件用作任何峰值调用方法的输入。然而,组合控制的下采样可能会在控制信号中引入噪声。

AIControl [23,是一个峰值调用框架,是CloudControl [22].它集成了一组公开可用的控制数据集,并使用岭回归模型的背景信号。这样用户就不需要输入控件了。但是,有些用户可能希望提供自己的控件,这是不允许的。此外,ENCODE中的数据集数量会随着时间的增加而增加,因此允许控件作为加权峰值调用者的输入对于表示新可用的数据集和新探索的细胞系很重要。

在这项工作中,我们介绍了峰值呼叫算法,对芯片SEQ(WACS)的加权分析,它利用“智能”控制来模拟特定芯片-SEQ实验的非信号效应。WACS首先估计每个输入控制的权重,而不需要进行微调任何参数。使用加权对照,然后进行WACs以检测沿基因组的富集区域。WACS是MACS2.1.1的扩展(基于模型的芯片-SEQ分析)[18,被引用次数最多的开源高峰调用者。我们开发的基于MACS2的WACS允许研究人员使用他们熟悉的峰值调用方法中的加权方法,该方法有许多细化的特性。片段长度估计/检测、读移、候选峰识别和峰评估保持不变,而通过数据集的加权组合构建的控制是不同的。为了考虑到可能存在的大量控件,我们不可见地重构代码以获得更好的内存占用。我们还纠正了MACS2堆计算代码中的一个哈希错误,当我们有高读取深度和/或许多控件时,这个错误变得特别重要。(这个错误随后也在MACS2主发行版中得到了纠正。)

我们对来自ENCODE数据库中K562细胞系的90个ChIP-seq数据集和147个控制数据集评估WACS [24].为了建立泛化性和在低扩展环境下的研究性能,我们还研究了A549、GM12878和HepG2细胞株的20个ChIP-seq数据集上的WACS。(ChIP-seq和treatment这两个术语在整篇论文中互换使用。)我们比较了WACS和MACS2,因为WACS是基于MACS2的。我们还比较了WACS和AIControl,因为它是唯一的其他加权峰值调用者,智能地选择它的控制。结果表明,由于不同ChIP-seq实验的偏差量不同,智能偏差去除方法和使用定制的控制数据集对每个ChIP-seq实验的重要性。在下游基因组分析的研究中,如基序富集和重现性,加权对照在WACS中的应用显示,与MACS2中的未加权对照和AIControl中的加权对照相比,加权对照在峰值检测方面有显著改善。

结果

WACS:一种新的ChIP-seq峰值调用算法,采用加权控制组合

我们的方法WACS估计通过加权对照的背景分布,并最终识别沿基因组的富集区域(图。1和额外的文件1:图S1)。下面我们将描述WACS算法的五个主要步骤。为了实现WACS,我们修改了一个著名的开源算法MACS2。由于对MACS2如何工作的书面描述有限,我们对MACS2的某些部分进行了描述,以全面描述WACS。将WACS算法概括为两部分:推导权值(算法1)和峰值检测(算法2)。

图1
图1

WACS和MACS2的流程图。这两种方法都将控件和处理作为输入

figurea
figureb

算法1:推导权重。首先对控制和处理样本(BAM格式)进行预处理,如算法1所示。使用SAMtools [25,我们对BAM文件(算法1中的第2行)进行索引、排序和选择性过滤(删除重复)。然后使用BEDtools [26将映射读的BAM文件转换为沿基因组以50 bp增量的每200个碱基对(bp)窗口的读计数(算法1第3行)。

接下来,WACS为预处理的控制和治疗样品归一成每窗口的映射读数。这确保了控制和治疗样品在相同的范围内。WACS应用于控制和芯片-SEQ样本(算法1中的第4行)读取百万标准化。对于每个样本和窗口

$$ r_{mi}\ \times \ 10^9\ \div \ TotalReadCount_m \end{aligned}$

在哪里\ (r_ {mi} \)是窗户里的读数,\ (n_ {mi} \)是标准化的读计数,和\ (TotalReadCount_m \)样本中读取的总数是多少.这有效地复制了MACS2中的归一化,它线性地将控制样本缩放到ChIP-seq样本。接下来,我们假设k总控制包括样本1至k和示例k+ 1是ChIP-seq数据。

然后,WACS计算每个输入控件的权重(算法1中的第5行)。WACS执行非负最小二乘(NNLS),将处理数据集建模为控件的函数。回归的总体目标是找到参数(权重)的值,使预测值和目标值之间的差异平方和最小化,并附加一个只允许正权重的约束。鉴于n实例(Windows),\ (y_i = n_ {k + 1,我}\)目标值(每个窗口一个),\ (x_i = (n_我{1}\ ldots n_ {ki}) \)特征向量(每个窗口一个矢量),矢量\θ(\ \)系数权重和常数偏移\(θ_0 \ \), NNLS的目标函数为:

$$ \ begined {对齐} \ begin {对齐} \ min _ {\ theta,\ theta _0} \ frac {1} {2n} \ sum _ {i = 1} ^ {n}(y_i - \ theta \ cdotx_i - \ theta _0)^ 2 \\ \ text {the} \ theta \ ge 0 \\ text {and} \ theta _0 \ ge 0 \\ \ neat {对齐} \ neat {staliged} $$

要解决我们依赖SCIPY的NNLS模块的NNLS回归。优化,部分SCIPY [27] Python中的包。这产生了用于治疗的加权控制模型,其重量表示每个控制在建模治疗背景信号时的相对重要性。给出零重量的控制,不需要建模治疗实验。如果有一个控制,WACS和MACS2会产生相同的输出,默认情况下,WACS中的控件精确地为1.控制器也可以由用户加权,而不是使用NNL来计算控件的权重.

算法2:峰值检测。WACS在处理样品的初始处理过程中与MACS2相同,包括:加载映射的reads(第2行);估计/计算片段长度d,这取决于芯片-SEQ读取是否序列是单端或配对端(第3行);和施工堆积,也不同于单端或配对末端读取(第4行)。因为这些细节已在其他地方描述,所以我们在这里重复它们[182829].

WACS与MACS2的主要不同之处在于它读取、处理和组合对照样本的方式。WACS每次将一个控件读取到内存中,并以三种不同的长度尺度将它们累积到总体(加权)控件堆中:d, 1 KB和10 KB。长度尺度实质上是用于平滑控制读数的帕森窗密度估计器的直径。当读取每个控件时,它将被平滑、缩放,以便其总读取与处理相称,并根据算法1中计算的控件权重进一步缩放(除非用户选择未加权控件)。函数BidirectionExtendReads执行实际的平滑,将读取开始扩展为直径等于长度刻度的间隔。平滑和比例控制被添加到增长的整体控制在那个长度规模。相反,MACS2在开始平滑之前读取所有控制数据,这可能会在合并很多控件时造成难以管理的内存占用。最后,WACS(和MACS一样)通过取点向最大的“背景”读密度来创建一个整体的控制堆\(\ lambda _ {bg} \)以及按每个长度比例计算的控制堆载。

最后,WACS调用峰值使用与MACS2相同的机制,包括识别候选峰值,并将其峰值的堆积高度与控制轨迹进行比较。在未加权控制的情况下,WACS产生与MACS2相同的控制轨迹和相同的峰值调用。然而,当控制样本的权重不同时,会产生不同的控制轨迹,并可能被称为不同的峰值。每个峰与一个p值和一个q值相关联,后者解释了整个基因组的多次比较。

重复的删除。重复解读——基因组上相同位置上的多个解读——通常是由于PCR对DNA片段的过度扩增,导致DNA片段的重复测序。对于WACS和MACS2,重复删除是可选的。为了产生更可靠的峰值呼叫,MACS2/WACS去除治疗和控制数据集的每个基因组位点上的冗余reads [18].每个基因组位点的默认数字由测序深度决定。然而,当处理多个控件时,MACS2在池读之后执行重复删除。为了与MACS2保持一致,WACS在未加权模式下也会做同样的事情。在这种情况下,由于不同的测序运行而产生的明显的“重复”可能会被错误地删除,人为地在高密度区域使控制读分布变平。当汇集数百个控件时,这种现象会特别突出。因此,我们建议希望执行重复数据删除的用户在将映射的读文件提供给MACS2或WACS之前执行重复数据删除操作。

每个算法的平均峰值数和算法之间的平均重叠百分比

为了评价WACS与其他方法的性能,我们下载了K562、A549、GM12878和HepG2四种细胞株的ChIP-seq和对照数据。对于每个ChIP-seq样品,我们在以下五种条件下生成峰值:(1) MACS2所有的控制同样的细胞系(所有MACS2), (2) MACS2与匹配的编码控制(匹配MACS2), (3) WACS的控制同样的细胞系(WACS), (4) WACS的10个随机选择的控制同样细胞系(WACS Random10)和(5)AIControl预定义的控制(AIControl)。我们还使用了两种方法来研究峰的质量。“所有峰”考虑每种方法输出的所有原始峰,而“标准化”峰通过峰的数量和峰的宽度对每个ChIP-seq样品输出的峰进行归一化。(见下面的方法)。

在本节中,我们将研究关于每个算法生成的峰值及其与其他峰值调用方法的成对重叠的一些基本统计数据。在本节和以下几个小节中,我们主要关注K562结果;下面将进一步报道其他细胞系的结果。这将帮助我们理解峰值呼叫者的不同。在表1,我们在不同芯片-SEQ数据集中报告每个算法的每种算法的平均峰值数量,用于所有峰值和标准化峰值。

表1平均峰数

我们注意到AIControl输出的峰值数量是最大的——是WACS的7倍多,是Matched MACS2的4倍多。WACS平均输出的峰数最少。匹配的MACS2和所有MACS2输出的峰值数量大致相同,大约是WACS产生的峰值数量的两倍,而WACS Random10产生的峰值数量介于WACS和MACS2之间。然而,对于标准化峰值,所有算法每个数据集有相同的峰值数量,平均为12016。

在表中23.,我们报告了横跨ChIP-seq数据集的每对算法之间的峰值重叠的平均百分比,分别针对所有峰值和标准化峰值。更具体地说,对于每一个算法X(行)和每一个算法Y(列),我们计算90个ChIP-seq数据集中X的峰值重叠Y的峰值的百分比,然后平均90个数据集的百分比。例如,当考虑所有峰时,WACS产生的峰有27.1%与all MACS2峰重叠。最值得注意的是,AIControl生成的峰值与其他算法生成的峰值重叠的比例不到7%。对于其他成对组合,大部分重叠在30-40%的范围内。相反,在表3.对于标准化的峰值,我们注意到与表相比,所有算法中的百分比重叠百分比增加几乎对称矩阵2.这对于AICONTROL特别明显,其中大约25%的AICONTROL峰现在与其他算法产生的峰重叠。所有重叠均在23-43%的范围内。

表2所有峰值重叠的平均百分比
表3标准化峰重叠的平均百分比

每种算法产生的不同数量的峰值,以及百分比重叠的结果差异,突出了标准化峰值以消除我们分析中峰值数量的效果的重要性。标准化峰值允许我们选择要比较的顶级质量峰。

对于已知的序列基序,WACS识别的峰更丰富

Chink-SEQ分析的目的是鉴定富集的富集区域,例如转录因子(TF)结合位点,沿基因组。因此,TF的DNA结合基序倾向于富含真正的结合位点。为了评估我们的方法与MacS2和AIControl相比,我们对峰进行了基序富集分析。采用类似的方法,如[23],我们首先使用JASPAR获得每个TF的位置权重矩阵(PWMs) [30.].JASPAR中的motif来源于体外分析,如SELEX,和体内高通量测序实验,如ChIP-seq或ChIP-exo [30.].(见附加文件1:表S5为每个TF的PWM id。)使用PWMs作为输入,然后我们使用FIMO(查找单个Motif Occurrences) [31]。[32[扫描整个人类基因组GRCH38并识别主题击中基因组的截止值1E-5以定义显着的比赛。在我们的分析中,带有主题的峰值被认为是真正的阳性,而那些缺乏主题命中的人被认为是假的阳性。我们量化了一组特定的峰作为精度,或等效地,或者在总峰值上的真正正峰的分数。

数字2当使用WACS(蓝色线)、WACS Random10(黄色线)、Matched MACS2(绿色线)、all MACS2(红色线)和AIControl(紫色线)时,a和b分别显示90 ChIP-seq数据集中所有峰和标准化峰的motif富集。ChIP-seq数据集已被排序,因此WACS性能从左到右下降。一个直接的观察结果是,一些ChIP-seq数据集会产生更多的motif富集峰,而不管峰值调用者是谁,而其他的则会有更少的motif富集。这可能与TF的DNA结合的特异性、用于motif搜索的jasper PWM的准确性或ChIP-seq数据集本身的质量等因素有关。

图2
图2.

90个ChIP-seq样品中5种不同的峰调用方法发现的峰的Motif富集。Motif富集被定义为含有所述转录因子中至少一个Motif出现的所有峰的分数。一个主题丰富的所有山峰。b标准峰的Motif富集。cmotif富集的百分比差异相对于Matched MACS2的分布。盒状和须状图显示了第0、25、50、75和100个百分位

当分析所有的峰值时(图。2a),在90个ChIP-seq样本中的75个样本中,WACS被认为在大多数时间中优于其他方法。WACS Random10, All MACS2和Matched MACS2的表现相当相似,尽管我们在下面更仔细地量化了这一点。AIControl表现最差,即使在所有其他算法表现都很好的数据集中,其motif丰富度也很差。然而,请记住,AIControl倾向于产生大量的峰值,这可能是一种精确回忆的权衡,在这种权衡中,AIControl的默认行为是面向频谱的召回端。事实上,当我们检查宽度和数量标准化的峰值(图。2B),所有算法的性能更加相似。我们仍然看到一个强大的影响,一些ChIP-seq数据集有峰比其他更好的motif富集。我们还看到,WACS仍然表现最好,尽管差距更小,频率也更低——它在90个数据集中的61个中表现最好。表格4报告了90次的次数,每个算法的峰值显示了最好的motif充实。通过比例测试,对于所有或标准化的峰值,如果所有五种算法都表现得同样好,WACS作为最佳执行者的次数的比例在统计学上显著大于1/5的预期分数,p值小于\ (10 ^ {5} \).即使在标准化之后,WACS在大多数处理样本上的表现都优于其他峰调用者,这表明更好的基序富集不是由于对峰的选择性更强,而是这些峰具有内在的更高质量,最终通过基序富集来衡量。

表4与其他算法相比,90个数据集中每个算法的峰值显示了最高的motif富集

为了进一步评估motif富集的数量差异,我们计算了相对于Matched macs2的百分比差异,这是ENCODE使用的方法,有点像“金标准”。具体来说,对于每个算法和每个ChIP-seq数据集,我们计算motif富集的差异,除以Matched MACS2 motif富集,并转换为一个百分比。数字2C显示所有峰值(绿色)和标准化峰值(黄色)的百分比差异方框图。对于所有四种方法,我们观察到标准化的峰值与所有峰值相比,导致数据的离散度和变异性降低。在我们的讨论中,我们将集中讨论标准化峰值。对于WACS,我们注意到大多数ChIP-seq数据集都存在正基序富集差异,在考虑所有峰时,平均提高45%,而在峰标准化时,平均提高14%。WACS Random10也显示了与Matched MACS2相比的平均改善,尽管它们没有WACS的改善那么大。然而,通过单样本t检验,所有四个病例(WACS和WACS Random10具有全部或标准化峰值)在统计学上显著大于零,p值小于\ (10 ^ {5} \).所有MACS2的表现与Matched MACS2相似,当峰值标准化时,AIControl也是如此,没有任何百分比差异在统计学上显著差异为零。然而,在没有标准化的情况下,与Matched MACS2相比,完整的AIControl峰在基序富集方面明显较差,p值小于\ (10 ^ {-29} \).总的来说,尽管标准化降低了WACS的优势,但这些结果再次证实了WACS与其他方法相比的性能有所提高。

另一种评价motif富集的方法是precision-recall curve (AUPRC)下的面积[23].AURPC旨在比较同一组实例上的算法。然而,每种算法为特定芯片-SEQ数据集生成不同的一组峰值。因此,我们相信精确是比Auprc更合适的评估度量,用于这种比较。然而,为了与AICONTROL进行比较[23,它使用AUPRC度量,我们也执行了AUPRC分析。额外的文件1图S2显示了使用TF ZNF24和附加文件的ChIP-seq数据集ENCFF109OWW的精度召回曲线示例1图S3显示了使用标准化峰值时每个ChIP-seq数据集的AUPRC。使用AUPRC,在90个处理样本中,WACS分别在73,80,78和81个处理样本上优于WACS Random10, All MACS2, Matched MACS2和AIControl。通过p值小于的双尾符号检验,这些差异具有统计学意义\ (10 ^ {5} \)

由WACS确定的峰更具有可重复性

理想情况下,ChIP-seq峰值调用算法能够重复识别沿着基因组的真正富集区域,而不存在假阳性。重现性最常用的测量方法是计算重复次数之间峰重叠的百分比[45].如上所述,我们选择的K562实验包括45个不同实验中的两个ChIP-seq生物复制样本(见附加文件)1:表S1)。使用五种不同的峰值调用方法,我们为每个样本调用峰值,并评估重复样本之间的重叠。重叠意味着我们取一个复制然后计算与另一个复制重叠的峰的比例。

数字3.a、b分别为使用WACS(蓝色线)、WACS Random10(黄色线)、Matched MACS2(绿色线)、all MACS2(红色线)和AIControl(紫色线)进行ChIP-seq实验时,与所有峰和标准峰重叠的百分比。在考虑所有峰的45个实验中,WACS有26个实验的重现性高于其他方法,在有标准峰的45个实验中有28个实验的重现性高于其他方法。通过p值小于的比例测试,这些数字在统计上显著高于在空假设下的预期,即所有算法的性能相同\ (10 ^ {4} \).无论是否考虑所有峰或标准峰,AIControl的重现性最低。见表5有关所有五种算法的详细信息。

图3
图3.

生物复制之间高峰呼叫的重现性。一个b使用时,对于45个ChIP-seq实验的5个峰值调用方法中的每一个,重复之间的重叠百分比一个所有的山峰,或b标准化的山峰。c相对于Matched MACS2的重现性差异百分比盒图

表5在45个实验中,每一种高峰召唤方法在生物重复之间的重现性最高

为了进一步研究重复性的定量差异,我们计算了重叠相对于Matched MACS2获得的重叠的百分比差异。数字3.C显示了所有峰值(绿色)和标准化峰值(黄色)的这些百分比差异的箱形图。我们注意到WACS重叠的百分比差异,所有峰的重现性提高了16%,标准化峰的重现性平均提高了5.6%。这些差异通过t检验具有统计学意义,p值小于\ (10 ^ {3} \).但是,WACS Aquary10的性能与匹配的MACS2没有统计学更好,也不是所有MACS2。AIDONTROL对所有峰的统计数据显着更糟糕的重复性(\ \ (p < 0.05)。)及标准峰(\ (p < 10 ^ {-12} \)).重要的是所有峰值情况的边界,尽管在均值上有很大的下降,因为其性能的高可变性。因此,在本节和前一节中,我们看到了令人信服的证据,即WACS比其他方法产生更高的质量峰值,这是通过motif富集和重复之间的重现性来衡量的。

每次治疗样品使用的控制

我们的结果(和其他结果[212223)的基序富集和重现性分析表明,智能控制为ChIP-seq数据提供了优越的背景减法和峰值调用。然而,标准做法仍然是在每个ChIP-seq实验的同时生成控制,或者在实验细节的基础上匹配它们,如细胞/组织类型,读取长度和测序器。如果要使用智能控件,还不清楚应该考虑多少控件,以及有多少控件最终会在智能控件中。目前还不清楚是否ENCODE匹配的控件实际上是最好的选择,甚至是智能控制程序所选择的控件中的最佳选择。

在这里,我们的目标是提高我们对用于模拟背景信号的智能控制的理解。数字4显示一个矩阵,其中的行和列分别表示ChIP-seq和控制数据集。矩阵中的蓝色表示WACS选择的适合每个ChIP-seq数据集的控件,栗色表示ENCODE匹配的控件[24],品红色表示ENCODE和WACS所选择的控件。

图4
图4.

比较WACS和ENCODE使用的控件。列和行分别对应ChIP-seq和控制实验。对于每个ChIP-seq数据集,控件被赋予一个蓝色的如果它们仅由WACS使用,则颜色栗色如果它们只是ENCODE匹配控件,则为品红如果它们同时被ENCODE和WACS使用,则颜色

让我们首先考虑图中每个ChIP-seq数据集(蓝色)的WACS选择控件。4.对于每个芯片SEQ数据集,WAC需要提供147个控件的不同子集,但这些形成了几个相干簇,其中芯片-SEQ数据集组的组使用相同的控制来建模背景信号。例如,大部分朝向图左侧的10或SO控制用于建模几乎所有芯片-SEQ数据集背景。接下来的10个控件被广泛使用,但较少,并且在朝向顶部的一些芯片-SEQS中可以不同。相反,有一组关于近似的芯片-SEQ数据集,但在矩阵的顶部依赖于用于建模背景的大量控制,而下半部的芯片SEQ几乎完全是最左边的控制.

尽管每个ChIP-seq的背景都是由一个独特的控件组合来建模的,但一个明显的趋势是许多控件组合在一起——平均约为26个。额外的文件1:图S4显示了使用WACS的ChIP-seq数据集所使用的控件总数的直方图。

对于ENCODE匹配控件,我们观察到每个ChIP-seq数据集有1到4个ENCODE匹配控件(图中为褐红色)。4).对于90个芯片SEQ数据集(44%)中的40个,没有一个匹配的编码控制将用于模拟背景信号与WACS使用的那些(图4中没有洋红色颜色的行。4).例如,图中使用19个控件对ChIP-seq数据集ENCFF651HPM的背景信号建模。4,其中没有一个是匹配的ENCODE控件。对于剩下的56% ChIP-seq数据集,部分ENCODE匹配控件也是WACS选择的控件,如图所示。4(品红颜色),并且有30个ChIP-seq数据集使用了它们所有匹配的ENCODE控件(除了其他控件样本)。无论是手工检查还是直接的统计分析,都不清楚控件的哪些特征,或者控件和ChIP-seq数据集的共同特征,可能导致控件被纳入。确定给定ChIP-seq的最佳控制的区别特征,超越它们在我们的回归公式中的效用,是未来研究的一个重要课题。

此外,我们还将进一步研究哪些特性导致WACS对特定ChIP-seq数据集的控制包含或排除。一个实例被定义为每个控件和ChIP-seq数据集的组合,并且目标值是一个布尔值,它指示是否为特定的ChIP-seq数据集选择了该控件。对于每个实例,我们考虑表示ChIP-seq和控制数据集之间的相似或不同的布尔特征。其中包括实验室名称、实验发布年份和映射读长度。值为1表示该特性对于ChIP-seq和控制数据集是等效的,否则为0。我们进行了精确的Fisher测试,并发现这些特征的统计显著结果\ \ (p < 0.005)。.(见附加文件1:表S7,S8和S9)。然而,这些预测远非完美,并且需要进行未来的工作,以确定“良好”控制是什么。

对其他细胞系进行验证

在这里,我们进一步评估了WACS、MACS2和AIControl对其他三种细胞系的影响:A549、HepG2和GM12878。我们专门研究了每个细胞系的20个ChIP-seq和18个控制数据集。(见附加文件1:表S4,S5和S6用于样本的访问代码。)我们评估MACS2与编码匹配的控件(匹配的MACS2),MACS2使用单元格线特定控件(所有MACS2),WACS具有单元格线特定控件(WACS),WACS跨越三种不同的小区线(WACS ALLCTRL)和AICONtrol的所有控件,以及其预定义的芯片-SEQ数据集(AICONTROL)集合。

为了评价每一种方法对每个细胞系产生的峰的质量,我们首先研究motif富集。数字5在使用WACS(蓝线)时,显示每个芯片实验的所有芯片实验,WACS ALLCTRL(黄线),所有MACS2(红线),匹配MACS2(绿线)和aicontrol(紫色线)。所有细胞系列的AIDONTROL都具有最低的主题富集。对于细胞系A549,如图2所示。5a, d, WACS和WACS All ctrl显示最高的motif富集和具有非常相似的性能。WACS和WACS All ctrl在14个处理样本上的表现均优于Matched MACS2、All MACS2和AIControl,如表所示6.在GM12878细胞株中观察到同样的趋势(图。5b, e)。然而,当使用所有峰时,WACS具有最高的motif富集;WACS在15个处理样本上的表现均优于WACS All ctrl、Matched MACS2、All MACS2和AIControl,如表所示6.此外,对于A549和GM12878细胞株的标准峰,我们注意到使用All MACS2和Matched MACS2时几乎相同的motif富集。HepG2的所有峰(图。5c)另一方面,匹配的MACS2总共优于WAC,WACS所有CTRLS,所有MACS2和AICONTROL总共均匀。对于具有标准化峰的HepG2(图。5F),所有方法显示相似的性能。

图5
图5.

对三个额外的验证细胞系A549 (一个d),gm12878(be)及HepG2 (cf

表6每个算法产生具有最佳motif富集的峰值的数据集数量

最后,我们探索了每个细胞系的ChIP-seq重复峰的重现性。每个细胞系共10个ChIP-seq实验,每个实验有2个重复。数字6当使用WACS(蓝色线)、WACS all ctrl(黄色线)、all MACS2(红色线)、Matched MACS2(绿色线)和AIControl(紫色线)时,显示每个ChIP-seq实验中与所有和标准峰重叠的百分比。WACS All ctrl优于WACS, Matched MACS2, All MACS2和AIControl在所有三个细胞系的所有ChIP-seq数据集上,A549, GM12878和HepG2的所有和标准化峰,如表所示7.同样,AIControl显示A549、GM12878和HepG2的所有和标准化峰重叠率最低。

图6
图6.

生物复制之间的峰值中的百分比重叠,对于三个附加验证小区中的每一个的五个峰值呼叫方法中的每一个:A549(一个d),gm12878(be)及HepG2 (cf

表7每个算法在生物复制之间产生最大重叠的峰值的数据集数量

此外,我们对所有三个细胞系(A549, GM12878和HepG2)进行了motif富集和重现性的比例测试。我们注意到,有时WACS优于其他峰值调用方法,有时WACS All ctrl优于峰值调用方法。当单独考虑WACS或WACS All ctrl时,高可变性和小样本量导致不太显著。然而,就WACS而言,总体上有一个积极的好处。对于所有峰或标准化峰,我们观察到WACS和WACS all ctrl具有最高motif富集度和最高重现性的数据集的分数具有统计学意义,p值小于\ \ (10 ^ {5})

讨论

在本文中,我们提供了一种方法,WACS,用于提高峰值呼叫,并提高我们对芯片-SEQ数据,控件及其偏置的理解。WACS建立在MACS2中的预先存在,广泛使用和精确的峰值调用方法上,但已在内部重新编码以获得更好的同时数据集,并为更准确的背景模型提供每个控件的权重。我们表明,这种形式的“智能”控制结构有利于峰值呼叫。它看起来更好地估计芯片SEQ数据集中的背景信号,如在所谓的峰值中的更好的主题富集和更好的再现性所证明。我们展示由WACS选择的控件不一定是匹配的编码控制。另外,对于大多数芯片-SEQ数据集,选择了许多以上的控制来模拟背景信号。这些发现与典型实践相反,通常由实验者选择一个或少量控制,有时仅基于与芯片-SEQ实验同时进行的控制,而无论控制是否真正模型芯片SEQ背景。如Hiranuma等人所述。[23,智能控制选择或构建允许研究人员使用其他非特定于ChIP-seq实验的控制来模拟噪声分布。这可以减少执行ChIP-seq实验所需的成本、时间和资源。

此外,与其他峰值调用方法相比,WACS是一个更有选择性的峰值调用方——因为它平均输出的峰值数量最少。我们使用所有峰值和标准化峰值来评估WACS,并观察到WACS在这两种情况下都优于其他峰值调用方法。但是,使用标准化峰值时的性能差异小于使用所有峰值时的性能差异。这表明,其他峰值调用方法经过标准化后性能有所提高。因此,这表明WACS主动去除较低质量的峰值。

Hiranuma等。[23]声称AIControl在去除背景噪声方面比MACS2更好。然而,我们的研究结果却恰恰相反。这可能是由于许多原因。首先,Hiranuma等人[23]采用不同的非标准评价方法进行重现性分析。然而,我们采用了广泛使用的方法,观察生物复制之间的峰值重叠[45, Hiranuma证明,AIControl在应用于不相关数据集时,比MACS具有更高的不可复制性。此外,Hiranuma等人只使用一个匹配对照来应用MACS2,而在我们的分析中,我们要么使用所有ENCODE匹配对照来处理样本,要么使用来自同一K562细胞系的所有对照。在任何一种情况下,提供多个控件都可能提高MACS2的性能。

在本文中,我们描述了使用NNLS来拟合ChIP-seq背景模型来控制密度,但也可以采用其他的方法。例如,我们使用实例加权NNLS公式进行实验,以解释回归目标上的不同方差\ (y_i \)(每个窗口的ChIP-seq读取计数)。我们没有发现任何性能上的改进。然而,结果可能取决于如何估计目标方差。与此相关,对日志转换的读取计数执行回归可能值得探索。RNA-seq分析工具,如DESeq2 [33使用对数线性模型进行读取计数和条件之间的比较。探索l1惩罚回归公式也是有意义的,探索用于建模背景的控制数量和背景模型的准确性之间的权衡。

未来的工作将涉及对其他高通量测序数据(如RNA-seq)和其他细胞系的加权控制方法进行更深入的分析。加权方法将用于研究不同平台、实验室、细胞类型、组织等RNA-seq数据的偏差。例如,RNA-seq被用来测量组织之间基因表达的差异,组织由多种细胞类型的混合物组成。为了生成真实的控制组织,可以使用加权方法对组织中的细胞类型进行加权,以模拟背景信号。此外,在这项分析中,我们关注的是更普遍存在于蛋白质- dna结合位点的尖峰。因此,例如,将对其他更广泛的峰进行分析。最终,我们的总体目标是提高高通量测序数据集得出的结论的保真度,每个数据集可能以不同的方式存在偏差,并充分利用已经发表的大量数据作为解释新数据的“参考”。

结论

我们开发了一种峰值呼叫方法WACS,其允许加权控制的混合作为输入。用户输入控件。这些控件可以由用户加权,或者可以通过我们的回归方法计算权重。后者系统地估计输入控制的权重,以模拟该芯片-SEQ实验的背景信号。在相等权重的特殊情况下,总结为1,WACS和MACS2输出的峰值是相同的。如果允许不同的权重,则两种算法具有不同的输出。WACS只允许积极的重量,以便更好地解释结果。负重在生物学上难以解释;由于它不添加到后台信号。WACS继续使用该设计的背景信号来识别沿基因组的富集区域。 WACS is an extension of the most highly cited peak calling algorithm, MACS2 [18].我们对WACS、MACS2和AIControl进行了比较,以评价我们的方法和加权对照的意义。WACS在motif富集分析和重现性分析方面明显优于MACS2和AIControl。

方法

我们评估了WACS, MACS2.1.1 (https://github.com/taoliu/MACS)及AIControl (https://github.com/hiranumn/aicontrol.jl/)的资料。[34].ENCODE ChIP-seq数据被组织成“实验”,通常由两个或多个ChIP-seq样本在同一时间和相同条件下生成。实验也有与ChIP-seq样本匹配的控制,并为每个ChIP-seq样本调用峰值。K562细胞系拥有最多的可用数据,所以我们将我们的经验评估集中在这些数据上。我们用两个ChIP-seq样本精确地鉴定了实验。我们将ChIP-seq BAM文件通过过滤比对映射到GRCh38基因组。我们进一步限制了对JASPAR中带有位置权重矩阵的tf的关注。根据这些标准,我们在45个实验中鉴定了90个ChIP-seq样本进行分析。我们还收集了K562细胞系的所有可用对照,结果有147个对照样本用于我们的分析。最后,为了检验我们的结果在其他细胞系中的适用性,我们分别为A549、GM12878和HepG2细胞系选择了20个ChIP-seq和18个对照样本。 See Additional file1:表S1, S2, S4, S5和S6为样品加入代码。

如图所示。1(和附加文件1:图S1),MACS2汇集了每个芯片SEQ样本的控件,而WACS估计每个控制的重量,并计算每个芯片SEQ样本的唯一加权控制堆叠。AIDONTROL使用预定义的一组公共可用控件[23].我们使用两种方法来评价WACS、MACS2和AIControl生成的峰的质量。一种方法考虑每个算法输出的所有原始峰值(称为all peaks)。然而,不同的峰值调用者可以基于相同的数据在不同的位置产生峰值,而且它们也可以产生不同数量的峰值。因此,为了进一步比较,我们采用了Hiranuma等人提出的标准化程序[23,其中,每个处理样品的峰宽和峰数均归一化。首先,通过在1000个碱基对窗口中对峰值进行归一化。例如,1号染色体上14520到15420的一个峰被计数为两个峰,分别覆盖14000到15000和15000到16000。接下来,通过保留顶部,将同一数据集的所有5个峰值调用条件的峰值数量标准化n统计上最显著的峰值n是五个宽度标准化峰集中最小的峰数。

可用性数据和材料

用于开发和评估这种方法的ChIP-seq数据可以在ENCODE网站上找到https://www.encodeproject.org.WACS软件可于以下网站下载:https://www.perkinslab.ca/software

缩写

也是:

芯片SEQ的加权分析

TF:

转录因子

ChIP-seq:

染色质免疫沉淀,然后高通量测序

nnls:

非负最小二乘

PWM:

位置权重矩阵

FIMO:

找到单个主题出现

AUPRC:

精确查全曲线下的面积

差:

狭窄的范围

参考文献

  1. 1.

    生物信息学与蛋白质- dna相互作用的全基因组图谱。科学。2007;316(5830):1497 - 502。

    中科院文章谷歌学者

  2. 2.

    Barski A,Cuddapah S,Cui K,Roh T-Y,Schones De,Wang Z,Wei G,Chepelev I,Zhao K.人类基因组中组蛋白甲基化的高分辨率分析。细胞。2007; 129(4):823-37。

    中科院文章谷歌学者

  3. 3.

    ChIP-Seq和RNA-seq的计算。Nat方法。2009;6(11):22。

    文章谷歌学者

  4. 4.

    Laajala TD, Raghav S, Tuomela S, Lahesmaa R, Aittokallio T, Elo LL。ChIP-Seq实验中检测转录因子结合位点方法的实用比较。BMC染色体组。2009;10(1):618。

    文章谷歌学者

  5. 5.

    一种比较ChIP-Seq分析的计算管道。Nat Protoc。2012;7(1):45 - 61。

    中科院文章谷歌学者

  6. 6.

    芯片峰值检测算法的性能评价。PLoS ONE。2010; 5(7): 11471。

    文章谷歌学者

  7. 7.

    托马斯,托马斯,霍洛威,波拉德。定义最佳芯片seq峰值调用算法的功能。短暂的Bioinform。2016;18(3):441 - 50。

    公共医学中心谷歌学者

  8. 8.

    Marinov GK, Kundaje A, Park PJ, Wold BJ。对发表的ChIP-Seq数据进行大规模质量分析。中国生物医学工程学报。2014;4(2):209-23。

    谷歌学者

  9. 9.

    Landt SG,Marinov GK,Kundaje A,Kheradpour P,Pauli F,Batzoglou S,伯尔德坦,Bickel P,Brown JB,Cayting P等人。Chip-SEQ编码和ModenCode Consortia的指南和实践。Genome Res。2012; 22(9):1813-31。

    中科院文章谷歌学者

  10. 10。

    刘学森。识别和减轻下一代染色质生物学测序方法的偏差。[j] .自然科学进展,2014;

    中科院文章谷歌学者

  11. 11.

    Karimzadeh M,Ernst C,Kundaje A,Hoffman MM。Umap和Bismap:量化基因组和甲基杂志可用性。核酸RES。2018; 46(20):120-120。

    谷歌学者

  12. 12.

    Benjamini Y, Speed TP。总结和纠正高通量测序中GC含量偏倚。核酸学报2012;40(10):72。

    文章谷歌学者

  13. 13.

    邓梅,Irizarry RA。考虑gc含量偏差可以减少ChIP-Seq数据中的系统误差和批处理效应。基因组研究》2017;27(11):1930 - 8。

    中科院文章谷歌学者

  14. 14.

    ChIP-Seq分析的最新进展:从质量管理到全基因组注释。短暂的Bioinform。2017;18(2):279 - 90。

    中科院PubMed谷歌学者

  15. 15.

    Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B.利用ChIP-Seq定位和定量哺乳动物转录组。Nat方法。2008;5(7):621 - 8。

    中科院文章谷歌学者

  16. 16.

    Fejes AP, Robertson G, Bilenky M, Varhol R, Bainbridge M, Jones SJ。Findpeaks 3.1:从大规模并行短读测序技术中识别富集区域的工具。生物信息学,2008;24(15):1729 - 30。

    中科院文章谷歌学者

  17. 17.

    基于组蛋白修饰的ChIP-Seq数据中富集结构域的聚类分析。生物信息学。2009;25(15):1952 - 8。

    中科院文章谷歌学者

  18. 18.

    Zhang Y, Liu T, Meyer CA, Eeckhoute J, Johnson DS, Bernstein BE, Nusbaum C, Myers RM, Brown M, Li W, et al. .基于模型的芯片seq (MACS)分析。基因组医学杂志。2008;9(9):137。

    文章谷歌学者

  19. 19.

    Harmanci A, Rozowsky J, Gerstein M. Music:在ChIP-Seq实验中使用映射校正多尺度信号处理框架识别富集区域。基因组医学杂志。2014;15(10):474。

    文章谷歌学者

  20. 20。

    Rozowsky J, euuskirchen G, Auerbach RK, Zhang ZD, Gibson T, Bjornson R, Carriero N, Snyder M, Gerstein MB. Peakseq能够相对于对照组对ChIP-Seq实验进行系统评分。生物科技Nat》。2009;27(1):66 - 75。

    中科院文章谷歌学者

  21. 21。

    Ramachandran P, Palidwor GA, Perkins TJ。Bidchips:偏差分解和去除ChIP-Seq数据澄清真实的结合信号及其功能相关。Epigenet染色质。2015;8(1):33。

    文章谷歌学者

  22. 22。

    Hiranuma N,Lundberg S,Lee S-I。CloudControl:利用许多公共芯片SEQ控制实验,以更好地去除背景噪音。在:2016年第7届ACM生物信息学,计算生物学和卫生信息学国际会议的会议记录; 191-199

  23. 23.

    平沼,伦德伯格,李思义。Aicontrol:用机器学习代替匹配的控制实验,提高了ChIP-Seq峰识别能力。核酸学报2019;47(10):58。

    文章谷歌学者

  24. 24.

    财团EP等。人类基因组中DNA元素的完整百科全书。大自然。2012;489(7414):57。

    文章谷歌学者

  25. 25.

    Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, 欧宝直播官网appHomer N, Marth G, Abecasis G, Durbin R.序列比对/地图格式和samtools。生物信息学。2009;25(16):2078 - 9。

    文章谷歌学者

  26. 26.

    昆兰AR, Hall IM。Bedtools:一套灵活的工具,用于比较基因组特征。生物信息学,2010,26(6):841 - 2。

    中科院文章谷歌学者

  27. 27.

    Jones E, Oliphant T, Peterson P. {SciPy}:用于{Python} 2014的开源科学工具

  28. 28.

    冯军,刘涛,张勇。基于MACS的ChIP-Seq数据峰识别方法。生物信息学。2011;34(1):2-14。

    文章谷歌学者

  29. 29.

    冯军,刘涛,秦波,张勇,刘学森。使用MACS鉴定ChIP-Seq富集。Nat Protoc。2012;7(9):1728。

    中科院文章谷歌学者

  30. 30.

    Fornes O, Castro-Mondragon JA, Khan A, Van der Lee R, Zhang X, Richmond PA, Modi BP, Correard S, Gheorghe M, Baranašić D,等。Jaspar 2020:转录因子结合概况开放存取数据库的更新。核酸Res. 2020;48(D1): 87-92。

    谷歌学者

  31. 31.

    Grant CE, Bailey TL, Noble WS。菲莫:扫描给定主题的出现。生物信息学。2011;27(7):1017 - 8。

    中科院文章谷歌学者

  32. 32。

    Bailey TL,Boden M,Buske Fa,Frith M,Grant Ce,Clementi L,Ren J,Li WW,Noble WS。MEME SUITE:主题发现和搜索的工具。核酸RES。2009; 37(SOMP-2):202-8。

    文章谷歌学者

  33. 33。

    利用DESeq2对RNA-seq数据的折叠变化和离散度进行调节估计。基因组医学杂志。2014;15(12):550。

    文章谷歌学者

  34. 34。

    财团EP等。dna元素百科全书项目。科学。2004;306(5696):636 - 40。

    文章谷歌学者

下载参考

确认

我们感谢加拿大计算允许我们访问他们的集群来存储数据和运行我们的计算分析。我们也感谢帕金斯实验室成员的反馈。

资金

我们承认加拿大自然科学和工程研究委员会(NSERC),[资金参考号RGPIN-2019-06604]的支持。通过伊丽莎白二世研究生奖学金(QEII-GSST)至AA,以及加拿大的薪金(www.computecanada.ca)向TJP提供研究团体资源资助。资助这项工作的机构在研究的设计、数据的收集、分析和解释或手稿的撰写中都没有任何作用。

作者信息

隶属关系

作者

贡献

AA和TJP构思和设计了分析。AA开发工具,进行分析/计算,并根据TJP的输入撰写稿件。TJP编辑了手稿。TJP和MT监督了该项目。所有作者都提供了关键的反馈,并帮助塑造了研究、分析和手稿。所有作者阅读并批准了最终的手稿。

相应的作者

对应到Aseel Awdeh或者西奥多·j·珀金斯

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

附加文件1:表1。

我们分析所用的ENCODE数据库中K562细胞系的45个ChIP-seq实验及其相应的ChIP-seq重复样本和tf表。表2.我们分析所用的ENCODE数据库中K562细胞系的90个ChIP-seq样本及其相应的对照样本。表3.45个ChIP-seq实验的转录因子(TFs)及其对应的motif ID。表4.用于我们分析的ENCODE数据库中A549细胞系的ChIP-seq实验及其相应的ChIP-seq复制样品、TFs和对照。表5.芯片-SEQ实验表及其对应的芯片SEQ-SEQ-SEQ用于从我们分析中使用的编码数据库的GM12878单元格的复制样本,TFS和控制。表6.用于我们分析的ENCODE数据库中HepG2细胞系的ChIP-seq实验及其相应的ChIP-seq复制样本、转录因子和对照。表7.实验室。表8.年。表9.映射读取长度。图1.为每个控制估计重量的流程图。图2.TF ZNF24 ChIP-seq数据集ENCFF109OWW的精度查全曲线示例。图3.处理样品的AUPRC。图4.使用WACS用于90个芯片SEQS的每个芯片-SEQ数据集的总数的直方图。

权利和权限

开放获取本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

Awdeh, A, Turcotte, M. & Perkins, T.J. WACS:通过最优加权控制改善ChIP-seq峰值呼叫。欧宝娱乐合法吗22,69(2021)。https://doi.org/10.1186/s12859-020-03927-2

下载引用

关键词

  • ChIP-seq
  • 控制
  • 偏见