跳转到主要内容

CHIP-BIT2:使用贝叶斯集成方法检测弱绑定事件的软件工具

抽象的

背景

ChIP-seq将染色质免疫沉淀分析与测序结合,并确定DNA结合蛋白的全基因组结合位点。虽然许多结合位点具有很强的ChIP-seq“峰值”观察,并被很好地捕获,但仍有一些区域与蛋白质结合较弱,具有相对较低的ChIP-seq信号富集。这些弱结合位点,特别是在启动子和增强子上的,在功能上是重要的,因为它们也调节附近的基因表达。然而,准确识别ChIP-seq数据中的弱结合位点仍然是一个挑战,因为将这些弱结合位点与扩增的背景dna区分开来并不明确。

结果

CHIP-BIT2(http://sourceforge.net/projects/chipbitc/)是一个用于ChIP-seq峰值检测的软件包。ChIP-BIT2采用混合模型整合蛋白质和控制ChIP-seq数据,预测启动子、增强子或其他基因组位置的强或弱蛋白结合位点。对于基因启动子的结合位点,ChIP-BIT2同时预测它们的靶基因。ChIP-BIT2在基准测试区域上进行了验证,并使用大规模ENCODE ChIP-seq数据进行了测试,结果表明该算法具有较高的精度和广泛的适用性。

结论

CHIP-BIT2是一个有效的芯片SEQ峰值呼叫者。它提供了更好的镜片来检查弱结合位点,可以细化或延伸现有的结合位点收集,为解码基因表达调节机制提供额外的调节区域。

介绍

CHIP-SEQ技术将染色质免疫沉淀(CHIP)测定与大规模平行测序(SEQ)结合起来,并提供由特定蛋白质结合的DNA位点的基因组分析[12]。dna相关蛋白主要包括转录因子(transcription factors, TFs)和组蛋白修饰蛋白(histone modification proteins, HMs),它们在表观基因组中具有多种功能。主TFs [3.]在特定的DNA位置染色,大多数都有强芯片SEQ信号浓缩[4.]。合作伙伴TFS和大多数HMS在更多样化的基因座中绑定,其中一些在Long DNA段具有薄弱的芯片SEQ信号富集[5.6.7.]。它们都对附近的基因转录产生重要的机械调控作用。然而,准确识别弱结合位点具有挑战性,因为其在ChIP-seq实验中相对较低的信号很容易被放大背景dna产生的噪声信号所掩盖。

ChIP-BIT算法(利用ChIP-seq数据对靶基因进行贝叶斯推断)由Chen等人开发,最初用于检测基因转录起始位点(TSSs)附近的狭窄TF结合位点(TFBSs)和预测靶基因[8.]。使用多组分混合分布联合建模样本(蛋白质)和输入ChIP-seq实验中的ChIP-seq读强度,ChIP-BIT可以更好地捕获弱峰并预测其目标基因。最近关于增强子等远端调控区域的研究已经证明了这些区域的蛋白质结合位点对远端基因调控的功能重要性[9.]。像EP300、H3K27ac和H3K4me1这样的蛋白质与增强子结合的频率高于与启动子结合的频率[10.11.12.]。对于这类蛋白的ChIP-seq数据,ChIP-BIT的峰值检测能力非常有限。此外,许多hm有非常宽的峰,跨越数千个碱基对[13.]。与狭窄和尖锐的ChIP-seq峰相比,宽峰的ChIP-seq信号不是峰的中心,而是沿宽基因组片段分布。这些宽峰也超出了ChIP-BIT可以检测到的峰宽范围。为了实现所有这些蛋白的弱峰检测,有必要对ChIP-BIT算法进行扩展,使其普遍适用于大多数ChIP-seq数据。

在这里,我们存在芯片比特2,具有芯片比特算法的扩展软件包,并且能够为各种DNA相关蛋白检测整个基因组上的弱峰。CHIP-BIT2是C / C ++实现,比原始芯片位快40%。我们使用标记为峰/非斑点区域的专家对所选芯片SEQ数据进行基准测试芯片BIT2 [14.[展示芯片位2比Macs2等现有峰值呼叫者的误差率较低。我们还将Chib-Bit2应用于从编码数据门户下载的多个芯片-SEQ数据集[15.[乳腺癌MCF-7细胞中检测到50个蛋白的结合位点。结果表明,这些DNA结合蛋白质确实具有在促进剂,增强剂或其他基因组位置结合的不同倾向,证明了必须在特定地区内部的芯片-SEQ信号进行适当地模拟芯片SEQ信号,以更好地捕获峰,特别是弱峰值。我们最终将芯片比特2与先前由编码管道识别的峰值进行比较,同一组蛋白质包括TFS和HMS。在MCF-7细胞的活性调节区,CHIP-BIT2召回92%的编码峰,同时,它报告了另外11,813峰,为研究乳腺癌细胞中的基因调节提供更多候选者[16.]。

方法

芯片比特算法

ChIP-seq数据的弱峰检测的挑战在于区分蛋白结合位点的弱信号和背景区域产生的噪声信号的模糊性。在ChIP-seq数据中,来自放大背景dna的信号可以与真正的结合信号一样强。ChIP-BIT2使用一个全局分布缩小了强峰和弱峰之间读取强度分布的距离,使用多个局部分布放大了弱峰和背景区域之间的差异。这样,可以更有力地检测不同强弱的ChIP-seq读码富集的蛋白结合位点(图1)。1一个)。

图。1
图1

使用高斯混合模型的ChIP-seq峰值检测。ChIP-BIT2一个将读取计数转换为读取强度,然后b使用高斯分布的混合来区分(强弱)与背景信号的结合事件

为了能够灵活地检测窄峰或宽峰,使用滑动窗口对峰进行筛选。窗口大小可调整,以满足不同的分辨率需求。例如,大多数TFs具有窄而尖锐的ChIP-seq峰值。像50个碱基对(bps)这样的窄窗口大小可以帮助识别高分辨率的峰值边界。对于HMs,其峰值可达几千bps。500bps这样的宽窗口大小可以有效平滑整个峰宽基因组区域的信号波动。

假设有特定蛋白质的芯片-SEQ型材\ (N \)候选基因组区域重叠至少两个ChIP-seq reads在每个,我们分割\(n \)th区域进入固定长度窗口和计算的读取强度\(s_ {n,w} \)对于窗口\(w \)。同时,我们计算了另一种读取强度\(r_ {n,w} \)使用来自匹配的输入芯片SEQ配置文件的数据。窗口的相对距离\(w \)到最近的基因TSS或Enhancer Center表示\(d_ {n,w} \)。CHIP-BIT2估计窗口中蛋白质结合发生的概率\(w \)该地区的\(n \)(8.]:

$$ p \ left({b_ {n,w} {|} s_ {n,w},d_ {n,w}} \ propto p \ left({s_ {n,w} {|} b_{n,w}} \右)p \ left({d_ {n,w} {|} b_ {n,w} \右)p \ left({b_ {n,w}} \右)。$$
(1)

取决于变量中的绑定或非绑定状态\(b_ {n,w} \)(在绑定之前的制服'\(b_ {n,w} = \)1 '或非约束性'\(b_ {n,w} = \)0'),我们建模\(s_ {n,w} \)双组分高斯混合分配为:

$$ \ left \ {{\ begin {array} {* {20} c} {p \ left({s_ {n,w} {|} b_ {n,w} = 1}右)= n \ left({\ mu_ {1},\ sigma_ {1} ^ {2}}右),} \\ {p \ left({s_ {n,w} {|} b_ {n,w} = 0}右)= n \ left({r_ {n,w},\ sigma_ {0} ^ {2}}右)。} \\ \ end {array}} \ lex。$$
(2)

如果\ (b_ {n, w} = 1 \),我们假设蛋白质结合的区域,并在蛋白质结合的区域使用具有平均值的全局高斯分布来模拟读取强度\ (\ mu_ {1} \)和方差\ (\ sigma_ {1} ^ {2} \),其中模型参数\ (\ mu_ {1} \)\ (\ sigma_ {1} ^ {2} \)是未知的,需要估计。如果\ (b_ {n, w} = 0 \),我们假设它是一个背景区域,并使用带有平均值的局部高斯分布对读取强度进行建模\(r_ {n,w} \)和方差\ (\ sigma_ {0} ^ {2} \)(使用输入芯片-SEQ数据估计背景信号的方差)。

第二个似然函数(P\左({d_{n,w} {|}b_{n,w}} \右)\)在情商。1)模拟了选定区域对邻近基因的调控作用。基因启动子区域附近的ChIP-seq数据可视化1:图S1A)和来自以前研究的证据[8.17.]均表明:在蛋白结合位点上,ChIP-seq读码强度对基因TSS呈指数分布;对于背景区域,TSS周围的分布相对均匀。因此,我们建模\(d_ {n,w} \)两组分混合分布如下:

$ $ \左\{{\开始{数组}{* c {20}} {P \离开({d_ {n, w} {|} b_ {n, w} = 1} \右)= Exp \离开λ(\ \)}\ \ P{\离开({d_ {n, w} {|} b_ {n, w} = 0} \右)= U \离开({- \压裂{{d_ {P}}}{2}, \压裂{{d_ {P}}}{2}} \右)。} \\ \end{array}} \右
(3)

在哪里\λ(\ \)代表了指数分布参数,其未知,需要估计。\(d_ {p} \)表示启动子区域的长度。

对于增强子,ChIP-seq数据可视化(附加文件1:图。S1B)表明,芯片SEQ读取强度的分布是均匀的,并且与增强器中心或最近的TS的距离不相关。因此,特别是在远端增强剂处呼叫峰值,我们假设均匀的分布\(d_ {n,w} \)作为:

$ $ \左\{{\开始{数组}{* c {20}} {P \离开({d_ {n, w} {|} b_ {n, w} = 1} \右)= U \离开({- \压裂{{d_ {E}}}{2}, \压裂{{d_ {E}}}{2}} \右),}\ \ P{\离开({d_ {n, w} {|} b_ {n, w} = 0} \右)= U \离开({- \压裂{{d_ {E}}}{2}, \压裂{{d_ {E}}}{2}} \右)。} \\ \end{array}} \右
(4)

在哪里\(d_ {e} \)代表了增强区区域的长度。

CHIP-BIT2使用期望最大化算法迭代估计分布参数和每个窗口中的绑定发生的概率(图。1b)。简而言之,在E-Step,Chip-Bit2基于推断的绑定状态变量估计模型参数(\(b_ {n,w} \));在m步中,ChIP-BIT2更新后验概率\ (P \离开({b_ {n, w} {|} s_ {n, w}, d_ {n, w}} \) \)对于使用估计的模型参数的每个窗口,然后更新变量中的绑定状态\(b_ {n,w} \)相应的行动。我们迭代E和M步,直到参数值的变化小于5%。ChIP-BIT2将概率高于截止阈值的连续窗口组合在一起,并将它们输出为单个峰值。根据蛋白质的特性和窗口分辨率的不同,一个锐峰可以有一个或两个窗口,一个宽峰可以有十多个窗口。

CHIP-BIT2管道

采用C/ c++实现了ChIP-BIT2。ChIP-BIT2的流水线如图所示。2(附加文件1:图S2)。给定一对以SAM格式的样本和输入的ChIP-seq配置文件,ChIP-BIT2首先分别从样本和输入的ChIP-seq配置文件中提取个体读取的基因组坐标(附加文件1:图S3)。然后它在启动子、增强子(如果提供注释文件)或整个基因组中检测到峰值。

图2
图2.

ChIP-BIT2管道。ChIP-BIT2分别从样本中提取读取位置信息和输入chip -seq SAM格式配置文件。根据运行模式的不同,它可以从整个基因组或注释的调控区域(如启动子或增强子)中检测峰。为了实现不同大小的峰值检测,ChIP-BIT2将基因组片段划分为更小的窗口,并在每个窗口中计算读强度,用于分布参数学习和绑定发生概率估计。后验概率大于0.9的窗口以BED格式输出为最终峰值

子模式

推动者指的是围绕基因TS的近端调节区域。TSS注释文件是必需的,以启用芯片Bit2的“-Promoter”运行模式。用户可以使用“-s”选项设置首选启动子大小。在此模式下,使用高斯混合模型[EQ,Chip-Bit2在样本和输入芯片-SEQ配置文件中联合建模的读取强度[EQ。(2)]。同时,它使用指数均匀的混合物模型[EQ,它模拟了每个窗口的相对距离到最近的TSS。(3.)]。在附加文件中提供了一个使用ChIP-BIT2检测启动子峰的演示1:图。S4。

增强器模式

增强剂提到远端调节区域与3D基因组中的启动子/ TSS相互作用[18.]。增强子到目标启动子/基因的线性距离可达1mbps。一些蛋白质如EP300、H3K27ac和H3K4me1经常特异地与增强子结合,并且在增强子处比在启动子处或其他基因组位置具有更高的ChIP-seq信号富集[10.11.12.]。为了有效地检测这种蛋白的芯片SEQ峰,需要增强器注释文件来启用芯片比特2的“-Enhancer”运行模式。在此模式下,Chip-Bit2建模在样本中的读取强度,并使用EQ联合输入芯片-SEQ配置文件。(2)。与启动子模式不同,CHIP-BIT2使用均匀分布将每个窗口的相对距离建模到增强器中心[EQ。(4.)]。在附加文件中提供了在增强器中使用CHIP-BIT2进行峰值检测的演示1:图。S5。

全基因组模式

启动子和增强剂是两类良好的监管区域。存在许多其他类型的基因组区域,也受DNA蛋白结合的。例如,内聚蛋白CTCF和Rad21通常在拓扑相关结构域的界限处结合,并在3D染色质结构中发挥关键作用[19.]。转录起始蛋白POLA2与全基因组中的所有活性调节区域结合。对于这种蛋白质,使用芯片-Tit2的'-WG'模式来调用整个基因组的芯片-SEQ峰值是重要的。由于不需要注释的调节区域,CHIP-BIT2建模从样品和输入芯片-SEQ配置文件中的读取强度,并在基因组的位置预测峰值。

结果

组蛋白修改基准分析

芯片比特算法在狭窄的TFBS上已经基准测试,并展示比传统峰值呼叫者更好[8.20.]。为了评估芯片比特2对检测窄或广泛的组蛋白修改的精度,对于在专家标记的峰/非斑点区域上的所选HMS基准测试的HMS基准测试。我们使用了HM基准数据集[14.],包括10253个H3K4me3区(窄型)和2573个H3K36me3区(宽型),三位专家通过可视化ChIP-seq数据在多个免疫细胞样本(t细胞、b细胞和单核细胞)中分别独立标记其蛋白结合状态。对一些具有低分辨率峰边界的峰分别进行了峰开始区和峰结束区标记。

这里我们比较了ChIP-BIT2和MACS2(2020.4版本)的检测精度[21.]和cnn-peaks [22.]。MACS2广泛应用于ChIP-seq峰检测。它将读取计数高的区域作为峰值,所以其检测到的大部分峰值都是强的。CNN-Peaks是一种有监督的机器学习方法,它不对读取深度做出分布假设,而是从样本ChIP-seq数据中学习标记区域的适当截止阈值。由于CNN-Peaks使用不同的阈值来确定具有不同ChIP-seq读取深度的区域的峰/非峰状态,因此它可以捕获弱绑定事件。

我们从编码数据门户下载了H3K4ME3和H3K36ME3 Chip-SEQ数据及其匹配的输入,从K562和GM12878单元格(https://www.encodeproject.org/)[15.]。K562和GM12878细胞系都具有血液特异性,为基准数据提供了匹配上下文。在这次比较中,总共包含了4个ChIP-seq数据集和3个峰值调用工具。峰值检测误差使用PeakError进行评估[14.]。要考虑误报和假阴性,我们计算了F1分数,精度和召回的谐波平均值(2 *精度*召回/(精密+召回))。

为了公平地比较监督(CNN-PEAK)和无监督方法(CHIP-BIT2和MACS2)之间的峰值检测精度,我们执行了4倍交叉验证:使用三个折叠来优化每个方法的模型参数并使用阻止一个折叠以评估检测精度。在此设置下,三种选定方法之间的差异很小,但芯片比特2具有最高的F-1分数(表1)。在现实中,在ChIP-seq剖面中,峰值区域在峰值检测分析之前大部分是未知的。峰值呼叫者的模型参数不能使用真正的峰值/非峰值区域的信号进行特别优化。这很大程度上限制了监督方法的应用。使用预先训练的模型来预测新的ChIP-seq谱中的峰值也可能不会得到好的结果,因为ChIP-seq实验是高度语境特异性的。

表1使用ENCODE ChIP-seq数据集对H3K4me3和H3K36me3基准区域检测的竞争峰值调用者f1 -评分和运行时

芯片比特2和MACS2都是无监督的方法。如表所示1,在无监督设置下,ChIP-BIT2的精度高于MACS2。ChIP-BIT2在DELL T7600工作站上运行得相当快(< 15分钟),CPU 3.1 GHz(32核)和128 GB RAM。由于ChIP-BIT2通过筛选更多的候选区域检测到额外的弱绑定事件,它的运行时间比MACS2稍微长一些。

芯片比特2的运行时间

为了评估芯片比特2的运行时间在不同场景中,我们在乳腺癌MCF-7单元中下载了39个TFS的芯片-SEQ数据,并从编码和GEO数据库中下载了与匹配的输入数据(附加文件1:表S1)。我们还从屏幕WebServer下载了用于MCF-7单元格的TSS和Enhancer注释文件(https://screen.encodeproject.org/)[23.]。总共获得了25,802个启动子(可能重叠,密切正确的基因)和34,599个增强剂。COPP-BIT2和芯片位分别应用于CentOS Linux 7.3系统下的单个芯片-SEQ数据集,在Dell T7600工作站上,使用3.1GHz CPU(32核)和128 GB RAM。CHIP-BIT2通过芯片比特实现〜40%的速度提高(图。3.)。此外,尽管增强子的数量比启动子的数量多30%,ChIP-BIT2在“启动子”和“增强子”模式之间的运行时间相似。

图3.
图3.

ChIP-BIT2和ChIP-BIT的运行时间比较

DNA蛋白质对启动子和增强子的结合具有不同的倾向

我们将Chib-Bit2应用于另一个11小时,在编码数据门户网站中使用可用的MCF-7芯片-SEQ数据(附加文件1:表S1)。上述TFS和这些HMS中的每一个的峰值数如图2所示。4.一种。对于据报道的MYC和ER-alpha等TFS在MCF-7细胞中非常活跃[24.25.26.芯片比特2检测到大量峰值。此外,对于每种蛋白质,我们计算了注释的启动子,增强剂或其他区域中其芯片-SEQ峰的比例(图。4.b),并计算了促进子重叠峰与增强子重叠峰的比值(图5)。4.C)。

图4.
图4.

50个DNA蛋白的芯片比特2的峰值检测概述。一个ChIP-BIT2利用ENCODE数据门的39个TFs和11个HMs的ChIP-seq数据,检测了全基因组的峰值。b我们分别计算了从启动子,增强子或其他地区检测到的峰的比例(来自促进剂或增强子的全基因组峰值)和c计算了增强子与启动子峰数的log2比值

对于EP300和H3K27Ac等增强子标记蛋白,它们的芯片比特2检测到的峰在增强剂中显着更富集,而不是在促进剂(折叠变化1.4;p价值<0.01,Fisher精确测试)。先前已经证明Notch3与乳腺癌基因的启动子结合[8.]。实际上,我们在促进剂中检测到TwoFold比在增强剂(折叠变化2;p值< 0.001,fisher精确检验)。转录起始蛋白POL2A通常与转录调控区域结合。正如预期的那样,我们观察到启动子和增强子之间的POL2A ChIP-seq峰的相似比例。还有一些结合位点主要位于注释启动子或增强子外的蛋白质(图1)。4.b,灰色的颜色)。例如,CTCF在拓扑关联域边界区域起绝缘体和绑定的作用[27.]。在我们的分析中,仅用现有的启动子或增强剂重叠的小比例(25%)的CTCF峰。因此,为了有效地调用芯片SEQ峰,如果蛋白质的结合偏好的先验知识,我们推荐以适当的模式运行芯片比特2。

大规模应用于乳腺癌MCF-7细胞系数据

为了证明ChIP-BIT2检测到了其他的峰,这些峰具有重要的功能,但被传统的峰调用者所遗漏,对于同一组蛋白质,我们将ChIP-BIT2的结果与ENCODE管道检测到的峰进行了比较(附加文件1:表S1;26 TFS和11 HMS)。我们将我们与与“主动”在MCF-7细胞相关的基因相关的监管区域的比较,因为这些区域中的峰更可能是功能性的(具有调节效应)。为了识别MCF-7细胞中的活动启动子或增强剂,我们从Geo数据库下载了两个RNA-SEQ数据集(登录号:GSE62789和GSE51403)。489个基因显着(调整p值<0.05)并主动(log2fc> 1)在两个数据集中表示。选择这些489个基因的TSS周围的区域(±10 kbps)作为“活性”启动子。1050增强剂通过编码MCF-7细胞系Chia-PET 3D染色质相互作用选择与上述启动子环化为“活性”增强剂。与这些所选主动调节区重叠的芯片比特2峰值和编码峰值的Venn图如图4所示。5.。总体而言,CHIP-BIT2召回了92%的编码峰,并确定了11,813(52%)的新峰。

图5.
图5.

CHIP-BIT2检测到的结合事件的VENN图,并在MCF-7活性启动子或增强子处进行编码。一个489个启动子的TFBSs;b489名启动子的HMS;cTFBS在1050个增强剂;d1050个增强子的HMs

具体地,总共26个TFS,芯片比特2回收〜93%(6179/6610)编码促进剂中的峰,并预测了6816个新峰。例如,对于特定蛋白,例如,在编码数据库中鉴定了几个峰的TDRD3。在使用芯片比特2评估TDRD3读取强度之后,我们发现其在样本芯片-SEQ配置文件中的许多区域的读取丰富远高于输入数据中的读取富集。因此,芯片比特2最终检测到438个启动子区中的TDRD3峰,覆盖近90%的选定的活性启动子。对于MBD3,编码峰是35%的启动子,而芯片比特2检测到55%的启动子上的峰。对于所有11个组蛋白蛋白,芯片比特2几乎捕获了所有编码峰(99%,3215/3254),证明了检测宽的组蛋白修饰的强能力。捕获了另一组693种组蛋白修饰,芯片比特2的结果〜20%。在MCF-7活性增强剂处的峰进行了类似的比较。对于TFS,CHIP-BIT2识别10,225峰,与92%编码峰重叠并提供3844个新峰。对于HMS,两个峰值呼叫方法之间的相似性也很高,重叠率为86%。 In summary, for both TFs and HMs, ChIP-BIT2 detected a majority of peaks identified by the ENCODE pipeline and also predicted new peaks at functionally important regulatory regions.

讨论

ChIP-BIT2可以从注释的调控区域或整个基因组中检测出强弱峰,利用贝叶斯模型整合样本并输入ChIP-seq图谱。为了更好地捕获调控区域的ChIP-seq峰,ChIP-BIT2在估计每个峰的概率时考虑了蛋白结合位置,因为位于基因TSS附近的弱峰可能比位于更远的峰对该基因有更高的调控作用。我们使用ENCODE和GEO数据库中的基准数据和公共数据演示了ChIP-BIT2的准确性和广泛的适用性。

目前,芯片位2一次检测来自给定芯片SEQ数据的峰值。我们正在采用并行模式,使得从多个芯片SEQ配置文件启用峰值,促进使用多种蛋白质或多种蛋白质之间的一组蛋白质或关联分析的持续峰值呼叫。目前,ATAC-SEQ数据被广泛用于捕获特定组织或细胞类型中的开口染色质区域[28.29.]。与ChIP-seq数据不同,ATAC-seq使用的是对端读取。然而,一些现有的峰值调用者只是简单地将一个长读取的对端视为两个单独的单端读取,然后以与ChIP-seq配置文件相同的方式检测峰值。这种简化可能会将一些超宽的开放染色质区域打破成几个不相连的狭窄峰,导致全基因组染色质可及性分析的错误。我们计划扩展ChIP-BIT2的预处理功能,对不同长度的ATAC片段进行读强度建模。有了这样的扩展,ChIP-BIT2将能够检测ATAC-seq峰值。

结论

我们开发了一种C ++软件包,CHIP-BIT2,用于从芯片-SEQ数据中检测DNA蛋白结合位点检测。CHIP-BIT2可以通过从样本和输入芯片-SEQ配置文件共同建模读取强度来捕获从背景区域区分弱绑定站点的微妙。CHIP-BIT2在检测窄且宽的芯片SEQ峰值上具有精确的性能,并且在TF或HM芯片-SEQ数据分析中具有广泛的适用性。

可用性数据和材料

支持本文结论的数据集可在编码数据门户中使用(https://www.encodeproject.org/,表s1)和ncbi geo数据库(https://www.ncbi.nlm.nih.gov/gds.):GSE26831,GSE41561,GSE38901,GSE44737,GSE28008,GSE22612和GSE62789。CHIP-BIT2包在Linux环境下使用C / C ++实现,可公开访问http://sourceforge.net/projects/chipbitc/

缩写

ATAC-SEQ:

利用测序分析转座子可达染色质

CHIP-BIT2:

使用芯片-SEQ数据V2贝叶斯靶基因推断

芯片SEQ:

染色质免疫沉淀反应测序

嘉宠物:

通过配对结束标签测序的染色质相互作用分析

编码:

DNA元素百科全书

F1:

精度和查全率的调和平均值

嗯:

组蛋白修饰

MACS2:

基于模型的ChIP-seq V2分析

TF:

转录因子

TFBS:

转录因子结合位点

TSS:

转录起始站点

参考文献

  1. 1。

    (1)研究结果表明,该模型具有较强的可重复性和可重复性。ENCODE和modENCODE联盟的芯片序列指南和实践。基因组研究》2012;22(9):1813 - 31所示。

    中科院文章谷歌学术搜索

  2. 2。

    公园PJ。芯片序列:成熟技术的优势和挑战。李文杰。2009;10(10):669-80。

    中科院文章谷歌学术搜索

  3. 3.

    Chan SS,Kyba M.什么是主监管机构?J干细胞res。2013; 3:114。

    PubMedpmed中央谷歌学术搜索

  4. 4.

    作者简介:Mercado N, Schutzius G, Kolter C, Estoppey D, Bergling S, Roma G, Gubser Keller C, Nigsch F, Salathe A, Terranova R等。IRF2是人类角质形成细胞干细胞命运的主要调控因子。Nat Commun。2019;10(1):4676。

    文章谷歌学术搜索

  5. 5.

    低亲和转录因子结合位点形成形态反应和增强子进化。中国生物医学工程学报,2013;

    文章谷歌学术搜索

  6. 6.

    吹mj,mcculley dj,李z,张t,akiyama ja,holt a,plajzer-frick i,shoukry m,wright c,chen f等。芯片-SEQ识别弱保守的心脏增强剂。NAT Genet。2010; 42(9):806-10。

    中科院文章谷歌学术搜索

  7. 7.

    Chen X,Gu J,Neuwald AF,Hilakivi-Clarke L,Clarke R,Xuan J. Bicorn:用于De Novo CIS-Condicatory模块的整合推理的R包。SCI代表2020; 10(1):7960。

    中科院文章谷歌学术搜索

  8. 8.

    陈X,Jung Jg,Shajahan-Haq An,Clarke R,Shih Ie M,Wang Y,Magnani L,王TL,Xuan J.芯片位:使用芯片-SEQ型材的新型联合概率模型进行贝叶斯基因的贝叶斯推断。核酸RES。2016; 44(7):E65。

    文章谷歌学术搜索

  9. 9。

    陈晓,周杰,张锐,王安克,Park CY, Theesfeld CL, Troyanskaya OG. [10]将远端调节区域与疾病关联的组织特异性增强剂功能网络。细胞系统。2021;12:1-10。

  10. 10。

    Creyghton MP,Cheng AW,Welstead GG,Kooistra T,Carey BW,Steine EJ,Hanna J,Lodato Ma,Frampton Gm,Sharp Pa等。组蛋白H3K27Ac与Poived Enhancers分离,预测发育状态。Proc Natl Acad Sci U S A. 2010; 107(50):21931-6。

    中科院文章谷歌学术搜索

  11. 11.

    Heintzman Nd,Stuart Rk,Hon G,Fu Y,Ching Cw,Hawkins Rd,Barrera Lo,Van Calcar S,Ch C,Ching Ka等人。人类基因组中转录启动子和增强子的明显和预测染色质签名。NAT Genet。2007; 39(3):311-8。

    中科院文章谷歌学术搜索

  12. 12.

    visel a,blow mj,李z,张t,akiyama ja,holt a,plajzer-frick i,shoukry m,wright c,chen f等。CHIP-SEQ准确预测增强剂的组织特异性活性。自然。2009; 457(7231):854-8。

    中科院文章谷歌学术搜索

  13. 13。

    关键词:组蛋白修饰,表观基因组,DNA基序,小鼠美国国家科学院学报2019;116(9):3668-77。

    中科院文章谷歌学术搜索

  14. 14。

    Hocking TD, Goerner-Potvin P, Morin A, Shao X, Pastinen T, Bourque G.使用视觉标签和监督机器学习优化ChIP-seq峰值检测器。生物信息学。2017;33(4):491 - 9。

    中科院PubMed谷歌学术搜索

  15. 15.

    Davis CA, Hitz BC, Sloan CA, Chan ET, Davidson JM, Gabdank I, Hilton JA, Jain K, Baymuradov UK, Narayanan AK等。DNA元素百科全书(ENCODE):数据门户更新。核酸图谱2018;46(D1): D794-801。

    中科院文章谷歌学术搜索

  16. 16.

    关键词:RNA-seq,芯片序列,功能调节网络,时间过程生物信息学。2018;34(10):1733 - 40。

    中科院文章谷歌学术搜索

  17. 17.

    欧阳Z,周Q,Wong Wh。转录因子的芯片SEQ预测胚胎干细胞中的绝对和差异基因表达。Proc Natl Acad Sci U S A. 2009; 106(51):21521-6。

    中科院文章谷歌学术搜索

  18. 18.

    转录增强子:从特性到全基因组预测。(4): 274 - 86。

    中科院文章谷歌学术搜索

  19. 19.

    Sanborn Al,Rao Ss,Huang Sc,Durand NC,Huntley MH,Jewett Ai,Bewchkov ID,Chinnappan D,Cutkosky A,Li J等。染色质挤出解释了野生型和工程基因组中环路和域形成的关键特征。Proc Natl Acad SCI U S A. 2015; 112(47):E6456-6465。

    中科院文章谷歌学术搜索

  20. 20.

    Rye MB,Saetrom P,Drablos F.手动策划的芯片SEQ基准,演示了当前峰值搜索程序的改进室。核酸RES。2011; 39(4):E25。

    文章谷歌学术搜索

  21. 21.

    使用基于模型的Analysis of ChIP-Seq (MACS)对胚胎干细胞中蛋白质- dna相互作用的测序产生的短reads进行分析。Mol Biol. 2014; 1150:81-95。

    中科院文章谷歌学术搜索

  22. 22。

    OH D,Strattan JS,HUR JK,Bento J,Urban Ae,Song G,Cherry JM。CNN-PEAKS:Chip-SEQ峰值检测管道使用卷积神经网络模仿人体视觉检查。SCI代表2020; 10(1):7933。

    中科院文章谷歌学术搜索

  23. 23。

    Consortium EP, Moore JE, Purcaro MJ, Pratt HE, Epstein CB, Shoresh N, Adrian J, Kawli T, Davis CA, Dobin A等。扩展了人类和小鼠基因组DNA元素的百科全书。自然。2020;583(7818):699 - 710。

    文章谷歌学术搜索

  24. 24。

    Morettin A,Paris G,Bouzid Y,Baldwin RM,Falls TJ,Bell JC,Cote J.含有蛋白质3的托特域促进乳腺癌细胞的肿瘤瘤和侵袭能力。SCI REP。2017; 7(1):5153。

    文章谷歌学术搜索

  25. 25。

    徐j,陈y,olopade oi。Myc和乳腺癌。基因癌症。2010; 1(6):629-40。

    中科院文章谷歌学术搜索

  26. 26。

    达菲乔丹。雌激素受体在乳腺癌中的作用。临床检验杂志,2006;43(4):325-47。

    中科院文章谷歌学术搜索

  27. 27.

    染色质绝缘体CTCF与后生动物多样性的出现。国家自然科学基金资助项目:国家自然科学基金资助项目。

    中科院文章谷歌学术搜索

  28. 28.

    Buenrostro JD,Wu B,Chang Hy,Greenleaf WJ。ATAC-SEQ:一种用于测定染色质可用性的方法 - 宽。Curr Protoc mol Biol。2015; 109:21-9。

    文章谷歌学术搜索

  29. 29.

    Suryo Rahmanto Y,Shen W,Shi X,Chen X,Yu Y,Yu ZC,Miyamoto T,Lee Mh,Singh V,Asaka R等。在子宫内膜中的ARID1a的灭活与通过转录重编程的子宫内瘤瘤瘤相关。NAT Communce。2020; 11(1):2717。

    中科院文章谷歌学术搜索

下载参考

确认

不适用。

资金

该研究得到了NIH (National Institutes of Health) CA149653 (to JX)、CA164384 (to LHC)和CA149147 (RC)的资助,以及NIH- nigms赠款R01GM125878 (to AFN)的支持。

作者信息

从属关系

作者

贡献

J.X.和X.C.设计了该方法的框架。x.c实现了该方法并与x.s开发了软件包,j.x.c进行了数据分析。L.H.C.和R.C.提供了他们对乳腺癌结果的生物学解释。x。c。和j。x。写了手稿。a.f.n审阅了统计公式并编辑了手稿。所有作者阅读并批准最终稿件。

相应的作者

对应到江轩

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

利益争夺

作者声明没有相互竞争的利益。

附加信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1

。芯片位2演示指令,图S1-S5和表S1。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

陈,X.,Shi,X.,Neuwald,A.F.等等。CHIP-BIT2:使用贝叶斯集成方法检测弱绑定事件的软件工具。欧宝娱乐合法吗22,193(2021)。https://doi.org/10.1186/s12859-021-04108-5

下载引用

\