跳过主要内容GyD.F4y2Ba

Hebbpplot:一种用于学习和可视化染色质标记签名的智能工具GyD.F4y2Ba

摘要GyD.F4y2Ba

背景GyD.F4y2Ba

组蛋白修饰在基因调节,遗传,印记和许多人类疾病中起重要作用。组蛋白代码很复杂,包含超过100个标记。因此,生物学家需要计算工具来表征代表数千个地区数千个地区的数十次染色质标记的分布的一般签名。GyD.F4y2Ba

结果GyD.F4y2Ba

为此,我们开发了一个软件工具HebbPlot,它利用Hebbian神经网络从具有共同功能的区域学习一般的染色质特征。Hebbian网络可以学习到数十个标记和数千个区域之间的关联。HebbPlot将签名呈现为数字图像,易于解释。此外,HebbPlot生成的签名可以进行定量比较。我们在六个案例研究中验证了HebbPlot。这些案例研究的结果是新颖的或验证了文献中已经报道的结果,表明HebbPlot的准确性。我们的结果表明,启动子具有定向染色质特征;一些标记往往延伸到下游或上游。H3K4me3和H3K79me2在活性启动子周围有明确的定向分布。此外,高cpg启动子和低cpg启动子的特征不同; H3K4me3, H3K9ac, and H3K27ac are the most different marks. When we studied the signatures of enhancers active in eight tissues, we observed that these signatures are similar, but not identical. Further, we identified some histone modifications — H3K36me3, H3K79me1, H3K79me2, and H4K8ac — that are associated with coding regions of active genes. Other marks — H4K12ac, H3K14ac, H3K27me3, and H2AK5ac — were found to be weakly associated with coding regions of inactive genes.

结论GyD.F4y2Ba

这项研究导致了一种新型软件工具,用于学习和可视化遗传元素的染色质签名。使用Hebbplot,我们通过路线图表观瘤项目可用的57个细胞类型中的多种遗传元素的签名的视觉目录。此外,我们对由22个组型标记组成的功能目录进行了进展。总而言之,Hebbplot适用于广泛的研究,促进了组蛋白代码的解密。GyD.F4y2Ba

背景GyD.F4y2Ba

了解组蛋白修饰的影响将为生物学中重要问题提供答案,并有助于寻找治疗治疗几种疾病,包括癌症。Carey突出了几种外膜遗传因素的功能,包括胞嘧啶甲基化和组蛋白改性[GyD.F4y2Ba1GyD.F4y2Ba].据报道,CpG岛的甲基化抑制转录[GyD.F4y2Ba2GyD.F4y2Ba],而复杂组蛋白编码具有广泛的调节功能[GyD.F4y2Ba3.GyD.F4y2Ba,GyD.F4y2Ba4GyD.F4y2Ba].此外,表观遗传标记可能会影响体重和新陈代谢[GyD.F4y2Ba5GyD.F4y2Ba].有趣的是,染色质标记可以解释由于暴露于某些毒素和肥胖而获得的一些特征是如何从一代到下一个(Lamarckian继承)[GyD.F4y2Ba6GyD.F4y2Ba- - - - - -GyD.F4y2Ba9GyD.F4y2Ba].此外,表观遗传学可以解释为什么两个同卵双胞胎有不同的疾病易感性[GyD.F4y2Ba10GyD.F4y2Ba].表观遗传因素在印迹中扮演着重要的角色,在印迹中,染色体或染色体的一部分携带着母系或父系的标记[GyD.F4y2Ba11GyD.F4y2Ba,GyD.F4y2Ba12GyD.F4y2Ba].印记过程中的缺陷可能导致几个疾病[GyD.F4y2Ba13GyD.F4y2Ba- - - - - -GyD.F4y2Ba18GyD.F4y2Ba],并可能增加“出生缺陷”辅助再现率[GyD.F4y2Ba19GyD.F4y2Ba].此外,染色质标记通过选择性地激活和抑制某些基因在细胞分化中发挥作用[GyD.F4y2Ba20.GyD.F4y2Ba,GyD.F4y2Ba21GyD.F4y2Ba].一些染色质标记参与使X染色体中的一条失活[GyD.F4y2Ba22GyD.F4y2Ba].已经在多种类型的癌症中观察到,通过高甲基化的启动子失活的一些肿瘤抑制基因[GyD.F4y2Ba23GyD.F4y2Ba- - - - - -GyD.F4y2Ba25GyD.F4y2Ba]去除活性染色质标记[GyD.F4y2Ba26GyD.F4y2Ba,GyD.F4y2Ba27GyD.F4y2Ba]或添加抑制染色质标记[GyD.F4y2Ba28GyD.F4y2Ba].利用这些知识,靶向表观基因组的抗癌药物[GyD.F4y2Ba29GyD.F4y2Ba- - - - - -GyD.F4y2Ba31GyD.F4y2Ba]已经设计了。GyD.F4y2Ba

用于破译组蛋白编码的开创性计算和统计方法已经开发出来。一些工具是为分析和可视化染色质标记(s)在多个区域的分布而设计的[GyD.F4y2Ba32GyD.F4y2Ba,GyD.F4y2Ba33GyD.F4y2Ba].此外,一种基于染色质标记聚类和可视化基因组区域的工具已经开发出来[GyD.F4y2Ba34GyD.F4y2Ba].有几种系统可用于表征表观基因组中的组蛋白编码/状态[GyD.F4y2Ba35GyD.F4y2Ba- - - - - -GyD.F4y2Ba43GyD.F4y2Ba].此外,还提出了组蛋白编码的字母系统[GyD.F4y2Ba44GyD.F4y2Ba].其他工具可以识别和分类与特定遗传元素相关的染色质特征[GyD.F4y2Ba45GyD.F4y2Ba- - - - - -GyD.F4y2Ba55.GyD.F4y2Ba].此外,比较健康和患病个体染色质特征的方法目前是可用的[GyD.F4y2Ba56.GyD.F4y2Ba].GyD.F4y2Ba

科学家已经确定了大约100个组蛋白标记[GyD.F4y2Ba37GyD.F4y2Ba].此外,将有很多未来的研究,科学家需要在基因组中的一组区域周围表征染色质标记的模式。因此,科学家需要一个自动框架到(i)自动表征具有共同函数的一组序列的染色质签名,例如,编码区,启动子或增强剂;(ii)以简单的直观形式可视化所识别的签名。为了满足这些需求,我们设计并开发了一个名为Hebbpplot的软件工具。该工具允许平均用户在没有广泛的计算知识的情况下表征和可视化与遗传元素相关联的染色质签名。GyD.F4y2Ba

Hebbplot包括以下四种创新方法,该地区已成为医学和生物学的前沿:GyD.F4y2Ba

  • HebbPlot可以自动学习一组区域的染色质特征。在特定细胞类型中具有相同功能的序列期望具有相似的标记。习得的签名代表了所有区域的这些标记。GyD.F4y2BaHebbpplot与其他工具不同,其能够学习一个签名,该签名代表了数千个地区的所有可用染色质标记的分布。GyD.F4y2Ba

  • 这是Hebbian神经网络在表观遗传学领域的首次应用。这些网络能够进行学习联想;因此,它们非常适合学习数十个标记与遗传要素之间的关联。GyD.F4y2Ba

  • 该框架使普通用户能够培训人工神经网络GyD.F4y2Ba自动GyD.F4y2Ba.用户不会与培训过程负担。已经提出了用于分析蛋白质结构和序列数据的自训练系统[GyD.F4y2Ba57.GyD.F4y2Ba- - - - - -GyD.F4y2Ba61GyD.F4y2Ba].HebbPlot是分析染色质标记的类似系统。GyD.F4y2Ba

  • HebbPlot是第一个集成了学习和可视化染色质特征任务的系统。一旦掌握了签名,这些标记就会聚集在一起,并以数字化图像的形式显示出来。这张图片显示了一个代表数千个区域的图案。标记的分布围绕一个区域出现;然而,他们是从所有地区学习的。GyD.F4y2Ba

我们已将工具应用于在57种组织/细胞类型中学习和可视化几种活性和无活性遗传元素的染色质签名。这些案例研究证明了Hebbpplot在分子生物学中的许多有趣问题的适用性,促进了组蛋白代码的解密。GyD.F4y2Ba

实现GyD.F4y2Ba

在本节中,我们将描述我们的软件工具HebbPlot的计算原理。该工具的核心是一个无监督神经网络,它依赖于Hebbian学习规则。GyD.F4y2Ba

地区代表GyD.F4y2Ba

为了表示重叠区域的一组组蛋白标记,这些标记根据其基因组位置彼此顶部和该区域排列。然后,同样间隔的垂直线叠加在标记和该区域的堆叠上。该组标记的数值表示是矩阵。矩阵的一行表示标记。矩阵的列表示垂直线。如果是GyD.F4y2Ba一世GyD.F4y2BaT.GyD.F4y2BaHGyD.F4y2Ba马克相交GyD.F4y2BajGyD.F4y2BaT.GyD.F4y2BaHGyD.F4y2Ba垂直线,入口GyD.F4y2Ba一世GyD.F4y2Ba和GyD.F4y2BajGyD.F4y2Ba在矩阵是1,否则它是-1。数字GyD.F4y2Ba1GyD.F4y2Ba示出了区域和重叠标记的图形和数值表示。最后,二维矩阵被转换为称为表观遗传载体的一维向量。实验确定的垂直线数 - 41和91系在我们的案例研究中使用。应根据区域的平均大小调整此数字。可以将这个数字视为分辨率水平,垂直线越多,分辨率越高。GyD.F4y2Ba

图。1GyD.F4y2Ba
图1GyD.F4y2Ba

一组染色质标记的表示与区域重叠。GyD.F4y2Ba一个GyD.F4y2Ba水平双线表示感兴趣的区域。水平单线代表标记。垂直线等距并以区域为界。GyD.F4y2BaB.GyD.F4y2Ba标记和垂直线之间的交点被编码为其中行代表标记和列表示的垂直线的矩阵。如果垂直线相交的标记,在基体中的对应的条目为1,否则为-1GyD.F4y2Ba

该dotsim功能GyD.F4y2Ba

两个向量的点积表示它们在空间中的距离。当这些向量被归一化,即每个元素除以向量范数,点积就在1和-1之间。dotsim函数(Eq。GyD.F4y2Ba1GyD.F4y2Ba)将向量标准化并计算它们的点积。GyD.F4y2Ba

$$ dotsim(X,Y)= \压裂{X} {\ | X \ |} \ CDOT \压裂{Y} {\ | Y \ |$$GyD.F4y2Ba
(1)GyD.F4y2Ba

这里,x和y是向量;GyD.F4y2Ba∥GyD.F4y2BaXGyD.F4y2Ba∥GyD.F4y2Ba和GyD.F4y2Ba∥GyD.F4y2BayGyD.F4y2Ba∥GyD.F4y2Ba是这些向量的规范;符号是点积运算符。如果两个向量非常相似,则dotsim值趋向于1。如果两个向量在同一下标处的值是相反的,即1和-1,则dotsim的值趋近于-1。GyD.F4y2Ba

数据预处理GyD.F4y2Ba

对输入数据进行预处理是机器学习的标准步骤。在此过程中,输入数据中的噪声被降低。首先,去除主要由-1组成的向量——dotsim值至少为0.8,带有负1向量。这些区域很可能是假阳性。然后,每个表观遗传载体与从同一组中随机选择的其他两个载体进行比较。如果向量中某一项的值在三个向量中相同,则该向量中的值将被保留,否则该值将被设为零。例如,考虑向量[1 1 -1]。假设随机选取向量[1 -1 -1]和[1 -1 -1]。结果将是[1 0 -1],因为在这三个向量中第一个和第三个元素是相同的,但第二个元素不是。GyD.F4y2Ba

赫的网络GyD.F4y2Ba

联想学习,也被称为Hebbian学习,是受到生物学的启发。“当细胞A的轴突接近到足以刺激细胞B并重复或持续地参与刺激细胞B时,在一个或两个细胞中发生某些生长过程或代谢变化,使A的效率增加,就像其中一个细胞刺激B一样”[GyD.F4y2Ba62GyD.F4y2Ba].HEBB的人工神经网络旨在关联两种刺激:无条件和条件。在训练之后,对条件刺激或无条件的响应与对两种刺激组合的反应相同[GyD.F4y2Ba63GyD.F4y2Ba].在表观遗传学的背景下,无条件的刺激,GyD.F4y2BaB.GyD.F4y2Ba,是一个一维向量,表示组蛋白标记在序列上的分布,例如一个组织特异性增强子。这个载体被称为表观遗传载体;如本节前面概述的那样获得。条件刺激总是一个向量,它包含在所有条目中。我们希望训练网络,无论是否提供表观遗传向量,只要给它一个向量,它就会给出一个响应。该网络的响应是一个原型/签名,代表组蛋白标记在整个基因组位置上的分布,例如特定组织的所有增强子。GyD.F4y2Ba

方程GyD.F4y2Ba2GyD.F4y2Ba和GyD.F4y2Ba3.GyD.F4y2Ba定义如何计算Hebbian网络的响应。网络的培训由EQ给出。GyD.F4y2Ba4GyD.F4y2Ba[GyD.F4y2Ba63GyD.F4y2Ba].GyD.F4y2Ba

$$ satlins(X)= \左\ {\开始{阵列} {LLL} 1&\四\文本{如果} \ X \ GEQ 1 \\ X&\四\文本{如果} \ -1
(2)GyD.F4y2Ba

方程GyD.F4y2Ba2GyD.F4y2Ba定义转换功能。该功能确保网络的响应类似于无条件的刺激,即响应的每个元素在1到-1之间。如果x是向量,则该功能是应用组件明智的。GyD.F4y2Ba

$$ a(b,w,p)= satlins(b + w \ odot p)$$GyD.F4y2Ba
(3)GyD.F4y2Ba

方程GyD.F4y2Ba3.GyD.F4y2Ba描述Hebbian网络如何响应两个刺激(图。GyD.F4y2Ba2GyD.F4y2Ba).利用Eq.对网络的响应进行变换。GyD.F4y2Ba2GyD.F4y2Ba.在情商。GyD.F4y2Ba3.GyD.F4y2Ba,GyD.F4y2BaB.GyD.F4y2Ba是非条件刺激,例如表观遗传载体;GyD.F4y2BaW.GyD.F4y2Ba是重量矢量,这是到目前为止学习的原型/签名;和GyD.F4y2BaP.GyD.F4y2Ba是条件刺激,例如条件刺激。一个矢量。运营商GyD.F4y2Ba⊙GyD.F4y2Ba表示两个向量的分量相乘。在当前的自适应中,如果网络同时呈现一个表观遗传向量和一个向量,则响应为到目前为止学习的原型向量和表观遗传向量的总和。在缺乏表观遗传载体,即全零的情况下GyD.F4y2BaB.GyD.F4y2Ba,网络的响应是原型,展示了网络学习关联的能力。GyD.F4y2Ba

$$ w ^ {i} = w ^ {i-1} + \ alpha \ left(a \ left(b ^ {i},w ^ {i},p ^ {i}右) - w ^{i-1} \右)\ oadot p ^ {i} $$GyD.F4y2Ba
(4)GyD.F4y2Ba
图2GyD.F4y2Ba
figure2GyD.F4y2Ba

无监督的Hebb网络:GyD.F4y2BaW.GyD.F4y2Ba为权值向量,表示学习的特征;GyD.F4y2BaB.GyD.F4y2Ba是一个图皮肤矢量;GyD.F4y2BaP.GyD.F4y2Ba是个位向量;satlins为激活/转换函数(Eq。GyD.F4y2Ba2GyD.F4y2Ba);GyD.F4y2BaO.GyD.F4y2Ba是网络的输出;和GyD.F4y2BaNGyD.F4y2Ba是大小GyD.F4y2BaP.GyD.F4y2Ba,GyD.F4y2BaB.GyD.F4y2Ba,GyD.F4y2BaW.GyD.F4y2Ba, 和GyD.F4y2BaO.GyD.F4y2Ba

方程GyD.F4y2Ba4GyD.F4y2Ba定义了Hebb的无监督学习规则。在这里,GyD.F4y2BaW.GyD.F4y2Ba一世GyD.F4y2Ba和GyD.F4y2BaW.GyD.F4y2Ba一世GyD.F4y2Ba−1GyD.F4y2Ba是在迭代中学到的原型矢量GyD.F4y2Ba一世GyD.F4y2Ba和GyD.F4y2Ba一世GyD.F4y2Ba−1。的GyD.F4y2Ba一世GyD.F4y2BaT.GyD.F4y2BaHGyD.F4y2Ba一对无条件和条件刺激是GyD.F4y2BaB.GyD.F4y2Ba一世GyD.F4y2Ba和GyD.F4y2BaP.GyD.F4y2Ba一世GyD.F4y2Ba.学习发生,即原型改变,只有当GyD.F4y2Ba一世GyD.F4y2BaT.GyD.F4y2BaHGyD.F4y2Ba条件刺激,GyD.F4y2BaP.GyD.F4y2Ba一世GyD.F4y2Ba,有非零分量。这是因为GyD.F4y2BaP.GyD.F4y2Ba一世GyD.F4y2Ba总是那些载体。由于小GyD.F4y2Baα.GyD.F4y2Ba代表学习和衰减率,原型矢量在学习发生时会在每次迭代中改变一点;它越接近网络的响应GyD.F4y2Ba一世GyD.F4y2BaT.GyD.F4y2BaHGyD.F4y2Ba的刺激。GyD.F4y2Ba

比较两个签名GyD.F4y2Ba

该方法的主要优点之一是可以对两个签名进行定量比较。dotsim函数可以应用于整个表观遗传向量,也可以应用于代表特定标记的部分。比较两组区域的染色质标记时,dotsim值接近1的标记在两组标记中是常见的。dotsim值接近-1的标记具有相反的分布,以区分签名。dotsim值接近零的标记在一个或两个集合中分布不一致;在比较两个签名时,不应考虑这些标记。GyD.F4y2Ba

可视化染色质特征GyD.F4y2Ba

根据不同标记的行向量之间的相似性对其进行聚类。我们在具有相似分布的分组标记中使用层次聚类。所采用的分层聚类算法是一种自底向上的迭代聚类方法,在每次迭代时合并最接近的两个项目/组。该算法需要一个成对的距离函数和一个簇的距离函数。对于成对距离函数,我们利用城市街区函数来确定两个表示标记的向量之间的距离。对于群间距离函数,我们应用了带算术平均数的加权对群方法[GyD.F4y2Ba64GyD.F4y2Ba].数字化图像代表了遗传元素的染色质特征。图像中的一个单位乘一个单位的正方形代表代表签名矩阵中的一个条目。一行这些正方形代表一个标记。如果入口值小于1且大于-1,则正方形的颜色介于红色和蓝色之间;值越接近1(-1),颜色越接近红色(蓝色)。GyD.F4y2Ba

到目前为止,我们讨论了我们的软件工具HebbPlot的计算原理。接下来,我们将演示验证工具时使用的数据。GyD.F4y2Ba

数据GyD.F4y2Ba

我们使用HebbPlot可视化染色质标记特征的多个遗传元素。具体来说,我们将HebbPlot应用于:GyD.F4y2Ba

  • 活性启动子- 400个碱基对(bp);GyD.F4y2Ba

  • 活性启动子在正链- 4400 bp;GyD.F4y2Ba

  • 负股的活性启动子 - 4400 bp;GyD.F4y2Ba

  • 高cpg活性启动子- 400 bp;GyD.F4y2Ba

  • 低cpg活性启动子- 400 bp;GyD.F4y2Ba

  • 活性增强子- 400 bp和可变大小;GyD.F4y2Ba

  • 积极基因的编码区域 - 可变尺寸;GyD.F4y2Ba

  • 非活动基因的编码区域 - 可变尺寸;和GyD.F4y2Ba

  • 随机基因组位置 - 1000 bp。GyD.F4y2Ba

路线图表述项目提供了几十痕,可超过100种组织/细胞类型[GyD.F4y2Ba65GyD.F4y2Ba].根据基因表达水平测定活性基因,其从表达式Atlas获得[GyD.F4y2Ba66GyD.F4y2Ba]及表观基因组学路线图计划[GyD.F4y2Ba67GyD.F4y2Ba].编码区是从加利福尼亚州圣克鲁斯大学基因组浏览器获得的[GyD.F4y2Ba68GyD.F4y2Ba].本研究使用HG19人类基因组组件的集合基因。具有表达水平至少1的基因被认为是活性的,而活性基因具有表达水平的0.活性启动子是与活性基因相关的那些。启动子区域被定义为以转录开始部位为中心的400核苷酸长区域 - 除了在一个案例研究中,其中启动子尺寸为4400个核苷酸。要将启动子划分为高和低CpG组,我们根据Saxonov等人描述的方法计算了CPG内容。[GyD.F4y2Ba69GyD.F4y2Ba].在H1和IMR90中活跃的增强子是从Rajagopal等人的研究中获得的。[GyD.F4y2Ba54.GyD.F4y2Ba];本研究提供了P300峰。我们认为增强剂是400核苷酸长区域以P300峰为中心。从幻想项目获得肝脏,胎儿脑,胎儿小肠,左心室,肺和胰腺中活性的增强子区域[GyD.F4y2Ba70GyD.F4y2Ba] - 这些具有可变大小。GyD.F4y2Ba

一旦基因元素的位置被确定,它们就会被进一步处理。如果区域的数量,例如组织特异性增强子,超过10,000个区域,我们均匀地从每条染色体中取样500个区域。每个区域的两端都扩大10%,以研究染色质标记与周围区域的不同/相似程度。如果有重叠区域,则合并。除了比较阳性和阴性链启动子的研究外,我们在所有病例研究中使用了41条垂直线(该研究中使用了91条直线)。GyD.F4y2Ba

在本节中,我们讨论了计算方法和数据。接下来,我们在六个案例研究中申请Hebbplot。GyD.F4y2Ba

结果GyD.F4y2Ba

案例研究:H1特异性增强剂签名GyD.F4y2Ba

我们研究了从Rajagopal等人的研究中获得的H1细胞系(人类胚胎干细胞)中活跃的多种增强子[GyD.F4y2Ba54.GyD.F4y2Ba].这些增强子用P300 ChIP-Seq检测。该数据集包含5899个增强子和27个组蛋白标记。首先,我们绘制了几十个增强子;其中三个图如图所示。GyD.F4y2Ba3.GyD.F4y2Ba得了。这些情节没有明显的特征。之后,生成了代表h1特异性增强子签名的HebbPlot(图)。GyD.F4y2Ba3.GyD.F4y2Bad)使用无人监督的Hebbian网络。为了比较目的,我们产生了传统的图(图。GyD.F4y2Ba3.GyD.F4y2Bae).为了生成这个图,所有区域的中点都是对齐的。然后,标记在每个核苷酸上的强度被计算为标记出现在这个核苷酸上的次数。数字GyD.F4y2Ba3.GyD.F4y2BaF显示所有地区的表观遗传载体的平均图。最后,我们使用分层聚类聚集了所有表观遗传矢量(除了从矩阵中填充行不列出的阵列)(图。GyD.F4y2Ba4GyD.F4y2Ba).GyD.F4y2Ba

图3GyD.F4y2Ba
图3GyD.F4y2Ba

检索h1特异性增强子的染色质特征。增强子的三个例子在part中显示GyD.F4y2Ba一个GyD.F4y2Ba- - - - - -GyD.F4y2BaCGyD.F4y2Ba.其中一个图中的一排表示区域周围的一个标记的分布;红色(蓝色)颜色表示标记的存在(不存在)。很难看到这三个例子中的常见模式。由Hebbpplot捕获的Hebbpplot占据了Hebbpplot的签名GyD.F4y2BaD.GyD.F4y2Ba.在HebbPlot一行代表一个标志周围的一切促进数据集中的分布。越接近颜色为红色,越高围绕相应的子区域中的标记的存在的确定性。该HebbPlot的特点是四个区。最顶部区表示是从所述增强子区不存在,而下一个三个区代表随确定性本标记染色质标记。在部分所示围绕在数据集合中的每个区域中的所有的标记的强度的常规曲线图GyD.F4y2BaE.GyD.F4y2Ba.许多标记表明靠近地块中心的凹陷处;然而,在常规地块中,一些峰值与这些洼地混合在一起。相反,这些洼地对应于HebbPlot第三带中间的椭圆。这个椭圆很清楚。此外,类似强度的标记在传统地块中相互阻碍。这不是HebbPlot的情况,因为每个标记都由单独的行表示。在Part中显示了一个平均值GyD.F4y2BaFGyD.F4y2Ba.此图显示了网络发现的类似 - 但模糊模式GyD.F4y2Ba

图4GyD.F4y2Ba
装具GyD.F4y2Ba

组蛋白标记在5899个h1特异性增强子周围的分层聚类。表观遗传载体,除了它们是按行填充而不是按列填充外,是聚类的。这幅图显示,某些标记在这些区域周围有清晰一致的模式。然而,这些标志的具体签名却不易解释GyD.F4y2Ba

HebbPlot显示了四个区域,分别代表缺失的标记,以及具有不同置信度的当前标记。例如,顶部区域显示四个标记(H2A。Z、H4K8ac、H3K36me3和H4K20me1)。从上至下的第二个区为强度很弱的标志H3K9me3、H3K27me3、H3K79me2和H3K79me1。第三个区域有一个椭圆形,比周围区域更冷,红色更少,这意味着椭圆内标记的信号比周围区域弱。底部区域显示了两个标记(H3K4me1和H3K4me2),它们在这些增强子周围始终存在。GyD.F4y2Ba

在常规地块的上部,大量的标记显示了靠近地块中部的凹陷。然而,这些萧条与很少的高峰混合在一起,使它们很难观察到。这些洼地与单独地块中心附近的碎片和HebbPlot第三带中间的椭圆相对应。HebbPlot的第三个区域中的椭圆比传统plot更好地捕捉了这种模式。此外,在传统的地块中,强度相近的标记相互重叠,相互阻碍——标记越多,阻碍越严重。为了说明这一点,这个数字是用27分生成的;已知的组蛋白标记约有100个;因此,使用这些传统的数字可能不是可视化大量标记强度的最佳方法。相比之下,HebbPlot可以有效地处理大量标记,因为每个标记都有自己的行。此外,在构造常规图形时没有应用去噪过程。 In contrast, only regions, or sub-regions, that are recognized by the network contribute to the HebbPlot.

平均地块与HebbPlot中显示的区域相似;然而,它们非常模糊。比较的一个区域是第三个区域的椭圆。在平均图中,这个椭圆几乎跨越了整个区域,这意味着这些标记在400个核苷酸长的增强子周围弱存在。相反,HebbPlot中的椭圆更小,这表明这些标记在增强子的中心周围弱存在,而不是整个区域。平均图和HebbPlot之间的差异是由于网络在学习签名时对区域或子区域的选择性。并非所有区域或子区域都对学习的签名有贡献。导致网络触发的区域和子区域(即被网络识别的区域和子区域)对习得的签名有贡献。GyD.F4y2Ba2GyD.F4y2Ba,GyD.F4y2Ba3.GyD.F4y2Ba, 和GyD.F4y2Ba4GyD.F4y2Ba).这些结果表明Hebbpplot产生更准确和更生物相关的结果。GyD.F4y2Ba

层次聚类是组蛋白数据分析和可视化的常用方法。这种方法对于识别数据中存在的签名的数量非常有用,但是显示的群集(表示已找到的签名)不容易解释。另一方面,当前版本的HebbPlot只能描述一个签名,而不能像分层聚类那样描述多个签名。然而,HebbPlot是直观的,很容易解释。当数据包含多个签名时,这两种方法可以一起使用,但在本案例研究中似乎不是这种情况。首先,用户可以使用层次聚类或任何聚类算法来识别不同的聚类。然后用户可以从每个集群生成一个HebbPlot。GyD.F4y2Ba

综上所述,HebbPlot在基于平均图、常规图和基于组蛋白数据聚类的图方面具有优势。GyD.F4y2Ba

接下来,我们研究肝脏中活性基因的增强剂,启动子和编码区域的签名。GyD.F4y2Ba

案例研究:肝脏中不同活性元素的组蛋白特征GyD.F4y2Ba

七种人肝外膜内组合的组蛋白标记可用。我们在肝脏中获得了5005升增强剂,13,688名启动子和12,484个活性基因的编码区域。此外,我们选择了从人类基因组的所有染色体中取样的10,000个位置作为对照。然后我们训练了四个Hebbian网络以学习每个遗传元素的染色质签名。正如预期的那样,表示随机基因组位置的Hebpplot显示深蓝色盒子(未示出),表明在这些区域周围不始终分布染色质标记。数字GyD.F4y2Ba5GyD.F4y2Ba显示增强剂,启动子和编码区的三个hebpplots。这三个签名有相似之处,也有不同之处。两个标记,H3K9ME3和H3K27ME3不存在三个签名。但是,三个签名是可区分的。H3K36ME3是编码区的最强烈标记,而它缺乏启动子和增强剂。另一方面,H3K27AC是启动子和增强剂的最强烈标记,但几乎没有编码区域。H3K4ME1围绕增强剂的H3K4ME3强,但H3K4ME3围绕启动子周围的H3K4ME1强。编码区不存在这两种标记。这些图表明Hebbpplot能够从具有相同功能的一组区域中学习染色质签名。此外,启动子,增强剂和编码区的染色质签名具有相似性和差异。GydF4y2Ba

图5GyD.F4y2Ba
figure5GyD.F4y2Ba

肝染色质特征代表GyD.F4y2Ba一个GyD.F4y2Ba活性增强剂,GyD.F4y2BaB.GyD.F4y2Ba活动发起人,GyD.F4y2BaCGyD.F4y2Ba活性基因的编码区。这三个签名有相似之处,也有不同之处。它们的相似之处在于H3K9me3和H3K27me3都不存在。H3K36me3是编码区最强的标记,而H3K27ac是启动子和增强子最强的标记。增强子中H3K4me1强于H3K4me3;这种关系在启动子中是相反的,在转录起始位点周围H3K4me1是弱的GyD.F4y2Ba

案例研究:主动启动者的方向性特征GyD.F4y2Ba

因为启动子上游的基因,所以一些标记可能表示转录的方向。为了确定标记是否具有方向,根据阳性和阴性分为两组,将活性启动子(长4400核苷酸长)分离成两组。我们训练了两个Hebbian网络,以学习积极股和负股的活性启动子的染色质签名。数字GyD.F4y2Ba6GyD.F4y2Ba示HeLa-S3宫颈癌细胞株中阳性和阴性启动子活性的hebbplot。这两个图互为镜像,分别是H3K36me3、H3K79me2、H3K4(me1、me2、me3)、H3K27ac、H3K9ac向下游延伸多于上游和H2A。在相反的方向。GyD.F4y2Ba

图6.GyD.F4y2Ba
figure6GyD.F4y2Ba

宫颈癌HeLa-S3细胞株活性启动子的hebbplot。这些启动子根据它们的链被分成两组。启动子的大小是4400个核苷酸。正链和负链上启动子的两个hebbplot互为镜像。多重标记H3K36me3、H3K79me2、H3K4me1、H2A。Z、H3K27ac、H3K9ac、H3K4me3、H3K4me2按特定方向分布。H2A。Z倾向于向上游延伸,而其余的方向性标记则倾向于从启动子向下游延伸至编码区域。GyD.F4y2Ba一个GyD.F4y2Ba在正链促销员,GyD.F4y2BaB.GyD.F4y2Ba负链上的启动子GyD.F4y2Ba

然后我们为正面生成了Hebbplots(附加文件GyD.F4y2Ba1GyD.F4y2Ba)和负(附加文件GyD.F4y2Ba2GyD.F4y2Ba)启动子,我们知道它们的基因表达水平。启动子的方向性特征在这些组织中非常一致。在此之后,我们定量地确定了在57种组织/细胞类型中哪些标记具有方向性偏好。为了确定方向性标记,将启动子区域上游三分之一标记的学习原型与下游三分之一标记的相同原型进行比较。如果两个原型之间的dotsim值是负的,则认为这个标记是方向性的。我们在表格中列出了结果GyD.F4y2Ba1GyD.F4y2Ba.H3K4me3和H3K79me2在72%和71%的组织中表现出方向性偏好。另外12个标记显示了50-70%的组织的方向性偏好。这些结果表明,活性启动子具有定向染色质特征。GyD.F4y2Ba

表1启动子 - 4400核苷酸长 - 根据股线分离为阳性和阴性GyD.F4y2Ba

案例研究:高和低CPG启动子的签名GyD.F4y2Ba

有文献报道,高cpg启动子的染色质特征与低cpg启动子的特征不同[GyD.F4y2Ba47GyD.F4y2Ba].在这种情况下,我们使用Hebbplot来证明这种现象。为此,我们使用Saxonov等人提出的方法将活性肌肌细胞中活性的启动子分割为高CpG和低CpG组。[GyD.F4y2Ba69GyD.F4y2Ba].高CPG组由12825名启动子组成,低CPG组由2712名启动子组成。之后,我们从这两个组生成了两个Hebbplots(图。GyD.F4y2Ba7GyD.F4y2Ba).GyD.F4y2Ba

图7.GyD.F4y2Ba
figure7GyD.F4y2Ba

将骨骼肌成肌细胞中活跃的启动子分为高cpg组和低cpg组。每个组生成一个HebbPlot。显然,这两个签名是不同的。具体来说,H3K4me3、H3K9ac和H3K27ac存在于高cpg启动子周围,而它们在低cpg启动子中非常弱或缺失。相反,H3K36me3在高基因组中不存在,但在低cpg启动子周围存在。一般来说,高cpg启动子周围的标记比低cpg启动子周围的标记更强。GyD.F4y2Ba一个GyD.F4y2BaHigh-CpG推动者,GyD.F4y2BaB.GyD.F4y2BaLow-CpG推动者GyD.F4y2Ba

两个签名非常不同。高CpG Hebbpplot具有比低CPG组更多的红色频段,表明这些组蛋白标记始终围绕高CPG启动子分布。很少的标记区分两个签名。高CpG组的特征在于存在H3K4ME3,H3K9AC和H3K27AC,其来自低CpG启动子非常弱或不存在。低CpG组的特征在于存在H3K36ME3,其不存在于高CpG启动子。这两个签名与卡尔奇等人报告的签名不同。[GyD.F4y2Ba47GyD.F4y2Ba].有两个因素可能导致这些差异。首先,两项研究中启动子区域的大小不同。在我们的研究中,启动子的大小为400个碱基对,而在另一项研究中,它被定义为3500个碱基对长(−500 ~ + 3000)。这个较长的区域可能与未翻译的编码区域重叠,而400碱基对长的启动子则不太可能与这些区域重叠。第二个因素是,其他研究侧重于组蛋白标记与表达水平之间的相关性,而我们案例研究的主要目的是可视化启动子的标记。因此,我们的定义与可视化任务更相关。GyD.F4y2Ba

接下来,我们进行定量比较,看看这些标记是否在57个组织中以一致的方式在高和低CPG启动子周围分布。Hebpplots的主要优点是它们可以定量比较。Hebbplots是从高CPG启动子生成的(附加文件GyD.F4y2Ba3.GyD.F4y2Ba)和低cpg启动子(附加文件GyD.F4y2Ba4GyD.F4y2Ba)在57种细胞/组织中。我们计算了在57个组织中,代表高cpg启动子和低cpg启动子标记的两个载体的平均dotsim。表格GyD.F4y2Ba2GyD.F4y2Ba显示了结果。这些结果证实H3K4me3、H3K9ac和H3K27ac在高cpg启动子和低cpg启动子周围一致存在差异(平均dotsim值< -0.5)。然而,H3K36me3总体上没有差异(dotsim值平均值为0.65)。进一步分析发现,H2BK120ac和H4K91ac在两组中分布也不同(平均dotsim < -0.5);他们的信号在高cpg组周围比低cpg组周围更强。GyD.F4y2Ba

表2高cpg启动子与低cpg启动子具有不同的特征GyD.F4y2Ba

总之,高和低的CpG启动子的染色质签名是不同的。五痕周围存在高的CpG推动者,而他们是来自不存在或非常弱的周围低的CpG推动者。GyD.F4y2Ba

案例研究:活性增强因子的特征GyD.F4y2Ba

在这里,我们证明了HebbPlot在可视化多种组织中增强子的染色质标记方面的适用性。为此,我们从两个来源收集了活跃的增强子。在H1(5899个区域)和IMR90(14073个区域)中活跃的增强子是从Rajagopal等人的研究中获得的[GyD.F4y2Ba54.GyD.F4y2Ba].在其他六个组织中活跃的增强子是从芬芬项目获得的。我们选择了这些组织,因为它们对幻想和路线图表述项目很常见。这些增强剂包括5005个肝脏区,胎儿脑区的1476个地区,胎儿小肠的5991区,左心室的1619个区域,肺部11003区,胰腺的2225个区域。GyD.F4y2Ba

接下来,我们生成来自每个组织/单元格类型的增强器的Hebbplot(附加文件GyD.F4y2Ba5GyD.F4y2Ba).数字GyD.F4y2Ba8GyD.F4y2Ba显示八个hebbplot。在H1和IMR90中活跃的增强子的hebbplot(已确定的20多个标记)表明,在增强子区域周围有丰富的多个标记。与文献报道相似,我们观察到H3K4me1在增强子周围通常比H3K4me3强[GyD.F4y2Ba71GyD.F4y2Ba];但是也有一些例外,例如胎儿的大脑和肺。H3K27ac和H3K9ac也存在于增强子周围,但H3K9me3、H3K27me3和H3K36me3非常弱或没有增强子。此外,这些hebbplot提示不同组织中活性增强子的染色质标记是相似的;然而,它们并不完全相同。例如,H3K27ac是肺增强剂周围的主要标记;H3K4me1和H3K4me3也存在,但信号较弱。相比之下,H3K27ac和H3K4me1在胎儿小肠增强子周围有类似的信号,比H3K4me3强。GyD.F4y2Ba

图8.GyD.F4y2Ba
figure8GyD.F4y2Ba

活动增强剂的签名。从Rajagopal等人的研究中收集了增强剂。[GyD.F4y2Ba54.GyD.F4y2Ba和《幽灵计划》。每个组织的增强子生成HebbPlot。已知有20多个标记的H1和IMR90的hebbplot表明,在活跃的增强子周围存在一些标记。通常,H3K4me1比H3K4me3在增强子周围有更强的信号;然而,也有一些例外,如胎儿脑。H3K9ac和H3K27ac存在于增强子周围,而H3K9me3、H3K27me3和H3K36me3非常弱或没有增强子。这些图显示,激活于不同组织的增强子的染色质标记是相似的,但并不相同。GyD.F4y2Ba一个GyD.F4y2BaH1,GyD.F4y2BaB.GyD.F4y2BaIMR90,GyD.F4y2BaCGyD.F4y2Ba肝脏,GyD.F4y2BaD.GyD.F4y2Ba胎儿脑,GyD.F4y2BaE.GyD.F4y2Ba胎儿小肠,GyD.F4y2BaFGyD.F4y2Ba左心室,GyD.F4y2BaGGyD.F4y2Ba肺,GyD.F4y2BaHGyD.F4y2Ba胰腺GyD.F4y2Ba

案例研究:活性和非活性基因编码区域的签名GyD.F4y2Ba

多项研究表明,组蛋白标记与基因表达水平相关[GyD.F4y2Ba52.GyD.F4y2Ba,GyD.F4y2Ba72GyD.F4y2Ba,GyD.F4y2Ba73GyD.F4y2Ba].在这种情况下,我们展示了Hebbppot在识别与高表达水平相关的组蛋白标记时的有用性。基于IMR90中的表达水平分为九个基团(附加文件GyD.F4y2Ba6GyD.F4y2Ba).每个组的编码区域生成一个HebbPlot(图)。GyD.F4y2Ba9GyD.F4y2Ba).我们发现H3K36me3和H3K79me1标记在前两组。在最低的六个组中,代表非活性基因的编码区,这两个标记都不存在,而H3K27me3存在。H2A。Z在所有组中都存在。一般来说,随着基因表达水平的降低,HebbPlot的热(以红色表示)降低。这些结果表明,HebbPlot可以帮助识别与活性和非活性基因编码区相关的标记。GyD.F4y2Ba

图9.GyD.F4y2Ba
figure9GyD.F4y2Ba

组蛋白标记与IMR90的基因表达水平高度相关。根据表达水平将基因分为9组。每个组的编码区域生成一个HebbPlot。一般来说,随着表达水平的降低,HebbPlot冷却下来——变得更蓝。一行越红,其标记在区域集中的分布就越一致。H3K36me3和H3K79me1标记了IMR90中活性基因的编码区,而抑制性修饰H3K27me3标记了非活性编码区。H2A。Z是无处不在的。GyD.F4y2Ba一个GyD.F4y2Ba第一组,GyD.F4y2BaB.GyD.F4y2Ba第二组,GyD.F4y2BaCGyD.F4y2Ba第三组,GyD.F4y2BaD.GyD.F4y2Ba第四组,GyD.F4y2BaE.GyD.F4y2Ba第五组,GyD.F4y2BaFGyD.F4y2Ba第六组,GyD.F4y2BaGGyD.F4y2Ba第七组,GyD.F4y2BaHGyD.F4y2Ba第八组,GyD.F4y2Ba一世GyD.F4y2Ba第九组GyD.F4y2Ba

之后,我们询问这些标记是否一致地标记了其他组织/细胞类型中活跃和不活跃的编码区域。为了回答这个问题,我们生成了活动(附加文件)编码区域的hebbplotGyD.F4y2Ba7GyD.F4y2Ba)和非活动(附加文件GyD.F4y2Ba8GyD.F4y2Ba)57种组织/细胞类型中的基因。我们计算了在组织/小区类型中的两个签名中的每个标记的平均dotsim值,该标记已经确定了该标记。H3K36ME3和H3K79ME1周围的主动和非活动编码区(平均dotsim:-0.86和-0.64)非常不同。H3K27ME3也不同(平均dotsim:0.44),但差异不如H3K36ME3和H3K79ME1那么强。之后,我们询问了哪些其他标记在有源和非活动基因的编码区域周围以不同的方式分布。我们发现H3K79ME2一致地标记有源编码区(平均dotsim:-0.38)。此外,我们发现H4K8AC弱标记有源编码区(平均dotsim:0.45)。关于非活动编码区域的标记,发现H4K12AC标记这些区域(Dotsim:-0.67) - 已经仅针对一个组织确定了该标记。发现H4K14AC和H2AK5AC弱标记非活动编码区(平均DITSIM:0.34和0.46)。通常,活动标记比非活动标记强。GydF4y2Ba

组蛋白标记的功能目录GyD.F4y2Ba

表格GyD.F4y2Ba3.GyD.F4y2Ba显示了本研究结果的摘要。GyD.F4y2Ba

表3组蛋白标记在本研究中的功能目录GyD.F4y2Ba

截至目前,我们展示了Hebbppot在六个案例研究中的有用性。接下来,我们讨论Hebbplot和其他可视化工具之间的相似性和差异。GyD.F4y2Ba

讨论GyD.F4y2Ba

与相关工具的比较GyD.F4y2Ba

染色质标记的可视化及其在特定细胞类型中有效的数千元件的关联对于解密这些标记的功能至关重要。鉴于存在超过100种已知的染色质标记和数千次序列,仅通过检查的趋势和模式本质上是不可能的。因此,生物学家具有可视化工具至关重要的是帮助这些任务。为此,已经开发了几种工具 - Chromatra,Chase和DGW。此外,我们已经创建了自己的可视化技术Hebbplot。与其他三种工具不同,该工具根据组蛋白修改,Hebbpplot使用人工神经网络以方便生物学家的形式总结数据。以下是关于Hebbppot及其与上述公用事业不同的特征的简要讨论。GyD.F4y2Ba

染色质是一个可视化工具,显示染色质标记富集的亚区域的每个输入区域。由于它是支持良好的Galaxy平台的插件,用户可以很容易地将它添加到自己的工具列表中。此外,该工具包括两个模块的染色质标记分析。第一个模块计算给定染色质标记在一组感兴趣的基因组位置上的富集分数。第二个模块与第一个模块类似,增加了通过附加参数(例如基因表达水平)对结果进行聚类的额外功能。这些模块的所有结果都被投影到热图上,可以导出用于进一步研究。虽然chrora的易用性和多功能性是它和HebbPlot之间的共同特征,但HebbPlot采用了一种截然不同的方法来聚类数据。而Chromatra通过bininning处理可变长度基因组区域的富集水平,HebbPlot将为任何区域提取相同数量的点。然后,HebbPlot将利用人工神经网络推导出每个区域中所有点的染色质标记的代表性模式。我们的工具继续根据每个染色质标记的相似性将其模式聚类,然后生成结果的热图。 Therefore, rather than evaluate genomic regions that have been mapped to chromatin marks, HebbPlot summarizes the distribution of each chromatin mark across a “representative” region. This allows researchers to only have to view one heat map before acquiring a solid understanding of how the histone modifications are represented across the regions.

大通和HebbPlot有他们的用户明确和容易显示信息的基础。他们的设计理念根植于这样的事实,许多可视化工具的需求高量的技术知识,这是不合理的,从研究人员的期望。与此说,HebbPlot和大通也在他们是如何聚集输入显著分歧,以及他们如何展示他们的成果。类似Chromatra,大通将根据每个地区的丰富的染色质标记(或任何感兴趣的基因组区域)的区域聚集在一起。此后,大通允许用户灵活地经由如K均值聚类和信号的查询方法的进一步检查簇。HebbPlot,如在每一个感兴趣的给定区域之前所解释的,样本点的固定数目。这些样品中,及重叠标记,然后通过人工神经网络处理,以确定对于每个组蛋白修饰是说明性其在所有给定的区域分布的基序。对于每个所考虑的变形例中的基序,然后在一个层次聚类,使得类似的富集水平的所有修改被放置在一起。这个详细集群的数字图像,然后生产,为研究人员提供了一种快速了解组蛋白标记是如何通过有代表性的区域分布。GyD.F4y2Ba

DGW是一个由两个模块组成的工具。第一个是对齐和聚类模块,而第二个是结果。DGW设计为“重新归类并对齐”基因组区域的组蛋白标记(例如转录起始位点和拼接位点)。另外,它将对齐的标记分成分层将对齐的标记分成不同的群体。关于可视化模块,DGW产生一组基因组位置的染色质标记的热图和树木。DGW和Hebbpplot之间存在几个值得注意的相似之处和差异。Hebbplot类似于DGW,因为它会缩放区域。但是,Hebbpplot使用不同的想法实现它。具体而言,Hebbpplot以与区域长度相等地,从每个区域上采样固定数量的同等间隔点。Hebbpplot学习染色质标记的一般模式,总结了所有输入区域作为一个代表区。 Unlike DGW, hebbPlot does not cluster the input regions based on the distribution of a mark. Hierarchical clustering is utilized in HebbPlot not to cluster the regions according to the enrichment of a mark, but to cluster all marks according to their distributions around the representative region. The amount of details produced by DGW can be inappropriate in the presence a large number of marks and regions. HebbPlot on the other hand, is built specifically to make large amounts of data manageable and meaningful for biologists through its summarization technique.

我们对这四种工具的比较清楚地表明,HebbPlot提供的优势在相关工具中并没有得到很好的体现。有许多工具可以根据染色质标记的丰度来聚类区域,但除了传统的图外,几乎没有任何技术可以确定所有区域标记的模式。这意味着HebbPlot与其他流行的可视化工具共存是很重要的。它对数据的独特和简洁的总结对于评估数千个区域的大量染色质信号至关重要。这并不是说其他工具提供的描述级别没有用处。事实上,生物学家需要能够看到其他设施促进的具体结果。然而,HebbPlot提供的是数据的“大图景”。GyD.F4y2Ba

在我们的案例研究中选择区域大小GyD.F4y2Ba

在一些案例研究中,有两个原因促使我们选择400个碱基对(bp)作为增强子和启动子的大小。首先,从Fantom项目中获得的增强子的平均大小约为400 bp。在Fantom项目中,整个区域是根据eRNA (enhancer RNA)来确定的,而不仅仅是P300的峰值。其次,这种规模在某些案例研究中是必要的;例如,为了确保启动子签名尽可能准确,我们需要将大小限制在400 bp,以减少与未翻译和编码区域的重叠。然而,在其他的案例研究中,例如涉及启动子签名的方向性,我们使用4400 bp来观察启动子区域的外部。此外,HebbPlot可以处理任何大小的区域。我们进行了一些实验,使用的尺寸从200 bp到5000 bp不等。见附加文件GyD.F4y2Ba9GyD.F4y2Ba:图S1和附加文件GyD.F4y2Ba10GyD.F4y2Ba:图S2。这两幅图表明,400 bp显示H1中激活的启动子和增强子的签名是合理的。GyD.F4y2Ba

用可变尺寸处理区域GyD.F4y2Ba

处理同样大小的区域,例如促销员,是直截了当的;然而,处理大小可变的区域(例如编码区域)需要重新缩放。传统地块的一个缺点是,它们不考虑长度差异,导致小区域的人为峰值。我们从数据集中的每个区域中抽取固定数量的点的方法适用于具有可变或相似长度的区域,并得到组蛋白编码假说的支持。如果组蛋白标记在具有相同功能的区域周围以类似的方式分布,那么从这些区域中等间距采样点应该可以捕获组蛋白标记。在某种意义上,这是一个缩放过程。为了说明这一点,想象三个不同大小的三角形(图。GyD.F4y2Ba10GyD.F4y2Ba)表示染色质标记在三个区域的分布。如果我们从每个区域取三个等间距的样本,那么这些样本应该捕获一个简单而准确的染色质特征——低信号,高信号,然后是低信号。使用更多的样本应该会得到更好的签名。总之,我们的方法得到组蛋白编码假说的支持,允许从可变或固定长度的区域提取签名。GyD.F4y2Ba

图10GyD.F4y2Ba
图10.GyD.F4y2Ba

在查看变量大小的区域时,Hebbplot的优势很清楚。每个三角形表示区域周围的染色质标记的分布。从每个区域获得的三个等间隔的样本(x)产生低信号(-1),高信号(1)和低信号(-1)的模式。由于长度的差异,传统的图不会检测到这种模式。然而,Hebbplot将重新归类这些三角形并呈现正确的签名GyD.F4y2Ba

结论GyD.F4y2Ba

在此稿件中,我们描述了一种新的软件工具Hebbppot,用于学习和可视化遗传元素的染色质特征。Hebbpplot产生可以轻松解释的图像。可以定量比较Hebbplot学习的签名。我们在使用57人组织和细胞类型的六种案例研究中验证了Hebbplot。这些案例研究的结果是新颖的或确认先前报道的文献中的结果,表明Hebbpplot的准确性。我们发现活性启动子具有定向染色质签名;具体地,H3K4ME3和H3K79ME2倾向于伸展下游,而H 2 A.Z趋于伸展上游。我们的结果证实,高CPG和低CPG启动子具有不同的染色质特征。当我们将增强剂的签名与八种组织/细胞类型进行比较时,我们发现它们是相似的,但不相同。对比有源和非活性基因的编码区域的签名显示某些修饰-H3K36ME3,H3K79(ME1,ME2)和H4K8Ac标记活性编码区,而不同的修饰 - H4K12AC,H3K14AC,H3K27ME3和H2AK5AC - 标记的非活动区 genes. Our study resulted in a visual catalog of chromatin signatures of multiple genetic elements in 57 human tissues and cell types. Further, we made a progress toward a functional catalog of more than 20 histone marks. Finally, HebbPlot is a general tool that can be applied to a large number of studies, facilitating the understanding of the histone code.

可用性和要求GyD.F4y2Ba

源代码(Perl和Matlab)可作为附加文件GyD.F4y2Ba11GyD.F4y2Ba.GyD.F4y2Ba

项目名称:GyD.F4y2BaHebbPlot。GyD.F4y2Ba

项目主页:欧宝直播官网appGyD.F4y2Bahttps://github.com/TulsaBioinformaticsToolsmith/HebbPlotGyD.F4y2Ba

操作系统:GyD.F4y2BaUNIX / Linux / Mac。GyD.F4y2Ba

编程语言:GyD.F4y2BaPerl和Matlab。GyD.F4y2Ba

其他需求:GyD.F4y2BaMatlab统计和机器学习工具箱和Bedtools (GyD.F4y2Bahttp://bedtools.readthedocs.io/en/latest/GyD.F4y2Ba).GyD.F4y2Ba

执照:GyD.F4y2Ba创造性的公共许可证(归因+非商业+没有衍生工程)。GyD.F4y2Ba

非学者使用的任何限制:GyD.F4y2Ba许可证需要。GyD.F4y2Ba

缩写GyD.F4y2Ba

BP:GyD.F4y2Ba

碱基对GyD.F4y2Ba

参考GyD.F4y2Ba

  1. 1GyD.F4y2Ba

    Carey N.表观生物学革命:现代生物学如何重写我们对遗传,疾病和遗产的理解。纽约奇切斯特,西萨塞克斯:哥伦比亚大学出版社;2012年,p。206。GyD.F4y2Ba

    谷歌学术GyD.F4y2Ba

  2. 2GyD.F4y2Ba

    Lewis JD, Meehan RR, Henzel WJ, mauer - fogy I, Jeppesen P, Klein F, Bird a .一种与甲基化DNA结合的新型染色体蛋白的纯化、序列和细胞定位。细胞。1992;69(6): 905 - 14所示。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  3. 3.GyD.F4y2Ba

    赵文华,张丽丽,张文华。组蛋白编码的翻译。科学。2001;293(5532): 1074 - 80。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  4. 4GyD.F4y2Ba

    Kouzarides T.染色质修饰及其功能。细胞。2007;128(4):693-705。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  5. 5GyD.F4y2Ba

    Whitelaw NC, Chong S, Morgan DK, Nestor C, Bruxner TJ, Ashe A, Lambley E, Meehan R, Whitelaw E两种表观遗传基因沉默修饰物Dnmt3a和Trim28水平降低导致表型噪声增加。基因组医学杂志。2010;11 (11): R111。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  6. 6GyD.F4y2Ba

    Carone BR, Fauquier L, Habib N, Shea JM, Hart CE, Li R, Bock C, Li C, Gu H, Zamore PD, Meissner A, Weng Z, Hofmann HA, Friedman N, Rando OJ. Carone BR, Fauquier L, Habib N, Shea JM, Hart CE, Li R, Bock C, Li C, Gu H, Zamore PD, Meissner A, Weng Z, Hofmann HA, Friedman N, Rando OJ。哺乳动物中父系诱导代谢性基因表达的跨代环境重编程。细胞。2010;143(7): 1084 - 96。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  7. 7GyD.F4y2Ba

    Ng S-F, Lin RCY, Laybutt DR, Barres R, Owens JA, Morris MJ。父亲计划中的慢性高脂肪饮食GyD.F4y2BaβGyD.F4y2Ba-细胞功能障碍。大自然。2010;467(7318): 963 - 6。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  8. 8GyD.F4y2Ba

    Anway医学博士,Cupp AS, Uzumcu M, Skinner MK.内分泌干扰物和男性生育能力的表观遗传跨代行为。科学。2005;308(5727): 1466 - 9。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  9. 9GyD.F4y2Ba

    长春唑林对精子表观基因组启动子区域的表观遗传跨代作用。PLoS ONE。2010;5(9): 1。GyD.F4y2Ba

    文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  10. 10GyD.F4y2Ba

    Fraga MF,Ballestar E,PAZ MF,Ropero S,Setien F,Ballestar ML,Heine-Suñerd,Cigudosa JC,Urioste M,Benitez J,Boix-Chornet M,Sanchez-Aguilera A,Ling C,Carsson E,Poulsen P.,Vaag A, Stephan Z, Spector TD, Wu Y-Z, Plass C, Esteller M. Epigenetic differences arise during the lifetime of monozygotic twins. Proc Natl Acad Sci U S A. 2005; 102(30):10604–9.

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  11. 11GyD.F4y2Ba

    Hammoud SS,Nix Da,张H,Purwar J,Carrell DT,凯恩斯BR。人类精子封装基因的独特染色质,用于胚胎发育。自然。2009;460(7254):473-8。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  12. 12GyD.F4y2Ba

    Ooi SKT, Qiu C, Bernstein E, Li K, Jia D, Yang Z, erdjumen - bromage H, Tempst P, Lin S-P, Allis CD, Cheng X, Bestor TH。DNMT3L将组蛋白H3的未甲基化赖氨酸4连接到DNA的从头甲基化。大自然。2007;448(7154): 714 - 17所示。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  13. 13GyD.F4y2Ba

    Prader, Labhart, Willi H.婴儿期肌强直性状态后表现为肥胖、矮小、隐睾和精神分裂症的一种综合征。Schweiz Med Wochenschr. 1956;86:1260-1。GyD.F4y2Ba

    谷歌学术GyD.F4y2Ba

  14. 14GyD.F4y2Ba

    “木偶”儿童:三例报告。Dev Med Child Neurol. 1965;7(6): 681 - 8。GyD.F4y2Ba

    文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  15. 15GyD.F4y2Ba

    魏德曼人力资源。家族性畸形合并脐疝和巨舌-一种“新综合征”?J Genet Hum. 1964;13:223-32。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba谷歌学术GyD.F4y2Ba

  16. 16GyD.F4y2Ba

    Beckwith JB。宏观曲线,omphalocele,肾上腺细胞瘤,胶像和增生血管大肿。出生缺陷。1969年;5:188-96。GyD.F4y2Ba

    谷歌学术GyD.F4y2Ba

  17. 17GyD.F4y2Ba

    先天性半肥大、身材矮小和尿促性腺激素升高综合征。儿科。1953;12:368 - 76。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba谷歌学术GyD.F4y2Ba

  18. 18GyD.F4y2Ba

    一种先天性子宫内侏儒综合征,在出生时可识别,伴有颅面骨发育不良,不成比例的短臂和其他异常(5例)。1954年;47:1040-4。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba谷歌学术GyD.F4y2Ba

  19. 19GyD.F4y2Ba

    Bukulmez O.不辅助生殖技术导致出生缺陷?CURR OPIN妇产科Gynecol。2009;21(3):260-4。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  20. 20.GyD.F4y2Ba

    由核胺氧化同源LSD1介石Y,兰楼马特森C,穆里根P,Whetstine JR,科尔PA,卡塞罗RA,石Y.组蛋白去甲基化。细胞。2004;119(7):941-53。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  21. 21GyD.F4y2Ba

    Bernstein BE, Mikkelsen TS, Xie X, Kamal M, Huebert DJ, Cuff J, Fry B, Meissner A, Wernig M, Plath K, Jaenisch R, Wagschal A, Feil R, Schreiber SL, Lander ES。一种二价染色质结构标记了胚胎干细胞的关键发育基因。细胞。2006;125(2): 315 - 26所示。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  22. 22GyD.F4y2Ba

    李JT。作为RNA在表观基因组调控中的生态位模型的X。冷泉Harb展望Biol. 2010;2 (9): a003749。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  23. 23GyD.F4y2Ba

    何文杰,拉提夫夫,翁颖,勒曼米,Zbar B,刘胜,Samid D,段世民,Gnarra JR, Linehan WM。DNA甲基化沉默VHL抑癌基因在肾癌中的作用美国国立科学院学报1994;91(21): 9700 - 4。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  24. 24GyD.F4y2Ba

    Esteller男,Silva的JM,格斯G,博尼利亚楼的Matias-Guiu X,莱尔马E,Bussaglia E,普拉特Ĵ,Harkes IC,Repasky EA,Gabrielson E,舒特男,Baylin SB,赫尔曼JG。启动子甲基化和失活的BRCA1在散发性乳腺癌和卵巢肿瘤。J Natl Cancer Inst。2000;92(7):564。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  25. 25GyD.F4y2Ba

    丰田M, Ahuja N, ohe -丰田M, Herman JG, Baylin SB, Issa J-PJ。大肠癌中CpG岛甲基化表型的研究美国国立科学院学报1999;96(15): 8681 - 6。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  26. 26GyD.F4y2Ba

    卢Z,罗里茨,彭H,黄M,Nishmoto A,Hunt KK,Helin K,廖WS-L,yu Y.E2F-HDAC复合物对乳腺癌肿瘤抑制基因arhi负面调节肿瘤抑制基因arhi。oncogene。2006;25:230-9。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  27. 27GyD.F4y2Ba

    格里S,小松N,川又N,米勒CW,德斯蒙德Ĵ,Virk RK,Marchevsky A,麦克纳R,田口H,Koeffler HP。候选肿瘤抑制基因在PER1非小细胞肺癌的后生沉默。临床癌症Res。2007;13(5):1399-404。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  28. 28GyD.F4y2Ba

    Kondo Y, Shen L, Cheng AS, Ahmed S, Boumber Y, Charo C, Yamochi T, Urano T, Furukawa K, Kwabi-Addo B, Gold DL, Sekido Y, Huang TH-M, Issa J-PJ。组蛋白H3赖氨酸27三甲基化独立于启动子DNA甲基化的癌症基因沉默。Nat麝猫。2008;40(6): 741 - 50。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  29. 29GyD.F4y2Ba

    琼斯PA,泰勒SM。细胞分化,胞苷类似物和DNA甲基化。细胞。1980;20(1): 85 - 93。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  30. 30.GyD.F4y2Ba

    桑蒂,加勒特,巴尔。胞嘧啶类似物抑制dna -胞嘧啶甲基转移酶的机制。细胞。1983;33(1): 9 - 10。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  31. 31GyD.F4y2Ba

    二甲基亚砜到vorinostat:作为抗癌药物的组蛋白去乙酰化酶抑制剂的开发。生物科技Nat》。2007;25:84 - 90。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  32. 32GyD.F4y2Ba

    Hentrich T,Schulze Jm,Emberly E,Kobor MSA。Chromatra:用于可视化基因组染色质特征的星系工具。生物信息学。2012;28(5):717-8。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  33. 33GyD.F4y2Ba

    Younesy H, Nielsen CB, Lorincz MC, Jones SJM, Karimi MM, Möller T. ChAsE:染色质分析和探索工具。生物信息学。2016;32(21): 3324。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  34. 34GyD.F4y2Ba

    Lukauskas S, Visintainer R, Sanguinetti G, Schweikert GB。DGW:用于表观基因组标记聚类和可视化的探索性数据分析工具。欧宝娱乐合法吗BMC生物信息学。2016;17日(16):53 - 63。GyD.F4y2Ba

    谷歌学术GyD.F4y2Ba

  35. 35GyD.F4y2Ba

    洪光,任斌,王伟。ChromaSig:一种寻找人类基因组中共同染色质特征的概率方法。《公共科学图书馆·计算机生物学》,2008;4(10): 1000201。GyD.F4y2Ba

    文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  36. 36GyD.F4y2Ba

    UCAR D,Hu Q,Tan K.子空间聚类的人类基因组中的组合染色质修饰模式。核酸RES。2011;39(10):4063-75。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  37. 37GyD.F4y2Ba

    自动化的染色质状态发现和表征。Nat方法。2012;9(3): 215 - 6。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  38. 38GyD.F4y2Ba

    霍夫曼MM,Buske Oj,Wang J,Weng Z,Bilmes Ja,Noble Ws。通过基因组分割在人染色质结构中进行无监督模式发现。Nat方法。2012;9(5):473-6。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  39. 39GyD.F4y2Ba

    王家,Lunyak vv,乔丹Ik。染色质签名发现通过组型修改配置文件对齐。核酸RES。2012;40(21):10642-56。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  40. 40GyD.F4y2Ba

    Lai WKM, Buck MJ。在功能元件上理解组合组蛋白密码的综合方法。生物信息学。2013;29(18): 2231 - 7。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  41. 41GyD.F4y2Ba

    周军,Troyanskaya OG。染色质因子相互作用的全球定量模型。《公共科学图书馆·计算机生物学》2014;10(3): 1-13。GyD.F4y2Ba

    文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  42. 42GyD.F4y2Ba

    滨田M,小野Y,藤木R,浅井香。用因子化信息准则学习染色质状态。生物信息学。2015;31日(15):2426 - 33所示。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  43. 43GyD.F4y2Ba

    宋健,陈克强。眼镜:基于光谱学习的染色质状态快速标注。基因组医学杂志。2015;16(1): 33。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  44. 44GyD.F4y2Ba

    莱WK,Buck MJ。Archalign:自由族染色质排列揭示了新颖的架构。基因组医学杂志。2010;11(12):R126。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  45. 45GyD.F4y2Ba

    Heintzman d, Stuart RK, Hon G, Fu Y, Ching CW, Hawkins RD, Barrera LO, Van Calcar S, Qu C, Ching KA, Wang W, Weng Z, Green RD, Crawford GE, Ren B. human genome转录启动子和增强子的特异性和预测染色质标记。Nat麝猫。2007;39(3): 311 - 8。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  46. 46GyD.F4y2Ba

    王伟。基于染色质标记的哺乳动物基因组调控元件预测。欧宝娱乐合法吗BMC生物信息学。2008;9(1): 547。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  47. 47GyD.F4y2Ba

    Karlićr,钟H-R,Lasserre J,VlahovičekK,vingron M.组蛋白改性水平是基因表达的预测性。Proc Natl Acad Sci U S A. 2010;107(7):2926-31。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  48. 48GyD.F4y2Ba

    利用染色质标记和人工神经网络发现调控DNA元件。生物信息学。2010;26日(13):1579 - 86。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  49. 49GyD.F4y2Ba

    基于遗传算法的基因表达建模研究[J]。基因组医学杂志。2011;12 (2): R15。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  50. 50.GyD.F4y2Ba

    程C,Shou C,Yip Ky,Gerstein MB。染色质特征的基因组分析鉴定了组蛋白改性敏感和不敏感酵母转录因子。基因组医学杂志。2011;12(11):R111。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  51. 51.GyD.F4y2Ba

    张泽,张迈克。组蛋白修饰型材是蛋白质编码和MicroRNA基因的组织/细胞类型特异性表达的预测性。欧宝娱乐合法吗BMC生物信息学。2011;12:155。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  52. 52.GyD.F4y2Ba

    董X,Greven的MC,Kundaje A,Djebali S,布朗JB,程C,Gingeras TR,格斯坦男,GuigóR,伯尼E,使用各种细胞染色质的上下文特征翁Z.建模基因表达。基因组Biol。2012;13(9):R53。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  53. 53.GyD.F4y2Ba

    FernándezM,米兰达 - 萨瓦德拉D.基因组 - 来自遗传算法优化支持载体机的表观遗传签名的基因组增强器预测。核酸RES。2012;40(10):E77。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  54. 54.GyD.F4y2Ba

    基于Rfecs算法的染色质状态增强子识别。《公共科学图书馆·计算机生物学》2013;9 (3): e1002968。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  55. 55.GyD.F4y2Ba

    Kumar S,Bucher P.使用DNA序列内在和细胞型特异性染色质特征预测转录因子位点占用。欧宝娱乐合法吗BMC生物信息学。2016;17(4):S4。GyD.F4y2Ba

    文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  56. 56.GyD.F4y2Ba

    基于关联规则挖掘的乙型肝炎病毒x -转化小鼠肝癌组合染色质修饰模式的发现。欧宝娱乐合法吗BMC生物信息学。2016;7:1307。GyD.F4y2Ba

    谷歌学术GyD.F4y2Ba

  57. 57.GyD.F4y2Ba

    Girgis赫兹。基于机器学习的蛋白质结构预测元方法。博士论文。纽约州立大学布法罗分校;2008.GyD.F4y2Ba

  58. 58GyD.F4y2Ba

    Girgis HZ, Corso JJ。Stp:样本-序列-预测算法及其在蛋白质结构元选择中的应用。技术报告16。纽约州立大学布法罗分校;2008.GyD.F4y2Ba

  59. 59GyD.F4y2Ba

    一般线性模型用于选择和排序最佳预测蛋白质结构的在线层次结构。在:Conf Proc IEEE Eng Med Biol Soc。明尼阿波利斯:IEEE 2009。p . 4949 - 4953。GyD.F4y2Ba

    谷歌学术GyD.F4y2Ba

  60. 60GyD.F4y2Ba

    杰尔吉斯HZ,在使用对共现基序的人基因组Ovcharenko I.预测组织特异性的顺式调控模块。欧宝娱乐合法吗BMC生物信息学。2012;13(1):25。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  61. 61GyD.F4y2Ba

    Girgis赫兹。Red:一种智能、快速、准确的工具,用于在基因组规模上检测重复序列。欧宝娱乐合法吗BMC生物信息学。2015;16(1): 227。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  62. 62GyD.F4y2Ba

    赫布DO。行为的组织:神经心理学理论。莫瓦:劳伦斯Erlbaum Associates公司出版;2002年,第62。GyD.F4y2Ba

    谷歌学术GyD.F4y2Ba

  63. 63GyD.F4y2Ba

    Hagan MT, Demuth HB, Beale MH, De Jesús O.神经网络设计,第二版。Stillwater: Martin Hagan;2014.GyD.F4y2Ba

    谷歌学术GyD.F4y2Ba

  64. 64GyD.F4y2Ba

    Sokal RR,Michener CD。一种评估系统关系的统计方法。Univ Kans Sci Bull。1958年;38:1409-38。GyD.F4y2Ba

    谷歌学术GyD.F4y2Ba

  65. 65GyD.F4y2Ba

    财团再保险,Kundaje Meuleman W,恩斯特J, Bilenky M,日圆,Kheradpour P,张Z, Heravi-Moussavi,刘Y,阿明V,齐勒尔称乔丹,惠特克JW,舒尔茨博士)及RS,伊顿ML,吴Y-C王J,病房LD, Sarkar, Quon G, Pfenning,王X, Claussnitzer M, Coarfa C,哈里斯RA, Shoresh N,爱泼斯坦CB, Gjoneska E,梁D,谢W,霍金斯,李斯特R,香港C, Gascard P, Mungall AJ,摩尔R, Chuah E, Tam,坎菲尔德TK,汉森RS, Kaul R, Sabo PJ,邦萨尔女士,卡洛斯,小迪克逊,Farh k - h, Feizi年代,Karlic R,金一个R, Kulkarni,李D, Lowdon R,美世TR, Neph SJ, Onuchic V,波兰人的P, Rajagopal N,射线P, Sallari RC, Siebenthall KT, Sinnott-Armstrong N,史蒂文斯M,瑟曼再保险公司吴J,张B,周X, Beaudet AE,波伊尔,De Jager P,萨利PJ,费舍尔SJ, Haussler D,琼斯,李W,马拉M,麦克马纳斯山,Sunyaev年代,汤姆森是的,Tlsty TD,蔡L-H,王W,沃特兰RA,张M,查德威克LH,伯恩斯坦,科斯特洛摩根富林明,艾克尔JR,赫斯特米,迈斯纳,Milosavljevic,任B, Stamatoyannopoulos是的,王T,张志强。111个参考人类表观基因组的综合分析。大自然。2015;518(7539): 317 - 30。GyD.F4y2Ba

    文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  66. 66GyD.F4y2Ba

    表达图谱。GyD.F4y2Bahttps://www.ebi.ac.uk/gxa/experiments/E-GEOD-26284/Downloads?filterFactors=%7B%22RNA%22%3A%5B%22long+polyA+RNA%22%5D%2C%22CELLULAR_COMPONENT%22%3A%5B%22whole +细胞%22%5D%7DGyD.F4y2Ba.2018年4月15日。GyD.F4y2Ba

  67. 67GyD.F4y2Ba

    路线图表述项目。GyD.F4y2Bahttp://egg2.wustl.edu/roadmap/web_portal/processed_data.html#RNAseq_uni_procGyD.F4y2Ba.2018年4月15日。GyD.F4y2Ba

  68. 68GyD.F4y2Ba

    加州大学圣克鲁斯基因组浏览器。GyD.F4y2Bahttp://genome.ucsc.edu/cgi-bin/hgTablesGyD.F4y2Ba.2018年4月15日。GyD.F4y2Ba

  69. 69GyD.F4y2Ba

    Saxonov S, Berg P, Brutlag DL。对人类基因组中CpG二核苷酸的全基因组分析区分了两类不同的启动子。美国国立科学院学报2006;103(5): 1412 - 7。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  70. 70GyD.F4y2Ba

    Andersson R,吉哈德C, Miguel-Escalada我,踢我,Bornholdt J,博伊德M,陈Y,赵X, Schmidl C,铃木T, Ntini E, arne E,瓦伦E、K, Schwarzfischer L, Glatz D, Raithel J, Lilje B,列宾N,装袋工FO,约根森M,安徒生公关,贝尔坦公司N,拉科姆O,巴勒斯,柏丽JK, Ishizu Y, Y清水,Furuhata E, Maeda年代,根岸英一Y, Mungall CJ,Meehan TF, Lassmann T, Itoh M, Kawaji H, Kondo N, Kawai J, Lennartsson A, Daub CO, Heutink P, Hume DA, Jensen TH, Suzuki H, Hayashizaki Y, Muller F, Consortium TF, Forrest ARR, carinci P, Rehli M, Sandelin A.人类细胞类型和组织的活性增强子图谱。大自然。2014;507(7493): 455 - 61。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  71. 71GyD.F4y2Ba

    ENCODE项目联盟。人类基因组中DNA元素的完整百科全书。大自然。2012;489(7414): 57 - 74。GyD.F4y2Ba

    公共医学中心GyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  72. 72GyD.F4y2Ba

    Singh R,Lanchantin J,Robins G,Qi Y.深度:深度学习,用于预测组蛋白修饰的基因表达。生物信息学。2016;32(17):I639-48。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  73. 73GyD.F4y2Ba

    基于遗传算法的基因表达建模方法研究。基因组医学杂志。2011;12(2): 15。GyD.F4y2Ba

    CASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  74. 74GyD.F4y2Ba

    Cieślikm,Bekiranov S.组合的表观遗传模式作为染色质生物学的定量预测因子。BMC基因组学。2014;15(1):76。GyD.F4y2Ba

    PubMed.GyD.F4y2Ba公共医学中心GyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

  75. 75GyD.F4y2Ba

    YE T,Krebs Ar,Choukrallah M-A,Keime C,Plewniak F,Davidson I,Tora L. Seqminer:一个集成的芯片SEQ数据解释平台。核酸RES。2011;39(6):E35。GyD.F4y2Ba

    PubMed.GyD.F4y2BaCASGyD.F4y2Ba文章GyD.F4y2Ba谷歌学术GyD.F4y2Ba

下载参考GyD.F4y2Ba

致谢GyD.F4y2Ba

作者要感谢纽约州立大学布法罗分校生物化学副教授Michael Buck,感谢他的有益讨论。我们非常感谢匿名审稿人的意见和建议,这些意见和建议改进了软件和手稿。GyD.F4y2Ba

资金GyD.F4y2Ba

这项研究是由塔尔萨大学工程与自然科学学院和学院研究基金项目提供的内部资金支持。资助机构在研究的设计、数据的收集、分析和解释以及手稿的撰写中没有发挥任何作用。GyD.F4y2Ba

数据和材料的可用性GyD.F4y2Ba

HebbPlot的源代码和案例研究中产生的数据可以作为附加文件获得GyD.F4y2Ba1GyD.F4y2Ba- - - - - -GyD.F4y2Ba9GyD.F4y2Ba.GyD.F4y2Ba

作者信息GyD.F4y2Ba

隶属关系GyD.F4y2Ba

作者GyD.F4y2Ba

贡献GyD.F4y2Ba

HZG设计了软件和案例,实现了神经网络,并撰写了论文。AV对软件进行编码,处理数据,撰写文稿。ZER对数据进行了处理并撰写了手稿。所有作者阅读并批准了手稿的最终版本。GyD.F4y2Ba

通讯作者GyD.F4y2Ba

对应于GyD.F4y2Ba哈尼Z.Girgis.GyD.F4y2Ba.GyD.F4y2Ba

道德声明GyD.F4y2Ba

伦理批准和同意参与GyD.F4y2Ba

不适用。GyD.F4y2Ba

同意出版物GyD.F4y2Ba

不适用。GyD.F4y2Ba

相互竞争的利益GyD.F4y2Ba

两位作者宣称他们没有相互竞争的利益。GyD.F4y2Ba

出版商的注意GyD.F4y2Ba

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。GyD.F4y2Ba

附加文件GyD.F4y2Ba

附加文件1GyD.F4y2Ba

积极股线上的活性启动子的Hebpplots。该压缩文件(.tar.gz)包括在57种组织/细胞类型中的正链上的促进剂的Hebpplots。(TAR 2949 KB)GyD.F4y2Ba

附加文件2GyD.F4y2Ba

在负股上的活性启动子的Hebbplots。此压缩文件(.tar.gz)包括在57种组织/细胞类型中的负链中的促进剂的Hebpplots。(TAR 2952 KB)GyD.F4y2Ba

附加文件3.GyD.F4y2Ba

高cpg启动子的hebbplot。这个压缩文件(.tar.gz)包括57种组织/细胞类型中活跃的高cpg启动子的hebbplot。(焦油2654 kb)GyD.F4y2Ba

附加文件4.GyD.F4y2Ba

Hebbplots低CpG启动子。此压缩文件(.tar.gz)包括在57种组织/细胞类型中激活的低CPG启动子的Hebpplots。(tar 2971 kb)GyD.F4y2Ba

附加文件5.GyD.F4y2Ba

Hebbpplots活跃的增强剂。此压缩文件(.tar.gz)包括在八个组织/小区类型中激活的增强器的Hebpplots。(TAR 439 KB)GyD.F4y2Ba

附加文件6.GyD.F4y2Ba

基因标识符。这个压缩文件(.tar.gz)包括9组基因的标识符,这些基因根据它们在IMR90中的基因表达水平划分。(焦油428 kb)GyD.F4y2Ba

附加文件7.GyD.F4y2Ba

hebbactive基因编码区图。这个压缩文件(.tar.gz)包括57种组织/细胞类型中活跃的基因的hebbplot。(焦油2696 kb)GyD.F4y2Ba

附加文件8.GyD.F4y2Ba

hebb非活性基因编码区图。这个压缩文件(.tar.gz)包括57种组织/细胞类型中不活跃基因的hebbplot。(焦油2715 kb)GyD.F4y2Ba

附加文件9.GyD.F4y2Ba

图S1。GyD.F4y2BaHEBBPLOTS特异于H1细胞系。这些地块是由具有不同尺寸的增强剂产生的。每个Hebbpplot都是从一组增强器产生的,所有这些都具有相同的大小并且以P300峰为中心。(PDF 4881 KB)GyD.F4y2Ba

附加文件10.GyD.F4y2Ba

图S2。GyD.F4y2BaH1细胞系活性启动子的HebbPlots。这些图是由不同大小的启动子生成的。每个HebbPlot都是由一组启动子生成的,这些启动子的大小相同,并以转录起始位点为中心。(PDF 5010 kb)GyD.F4y2Ba

附加文件11.GyD.F4y2Ba

HebbPlot软件。这个压缩文件(.tar.gz)包含了HebbPlot的源代码(Matlab和Perl)。(焦油15 kb)GyD.F4y2Ba

权利和权限GyD.F4y2Ba

开放获取GyD.F4y2Ba本文根据创意公约署署署的条款分发了4.0国际许可证(GyD.F4y2Bahttp://creativecommons.org/licenses/by/4.0/GyD.F4y2Ba)如果您向原始作者和源给出适当的信用,则允许在任何介质中进行不受限制的使用,分发和再现,提供指向Creative Commons许可证的链接,并指示是否进行了更改。Creative Commons公共领域奉献豁免(GyD.F4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/GyD.F4y2Ba)除非另有说明,否则适用于本文中提供的数据。GyD.F4y2Ba

再版和权限GyD.F4y2Ba

关于这篇文章GyD.F4y2Ba

通过CrossMark验证货币和真实性GyD.F4y2Ba

引用这篇文章GyD.F4y2Ba

HebbPlot:一种学习和可视化染色质标记签名的智能工具。GyD.F4y2Ba欧宝娱乐合法吗19,GyD.F4y2Ba310(2018)。https://doi.org/10.1186/s12859-018-2312-1.GyD.F4y2Ba

下载引用GyD.F4y2Ba

关键字GyD.F4y2Ba

  • 组蛋白标记GyD.F4y2Ba
  • 染色质的修改GyD.F4y2Ba
  • 表观遗传特征GyD.F4y2Ba
  • 可视化GyD.F4y2Ba
  • 人工神经网络GyD.F4y2Ba
  • Hebbian学习GyD.F4y2Ba
  • 联想学习GyD.F4y2Ba
\GyD.F4y2Ba