跳转到主要内容

利用图数据库探索染色质构象捕获实验的优点

摘要

背景

高通量测序染色体构象捕获(HI-C)允许在基因组范围内研究DNA相互作用和3D染色体折叠。通常,这些数据表示为描述不同染色体区域中的二元触点的矩阵。另一方面,基于图形的表示可以是有利的,用于描述通过真核细胞核中的DNA实现的复杂拓扑。

方法

在这里,我们讨论了图形数据库来存储和分析通过执行Hi-C实验实现的数据。主要问题是所产生的数据的大小,并且使用基于图形的表示,因此需要充分管理连接节点(基因)的大量边缘(联系人)的必要性,这表示信息源。为此,目前可用的图形可视化工具和库与Hi-C数据短暂。相反,使用图形数据库支持HI-C数据中存在的空间模式的分析和可视化,特别是为了比较不同的实验或用于有效地重新绘制空间感知的上下文中的OMICS数据。特别地,通过统计指标描述曲线图的可能性,甚至更多地,通过统计分布将它们相关的能力允许在不同的细胞条件或不同的细胞类型中突出不同HI-C实验之间的相似性和差异。

结果

这些概念已经在NeoHiC中实现了,Neo4j是一个开源的、用户友好的web应用程序,基于Neo4j图数据库(3.5版)的使用,用于逐步可视化和分析Hi-C网络。

结论

随着更多实验的积累,该工具将提供宝贵的支持,以比较实验和条件的基因的邻居,有助于突出功能域的变化和识别新的共同组织基因组室。

背景

现代生物信息学旨在整合不同组学数据,揭示导致不同表型的基因表达和调控机制,以便理解维持生命的潜在分子过程,并通过开发新药干预这些过程[1,2)发生病理改变时[3.,4]。在这种情况下,探索细胞核中染色体的三维组织对于许多与基因表达调控相关的细胞过程至关重要,包括DNA可及性、表观遗传模式和染色体易位[5,6]。3D染色质分析可能为癌症转移性克隆和遗传疾病提供有效和标准的诊断方法。尽管以下描述专注于高通量测序染色体构象捕获技术的分析和可视化,但该方法是通用的,并且可以与其他染色质捕获技术合作。

高通量测序染色体构象捕获(Hi-C)技术允许更大规模地研究染色质相互作用和3D染色体折叠[7,8]。例如,由NuChart产生的Hi-C数据的基于图的表示[9,10或细胞[11[这是用于表示核中基因的空间位置的软件,对于创建可以映射其他OMIC数据的映射,是必不可少的,以表征不同的空间相关的域。这代表了传统基于矩阵的表示的有效补充,例如由榨汁机产生的12或蝌蚪[13]。

联系矩阵或更好的概率模型,允许创建仅涉及两个染色体的表示,而曲线图可以使用基于图形的方法描述所有染色体的相互作用。与基于坐标的表示相比,该表示突出了核中基因的物理接近。非常相同的问题损害了基于电路的表示,可以在一次拍摄中表征整个基因组,但未能描述基因的物理接近。

以前的作品[14,15]显示了关于创建定义两个基因之间距离的指标的可能性的有趣结果,并可能应用于细胞遗传学分析,分析核仁附近的DNA构象,以及描述基因的社会行为。

然而,通过Hi-C分析实现的图的大小通常在数千个节点和数十万条边的顺序,这使得其有效的管理和探索过于复杂。关键的方面是,关于由顶点表示的实体之间关系的信息几乎与顶点本身一样重要。这方面的相关性在许多应用领域中正在增加,如[16],特别是分子生物学[17]及生物信息学[18]。

尽管使用广泛使用的存储库作为字符串[19[20.]仍然基于SQL数据库,许多其他平台集成异构生物信息学存储利用图形数据库,如BioGraphDB [21],Bio4j [22],Biochem4j [23,或作为生物分子途径的Reactome的领域特定存储库[24]。最重要的名单载于[17]。

检索数据中的性能表示一个关键功能。例如,图形数据库如Neo4j才能以几个数量级的路径发现操作中的PostgreSQL,如PostgreSQL,如PostgreSQL18]。

另一方面,观想到目前为止仍然是一个重要问题。上面的大多数平台依赖于像esyN这样的通用工具[25或著名的Cytoscape [26]显示由查询产生的网络。但是,这些解决方案在可视化复杂结构的Hi-C数据方面无效。因此,已经开发了一些临时分析和可视化工具作为基于R的Hiceekr [27或者neohic web app [28]。

NeoHiC支持由NuChart产生的Hi-C数据的渐进可视化和分析,但它是直接摄取由其他工具产生的数据。它依赖于Neo4j图形数据库的使用,其图形数据科学框架,以及Node.js等现代web技术,广泛应用于许多科学应用[29]。本文是一个扩展版本的[28,其中只呈现了渐进式的观想方面。这里的重点是使用Neo4j Graph Data Science框架来分析和比较可用实验的关系和网络结构。

方法

NeoHiC检索存储在Neo4j数据库实例中的数据以进行分析和可视化。特别是,虽然可视化代表了以基因为中心的实验探索,但也可以计算一些图形特征的重要性的统计值,这是一个以实验为中心的分析,代表了系统的所有组件的描述。

数据

Hi-C分析的输出是沿不同染色体配对的基因组区域列表,可以表示为一个方阵X,其中\(间{ij} \)表示位置匹配的读对的总和和位置j,分别。这个表示法叫做a联系图它侧重于提供基因组箱组之间的接触频率的量度。频率值依赖于箱子空间接近,因此与它们有关。虽然接触映射可靠地用于观察染色体内的相互作用的强度或两条染色体之间,但是不适于描绘基因(或基因簇)的附近,这可能涉及多种染色体。该基因中心的视图特别令人兴趣地对Hi-C实验进行了一种共同的基础,用于整合多个OMICS特征,突出显示通过基因组构象调节的系统生物学视图,途径和转录程序。

相反,基于图表的Hi-C数据表示具有高水平的表达性,因为其结构性可以揭示关于所代表过程中的演员的重要信息,即基因,相互作用。这是Neohic已经设计用于可视化和分析的原因,该图是能够提供基因中心表示的工具,如Nuchart。该软件创建了顶点是基因的图形,并且边缘是由HICUP软件提供的读取所示的Hi-C触点[30.]。特别是,边缘标识了包含两个连接基因的Hi-C有效读值的存在。支持接触证据的读数是交互强度的一种,然后被用作边缘的权重,作为所考虑的基因的物理亲密度的代理。边缘可以通过分配与基因组和表观基因组特征相关的分数来进一步表征,这些特征可能包括调控模式、甲基化轮廓、组蛋白修饰和其他基因组结构标志。

数据库

图形数据库是创建的NoSQL数据库系列的一部分,以解决实体关系数据模型的某些问题。虽然图形模型明确地列出了节点之间的依赖关系,但是,表示实体,关系和其他NoSQL数据库模型通过隐式连接链接这些实体。

特别是,在关系数据库中,通过外键列引用主键属性来表示对其他行和表的引用。连接是在查询时通过匹配连接表中所有行的主键和外键计算的。这些操作需要大量的计算和内存,成本呈指数级增长。此外,当模型中出现多对多关系时,需要引入一个包含两个参与表的外键的JOIN表(或关联实体表),从而进一步增加存储空间和连接操作的执行时间。

而在图数据库的数据模型中,关系与节点具有相同的重要性。数据库设计人员不需要使用特殊属性(如外键)推断实体之间的连接。为此,从设计上讲,图形数据库允许快速而直接地检索复杂的层次结构,而这些结构在关系系统中很难建模。

图形模型中最重要的概念如neo4j是:

节点:

表示数据库的实体。

标签:

用于对节点进行分组。一个节点可能有几个标签。

的关系:

连接节点对。它们是定向的,即使有可能忽视这些信息。

类型:

与关系相关联,但关系有且只有一种类型。

属性:

是可以与节点和关系关联的名称-值对。

因此,提供新的Hi-C实验的第一步是通过其在Neo4J中的插入来表示。这是通过使用JavaScript程序来实现的,用于在GitHub上使用Neohic,用于在一组CSV文件中转换基于图形的Hi-C数据表示,该数据可以直接在Neo4j中导入。详细介绍,该程序解析了Nuchart生成的文件,其中包含边缘列表并生成两个文件,一个包含有关实验的信息,第二个具有其属性的边缘列表。

具有静态信息的基因(即它们所属的染色体和位置)在数据库中存储一次作为节点。此外,每个实验都表示为节点,其中一些统计信息作为它包含的基因数量和边缘。相反,边缘文件在基因之间创建新的关系,标有实验名称。这意味着仅创建一个代表基因的节点一次,然后用作涉及它的所有边缘。

neo4j中的所有查询都遵循Cypher Graph查询语言。例如,使用像以下one这样的查询创建每个边缘:

雕像

第一行用于检索两个极端基因的参考文献;然后,它们被用来创建一个带有与实验相关名称标签的链接。图中显示了属于连接一对基因的不同实验的边的例子。1

图1
图1

图形例子。存储在Neo4j中的Hi-C数据的示例,该数据由两个节点,基因,AadacL3和AadacL4组成,由对应于实验't0_rep1','t_16_rep1'和't_32_rep1'对应的三个边连接。每个边缘有5个属性

图2
图2.

高c数据探索。NeoHiC图形用户界面可视化和探索Hi-C网络从一个基因开始

图3
图3.

高c数据分析。NeoHiC图形用户界面,用于从实验开始的Hi-C网络统计分析

图4
图4.

可视化示例。图像的左侧显示了高C图的逐步可视化的示例。右侧侧面的用户定义查询的结果

图5
图5.

数据分析工作流程这是使用Neohic的Hi-C数据分析的流程图

图6
图6.

基因度值基因度在Hi-C实验时间序列中的分布

图7
图7.

Louvain算法由Louvain算法在Hi-C实验的时间序列中进行的群集

图8
图8.

富集分析面板A显示了在第一个时间点和最后一个时间点之间呈现不同聚类态度的基因的富集分析。Panel B显示了在Hi-C实验的最后一个时间点用Louvain算法识别出的最大聚类的富集分析

图9
图9.

NeoHiC在多模式数据集成方法中是一个有用的工具,涉及临床数据、组织学信息和多组学分析,以便开发改进的临床决策支持系统

可以在用户工作站上安装NEO4J数据库,或者可以通过Web利用可用的实例。

高c可视化

Neohic是一种用JavaScript编写的Web应用程序,并基于Neovis.js图形可视化库(版本1.14)的自定义版本[31],又会混合NEO4J JavaScript驱动程序和通用VIS.JS库。

应用程序可以在用户工作站上启动,也可以通过Web利用它。Web应用程序同时提供了探索模式和分析模式,如图所示。23.

这种探索模式支持以基因为中心的实验分析,因为它从选择一个基因开始,并考虑在显示邻近基因时进行一组实验。

Neohic基于串采用的相同方法,其中蛋白质 - 蛋白质相互作用网络一次通过点击一个可见节点来扩展一步。考虑到基因可以具有数百个邻居,用户可以扩展网络也从列表中选择基因:连接到所选的所有基因将出现在图中。可以根据需要多次扩展网络的这些步骤,并且Web应用程序的唯一信息由Cypher中的查询字符串表示,用于通过与Neo4j数据库交互来检索每个扩展处的数据。特别地,示例示出在图1的左侧。4对应于以下查询

贴图

其中每一个基因选择对应于添加a\(n_x- [r_x] -n_ {x + 1} \)图案。

允许专家用户修改查询或插入新查询以直接与neo4j进行交互。图2的右侧示出了示例。4,显示了人工插入查询的结果,该查询过滤了“ACTL8”的262个邻近基因中,只过滤了被选中的两个实验中每个有一个链接的基因。

也可以返回一步后退按钮或多个步骤,通过单击一个边缘,例如,在“KDM1B”和“MBOAT1”之间的边缘,为用户提供自由浏览图形的可能性。最后,可以根据与相邻基因相关的权值,指定一个阈值,根据NuChart计算出的邻近基因的概率,对其进行过滤。

HI-C分析

通过统计来描述图表的可能性,甚至更多,将它们关联起来的能力,代表了一种有效的方式来突出不同Hi-C运行、不同细胞条件或不同细胞类型中的相似和不同。例如,它是有趣的可能性计算简单的统计信息的重要性一些图像特征,如边缘的拓扑,顶点趋势是互惠的,图中顶点度的分布,每个顶点的集群态度的测量,以及详细描述图中每个基因的邻域的中心性度量(如中间性和亲近性)。

neohi用图中所示的界面支持这种以实验为中心的分析。3.。提供的操作的实现是基于Neo4J图数据科学库的使用。图书馆提供了五类算法:

社区检测:

检测具有更重要交互的节点组。neohi支持使用鲁汶算法的实验中的基因聚类。

相似:

根据节点的邻居或其他属性对节点的相似性进行评分。NeoHiC包括计算一个基因的Jaccard系数的可能性,考虑到两个来自两个实验的子图。

中心:

基于图形拓扑评估一些基因的重要性。Neohic Supports Page等级测量基因在随机横穿击中频率的频率的路径中的影响;在图表部分之间用作桥梁的基因之间的间之间;仔细检测对所有其他基因具有最短距离的基因。

路径找到:

计算两个或多个节点之间的最短路径。Neohic识别并显示在实验中的一对基因之间的最短路径,或者从实验中的所有其他物质中呈现来自基因的最短路径。考虑到连接基因的链路数量或者通过NUCHART连接的概率,可以计算最后一个。

链接预测:

为了评估一对节点的亲密度以预测它们之间的新关系。我们正在努力扩展新官能团,以利用这些算法来推断未被实验捕获的基因之间的隐藏关系。

除了这个库,还可以利用其他外部库,如Cypher one的apoci awesome程序,包括超过450个标准程序,以及使用服务丰富基因的可能性,如richr [32,33]。

值得注意的是,Neohic是一个可扩展的工具,因为它很简单地检索由Cypeher中查询提供的原始信息,以使用自定义功能分析。此外,Neohic允许将基因列表和相应的值作为CSV文件下载。

最后,NeoHiC可以整合其他多组数据集,如时间序列RNA-seq数据或甲基化谱,通过提供图结构与上调/甲基化或下调/甲基化基因之间的相关性。图中显示了一个例子。3.

结果

在本节中,我们将讨论使用NeoHiC对乳腺癌进行时间序列Hi-C分析所获得的一些结果,因为在癌症和其他病理状态中,高阶染色质结构经常被扰乱。

我们在与乳腺癌相关的公共Hi-C数据组上测试了Neohic [34],可在基因表达Omnibus知识库获得,登录号为GSE130916。该数据集是一组Hi-C实验的时间序列,旨在研究雌激素受体(ER)阳性患者在治疗后出现耐药和复发的乳腺癌细胞DNA构象的变化,以了解该肿瘤内分泌耐药的机制。其中,内分泌敏感乳腺癌细胞(MCF7)在长期培养的三个时间点(T0)、中期(T16)和晚期(T32, > 6个月)均进行了Hi-C检测。每个时间点有两个副本可用。

最初的研究表明,在耐药乳腺癌细胞中,染色质相互作用,包括拓扑关联域(TADs)内部和之间的染色质相互作用,经常发生变化,活跃(a型)和不活跃(b型)染色体室的改变与ER结合减少、非典型相互作用和基因表达有关。

我们从GEO下载数据,用HiCup将reads与参考基因组比对,用NcolII限制性内切酶将硅内酶切的基因组提供给软件。然后我们使用NuChart计算Hi-C图形,因为我们加载了图形数据库中的所有数据。然后,使用NeoHiC,我们能够使用基因中心的观点来深化分析。工作流程如图所示。5。它的详细描述是附加文件1

首先,我们计算了数据集中所有可用样本之间的Jaccard距离,如表中所示1。正如我们所看到的,考虑到基因组接触的总体分布,实验的再现性相对较低,并且数据集之间的变化与不同时间点之间的变化相当。然后,新oO oiC用于计算每个数据集的度分布,如图所报告的那样地绘制Barplot。6。我们在乳腺癌测试这个功能测试用例,在图中,我们可以看出,在这种情况下,整体分布非常相似在所有的实验中,高亮显示的变化在不同条件下不能在全基因组水平,但它应该是在本地进行分析。

表1实验的Jaccard值比较
表2使用RNA表达文件的实验态度值比较
表3使用甲基化文件的实验的接近值比较

为此目的,通过使用在NuChart R包中已经可用的ergm方法,可以统计分析局部邻域图的结构,实现网络的随机模型,并使用MCMC通过似然函数创建一个估计器。这些模型可用于计算一些图特征的重要程度的简单统计,如边的拓扑结构、顶点的倒易趋势、顶点在图中的度分布,或每个顶点的聚类姿态的度量。

使用这种方法,我们发现富含基因的染色体,例如CHR16至CHR22,在最新时间点显示与最早时间点中的缔三种时间间相互作用频率相比,彼此相比减小相互作用频率。使用浓缩分析与Biocarta 2016数据库,我们识别出涉及的基因与WNT信号传导的途径有关(参见图。8一种)。

染色体端粒区域内的相互作用也存在差异,因为细胞相互作用的时间点越来越少(见图)。8一种)。这些证据与先前报道的符合宗旨,尽管与不同的实验设计有关[35]。

依靠变化是局部更重要的假设,我们还使用了Louvain算法来识别不同实验中基因的簇。如图所示。7,集群的分布有显著变化。通过富集分析(使用WikiPathway 2019数据库),我们确定了一些与乳腺癌和EZH2通路相关的富集基因簇,如图所示。8b。

neohi还可以用于集成许多不同的多组数据集。特别是,我们考虑了雌激素反应性乳腺癌的时间序列RNA-seq数据[36]为了验证是否有上调或下调的簇的基因。使用Neohic,我们计算了表2,报告上调和下调基因的聚类态度的均值和方差以及使用单个T检验计算的相关p值。正如我们所看到的,聚类态度在不同的实验中没有差异。

我们还使用NeoHiC来整合与甲基化相关的Hi-C实验[37],这是肿瘤复发的重要机制。由于不同的甲基化型材,我们计算了图表中基因的近距离差异的概率。结果是在表中报告的3.。同样,在这种情况下,我们可以看到全基因组依赖甲基化模式解剖的染色质的构象没有深刻的变化。

没有对甲基化的显着影响结合鉴定越来越重要的EZH2途径的重要性可能表明复发是遵循免疫逃生的多元组织相关机制[38]。

讨论和结论

neohi是一个可扩展的Web应用程序,支持高效分析和探索高温数据。NeoHiC只需要访问Neo4j数据库,Neo4j数据库可能运行在应用程序的同一台机器上,或者作为云中的SaaS运行。neohi的性能取决于三个因素。(1)托管Neo4j数据库的服务器的能力,因为它负责数据提取和聚合操作;(2)用于数据传输的带宽,其大小仅为几兆字节,也可用于可视化由1000个基因组成的大邻域;(3)用户设备用于数据可视化,因为NeoHiC是一个基于javascript的应用程序。

Neohic是Docker容器的可用[39]或在HPC4AI研究云平台上的SaaS版本[40,41)http://neohic.hpc4ai.it.it.。后一个版本将成为更通用的门户的一部分,如[42]专为共享和分析Hi-C数据而设计。感谢Streamflow [43] HPC4ai本机工作流管理系统,门户网站将可以定义新颖的分析“管道 - AS-Service”并在HPC4AI或其他公共云中运行它们,直接解决基因组研究中的再现性挑战。

在更普遍的管道中轻松扩展NeoHiC的可能性将使现有的分析有可能扩展到新的分析,例如,利用机器学习阶段来估计接触,这在Hi-C实验中是看不到的,但可以从数据中推断出来。具体来说,我们认为人工神经网络可以用来建立接触的假设,而变分自编码器可以用来检查接触的一致性来进行链接预测和估计隐藏数据。

一个重要的领域是罕见遗传疾病:视觉检查可以提供表型和治疗效果之间的相似或差异的线索。由于NeoHiC可以与基因本体论和富集分析相结合,为深层表型分层提供了可能。未来扩展的另一个领域是基因间距离的物理测量,可以通过FISH或显微镜来实现。

我们相信这个软件可以用于生物研究和诊断分析。我们的愿景是一个整合系统,整合电子健康记录、解剖病理组织学报告和多组学数据,为医生提供丰富的疾病描述,从而提高诊断水平。从多组学的角度来看,Hi-C数据可以补充其他信息,如基因组测序用于识别特定基因型,RNA-seq用于分析细胞转录组活性,表观遗传分析等,如图所示。9

neohi提供的可视化能力提高了高温管道的实际可用性。此外,它可以作为视觉推断工具进一步发展,以研究大规模染色质体外去甲基化或核酸插入药物的影响。临床、组织学和组学融合数据集成可以通过HPC管道实现,用于数据分析和机器学习方法,实现多模态数据集成,提供可靠的临床决策支持系统[44]。

我们的工具是BioInformatics和医学信息学的图表数据库领域的新快速增长的应用中的第一个。本课程将在生物信息学方面带来革命,因为它使方法和结果比现有方法更加解释。

可用性数据和材料

neohi可在HPC4AI@UNITO.IT云上在线获取http://neohic.hpc4ai.it.it.。源代码可用https://github.com/dddagostino/neohic.。用于实验的数据集见[34]。

缩写

Apoc:

Cypher上很棒的程序

CSV:

逗号分隔值

呃:

雌激素招待会

ergm:

指数随机图模型

鱼:

荧光原位杂交

高c:

高通量测序染色体构象捕获

高性能计算:

高性能计算

密度:

马尔可夫链蒙特卡洛

萨斯:

软件即服务

泰德:

拓扑上关联域名

WNT:

Wingless-related集成网站

参考

  1. 1.

    Chiappori F, Merelli I, Milanesi L, Marabotti A.在GALK酶和已知抑制剂之间的静态和动态相互作用:为半乳糖血症患者设计新药物的指南。Eur J medical Chem. 2013; 63:423-34。

    CAS文章谷歌学术搜索

  2. 2.

    Merelli I,Cozzi P,D'Agostino D,Clematis A,Milanesi L.基于图像的表面匹配算法,面向结构生物学。IEEE / ACM反式计算BIOL BIOINF。2010; 8(4):1004-16。

    文章谷歌学术搜索

  3. 3.

    Viti F, Merelli I, Caprera A, Lazzari B, Stella A, Milanesi L.基于本体的组织微阵列导向,图像中心组织库。BMC Bioinform。2008;9 (4):S4。

    文章谷歌学术搜索

  4. 4.

    Banegas-Luna Aj,Imbernon B,Llanes Castro A,Pérez-Garrido A,Ceron-Carrasco JP,Gesing S,Pérez-SánchezH.分布式计算与现代药物发现的进步。专家看法药物讨论。2019; 14(1):9-22。

    CAS文章谷歌学术搜索

  5. 5.

    凌杰克,霍夫曼ar。远程染色质相互作用的表观遗传学。Pediastr res。2007; 61:11R-16R。

    文章谷歌学术搜索

  6. 6.

    Phillips-Cremins JE, Corces VG。染色质绝缘体:连接基因组组织和细胞功能。摩尔细胞。2013;(4):461 - 74。

    CAS文章谷歌学术搜索

  7. 7.

    acta photonica sinica, 2011, 38(5): 689 - 693。用于描述基因组三维结构的全基因组3c方法。方法。2012;58(3):277 - 88。

    CAS文章谷歌学术搜索

  8. 8.

    Lieberman-Aiden E,Van Berkum Nl,Williams L,Imakaev M,Ragoczy T,Dekker J.远程相互作用的综合映射揭示了人类基因组的折叠原理。科学。2009; 326:289-93。https://doi.org/10.1126/science.11​​81369

    CAS文章PubMed公共医学中心谷歌学术搜索

  9. 9.

    基于多组学注释的基因空间邻域研究。PLoS ONE。2013; 8 (9): e75146。

    CAS文章谷歌学术搜索

  10. 10。

    Tordini F,Drocco M,Misale C,Milanesi L,Lio'P,Merelli I,Torquati M,Aldinucci M. Nuchart-II:高速和可扩展工具的道路进行高C数据分析。int j高执行计算应用程序。2017; 31(3):196-211。

    文章谷歌学术搜索

  11. 11.

    Shavit Y,Lio'p. cytohic:用于高C网络的视觉比较的Cytoscape插件。生物信息学。2013; 29(9):1206-7。

    CAS文章谷歌学术搜索

  12. 12.

    Durand NC, Shamim MS, Machol I, Rao SS, hunley MH, Lander ES, Aiden EL。榨汁机提供了一个一键式系统,用于分析环路分辨率的高温实验。细胞系统。2016;3(1):95 - 8。

    CAS文章谷歌学术搜索

  13. 13.

    Serra F, Bau D, Goodstadt M, Castillo D, Filion G, Marti-Renom MA。利用TADbit对Hi-C数据进行自动分析和三维建模,揭示了果蝇染色质颜色的结构特征。PLOS Comp Bio. 2017;13(7):e1005665。

    文章谷歌学术搜索

  14. 14.

    关键词:染色体构象捕获,多组学,多组学特征麝猫。2015;40。

    文章谷歌学术搜索

  15. 15.

    Tordini F,Aldinucci M,Milanesi L,Lio'P,Merelli I.基因组构象作为多OMIC数据的积分器:癌症造成损伤的例子。前群体。2016; 7:194。

    文章谷歌学术搜索

  16. 16.

    Lifschitz S,Vera-Olivera H.设计具有绘制的图形数据库。J数据库管理。2019; 30(1):41-60。

    文章谷歌学术搜索

  17. 17.

    da Silva WM, Wercelens P, Walter MEM, Holanda M, Brígido M.分子生物学图谱数据库。见:巴西生物信息学专题讨论会。施普林格可汗;2018年,页50-57。

  18. 18.

    做CT, Jensen LJ。图形数据库为生物信息学做好准备了吗?生物信息学)。2013;29(24):3107。

    CAS文章谷歌学术搜索

  19. 19.

    Szklarczyk D,Francechini A,Wyder S,Forslund K,Heller D,Huerta-Cepas J,Kuhn M. String V10:蛋白质 - 蛋白质互动网络,整合在生命之树上。核酸RES。2014; 43(D1):D447-52。

    文章谷歌学术搜索

  20. 20。

    史密斯RN,Aleksic J,Butano D,Carr A,Contrino S,Hu F,Septan R. Intermine:一种灵活的数据仓库系统,用于对异构生物数据的集成和分析。生物信息学。2012; 28(23):3163-5。

    CAS文章谷歌学术搜索

  21. 21。

    Messina A, Fiannaca A, La Paglia L, La Rosa M, Urso A. BioGraph:一个查询和分析生物信息资源的web应用程序和图形数据库。BMC system Biol. 2018;12(5):98。

    CAS文章谷歌学术搜索

  22. 22。

    Pareja-Tobes P, Tobes R, Manrique M, Pareja E, Pareja-Tobes E. Bio4j:高性能云数据平台。BioRxiv, 016758;2015.

  23. 23。

    Swainston n,Batista-navarro r,Carbonell P,Dobson Pd,Dunstan M,Jervis Aj,等。Biochem4j:通过图形数据库集成和可扩展的生物化学知识。PLoS ONE。2017; 12(7):E0179130。

    文章谷歌学术搜索

  24. 24.

    Reactome图形数据库:复杂路径数据的高效访问。PLoS compput biology . 2018;14(1):e1005968。

    文章谷歌学术搜索

  25. 25.

    Bean DM, Heimbach J, Ficorella L, Micklem G, Oliver SG, Favrin G. esyN:网络建设,分享和发布。PLoS ONE。2014; 9 (9): e106035。

    文章谷歌学术搜索

  26. 26.

    关键词:细胞景观,生物分子相互作用网络,集成模型,软件环境基因组研究》2003;13(11):2498 - 504。

    CAS文章谷歌学术搜索

  27. 27.

    Di Filippo L,Rigeelli D,Gagliardi M,Matarazzo Mr,Angelini C. Hicekr:一个新颖的Hi-C数据分析的闪亮应用程序。前遗传学。2019; 10:1079。

    文章谷歌学术搜索

  28. 28.

    D 'Agostino D, Merelli I, Aldinucci M, Lió P. NeoHiC:一个分析高温数据的web应用程序。见:生物信息学和生物统计学计算智能方法国际会议(CIBB 2019)。施普林格可汗;2020.

  29. 29.

    Galizia A, Roverelli L, Zereik G, Danovaro E, Clematis A, D 'Agostino D.使用Apache Airavata和EasyGateway创建复杂的科学网关前端。未来通用计算机系统。2019;94:910-9。

    文章谷歌学术搜索

  30. 30.

    魏文杰,张建平,等。HiCUP:绘制和处理高温数据的管道。F1000Res。2015; 4:1310。发布于2015年11月20日。https://doi.org/10.12688/f1000research.7334.1

  31. 31。

    Lyon W.使用NeoO4J使用Neovis.js与neo4j的图形可视化。在线(24/11/2020);2018年。https://bit.ly/2vompkj.

  32. 32。

    关键词:HTML5,基因列表,富润,协同分析,基因列表BMC Bioinform。2013;14(1):128。

    文章谷歌学术搜索

  33. 33。

    Kuleshov MV,Jones Mr,Rouillard Ad,Fernandez NF,Duan Q,Wang Z,McDermott Mg。enRichr:全面的基因集浓缩分析Web Server 2016更新。核酸RES。2016; 44(W1):W90-7。

    CAS文章谷歌学术搜索

  34. 34。

    周y,Gerrard DL,Wang J等。3D染色质建筑在激素诱导的乳腺癌和内分泌抵抗中的时间动态重组[NAT Communce中出现的发布校正。2020年4月20日; 11(1):1967]。NAT Communce。2019; 10(1):1522。

  35. 35。

    Barutcu Ar,Lajoie Br,McCord RP等。染色质相互作用分析显示上皮和乳腺癌细胞之间的小染色体和端粒聚类的变化。基因组Biol。2015; 16:214。

    文章谷歌学术搜索

  36. 36.

    Mutarelli M,Cicatiello L,Ferraro L,GREBOM OMV,Ravo M,Facchiano Am,Angelini C,Weisz A.来自激素响应人乳腺癌细胞基因组基因表达数据的时间课程分析。BMC生物素。2008; 9(S2):S12。

    文章谷歌学术搜索

  37. 37.

    Tanas AS, Sigin VO, Kalinkin AI, Litviakov NV, Slonimskaya EM, Ibragimova MK, Ignatova EO, Simonova OA, Kuznetsova EB, Kekeeva TV, Larin SS.全基因组甲基分型解决了乳腺癌表观遗传异质性,并提出了新的治疗前景。表观基因组学,2019;11(6):605 - 17所示。

    CAS文章谷歌学术搜索

  38. 38.

    王X,Brea Lt,Yu J.EzH2在肿瘤微环境中的免疫调节功能:癌症免疫疗法的影响。AM J Clin Exp Urol。2019; 7(2):85。

    PubMed公共医学中心谷歌学术搜索

  39. 39.

    Merelli I,Fornari F,Tordini F,D'Agostino D,Aldinucci M,Cesini D.利用网格计算的码头计算,以综合研究不同细胞类型的染色质构象。j并行分配计算机。2019; 134:116-27。

    文章谷歌学术搜索

  40. 40。

    Aldinucci M, Rabellino S, Pironti,等。HPC4AI,一个人工智能按需联合平台。ACM计算前沿,Ischia,意大利,2018。https://doi.org/10.1145/3203217.3205340

  41. 41。

    Aldinucci M,Torquati M,Spampato C,Drocco M,Misale C,Calcagno C,Coppo M.并行随机系统在云中的生物学。简短生物形式。2014; 15(5):798-813。

    文章谷歌学术搜索

  42. 42。

    D 'Agostino D, Roverelli L, Zereik G, La Rocca G, De Luca A, Salvaterra R, Tiengo A.使用EGI联邦云探索x射线瞬变天空的科学门户。未来Gener计算机系统。2019;94:868-78。

    文章谷歌学术搜索

  43. 43。

    流流:与HPC的杂交云。IEEE Trans emerging Topics computing . 2020。https://doi.org/10.1109/TETC.2020.3019202

    文章谷歌学术搜索

  44. 44。

    Banegas-Luna AJ,ImbernónB,Llanes Castro A,Pérez-Garrido A,Cerón-CarrascoJP,Gesing S,Pérez-SánchezH.分布式计算与现代药物发现的进步。专家看法药物讨论。2019; 14(1):9-22。

    CAS文章谷歌学术搜索

下载参考

确认

不适用。

关于这个补充剂

本文已作为BMC生物信息学卷的一部分公布,补充2 2021:15和第16次和第16次生欧宝娱乐合法吗物信息学和生物统计学的计算智能方法国际会议(CIBB 2018-19)。补充的完整内容可用//www.christinemj.com/articles/supplements/volume-22-supplement-2

资金

这项工作由意大利国家研究委员会(CNR)的短期2018年移动计划(STM)资助,由欧盟H2020 DeepHealth项目“深入学习和HPC促进健康的生物医学应用”(Grant协议。825111),由意大利皮埃蒙特地区资助的HPC4AI项目。PietroLić是由欧盟项目GO-DS21和Mark Foundation综合癌症医学计划的支持。

作者信息

隶属关系

作者

贡献

所有作者在NeoHiC建筑设计和论文写作方面都做出了相同的贡献。DD开发NeoHiC服务,IM进行实验,MA为NeoHiC提供一个并行图构建阶段(NuChart-II [10]),PL验证了结果。所有作者阅读并认可的终稿。

通讯作者

对应于丹尼尔·达

道德声明

伦理批准并同意参与

不适用。

同意出版

不适用。

相互竞争的利益

作者们宣称他们没有相互竞争的利益。

附加信息

出版商的注意

欧宝体育黑玩家《自然》杂志对已出版的地图和附属机构的管辖权主张保持中立。

补充信息

附加文件1。

这个文件描述了如何从GEO存储库中的Hi-C数据开始为neo4j生成输入数据矩阵。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的创作共用许可中,除非在材料的信用线中另有说明。如果材料没有包含在文章的创作共用许可证中,而您的预期使用不被法律法规允许或超过允许的使用,您将需要直接获得版权持有人的许可。如欲浏览本许可证的副本,请浏览http://creativecommons.org/licenses/by/4.0/。“创作共用公共领域”豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

D 'Agostino, D., Liò, P., Aldinucci, M。等等。利用图数据库探索染色质构象捕获实验的优点。欧宝娱乐合法吗22,43(2021)。https://doi.org/10.1186/s12859-020-03937-0

下载引用

关键词

  • 高c
  • 染色质捕获
  • 图形数据库
  • 图形可视化
\