跳到主要内容gydF4y2Ba

DeepGRN:采用基于注意机制的深层神经网络的跨细胞类型的转录因子结合位点的预测gydF4y2Ba

抽象的gydF4y2Ba

背景gydF4y2Ba

由于生物系统的复杂性,潜在的DNA结合转录因子网站的预测仍然是计算生物学的一个难题。基因组DNA序列和从平行测序实验结果提供关于亲和力和基因组的可访问可用信息和在结合位点预测的常用功能。在深度学习的注意机制已经显示出其学习从顺序数据远程相关性,比如句子和声音的能力。到现在为止,还没有研究应用于从大规模平行测序数据的结合位点推断这种方法。在类似的输入上下文注意机制的成功应用激励我们构建和测试新的方法,可以准确地确定转录因子结合位点。gydF4y2Ba

结果gydF4y2Ba

在本研究中,我们提出了一种新的工具(DeepGRN),基于单一注意模块和成对注意模块的组合,用于转录因子结合位点预测。我们的方法在ENCODE-DREAM体内转录因子结合位点预测挑战数据集上进行了性能评估。结果表明,在DREAM挑战中,DeepGRN在13个目标中的6个实现了更高的统一分数。我们还证明,模型学习到的注意力权重与潜在的信息输入(如DNase-Seq覆盖率和主题)相关,这为DeepGRN的预测性改进提供了可能的解释。gydF4y2Ba

结论gydF4y2Ba

DeepGRN能够根据DNA序列和DNase-Seq覆盖率自动有效预测转录因子结合位点。此外,我们为注意力模块开发的可视化技术有助于解释我们的模型如何识别来自不同类型输入特征的关键模式。gydF4y2Ba

背景gydF4y2Ba

转录因子(TFs)是结合特定基因组序列并影响许多细胞过程的蛋白质。它们通过这些结合事件调节下游基因转录活性的速率,从而通过控制目标基因的表达水平和蛋白质丰度,在基因调控网络中扮演激活子或抑制子的角色[gydF4y2Ba1gydF4y2Ba].染色质免疫沉淀测序(芯片SEQ)是金标准,以确定TF和其所有潜在的基因序列结合区的相互作用。然而,CHIP-Seq的实验通常需要试剂和材料是不可行的收购,如抗体靶向感兴趣的特定TF。因此,通过计算方法潜在结合位点的预测被认为是替代解决方案。此外,转录因子结合位点的预测将通过提供资源作为实验验证的参考方便许多生物学研究。gydF4y2Ba

已经开发了许多算法来推断不同tf的潜在结合位点,包括隐马尔可夫模型[gydF4y2Ba2gydF4y2Ba,gydF4y2Ba3.gydF4y2Ba],等级混合模型[gydF4y2Ba4gydF4y2Ba,支持向量机[gydF4y2Ba5gydF4y2Ba,gydF4y2Ba6gydF4y2Ba],判别最大条件似然[gydF4y2Ba7gydF4y2Ba[随机森林[gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba].这些方法通常依赖于先前了解序列偏好的知识,例如位置权重矩阵[gydF4y2Ba10.gydF4y2Ba].然而,如果这些特征是由基于推理的方法(如de-novo motif discovery)在没有先验知识的情况下生成的,那么它们可能不太可靠[gydF4y2Ba7gydF4y2Ba].gydF4y2Ba

最近,基于深度神经网络(DNNs)的方法,如DeepBind、TFImpute和DeepSEA,表现出了优于传统模型的性能[gydF4y2Ba11.gydF4y2Ba,gydF4y2Ba12.gydF4y2Ba,gydF4y2Ba13.gydF4y2Ba].与传统方法相比,深度学习模型在学习从具有巨大尺寸的数据学习高级功能的优势。该属性使其成为绑定站点预测任务的理想选择,因为可以从每个芯片SEQ实验中产生TF的基因组界限曲线。与许多依赖于输入数据和劳动密集型特征工程的质量的现有模型不同,深度学习需要较少的领域知识或数据预处理,并且当几乎没有或没有潜在的绑定区域之前的知识时更强大。蛋白质结合点预测任务的目前的研究通常涉及两个深度学习架构的组合:卷积神经网络(CNN)和经常性神经网络(RNN)。卷积层具有从不同基因组信号和区域中提取局部特征的潜力[gydF4y2Ba14.gydF4y2Ba],而复发性层在利用跨数据的整个序列的有用信息更好。几个常用的方法为结合预测,如DanQ [gydF4y2Ba15.gydF4y2Ba],Deeperbind [gydF4y2Ba16.gydF4y2Ba]和FARENET [gydF4y2Ba17.gydF4y2Ba,都是建立在这样的模型架构之上的。gydF4y2Ba

最近,注意机制的概念在神经机器翻译中取得了巨大的成功[gydF4y2Ba18.gydF4y2Ba]及情绪分析[gydF4y2Ba19.gydF4y2Ba].它通过专注于对成功预测非常有价值的信息来增强DNN的能力。结合RNN,它允许模型学习具有远程依赖性的输入序列的高级表示。例如,在关系分类中提出了具有注意机制的长短期存储器(LSTM)模型[gydF4y2Ba20.gydF4y2Ba]和句子压缩[gydF4y2Ba21.gydF4y2Ba].由于语言处理(句子)和DNA结合位点预测(大量并行测序的序列和结果)之间的输入上下文相似,可以采用类似的方法来提高现有方法的性能[gydF4y2Ba22.gydF4y2Ba,gydF4y2Ba23.gydF4y2Ba,gydF4y2Ba24.gydF4y2Ba].gydF4y2Ba

讯问复杂模型的输入输出关系是机器学习另一项重要任务。深的神经网络的权重通常很难直接解释由于其冗余并与输出非线性关系。特征地图和功能重要性分数是模特演绎在机器学习,涉及基因组学数据[常规方法gydF4y2Ba25.gydF4y2Ba].随着注意力机制的应用,我们也有兴趣测试其提高现有CNN-RNN架构模型的可解释性的能力。gydF4y2Ba

在本文中,我们开发了基于注意力机制深学习的TF结合预测工具(DeepGRN)。实验结果表明,我们的方法是当前国家的最先进的方法中的竞争力。此外,我们的工作可以扩展到通过讲解学习过程中的输入输出关系。我们发现,在这两种DNA酶序列和DNA序列信息模式的利用是准确的预测非常重要。gydF4y2Ba

执行gydF4y2Ba

来自code - dream挑战的数据集gydF4y2Ba

用于模型训练和基准测试的数据集来自2016年ENCODE-DREAM在体转录因子结合位点预测挑战。数据预处理的详细描述可在gydF4y2Bahttps://www.synapse.org/#!Synapse:syn6131484/gydF4y2Ba.gydF4y2Ba

对于所有的TF和挑战数据集提供的细胞类型,是从的ChIP-Seq的实验产生的转录因子的结合状态的标签,作为地面实况。提供染色质可访问性信息(DNA酶的SEQ数据),和RNA测序的数据作为模型训练输入特征。gydF4y2Ba

对于模型培训,我们遵循梦想挑战的规则和限制:在除了1,8和21和21之外的所有染色体上培训模型,并且染色体11用作验证。如果挑战不提供“排行榜”数据集,则验证数据中最佳性能的模型用于最终预测。排行榜数据可用于基准测试的某些TFS,每个参与者都可以在这些TFS上测试性能,最多可提交10个提交。因此,如果提供了这样的数据,我们将从第一步中选择前10个最佳模型作为可选的模型选择步骤。根据我们的模型的最终表现,基于用于确定挑战中提交等级的最终测试数据(图S1和表S1,请参阅附加文件gydF4y2Ba1gydF4y2Ba).我们使用输入的类似组织,由FactorNet引入的功能[gydF4y2Ba17.gydF4y2Ba]:DNA一级序列,染色质可访问性信息(DNA酶的SEQ数据)被转换成连续的特征,成为卷积层的输入在所述模型的第一部分。基因表达和说明被变换成非顺序特征和进料进入该模型的中间致密层(详细情况在“描述gydF4y2Ba深层神经网络模型,注重模块gydF4y2Ba“ 部分)。gydF4y2Ba

我们还收集了从项目编码另外的细胞系DNA酶和芯片配置文件(gydF4y2Bahttps://www.encodeproject.orggydF4y2Ba)和流程图表观基因组数据库(gydF4y2Bahttp://www.roadmapepigenomics.org/data/gydF4y2Ba),以改善我们的模型的泛化能力。带和不带外部数据集训练的模型性能进行了单独评价。gydF4y2Ba

转录因子绑定数据gydF4y2Ba

来自ChIP-Seq实验的转录因子结合数据是我们预测的目标。整个基因组分为200 bp的bins,滑动步长为50 bp(即250-450 bp, 300-500 bp)。每个bin属于三种类型之一:绑定、未绑定或二义性,这是由ChIP-Seq结果决定的。与峰值重叠并通过阈值为5%的不可复制发现率(IDR)检查的箱[gydF4y2Ba26.gydF4y2Ba都被标记为已装订。与峰值重叠但未能通过重现性阈值的箱被标记为模糊。所有其他容器都被标记为未绑定的。在培训或验证过程中,我们不会按照惯例使用任何模棱两可的容器。因此,基因组序列中的每个bin要么是一个阳性位点(有界),要么是一个阴性位点(无界)。gydF4y2Ba

DNA主要序列gydF4y2Ba

人类基因组释放hg19 / GRCH37被用作参考基因组。与算法的普遍做法的一致性,从染色质分布进行特征提取,如FactorNet [gydF4y2Ba17.gydF4y2Ba], 深海[gydF4y2Ba12.gydF4y2Ba],和DanQ [gydF4y2Ba15.gydF4y2Ba,我们在上游和下游都将每个料仓扩展400 bp,得到一个1000 bp的输入区域。此外,我们对不同选择的输入范围的性能进行了评估,结果表明,600 bp以上的范围就足以获得稳定的预测性能(图S2)。这个区域的序列用一个1000 × 4位矩阵表示,每一行代表一个核苷酸。由于低可映射性序列可能会在并行测序实验中引入偏差,因此序列的唯一性(也称为“可映射性”)与测序数据的质量密切相关[gydF4y2Ba27.gydF4y2Ba].因此,我们选择Duke 35 bp唯一性评分(gydF4y2Bahttps://genome.ucsc.edu/cgi-bin/hgFileUi?db=hg19&g=wgEncodeMapabilitygydF4y2Ba)作为额外的功能。从0到1的分数被分配给每个位置,作为序列的出现的倒数,其中唯一序列的得分为1,并且发生超过四次的序列的分数为0 [gydF4y2Ba28.gydF4y2Ba].因此,序列唯一性由每个输入bin的1000 × 1向量表示。ENCODE项目联盟提供了一份在NGS实验中产生伪信号的基因组区域黑名单[gydF4y2Ba29.gydF4y2Ba].我们排除输入箱从训练数据与这些区域重叠,并自动设置他们的预测得分为0,如果他们在预测的目标区域。gydF4y2Ba

DNASE-SEQ数据gydF4y2Ba

染色质辅助性是指染色体上的区域的可访问性,与TF结合事件高度相关[gydF4y2Ba4gydF4y2Ba].DNA酶SEQ实验可以用来获得的染色质可访问性信息的全基因组映射为染色质访问区域通常对核酸内切酶的DNase-I比不可接近的区域[更敏感gydF4y2Ba30.gydF4y2Ba].所有细胞类型的DNase-Seq的结果在在BigWig格式的挑战数据集提供。Normalized 1 × coverage score is generated from the BAM files using deepTools [31.gydF4y2Ba],每个输入的箱子大小为1,每个箱子用1000 × 1向量表示。gydF4y2Ba

基因表达和注释gydF4y2Ba

每个仓中的注记要素被编码为长度为6的二元载体,其中每个值表示是否有输入bin和每六个基因组特征(编码之间的重叠区域,内含子,启动子,5'/ 3'UTR,和CpG岛)。我们还包括RNA测序数据,因为它们可以被用来表征不同细胞类型中的基因表达水平的差异。主成分分析(PCA)是从由挑战提供的所有细胞类型的RNA测序数据的转录进行每百万(TPM)标准化计数。细胞类型的前八个主成分被用作用于从细胞类型的所有输入表达得分,生成长度为8的向量在FactorNet存储库提供了用于这些功能的处理的数据文件(gydF4y2Bahttps://github.com/uci-cbcl/FactorNet/tree/master/resourcesgydF4y2Ba).这些非顺序特征融合到模型中的第一密集层中。gydF4y2Ba

PhastCons基因组保护轨道gydF4y2Ba

我们使用的100路PhastCons保护曲目[gydF4y2Ba32.gydF4y2Ba]作为附加模型的一个特点。PhastCons的得分由99种脊椎动物与人类基因组的多次比对产生的逐基保守得分表示。从系统发育模型中识别出基因组上的保守元素,并计算出每个碱基的保守评分,即其位于该保守区域的概率。对于每个输入bin, PhastCons得分表示为一个范围从0到1的L × 1向量。gydF4y2Ba

CPG岛功能剖析gydF4y2Ba

我们使用了源自动作捕捉的CGI评分[gydF4y2Ba33.gydF4y2Ba]为每个输入区域进行外形环境环境。CGI分数可以计算为:gydF4y2Ba

$$ cgi \ left({n_ {cpg},n_ {c},n_ {g},l} \ revent)= \ left \ {{\ begin {array} {* {20} c} {1 \ if \FRAC {{n_ {cpg} l}} {{((n_ {c} + n_ {g})/ 2)^ {2}}}> 0.6 \ and \ \ \ \ \ \ \ \ \ rfac {{n_ {c} + n_ {g}}} {l}> 0.5} \\ {0 \否则} \\ \ end {array}} \ r。$$gydF4y2Ba

对于每个输入箱,CGI分数表示为L×1的向量,其中二进制值为0或1。gydF4y2Ba

深层神经网络模型,注重模块gydF4y2Ba

The shape of each sequential input is L × (4 + 1 + 1) for each region with length L after combining all sequential features (DNA sequence, sequence uniqueness, and Chromatin accessibility). Sequential inputs are generated for both the forward strand and the reverse complement strand. The weights in all layers of the model are shared between both inputs to form a “Siamese” architecture [17.gydF4y2Ba,gydF4y2Ba34.gydF4y2Ba,gydF4y2Ba35.gydF4y2Ba].该模型在第一密集层融合了来自基因表达数据和基因组注释的非序列特征向量。我们模型的总体架构如图所示。gydF4y2Ba1gydF4y2Ba.该模型采用两个主要模块构建:单一注意力和成对的注意力。除了其内部注意机制之外,它们使用相同的输入和架构。我们模型的最终结果是两个模块输出的平均值。gydF4y2Ba

图。1gydF4y2Ba
图1gydF4y2Ba

DeepGRN两个注意模块的总体框架。深层神经网络结构的示意图。卷积和双向LSTM层同时使用正向和反向互补设有作为输入。在单注意模块,注意力砝码由LSTM的隐藏输出计算并且被用于生成通过逐元素乘法加权表示。在成对注意模块,三个组件:Q(查询),K(键),和V(值)由LSTM输出计算的。Q的K的乘法和转置用于计算关注权重的V V.乘法和注意力分数的每个位置是成对注意模块的输出。从关注的层输出被平坦化,并用非顺序特征(基因组注释和基因表达)融合。最后得分是通过与乙状结肠激活和前向和反向互补输入合并致密层计算。每一层的尺寸示出的每个部件的旁边gydF4y2Ba

我们模型的第一部分是一维卷积层,这是涉及基因组数据的深度学习模型中特征提取的常见做法[gydF4y2Ba13.gydF4y2Ba,gydF4y2Ba17.gydF4y2Ba].我们使用双向长短期内存(双LSTM)节点作为我们的模型反复单位。在LSTM单元中的计算步骤可被写为:gydF4y2Ba

$$ f_ {t} = \ sigma \ left({w_ {f} \ cdot \ left [{h_ {t-1},x_ {t}}右] + b_ {f}} \右)$$gydF4y2Ba
(1)gydF4y2Ba
$$ I_ {吨} = \西格玛\左({W_ {I} \ CDOT \左[{H_ {吨 - 1},{X_ T】} \右] + B_ {I}} \右)$$gydF4y2Ba
(2)gydF4y2Ba
$$ \ widetilde {{c_ {t}}} = tanh \ left({w_ {c} \ cdot \ left [{h_ {t - 1},x_ {t}}右] + b_ {c}} \右)$$gydF4y2Ba
(3)gydF4y2Ba
$ $ \ widetilde {{C_ {t}}} = f {t} * C_ {t - 1} + i_ {t} * \ widetilde {{C_ {t}}} $ $gydF4y2Ba
(4)gydF4y2Ba
$$ o_ {t} = \ sigma \ left({w_ {o} \ cdot \ left [{h_ {t-1},x_ {t}} \ rectle] + b_ {o}} \右)$$gydF4y2Ba
(5)gydF4y2Ba
$$ h_ {t} = o_ {t} * tanh \ left({\ widetilde {{c_ {t}}}} \ revally)$$gydF4y2Ba
(6)gydF4y2Ba

在哪里gydF4y2Ba\ (f {t} \)gydF4y2Ba,gydF4y2Ba\(它}\)gydF4y2Ba, 和gydF4y2Ba\({O_吨} \)gydF4y2Ba是忘记门,输入门和输出门。gydF4y2Ba\(h_ {t - 1} \)gydF4y2Ba和gydF4y2Ba\(H T}\)gydF4y2Ba所在的位置隐藏状态矢量gydF4y2Ba\ (t - 1 \)gydF4y2Ba和gydF4y2Ba\(t \)gydF4y2Ba.gydF4y2Ba\(间{t} \)gydF4y2Ba输入向量在位置上吗gydF4y2Ba\(t \)gydF4y2Ba.gydF4y2Ba\(\ left [{h_ {t - 1},x_ {t}} \右] \)gydF4y2Ba代表向量结合动作。gydF4y2Ba\(c_ {t - 1} \)gydF4y2Ba,gydF4y2Ba\ (\ widetilde {{C_ {t}}} \)gydF4y2Ba和gydF4y2Ba\({C_吨} \)gydF4y2Ba所在的位置输出单元状态gydF4y2Ba\ (t - 1 \)gydF4y2Ba,新的细胞状态在位置gydF4y2BaT,gydF4y2Ba和输出单元状态在位置gydF4y2Ba\(t \)gydF4y2Ba,分别。gydF4y2Ba\(w_ {f} \)gydF4y2Ba,gydF4y2Ba\(w_ {i} \)gydF4y2Ba,gydF4y2Ba\(厕所}\)gydF4y2Ba, 和gydF4y2Ba\(w_ {o} \)gydF4y2Ba都是学习权重矩阵。gydF4y2Ba\(b_ {f} \)gydF4y2Ba,gydF4y2Ba\(双}\)gydF4y2Ba,gydF4y2Ba\ (b_ C {} \)gydF4y2Ba, 和gydF4y2Ba\(B_ {ö} \)gydF4y2Ba用于每个门的偏置矢量参数。gydF4y2Ba\(\ sigma \)gydF4y2Ba和gydF4y2Ba\(双曲正切\)gydF4y2Ba是S形函数和双曲正切函数,分别。gydF4y2Ba

在Bi-LSTM层中,LSTM输入的两个副本被重新排列成两个方向:一个是向前的方向,一个是向后的方向,它们分别进入LSTM单元。两个方向的输出在最后一个维度连接起来。因此,Bi-LSTM输出的最后一个维度是输入的最后一个维度的两倍。gydF4y2Ba

在single attention模块中,设其输入向量gydF4y2Ba\(H\)gydF4y2Ba有形状gydF4y2Ba\(l \)gydF4y2Ba通过gydF4y2Ba\ (r \)gydF4y2Ba,我们首先计算了非标准化注意评分gydF4y2Ba\(E = M \倍ħ{} \)gydF4y2Ba在哪里gydF4y2Ba\(m \)gydF4y2Ba是具有形状的权重矩阵gydF4y2Ba\(l \)gydF4y2Ba通过gydF4y2Ba\(l \)gydF4y2Ba, 和gydF4y2Ba\(e \)gydF4y2Ba有形状gydF4y2Ba\(l \)gydF4y2Ba通过gydF4y2Ba\ (r \)gydF4y2Ba.对形状的习得偏见gydF4y2Ba\(l \)gydF4y2Ba通过gydF4y2Ba\ (r \)gydF4y2Ba被添加到gydF4y2Ba\(e \)gydF4y2Ba后乘法。这可以被概括为致密的层操作gydF4y2Ba\(f_ {att,r} \)gydF4y2Ba在输入gydF4y2Ba\(H\)gydF4y2Ba.然后,沿着的第一维应用Softmax函数gydF4y2Ba\(e \)gydF4y2Ba为了得到标准化的注意力分数gydF4y2Ba\(\α\)gydF4y2Ba.最后,加权输出gydF4y2Ba\(Z \)gydF4y2Ba将计算基础上,关注权重gydF4y2Ba\(\α\)gydF4y2Ba.在维gydF4y2Ba\ (r \)gydF4y2Ba输入gydF4y2Ba\(H\)gydF4y2Ba,这些步骤可以被写为如下:gydF4y2Ba

$$ e_ {r} = f_ {art,r} \ left({h_ {1,r},h_ {2,r},...,h_ {n,r}} \右)$$gydF4y2Ba
(7)gydF4y2Ba
$$ {} \ alpha_ {i,r} = exp \ left({e_ {i,r}} / \ mathop \ sum \ limits_ {k = 1} ^ {n} exp \ left({e_ {k,r} \右){} {\ text {}} $$gydF4y2Ba
(8)gydF4y2Ba
$$ \ alpha_ {I} =(\ mathop \总和\ limits_ {R = 1} ^ {R} \ {alpha_ I,R})/ d $$gydF4y2Ba
(9)gydF4y2Ba
$$ Z_ {I,R} = {H_ I,R} {*} \ alpha_ {I} $$gydF4y2Ba
(10)gydF4y2Ba

这里,gydF4y2Ba\(E_ {R} \)gydF4y2Ba是,非标准化的关注比分的尺寸gydF4y2Ba\ (r \)gydF4y2Ba.向量gydF4y2Ba\(\ alpha_ {i,r} \)gydF4y2Ba代表在维注意体重gydF4y2Ba\ (r \)gydF4y2Ba位置gydF4y2Ba\(一世\)gydF4y2Ba并通过SOFTMAX功能恢复正常。注意尺寸gydF4y2Ba\ (r \)gydF4y2Ba在我们的模型中,在转型期间将保持不变。引起注意力的尺寸可以减少gydF4y2Bar \ \ (N \倍)gydF4y2Ba到gydF4y2Ba1 \ \ (N \倍)gydF4y2Ba在每个位置取平均值。最终的输出gydF4y2Ba\(z_ {i,r} \)gydF4y2Ba基于对应关注分数计算。注意层之后,预测分数从乙状结肠激活函数致密层计算并且从正向和反向互补输入合并。gydF4y2Ba

在成对的注意力模块,有三个组成部分:Q(查询),K(密钥)和V(价值)。它们的值是从LSTM输出计算从三个不同的可训练的权重矩阵。对于Q,K和V的训练的权重的尺寸gydF4y2Ba\(l \)gydF4y2Ba通过gydF4y2Ba\ (d_ {k} \)gydF4y2Ba,gydF4y2Ba\(l \)gydF4y2Ba通过gydF4y2Ba\ (d_ {k} \)gydF4y2Ba和gydF4y2Ba\(l \)gydF4y2Ba通过gydF4y2Ba\ (d_ {v} \)gydF4y2Ba在哪里gydF4y2Ba\ (d_ {k} \)gydF4y2Ba和gydF4y2Ba\ (d_ {v} \)gydF4y2Ba的默认设置为64,如[gydF4y2Ba36.gydF4y2Ba].利用Q的乘法和K的转置,计算出V经过Softmax转换和尺寸归一化后各位置的注意权值。V和注意力权重的乘积是成对注意力模块的输出。成对注意模块的输出计算为:gydF4y2Ba

$$ Z =使用SoftMax \左({\压裂{{Q \倍K ^ {T】}} {{\ SQRT {D_ {K}}}}} \右)\倍于V $$gydF4y2Ba
(11)gydF4y2Ba

由于在连续特征的每个位置同时流过成对注意模块,成对注意模块本身是不能够感测从所述顺序输入的位置和顺序。为了解决这个问题,我们的位置编码增加的成对关注的输入。我们预计这种额外的编码将增强模式,以利用该序列的顺序的能力。该位置编码具有相同的尺寸gydF4y2Ba\(d \)gydF4y2Ba作为对偶注意模块的输入。在本工作中,我们选择了不同频率的正弦和余弦函数[gydF4y2Ba37.gydF4y2Ba]编码位置信息:gydF4y2Ba

$ $ PE_{{\离开({pos, 2我}\右)}}=罪\离开({pos / 10000 ^ {2 i / d}} \右)$ $gydF4y2Ba
(12)gydF4y2Ba
$ $ PE_{{\离开({pos、2 + 1}\右)}}= cos \离开({pos / 10000 ^ {2 i / d}} \右)$ $gydF4y2Ba
(13)gydF4y2Ba

在哪里gydF4y2Ba\ (pos \)gydF4y2Ba是顺序输入中的位置,以及gydF4y2Ba\(一世\)gydF4y2Ba是模型的最后一个维度的指标。将得到的位置编码向量被添加到它的输入。通过这样的编码技术,相对位置信息可以由模型来获知因为对于任何固定的偏移gydF4y2Ba\(K \)gydF4y2Ba,gydF4y2Ba\(PE _ {{\左({POS + K} \右)}} \)gydF4y2Ba可以代表gydF4y2Ba\ (PE_{{\离开({pos, 2我}\右)}}因为\离开({10000 ^ {2 k / d}} \右)+ PE_{{\离开({pos、2 + 1}\右)}}罪\离开({10000 ^ {2 k / d}} \) \)gydF4y2Ba,这是的线性组合gydF4y2Ba\(pe _ {{\ left({pos} \右)}}} \)gydF4y2Ba.同样,这也适用于尺寸gydF4y2Ba\(2i + 1 \)gydF4y2Ba也是。gydF4y2Ba

单注意模块设计为代表不同地区的重要性,与顺序输入一起,而成对注意模块旨在参加每对跨连续输入位置之间的重要性。我们预计,在建筑这种差异将有助于提高模型以互补的方式学习能力。gydF4y2Ba

我们测试了典型的超参数(学习率,网络深度,辍学率)和特定于我们模型的超参数(注意重量的维度,合并在训练中的两个输出分数)的超参数配置。在表S2中概述了HyperParameters的完整描述及其可能的选项[查看其他文件gydF4y2Ba1gydF4y2Ba].我们为每个TF训练一个型号,总共产生12个型号。单个和成对注意模块将始终使用相同的配置而不是培训。gydF4y2Ba

有51676736个箱总在标签训练染色体,导致gydF4y2Ba\(51676736 \ times n \)gydF4y2Ba每个TF,其中潜在的训练样本gydF4y2Ba\ (n \)gydF4y2Ba可用细胞类型培训的数量。由于有限的计算能力,我们使用了迭代训练过程。在训练期间,训练数据是所有阳性的(标记为“B”)与下采样底片该混合物(标为“U”)[gydF4y2Ba17.gydF4y2Ba].在深入学习的传统模型培训中,所有输入数据都用于为每个时期更新模型权重。然而,这在我们的任务中不适用,因为阴性样本(区域不与TFS结合)比阳性样本更加丰富(区域与TFS的区域),并且在一个时代中使用所有阴性样品以以来它们的数量非常庞大(因为它们涵盖了大多数人类基因组)。因此,在模型训练期间的每个时期中,我们首先使用与所有阳性样品的数量成比例的数字样本,并将这些阴性样品与所有阳性样品结合起来进行训练。我们将重新采样负块并启动另一轮模型培训(下一个时代)。为了使培训过程更有效,我们使用不同的策略来为具有大量正标签(CTCF,FOXA1,HNF4A,Max,Rest和Jund)产生阳性训练样本。对于这些TFS,我们将来自每个芯片SEQ峰值的200-BP区域随机地对窄峰值数据中的作为训练的正面示例,而不是使用每个时代中的所有正样品。我们使用adam [gydF4y2Ba38.gydF4y2Ba]优化器与二进制交叉熵作为损失函数。时代的默认数量设置为60,但该培训将如果在验证auPRC没有改善连续五年时期提前终止。有关数据检索,训练,预测,并与我们的程序可视化的详细说明,请参见附加文件gydF4y2Ba2gydF4y2Ba.gydF4y2Ba

结果gydF4y2Ba

评估数据的整体基准测试gydF4y2Ba

我们列出了我们模型的表现为梦想挑战中使用的四个指标(表gydF4y2Ba1gydF4y2Ba)并将它们与在编码梦想挑战的最终排行榜中的前四个团队中的统一分数进行比较(表gydF4y2Ba2gydF4y2Ba).每个TF和单元类型的统一分数基于每个度量标准的等级,并计算为:gydF4y2Ba\(\总和LN \左({R / \左(6 \右)} \右){} \)gydF4y2Ba在哪里gydF4y2Ba\ (r \)gydF4y2Ba为一个特定的性能测量的方法的秩(AUROC,auPRC,回想一下在50%FDR和调出在10%的FDR)。因此,较小的分数代表性能越好。用于评估所述TFS,染色体,和细胞类型相同那些用于最终排名。DeepGRN通常达到AUROC分数98%以上的大部分TF /细胞类型对,达到低。gydF4y2Ba

表1 DeepGRN的具有四个度量的性能在DREAM挑战使用gydF4y2Ba
表2 DeepGRN的统一评分和顶部四种算法中DREAM挑战gydF4y2Ba

作为HNF4A /肝97.1%。auPRC的得分具有更广泛的值范围,从对E2F1 / K562 40.4%为CTCF / iPSC集90.2%。gydF4y2Ba

对于每个TF和细胞型组合,我们的注意模型在69%(9/13)的预测目标上具有比锚的更好的性能[gydF4y2Ba39.gydF4y2Ba],比FactorNet [gydF4y2Ba17.gydF4y2Ba],85%(11/13)比湿胸衣[gydF4y2Ba7gydF4y2Ba]和77%(10/13)比Captitt [gydF4y2Ba40gydF4y2Ba].在基准测试的所有方法中,我们的方法在13个靶标中的7个中排名最高(CTCF / IPSC,FOXA1 /肝,FOXA2 /肝,GABPA /肝,HNF4A /肝脏,纳米/ IPSC和REST / LIVER),其中所有TF / Cell-Types对的最佳平均分数(0.31)(表gydF4y2Ba2gydF4y2Ba).gydF4y2Ba

为了精确地评估deepGRN下的ENCODE DREAM挑战的限制能力,我们还比较deepGRN的性能使用的挑战有四个可用的功能提供的数据集的培训:基因组序列特征,DNA酶-SEQ和RNA-Seq的数据。结果列于表S3和S4。DeepGRN仍然获得了最高的排名中有6个13个指标,可在所有目标的最佳统一平均得分(0.33)。我们还比较我们的模型,而无需使用四个挑战特征的关注组件的结果。我们建立了使用相同的架构deepGRN模型这些模型,除了关注部件和相同的超参数选择过程训练他们。结果如图2所示。gydF4y2Ba2gydF4y2Ba.受关注机制的深度始终不受AUPRC度量的13个目标中的11个,从目标休息(0.168)中最大的差异。gydF4y2Ba

图2gydF4y2Ba
图2.gydF4y2Ba

与注意机制的深度学习模型比较gydF4y2Ba

两个注意力模块之间的性能比较gydF4y2Ba

除了与挑战中的前4种方法的比较外,我们还基准测试单个和成对注意模块的个性性能(表S5,见附加文件gydF4y2Ba1gydF4y2Ba).总的来说,从单一注意模块中提取的结果具有相似的性能。13对TF和细胞型对中,单注意模组在6个靶区有较高的auROC,双注意模组在3个靶区有较高的auROC。其余的目标都是相同的。该模型的最终输出是这两个模块的平均集合,它在13个目标中的10个中优于任何单个注意模块(表)gydF4y2Ba1gydF4y2Ba).最大的改进来自合奏(如auPRC)来自FOXA2(0.34),休息(0.09)和FOXA1(0.09)。我们还发现,这两个关注组件的性能在所有四个性能指标在所有TF和细胞类型相同的变化趋势(图gydF4y2Ba3.gydF4y2Ba),这表明从特征中学习的能力是在两个模块之间的相干。gydF4y2Ba

图3.gydF4y2Ba
图3.gydF4y2Ba

单间两两注意机制的性能对比。各个模块的输出的每个TF和细胞类型对的性能示于4项措施:(AUROC,auPRC,召回在50%FDR和调出在10%的FDR)。ρ:Pearson相关系数,σ:斯皮尔曼相关系数gydF4y2Ba

我们评估之间的单和配对注意机制各要素的重要性。对于每个目标的预测中,我们设置每个顺序特征(DNA酶SEQ,序列,或唯一)的值至零,或随机地切换矢量的顺序为一个非顺序特征(基因组元件或RNA-SEQ).auPRC从这些新的预测的降低被用作重要性分数的每个特征(图的。gydF4y2Ba4gydF4y2Ba).我们发现,在所有TF和细胞类型中,序列特征的平均重要性得分最大:DNase-Seq(0.36)、DNA序列(0.21)和35 bp唯一性(0.21),而其他特征的得分要小得多。同样的趋势也在使用个体单注意模块和成对注意模块时被发现。gydF4y2Ba

图4.gydF4y2Ba
图4.gydF4y2Ba

单双和成对注意机制之间的重要性重点。表示Auprc的减少而不使用用于预测的特定特征的值。负值表示Auprc的增加gydF4y2Ba

用DNASE-SEQ和CHIP-SEQ解释注意评分gydF4y2Ba

在单注意模块中,输出是注意层输入的加权和,注意分数作为权重。这些分数描述了输入特征的重要性与其在顺序输入中的相对位置之间的统一映射。分析之间的关系关注重量和TF绑定事件的位置,我们提取注意分数从单一关注模块转发链和反向互补链和比较它们与相应的规范化ChIP-Seq褶皱变化在同一地区,预计积极(分数> 0.5)。类似地,我们计算了相同输入区域的显著性得分(实现细节在附加文件中描述gydF4y2Ba1gydF4y2Ba).我们发现,两个DNA链上的注意评分比显着分数更高的相关性(ρ= 0.90,σ= 0.79)(ρ= 0.78,σ= 0.51)(图。gydF4y2Ba5gydF4y2Baa,b)。在所有TF和细胞类型对中,我们发现注意重量与归一化芯片-SEQ折叠之间存在正相关(图。gydF4y2Ba5gydF4y2Bac)中,并且这种关系并不显着性在全球范围内的分数检测(图gydF4y2Ba5gydF4y2Bad)。对于基准数据集中的所有TF和单元格类型,我们选择至少四个不同的基因组区域,该区域在每个目标中具有清晰的芯片-SEQ峰值信号进行演示。我们表明,平均注意力重量更加注重每个细胞类型的实际绑定区域,以及这些聚焦点以及TF绑定信号的偏移(参见附加文件gydF4y2Ba3.gydF4y2Ba).gydF4y2Ba

图5.gydF4y2Ba
图5.gydF4y2Ba

分析注意力和显着性评分。(gydF4y2Ba一个gydF4y2Ba)正链和反链注意力权重散点图。(gydF4y2BabgydF4y2Ba)从正链和反链的显着性得分的散点图。(gydF4y2BacgydF4y2BaChink-SEQ折叠的散点图变化,平均注意力来自两个股线。Z分数转换应用于两个轴。(gydF4y2BadgydF4y2Ba)注意力/显着性分数与芯片-SEQ折叠变化之间的相关性分布。虚线表示每个组的平均值。使用Wilcoxon签名秩测试计算p值。逆转股线上的注意重量和显着性分数在绘制之前逆转。ρ:Spearman相关系数,σ:Pearson相关系数。归一化芯片-SEQ折叠变化和标准化显着性分数之间的相关性为0.40(Spearman)和0.49(Pearson)gydF4y2Ba

由于基因组的可访问性在TF结合中发挥着重要作用,因此预计可以找到可公开可接近区域的高DNase覆盖,这些区域可以解释芯片-SEQ实验检测到的结合事件。我们对具有高DNASE-SEQ峰的地区进行了基因组分析,用于转录因子jund的单一注意力模块,这是DNASE-SEQ最易感的靶标之一。我们说明了来自真正阳性的标准化DNase覆盖值的分布,无需注意,无需注意为假阳性的真实底片(图。gydF4y2Ba6gydF4y2Ba).结果表明,仅受关注模型识别的真实阳性通常具有比两种模型所识别的DNA族覆盖率较小。该观察结果表明,关注模型的预测性改进可能是由于在更具信息丰富的DNASE-SEQ覆盖范围内引起的,同时忽略阴性样本中的不相关区域。gydF4y2Ba

图6.gydF4y2Ba
图6.gydF4y2Ba

不同地区的平均归一化DNase覆盖值的分布与JUND的输入。通过我们培训的两个模型的预测由真正的正标签评估。然后基于由两个模型分类的频率计算平均归一化DNASE覆盖率gydF4y2Ba

主题检测过的高度重视分数的区域gydF4y2Ba

对于那些没有明显的DNase-SEQ峰的那些阳性样品,基因组序列的模式是成功预测的关键信息。要测试注意力重量的能力,以识别有助于与基因组序列的结合事件有助于结合事件的主题,我们使用类似于深度的方法[gydF4y2Ba13.gydF4y2Ba].对于每个TF训练的模型,我们首先获取测试数据集中所有正bins的注意力权重最大列和的相对位置上的坐标,并在每个坐标周围提取长度为20 bp的子序列。为了排除从DNase-Seq信号模式中容易分类的样本,我们只选择没有显著覆盖峰值(最高分数与平均分数之间的比率< 15)的阳性bins。然后我们运行FIMO [gydF4y2Ba41.gydF4y2Ba],以检测相关的模型中的JASPAR数据库中的TF已知基序gydF4y2Ba42.gydF4y2Ba].从所提取的子序列,我们发现在预测在预测FOXA1 /肝细胞CTCF /诱导多能干细胞和MA0148.4(FOXA1)基序MA0139.1(CTCF)。数字gydF4y2Ba7gydF4y2Baa和b示出了从子序列和实际的已知的基序基序重修的序列标志之间的比较。我们还绘制包含这些序列(图样本的关注分数。gydF4y2Ba7gydF4y2BaC,F)和区域中的区域中的区域的相对位置(图。gydF4y2Ba7gydF4y2Bad,g)。此外,我们表明,这些最大注意力重量不通过符合键合的图案区域附近的DNASE-SEQ峰值,因为没有从相同区域中的归一化DNase分数检测类似的模式(图。gydF4y2Ba7gydF4y2Bae,h)。我们说明了图S3中单个注意模块中的类似趋势[查看附加文件gydF4y2Ba1gydF4y2Ba].gydF4y2Ba

图7.gydF4y2Ba
图7.gydF4y2Ba

CTCF和FOXA1中通过成对注意模块学习到的已知主题和匹配主题的比较。(gydF4y2Ba一个gydF4y2Ba)从CTCF /诱导多能细胞预测(左)和图案MA0139.1 / CTCF(右)中检测到的子序列构建的序列徽标。(gydF4y2BabgydF4y2Ba)由FIMO中的MA0139.1 / CTCF的HITS选择从CTCF /诱导多能细胞预测中选择的样品的注意评分。(gydF4y2BacgydF4y2Ba)检测到的基序在(gydF4y2BabgydF4y2Ba).(gydF4y2BadgydF4y2Ba)归一化的DNA酶的SEQ分数的相同区域(gydF4y2BabgydF4y2Ba).(gydF4y2BaegydF4y2Ba)从子序列构建序列徽标FOXA1检测/肝细胞预测(左)和基序MA0148.4 / FOXA1(右)。(gydF4y2BafgydF4y2Ba)从FOXA1 /肝细胞预测选择与FIMO MA0148.4 / FOXA1的命中样品的注意力分数。(gydF4y2BaggydF4y2Ba)检测到的基序在(gydF4y2BafgydF4y2Ba).(gydF4y2BahgydF4y2Ba)(F)的同一区域中的标准化DNase-SEQ分数gydF4y2Ba

讨论gydF4y2Ba

注意机制在各种机器学习研究中是有吸引力的,并且在图像标题和自然语言处理任务中取得了卓越的性能[gydF4y2Ba37.gydF4y2Ba,gydF4y2Ba43.gydF4y2Ba].具有注意机制的经常性神经网络模型特别擅长输入数据的远程依赖性的任务。灵感来自这些作品,我们向TF绑定站点预测介绍了DNN模型的注意机制。gydF4y2Ba

使用ENCODE-DREAM Challenge数据集的基准测试结果表明,该模型的性能与目前最先进的方法相比具有一定的竞争力。值得一提的是,根据特征重要性分析,从我们的实验来看,DNase-Seq分数是注意机制中最关键的特征。在挑战之前,许多用于绑定站点预测的预测工具,如DeepBind或TFImpute,都无法利用DNase-Seq数据,也不如我们在本研究中使用的四种基准测试方法合适。然而,我们在本研究中进行基准测试的方法与这些现有工具共享类似的概念(例如,FactorNet使用与TFImpute类似的架构构建,并提供对DNase-Seq数据的额外支持),并可能反映出它们使用相同功能集的潜力。gydF4y2Ba

注意权重模型所学到提供一种替代的方法来探索输入比显着图等输出之间的依赖关系。通过与关注权重比较真实的ChIP-Seq的倍数变化的山峰,我们表明,当倍数变化峰沿着DNA序列移动关注权重如何转移。我们还表明,我们的注意力模型有来自与特定转录因子称为主题学习能力。gydF4y2Ba

由于DREAM Challenge的规则,我们在这个作品中只使用非常有限的功能类型。然而,如果有更多类型的特征(如序列保存或表观遗传修饰)可用,它们可能被转换为序列格式,并可能通过我们的注意力结构进一步提高预测性能。注意力机制本身也在迅速发展。例如Transformer引入的多头关注[gydF4y2Ba37.gydF4y2Ba]显示,在不依赖于任何经常性或卷积层的情况下,可以通过注意力来学习高级功能。我们预计对TF结合的更好预测也可能受益于这些新颖的深度学习架构,以准确性和功效。gydF4y2Ba

结论gydF4y2Ba

在本研究中,我们提出了一种新的工具(DeepGRN),它将注意力机制与基于cnn - rnn的架构相结合。结果表明,我们的模型与挑战排行榜上排名前4的方法相比具有竞争性。我们证明,我们模型中的注意模块有助于解释来自不同类型输入特征的关键模式是如何被识别的。gydF4y2Ba

可用性和需求gydF4y2Ba

  • 项目名称:DeepGRNgydF4y2Ba

  • 项目主页:htt欧宝直播官网appps://github.com/jianlin-cheng/DeepGRN。gydF4y2Ba

  • 操作系统(S):在Linux,Mac OS,Windows操作系统。gydF4y2Ba

  • 编程语言:Python,R.gydF4y2Ba

  • 其他要求:Python版本3.6.0或更高,R版本3.3.0或更高。gydF4y2Ba

  • 许可:GNU GPL。gydF4y2Ba

  • 对非学者使用的任何限制:没有。gydF4y2Ba

可用性数据和材料gydF4y2Ba

本研究中使用的数据集和DeepGrn的源代码可用gydF4y2Bahttps://github.com/jianlin-cheng/DeepGRNgydF4y2Ba.gydF4y2Ba

缩写gydF4y2Ba

TF:gydF4y2Ba

转录因子gydF4y2Ba

bi-lstm:gydF4y2Ba

双向长期内记忆gydF4y2Ba

DNASE-SEQ:gydF4y2Ba

的DNase I高敏位点的测序gydF4y2Ba

芯片SEQ:gydF4y2Ba

染色质免疫沉淀测序测序gydF4y2Ba

参考文献gydF4y2Ba

  1. 1。gydF4y2Ba

    Hobert O.转录因子和MicroRNA的基因调节。科学。2008; 319(5871):1785-6。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  2. 2。gydF4y2Ba

    Mehta P,Schwab D,Sengupta A.使用隐马尔可夫模型进行转录因子结合位点发现的统计制。j stat phys。2011; 142(6):1187-205。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  3. 3.gydF4y2Ba

    Mathelier A,沃瑟曼WW。下一代转录因子结合位点的预测。PLOS计算BIOL。2013; 9(9):e1003214。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  4. 4.gydF4y2Ba

    皮克-注册查询R,德格纳JF,排AA,Gaffney的DJ,吉拉德Y,Pritchard的JK。转录因子的DNA序列和染色质的无障碍的数据绑定的准确推断。Genome Res。2011; 21(3):447-55。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  5. 5。gydF4y2Ba

    周TY,Shen N,Yang L,Abe N,Horton J,Mann Rs,Bussemaker HJ,Gordan R,RoHS R.使用DNA形状的转录因子结合特异性的定量建模。P Natl Acad Sci USA。2015; 112(15):4654-9。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  6. 6。gydF4y2Ba

    乔尔杰维茨男,森古普塔AM,Shraiman BI。生物物理的方法来转录因子结合位点的发现。Genome Res。2003; 13(11):2381-90。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  7. 7。gydF4y2Ba

    KeilwagenĴ,POSCH S,的细胞类型特异性转录因子结合格劳J.准确的预测。基因组Biol。2019; 20(1):9。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  8. 8。gydF4y2Ba

    小Y,西格尔MR。采用多元随机森林酵母转录调控网络的鉴定。PLOS计算BIOL。2009; 5(6):e1000414。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  9. 9。gydF4y2Ba

    Hooghe B,Broos S,范·罗伊楼德Bleser P.灵活的综合方法基于随机森林改善转录因子结合位点的预测。核酸RES。2012; 40(14):E106-E106。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  10. 10。gydF4y2Ba

    Sherwood RI, Hashimoto T, O 'Donnell CW, Lewis S, Barkal AA, van Hoff JP, Karun V, Jaakkola T, Gifford DK。通过建模dna酶谱大小和形状发现定向和非定向的先驱转录因子。生物科技Nat》。2014;32(2):171 - 8。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  11. 11.gydF4y2Ba

    曾先曾荫权,刘克,吉福德DKJB。用于预测DNA蛋白结合的卷积神经网络架构。生物信息学。2016; 32(12):I121-7。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  12. 12.gydF4y2Ba

    周Ĵ,Troyanskaya OG。非编码预测深学习型序列模型变量的影响。NAT方法。2015; 12(10):931-4。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  13. 13。gydF4y2Ba

    Alipanahi B,Delong A,Weirauch Mt,Frey Bj。预测的深学习DNA和RNA结合蛋白的序列特异性。NAT BIOTECHNOL。2015; 33(8):831-8。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  14. 14。gydF4y2Ba

    Kalkatawi男,马加纳-莫拉A,Jankovic的B,Bajic VB。DeepGSR:用于识别基因组信号和区域的优化的深学习结构。生物信息学。2019; 35(7):1125至1132年。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  15. 15.gydF4y2Ba

    广d,解X. DanQ:用于定量DNA序列的功能的混合卷积和复发性深神经网络。核酸RES。2016; 44(11):E107-E107。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  16. 16。gydF4y2Ba

    Hassanzadeh HR,王M. DeeperBind:DNA结合蛋白的序列特异性的增强预测。在:生物信息学和生物医学(BIBM)IEEE国际会议:2016年178-183。gydF4y2Ba

  17. 17。gydF4y2Ba

    广d,解X. FactorNet:用于预测细胞类型特异性转录因子从核苷酸分辨率顺序数据结合深学习框架。方法2019。gydF4y2Ba

  18. 18。gydF4y2Ba

    鲁松M-T,PHAM H,Manning CD。基于关注的神经机翻译的有效方法。在:2015年度自然语言处理中的实证方法会议的会议记录gydF4y2Ba:2015年gydF4y2Ba.gydF4y2Ba

  19. 19。gydF4y2Ba

    王Y,黄M,Zhao L:基于关注的LSTM,用于方面情绪分类。在:2016年自然语言处理的实证方法会议上的会议:2016. 606-615。gydF4y2Ba

  20. 20。gydF4y2Ba

    周鹏,石瓦,天Ĵ,齐Z,李斌,郝H,徐B.对关系分类基于注意双向长短期记忆网络。在gydF4y2Ba:gydF4y2Ba2016年8月;德国柏林。计算语言学协会:207-212。gydF4y2Ba

  21. 21。gydF4y2Ba

    Tran N-T,Luong V-T,Nguyen NL-T,Nghiem M-Q:具有双向短期内存的句子压缩的基于句子压缩的有效关注的神经架构。在:第七届信息和通信技术研讨会的诉讼程序;胡志明市越南。3011111:ACM 2016:123-130。gydF4y2Ba

  22. 22。gydF4y2Ba

    Singh R,Lanchantin J,Sekhon A,Qi Y.参加并预测:了解染色质的选择性注意力。adv神经户流程系统。2017; 30:6785-95。gydF4y2Ba

    PubMed.gydF4y2Bapmed中央gydF4y2Ba谷歌学术gydF4y2Ba

  23. 23。gydF4y2Ba

    沉Z,保W,黄d-S。递归神经网络预测转录因子结合位点。SCI代表2018; 8(1):15270。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  24. 24。gydF4y2Ba

    利用注意机制提高转录因子结合位点预测的可解释性。Sci众议员2020;10(1):13413。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  25. 25。gydF4y2Ba

    Eraslan G, Avsec Ž, Gagneur J, Theis FJ。深度学习:基因组学的新的计算模型技术。acta photonica sinica, 2019;20(7): 389-403。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  26. 26。gydF4y2Ba

    李QH,布朗JB,黄HY,比克尔PJ。测量的高通量实验重复性。Ann appl stat。2011; 5(3):1752至1779年。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  27. 27。gydF4y2Ba

    Sholtis SJ,努南JP。基因调控和人体生物独特的起源。趋势类型。2010; 26(3):110-8。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  28. 28。gydF4y2Ba

    Derrien T,Estelle J,Marco Sola S,Knowles DG,Raineri E,Guigo R,Ribeca P.基因组可用性的快速计算和应用。Plos一个。2012; 7(1):E30377。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  29. 29。gydF4y2Ba

    联盟EP。人类基因组中DNA元素的综合百科全书。自然。2012; 489(7414):57-74。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  30. 30.gydF4y2Ba

    Madrigal P,Krajewski P.目前的生物信息方法鉴定DNASE-SEQ数据的DNASE I过敏位点和基因组足迹的方法。前群体。2012; 3:230。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  31. 31.gydF4y2Ba

    拉米雷斯楼Dundar楼迪尔S,Gruning BA,曼科T. deepTools:探索深测序数据的灵活的平台。核酸RES。2014; 42:W187-191。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  32. 32。gydF4y2Ba

    Pollard Ks,Hubisz MJ,Rosenbloom KR,Siepel A.检测哺乳动物系统生成的非暴力替代率。Genome Res。2010; 20(1):110-21。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  33. 33。gydF4y2Ba

    陈晓东,于波,陈晓东,等。基于染色质可及性的转录因子结合位点的大规模推断。核酸学报2017;45(8):4315-29。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  34. 34。gydF4y2Ba

    穆勒Ĵ,Thyagarajan A.连体反复发作学习句子相似度架构。在:人工智能的第三十次会议AAAIgydF4y2Ba:2016年gydF4y2Ba.gydF4y2Ba

  35. 35。gydF4y2Ba

    秦Q,冯J.基于深度学习的转录因子绑定预测的归责。PLOS计算BIOL。2017; 13(2):E1005403。gydF4y2Ba

    文章gydF4y2Ba谷歌学术gydF4y2Ba

  36. 36。gydF4y2Ba

    Vaswani A,Shazeer N,Parmar N,Uszkoreit J,Jones L,Gomez An,KaiserŁ,Polosukhin I.注意是您所需要的。在:第31届神经信息处理系统国际会议的讨论;长滩,加利福尼亚,美国。Curran Associates Inc. 2017:6000-6010。gydF4y2Ba

  37. 37。gydF4y2Ba

    Vaswani A,Shazeer N,Parmar N,Uszkoreit J,Jones L,Gomez An,KaiserŁ,Polosukhin I.注意是您所需要的。在:神经信息处理系统的进步gydF4y2Ba:2017年gydF4y2Ba.5998-6008。gydF4y2Ba

  38. 38。gydF4y2Ba

    Kingma DP,BA J:亚当:随机优化的方法。cor,abs / 1412.6980。gydF4y2Ba

  39. 39。gydF4y2Ba

    李H,Quang D,Guan Y.锚点:转录因子结合位点的跨细胞类型预测。Genome Res。2019; 29(2):281-92。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  40. 40。gydF4y2Ba

    训练细胞类型的预选提高转录因子结合位点预测gydF4y2Ba

  41. 41.gydF4y2Ba

    通过期望最大化拟合混合模型发现生物聚合物中的基序。Proc Int Conf Intell Syst Mol Biol. 1994; 2:28-36。gydF4y2Ba

    CASgydF4y2BaPubMed.gydF4y2Ba谷歌学术gydF4y2Ba

  42. 42.gydF4y2Ba

    Khan A,Fornes O,Stigliani A,Gheorghe M,Castro-Mondragon Ja,Van der Lee-R,Bessy A,Cheneby J,Kulkarni SR,Tan G等。JASPAR 2018:更新转录因子绑定配置文件及其Web框架的开放访问数据库。核酸RES。2018; 46(D1):D260-6。gydF4y2Ba

    CASgydF4y2Ba文章gydF4y2Ba谷歌学术gydF4y2Ba

  43. 43.gydF4y2Ba

    杨Z,杨D,染料C,HE X,Smola A,Hovy E.文件分类的分层关注网络。在:2016年北美北美章节会议上的计算语言学协会会议:人类语言技术:gydF4y2Ba2016年gydF4y2Ba.1480-1489。gydF4y2Ba

下载参考gydF4y2Ba

致谢gydF4y2Ba

我们要感谢ENCODE-DREAM活体转录因子结合位点预测挑战赛的组织者。gydF4y2Ba

资金gydF4y2Ba

该工作得到了NSF授予(IOS1545780和DBI1149224)和美国能源部(DOE)授予“深绿色:保守的未经发布的绿色谱系蛋白的结构和功能基因组特征”(DE-SC0020400)。资助者(NSF和DOE)在进行这项研究方面不会发挥作用。gydF4y2Ba

作者信息gydF4y2Ba

隶属关系gydF4y2Ba

作者gydF4y2Ba

贡献gydF4y2Ba

JC构思项目。CC和JH设计实验。CC实现的方法和得出的结果。CC,JH,XS,HY和JB写的稿子。所有作者编辑和批准的手稿。gydF4y2Ba

通讯作者gydF4y2Ba

对应于gydF4y2Ba江林程gydF4y2Ba.gydF4y2Ba

伦理宣言gydF4y2Ba

伦理批准和同意参与gydF4y2Ba

不适用。gydF4y2Ba

同意出版gydF4y2Ba

不适用。gydF4y2Ba

相互竞争的利益gydF4y2Ba

提交人声明他们没有利益冲突。gydF4y2Ba

附加信息gydF4y2Ba

出版商的注意事项gydF4y2Ba

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。gydF4y2Ba

补充信息gydF4y2Ba

附加文件1。gydF4y2Ba

补充数字和表格。包括正文中提到的所有补充图表。gydF4y2Ba

额外的文件2。gydF4y2Ba

DeepGrn的培训,预测和可视化数据的说明。包括数据检索,培训,用DeepGrn预测和主文本中使用的可视化脚本的实现细节。gydF4y2Ba

额外的文件3。gydF4y2Ba

芯片-SEQ峰值和注意重量之间的关系可视化。对于每个基因组区域,左侧的曲线表示注意重量,右侧的曲线表示相同区域的芯片SEQ信号折叠变化的富集。由于卷积和汇集层减小了注意力的长度,因此它们的长度小于折叠变化值。因此,该图在X轴上对齐,以表示折叠变化的相对位置和平均注意力。gydF4y2Ba

权利和权限gydF4y2Ba

开放访问gydF4y2Ba本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览gydF4y2Bahttp://creativecommons.org/licenses/by/4.0/gydF4y2Ba.Creative Commons公共领域奉献豁免(gydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/gydF4y2Ba)适用于本文中提供的数据,除非另有用入数据的信用额度。gydF4y2Ba

重印和权限gydF4y2Ba

关于这篇文章gydF4y2Ba

通过Crossmark验证货币和真实性gydF4y2Ba

引用这篇文章gydF4y2Ba

陈,C.,侯,J.,石,X.gydF4y2Ba等等。gydF4y2BaDeepGRN:转录因子使用注意基于深层神经网络结合整个细胞类型网站的预测。gydF4y2Ba欧宝娱乐合法吗22,gydF4y2Ba38(2021)。https://doi.org/10.1186/s12859-020-03952-1gydF4y2Ba

下载引用gydF4y2Ba

关键词gydF4y2Ba

  • 转录因子gydF4y2Ba
  • 注意机制gydF4y2Ba
  • DNA结合位点预测gydF4y2Ba
\gydF4y2Ba