跳到主要内容

一种半监督的深度学习方法,用于预测基因组非编码变化的功能效应

抽象的

背景

理解非编码变异的功能影响是重要的,因为它们往往与基因表达的改变和疾病的发展有关。在过去的几年里,人们开发了许多计算工具来预测它们的功能影响。然而,由于数据的稀缺性难以处理,因此需要对算法进行进一步的改进。在本研究中,我们提出了一种新的方法,采用带有伪标签的半监督深度学习模型,利用实验标注和未标注数据的学习优势。

结果

我们在GM12878,HepG2和K562细胞系中制备了具有组蛋白标记,DNA可访问性和序列上下文的已知功能性非编码变体。将我们的方法应用于DataSet,与现有工具相比,其表现出色。我们的结果还表示,具有伪标签的半监督模型比没有伪标签的监督模型实现更高的预测性能。有趣的是,在某种细胞系中培训的数据培训的模型不太可能在其他细胞系中成功,这意味着非编码变体的细胞类型特性。值得注意的是,我们发现DNA可访问性显着导致变体的功能后果,这表明在建立非编码变体与基因调节的相互作用之前开放染色质构象的重要性。

结论

与伪标签相结合的半监督深度学习模型在与有限的数据集中学习的优势,在生物学中并不罕见。我们的研究提供了一种有效的方法,寻找可能与各种生物现象有关的非编码突变,包括人类疾病。

背景

众所周知,超过95%的人类基因组是不编码蛋白质的非编码DNA序列[1].最近,许多研究发现这些非编码序列在生物学中发挥不可或缺的作用。例如,基因组 - 宽协会研究发现,大多数与人类疾病相关的变体基因座(88%)位于非编码区中,并以组织或细胞类型特异性方式调节基因调节[2].一些非编码突变引入转录因子结合位点的增益和丧失[3.[诸如DNA元素的百科(编码)等​​大型项目研究的表观胸肉修饰[4.]和路线图表观囊[5.[是否与与疾病和特征相关的非编码变体共存。

为了理解非编码遗传变异的功能后果,许多研究人员利用了独特的解释特征和所提出的计算工具。例如,fun_lda [6.]是一个无人监督的潜在Dirichlet分配模型和Genoskyline [7.]采用双分量概率混合模型进行训练。这两种方法通过组蛋白修饰和DNase I超敏反应计算预测评分。特征(8.]适用一个无监督的谱学习方法和deltasvms [9.]是由GKM-SVM分类器导出的支持向量机(SVM),用于有效预测监管变体。CADD [10.],一种线性内核SVM算法和DANN [11.[深度学习模型,利用相同的特征彼此设置。深海 [12.[基于深度学习的框架,从非编码区域中的序列模式学习,以预测特异性染色质谱。

在过去的几年中,上述的无监督机器学习和深度学习(DL)方法已经成功地应用于这一问题。然而,这些方法依赖于输入数据集,难以适应其数据规模的增长[13.].在这种情况下,许多进行的艰苦实验忽略了实验验证的非编码变体的数量与全基因组的数百万变种相比要少得多。

在本研究中,我们提出了一种新的方法,采用具有伪标签的半监督DL模型。为了克服可用数据的稀缺性,我们的方法利用标记和未标记的数据学习。此外,我们利用从非编码变体的基因组区域观察到的表观遗传注释和序列特征,以推断出功能后果的重要因素。

结果

建议的DL模型的整体结构

最近,半监督学习(SSL)已被广泛研究,并在各种研究领域变得更加流行[14.15.16.].特别是,已经证明了在训练期间提供用于未标记的大型数据的高质量伪标签的SSL,以允许神经网络制作更自信的预测[17.18.19.].在其优势中,我们开发了一种SSL模型,用于分析在150-BP基因组区域中的遗传和表观遗传签名,其中发生非编码突变,如图2所示。1

图。1
图1

本研究中使用的深神经网络概述。一种由非编码变体基因座为中心的150-BP区域的序列编码图。B.我们网络架构的示意图。FC,完全连接

作为我们DL神经网络的输入,由任何非编码变型轨迹为中心的150-BP区域的核苷酸由二进制载体表示,如称为一个热编码(图。1一种)。同时,由三个评分功能(即峰值,最大和和)进行评分,测量10个组蛋白富集和DNase灵敏度的150-BP区域。还测量了10种不同类型的核苷酸组合物。这些表观遗传和核苷酸组合物特征与我们的神经网络结构中的最大池功能的输出倾斜(图。1b)。

预测性能对我们的模型和引人的影响特征

为了测试我们方法的可行性,我们下载了人体细胞系(GM12878,HepG2和K562)中已知的非编码变体基因座[20.].由于这些细胞系已经广泛测定了编码,因此我们可以访问大规模的基因组和表观胶质数据,其可用于在基因组规模上表征基因座。

首先,我们调查了输入特征映射的景观。在K562细胞系中,表观遗传标记的最大和总和分数显示出广泛的分布范围,它们的图案彼此大大相似(图。2一种)。这些评分与非编码变体的分布类似地相关,非编码变体的分布在核苷酸组合物特征中未观察到(图。2b)。有趣的是,DNase敏感性的特征与所有情况下的非编码变体强烈相关。接下来,我们使用表中所示的数据集评估模型的性能1。结果,尽管其在GM12878中的AUC中的性能达到0.75,但细胞系中没有观察到剧烈差异(图。2C)。

图2
图2.

专题分布与我们深层学习模式的预测性能。一种图表显示在预处理K562后输入特征图中的每个分数的分布。B.每种特征向量的Pearson相关性与K562中非编码变体标签的相关性。CROC曲线显示我们的模型的性能。D.AUC值显示我们的模型与GM12878中的每个分组功能的性能。TPR真正的阳性率,FDR.假发现率,AUCROC(接收器操作特征)曲线下的区域,组I.增强剂上的组型标记,第II族启动子上的组蛋白标记,第三组结构组蛋白标记,第四组异铬胺组蛋白标记,第五组转录基因体上的组蛋白标记,组VI.DNA酶I敏感性测定DNA可访问性

表1三种人细胞系中的实验标记的非编码变体基因座

要检查哪些功能对性能有更多的贡献,我们将表观遗传特征分为6个功能类别;(i)增强剂:H3K4ME1和H3K27AC,(II)启动子:H3K4ME2,H3K4ME3和H3K9AC,(III)结构标记:H3K36ME3和H3K79ME2,(IV)异铬酰胺:H3K9ME3,H3K27ME3,(V)转录基因 - 体:H4K20ME1,和(VI)DNA可访问性:DNase I敏感性。如图1所示。2D,基于MAX-Score的模型,II组,II组和组VI中的每一个显示出更高的AUC值,与图1中的Pearson相关的分布一致。2b.值得注意的是,DNA可及性(即组VI)在很大程度上影响了表现。相比之下,基于核苷酸的特性,如GC-count,就没有那么有效了(附加文件1:图。S1),其中图1中的弱Pearson相关性。2B也可以解释这个结果。

携带在一起,表观遗传注释,特别是DNA可访问性,对K562中的功能性非编码变体的存在更具解释性。在GM12878和HEPG2中也观察到该结果(附加文件1:图。S2和图3. S3)。

与其他模型相比

我们将深度监督学习与伪标签(SSL_DNN)的深度神经网络进行了比较,具有七种现有的无监督模型;有趣的lda [6.], GenoSkyline [7.],eigen [8.], deltaSVM [9.], CADD [10.],丹南[11.和DeepSEA [12.].由于实现这些分类器的技术困难,我们从之前的研究中下载了他们对每个非编码变异位点的预测得分[20.[执行与分类器和三个细胞系的预测。通过将SSL_DNN应用于同一验证数据集,我们可以绘制AUC曲线并比较它们。结果,SSL_DNN表现出更高的AUC值;在GM12878中为0.75,HepG2中0.71,K562中为0.69(图。3.A-C)。

图3.
图3.

并与已有模型和监督模型进行了性能比较。一种ROC曲线在GM12878数据集中。B.ROC曲线在hepg2数据集中。CROC曲线在K562数据集中。D.AUC值显示所提出的模型的性能和在K562 DataSet中没有伪标签的监督模型。AUC,ROC(接收器操作特征)曲线下的区域;监督_DNN,深神经网络;SSL_DNN,DNN与伪标签的半监督学习;\({\ upalpha}(\ mathrm {t})\),丢失功能中的参数

接下来,我们将SSL_DNN与没有伪标签的监督深神经网络进行比较。他们的架构和运行参数完全相同,但监督模型只考虑了培训过程中的监督损失。如图1所示。3.D,虽然分类器在开始时显示了AUC值的类似增长趋势,但SSL_DNN逐渐获得更好的性能,因为时期在K562细胞系中增加。预期,由于SSL_DNN中的跨熵丢失函数仅构建标记丢失,因此两个分类器在开始时几乎是相同的算法,因为SSL_DNN中的跨熵丢失函数组成标记丢失[即\({\ upalpha} \ left(\ mathrm {t} \右)= 0 \)].当动态时间表\({\ upalpha}(\ mathrm {t})\)开始在交叉熵损失功能中加入未标记的损失,SSL_DNN的性能出色,这表明伪标签的积极贡献。

因此,我们确认所提出的模型在AUC值方面优于当前无监督的模型和监督员,而没有伪标签,利用实验证实的标记数据和大量未标记的数据。

预测特定细胞系的非编码变异

为了研究非编码变体的性质是否是特定于细胞类型或混杂的,我们用特定单元线的数据集训练了SSL_DNN,并预测了其他小区线的验证数据集。然后,我们使用AUC评估其性能以及准确性,总座位上的正确预测标签的分数。如图1所示。4.,该模型对未用于训练的其他细胞系的变异位点没有表现出令人满意的预测性能。这一结果表明,非编码变异参与细胞类型的规范,伴随着不同的变异位点和独特的组蛋白修饰。

图4.
装具

使用特定的细胞系数据集训练模型的性能,并使用其他细胞系的验证数据集通过AUC值(一种)和准确性值(B.)。条形标准表示五倍交叉验证中的标准误差,并通过双尾计算p值T.-测试;AUC,ROC(接收器操作特征)曲线下的区域;SSL_DNN,由伪标签的深度神经网络半监督学习

讨论

众所周知,伪标签有助于利用与未标记数据的地面真相的DL模型的预测,并且还使DL能够从未标记的数据学习。这种算法唯一性给出了一个新的窗口,以研究具有较少数量的实验证实数据和大量相关数据的各种生物现象。在这项研究中,我们开发了一种具有伪标签的半监控DL模型,以预测非编码变体的功能效果。

我们确认深度神经网络利用分配用于未标记数据的伪标签以及在培训过程中使用这些伪标签更新的标记数据。在尽可能建立公平的比较之后,与现有无监督的分类器和监督分类器相比,我们的方法突出,而不使用相同的设置下的伪标签。注意,我们在未标记的数据集中使用了不平衡的正数和否定数据(表2)。在向培训过程中添加不平衡的未标记数据时,我们的模型的性能变得高于监督分类器的性能(图。3.d)。该结果表明训练数据集的不平衡可能不会对SSL的性能产生负面影响,这需要进一步的详细研究。

表2从表中的基因座准备的培训和验证数据集1

通过对预测的影响特征的调查,我们发现反映了反射开放染色质的DNA可访问性[21.]是最不可或缺的特征(图。2)。该特征与功能性非编码变体的分布表现出相对较高的相关性。相反,基于核苷酸组合物的特征较小。重要的是,我们在某个细胞系中的数据集培训的模型不太可能成功地预测其他细胞系中的变体。这些结果表明,细胞型特异性表观遗传因子与开放染色质构象与功能性非编码变体相互作用。

我们在这里使用人细胞系中的实验注释和表观胶质数据,其允许进行我们的方法的验证和对基因组规模的非编码变化的表征。作为未来的作品,对人类疾病样本的广泛评估以及更加全面的注释所需的要求,这将为如何以及为什么非编码变异涉及疾病和特征的洞察。

结论

与伪标签相结合的半监督深度学习模型在与有限的数据集中学习的优势,在生物学中并不罕见。我们的研究提供了一种有效的方法来寻找可能与包括人类疾病的各种生物现象相关的非编码突变。

方法

准备数据集

我们在GM12878,Hepg2和K562细胞系中下载了非编码变体基因座及其标签从先前的研究中[20.]:为影响基因调节的正基位和标签0的标签1,对于与基因表达无关的负基因座(表1)。此外,我们下载了从编码的组蛋白修改和DNASE I的处理后的数据集。组蛋白芯片-SEQ数据包括H3K4ME1,H3K4ME2,H3K4ME3,H3K9Ac,H3K9ME3,H4K20ME1,H3K27AC,H3K27ME3,H3K36ME3和H3K79ME2。

生成特征向量

在用表观遗传标记检查非编码基因座的重叠之后,我们生成了三种类型的特征向量:(1)峰,1用于位于表观遗传标记的峰区域内的非编码变体基因座,为其他类型的轨迹;(2)最大,由非编码变体基因座为中心的150-BP区域内的最大浓缩分数;(3)总和,150-BP地区的丰富分数总和。我们计算了150-BP区域的核苷酸组合物:(4)单核苷酸计数,A_COUNT(腺嘌呤),T_COUNT(胸腺嘧啶),G_COUNT(鸟嘌呤)和C_COUNT(胞嘧啶);(5)二核苷酸计数,GC_COUNT,GT_COUNT和GA_COUNT;(6)歪斜,at_skew [\(=(\ mathrm {a} \ _ \ mathrm {count} - \ mathrm {t} \ _ \ mathrm {count})/ \ mathrm {at} \ _ \ mathrm {count}] \)和gc_skew [\ (= (\ mathrm {G} \ _ \ mathrm{数}- \ mathrm C {} \ _ \ mathrm{数})/ \ mathrm {GC} \ _ \ mathrm{数}];\)(7)歪斜的比例(= \(\ mathrm {gc} \ _ \ mathrm {skew} / \ mathrm {at} \ _ \ mathrm {skew})。\)此外,我们通过采用单热编码来编码150-BP区域的每个基础;[1,0,0,0]对于C,[0.0,1,0]的A,[0.1,0,0],以及G的[0,0,0,1]。

实施深度学习(DL)模型

我们的DL模型由两个卷积神经层组成,这些卷积神经层处理了具有150(序列长度)×4(一个热编码方法的尺寸)的代码矩阵。卷积层中的输出通道尺寸分别为2和4。第一卷积神经层使用(1×4)卷积器,没有填充物,用于从核苷酸词汇表中提取信息,而第二个卷曲的滤波器施加(2×4)滤光器和(2×1)升降步骤。我们使用辍学函数作为第三层。此功能随机为某些隐藏单元分配零,使它们在训练期间省略,这有助于最小化过度拟合[22.].我们使用了具有(2×2)的内核大小的最大池层,保留Windows中的最大值,并留下尺寸(4×1×72)的密集特征映射到下一层。我们还使用了Relu(Recifie线性单位)功能[23.[每个神经单元的激活方法。

我们的模型包括三个完全连接的(FC)层,其也称为致密层,分别为40,10和2的尺寸。通过将MAX池功能的输出与表观遗传和核苷酸组成特征的附加特征图连接来实现第一FC层的输入。我们将辍学功能和批量归一化函数添加到第一和第二FC层,为传入数据制作非线性变换[24.].在第三个FC层之后,我们应用了Relu激活功能。最终输出层由两个神经单元组成,其对应于两个分类的概率。

使用伪标签实现半监督DL模型

已经证明了具有伪标签的模型训练的概念,用于真正的未标记和大规模数据。简单地,预测\(\ widehat {{\ mathrm {y}} _ {l}} \)深度神经网络是由

$$ \ widehat {{\ mathrm {y}} _ {l}}:= \ mathrm {argmax} {\ mathrm {f}} _ {\ uptheta} {\ left({\ mathrm {x}} _ {\mathrm {i}} \ =}} _ {\ mathrm {j}},$$

在哪里\({\ mathrm {f}} _ {\ uptheta} \)是直接映射输入空间的函数\({\ mathrm {x}} _ {\ mathrm {i}} \)置信分数。输出是每个输入特征映射的二维向量。通过最小化交叉熵损耗来培训网络\(\ mathrm {l} \)给予

$$ \ mathrm {l} = {\ mathrm {l}} _ {\ mathrm {label}} + \ mathrm {\ alpha} {\ mathrm {l}} _ {\ mathrm {unlabel}},$$

在哪里\({\ upalpha} \)是通过考虑标记为未标记的条件的权衡来实现系数。这\({\ upalpha} \)在当前批次\(t \)由动态函数定义[23.];0\(t <{t} _ {1} \)\ \(压裂{{T T} _ {1}} {{T} _ {2} - {T} _ {1}} \)什么时候\({t} _ {1} ,否则1。

为了培训我们的深度神经网络,我们首先将标记的单元格数据集分为三个部分:标记和未标记的数据集进行培训,以及用于测试的验证数据集(表2)。为了使标记的数据集和验证数据集平衡,剩余的正座位少于未标记数据集中的负点。使用培训数据集,我们通过随机参数初始化执行迭代培训过程:通过监督丢失项监视标记数据集的进程,然后通过训练模型预测未标记的数据集。选择了二维输出矢量中最大预测概率的类作为培训模型的“真实”标签。然后,计算用于优化模型的跨熵损失。值得注意的是,在迭代期间未标记的数据的数量减少,因为具有最自信的伪标签的未标记数据被添加到标记的数据集中,以便在下一个时代使用。

参数设置

我们使用了随机梯度下降函数[25.]更新学习率的参数0.03。我们为标记和未标记的训练数据集设置了迷你批量大小,分别为验证数据集分别为16,32和20。选择机密伪标签的阈值为0.95。我们用了\ ({T} _ {1} = 100, {T} _ {2} = 600 \)

可用性数据和材料

从编码存储库下载组蛋白芯片-SEQ和DNASE I数据集https://www.encodeproject.org/:E116(GM12878),E118(HEPG2)和E123(K562)。处理后的结果可作为补充数据或根据要求提供。

缩写

AUC:

ROC曲线下的区域

DL:

深度学习

编码:

DNA元素百科全书

relu:

僵化线性单位

鹏:

接收器操作特征

ssl_dnn ::

伪标签深神经网络的半监督学习

SSL:

半监督学习

SVM:

支持矢量机器

参考

  1. 1。

    Lee H,等人。长不用RNA和重复元素:垃圾还是亲密的进化伙伴?趋势类型。2019年。https://doi.org/10.1016/j.tig.2019.09.006

    文章PubMed.pmed中央谷歌学术

  2. 2。

    Hindorff La,等。基因组关联基因座对人类疾病和特征的潜在病因和功能影响。Proc Natl Acad Sci USA。2009年。https://doi.org/10.1073/pnas.0903103106

    文章PubMed.谷歌学术

  3. 3。

    Khurana E等。非编码序列变异在癌症中的作用。Nat Rev Genet, 2016。https://doi.org/10.1038/nrg.2015.17

    文章PubMed.谷歌学术

  4. 4.

    Dunham I等人。人类基因组中DNA元素的综合百科全书。自然。2012年。https://doi.org/10.1038/nature11247

    文章谷歌学术

  5. 5。

    伯恩斯坦是等等。NIH路线图表述映射联盟。NAT BIOTECHNOL。2010年。https://doi.org/10.1038/nbt1010-1045

    文章PubMed.pmed中央谷歌学术

  6. 6。

    Backenroth D等。FUN-LDA:预测非编码变异的组织特异性功能效应的潜在Dirichlet分配模型:方法和应用。Am J Hum Genet. 2018。https://doi.org/10.1016/j.ajhg.2018.03.026

    文章PubMed.pmed中央谷歌学术

  7. 7。

    Lu Q,等。人类基因组中的综合组织特异性功能注释为许多复杂性状提供了新的洞察,提高了基因组宽协会研究中的信号优先级。Plos Genet。2016年。https://doi.org/10.1371/journal.pgen1005947

    文章PubMed.pmed中央谷歌学术

  8. 8。

    Ionita-Laza I等一种集成功能基因组注释的光谱方法,用于编码和非分量变体。NAT Genet。2016; 1:1。https://doi.org/10.1038/ng.3477

    CAS.文章谷歌学术

  9. 9。

    Lee D等人。一种预测DNA序列调节变体的影响的方法。NAT Genet。2015; 1:1。https://do.org/10.1038/ng.3331.

    CAS.文章谷歌学术

  10. 10。

    Kircher M等人。估计人遗传变异性相对致病性的一般框架。NAT Genet。2014年。https://doi.org/10.1038/ng.2892

    文章PubMed.pmed中央谷歌学术

  11. 11.

    quang d等人。DANN:一种深入学习方法,用于注释遗传变异的致病性。生物信息学。2015年。https://doi.org/10.1093/bioinformatics/btu703.

    文章PubMed.谷歌学术

  12. 12.

    周J,Troyanskaya OG。基于深度学习的序列模型的非分量变体预测效应。NAT方法。2015年。https://doi.org/10.1038/nmeth.3547

    文章PubMed.pmed中央谷歌学术

  13. 13。

    刘Q等。通过监督和无监督的学习策略的混合物互动和增量学习。PROC联合CONF SCI。2000; 1:555-8。

    谷歌学术

  14. 14。

    朱晓。半监督学习文献综述。技术报告1530,计算机科学,威斯康星大学麦迪逊分校。2005.

  15. 15。

    Joachims T.使用支持向量机的文本分类的转换推断。在:第20届机器学习会议的诉讼程序;2000. p。200-9。

  16. 16。

    Shental n等人。使用等效约束计算高斯混合模型。adv神经户流程系统。2004; 16:465-72。

    谷歌学术

  17. 17。

    李d-h。伪标签:深神经网络的简单有效半监督学习方法。在:ICML 2013研讨会:代表学习挑战;2013年。

  18. 18。

    iscen a等人。深度半监督学习的标签传播。在:计算机愿景和模式识别的IEEE计算机协会会议的诉讼程序;2019年。https://doi.org/10.1109/cvpr.2019.00521

  19. 19。

    李忠,等。基于伪标签的朴素半监督深度学习。见于:点对点网络和应用;2019年。https://doi.org/10.1007/s12083-018-0702-9

  20. 20.

    他z等。一种半监督方法,用于预测使用MPRAS的非编码变化的细胞类型特定功能后果。NAT Communce。2018年。https://doi.org/10.1038/s41467-018-07349-w

    文章PubMed.pmed中央谷歌学术

  21. 21。

    博伊尔AP等人。全基因组开放染色质的高分辨率测绘和表征。细胞。2008年。https://doi.org/10.1016/j.cell.2007.12.014

    文章PubMed.pmed中央谷歌学术

  22. 22。

    srivastava n等。辍学:防止神经网络过度装备的简单方法。J Mach Learn Res。2014; 15:1929-58。

    谷歌学术

  23. 23。

    Glorot X等人。深稀疏的整流器神经网络。J Mach Learn Res。2011; 15:315-23。

    谷歌学术

  24. 24。

    IOFFE S,Christian S. Batch Normalization:通过减少内部协变速转移加速深度网络培训。:32国际机器学习国际会议,ICML 2015;2015. p。448-56。

  25. 25。

    大型机器学习随机梯度下降。在:Compstat 2010-19届国际计算统计会议的诉讼程序;2010年。https://doi.org/10.1007/978-3-7908-2604-3-16

下载参考

致谢

超级计算机系统Shirokane在东京大学医学研究所人类基因组中心提供了计算资源。

关于这个补充剂

本文已作为一部分发布欧宝娱乐合法吗BMC生物信息学卷22补充6,2021:第19届生物信息学国际会议2020(INCOC2020)。补充的完整内容可在线提供//www.christinemj.com/articles/supplements/volume-22-supplement-6

资金

该研究得到了日本促进科学(JSP)Kakenhi(Grant No.19h03213)的支持。SJP由JSPS Kakenhi(授予No.20K06606)提供支持。融资机构在研究的设计或执行方面没有直接角色。

作者信息

从属关系

作者

贡献

KN构思和设计了这项研究。HJ和KN设计并进行了所有分析。HJ,SJP和KN起草了手稿。所有作者阅读并认可的终稿。

相应的作者

对应于肯塔塔纳凯

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1.图S1

:AUC值,显示我们的模型的性能与K562中的每个分组功能,以便测试在本工作中使用的33个表观遗传注释和上下文序列的贡献。AUC,ROC(接收器操作特征)曲线下的区域;基于NUC的核苷酸组成;基于SEQ的序列编码映射。图。S2:我们深层学习模式的特征分布。(a)在预处理GM12878后,显示输入特征图中的每个得分分布的图。(B.)每个特征向量的Pearson相关性与GM12878中的非编码变体标签的相关性。图S3:我们深层学习模式的特征分布。(一种)表示经过预处理的HepG2输入特征图中每个分数的分布。(B.) HepG2中各特征向量与非编码变异标记的Pearson相关性。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

贾,H.,公园,SJ。&Nakai,K。一种半监督的深度学习方法,用于预测基因组非编码变异的功能效果。欧宝娱乐合法吗22,128(2021)。https://doi.org/10.1186/s12859-021-03999-8

下载引用

关键词

  • 非编码变异
  • 表观丛
  • 半监督学习
  • 深度学习
  • 伪标签