跳过主要内容

哥斯达:用于空间转录组织分析的无监督卷积神经网络学习

抽象的

背景

空间转录组技术技术的兴起导致新的见解,了解在空间环境中如何发生基因规则。以相似的空间模式确定哪些基因可以揭示组织中细胞类型的基因调节关系。然而,许多当前分析方法不充分利用数据的空间组织,而是将像素视为独立特征。在这里,我们展示了Costa:通过卷积神经网络(Convnet)聚类学习基因表达矩阵之间的空间相似性的新方法。

结果

通过分析模拟和先前公布的空间转录组织数据,我们证明Costa以一种强调更广泛的空间模式而不是像素级相关性的方式学习基因之间的空间关系。Costa提供每对基因之间的表达模式相似性的定量测量,而不是将基因分类为类别。我们发现哥斯达鉴定了与其他方法相比识别较窄,但生物相关的基因显着相关的基因。

结论

深学习科斯塔方法通过集中的表达模式的形状,使用关于相邻像素的比将重叠或像素相关的方法的位置的详细信息提供了不同的角度,以空间转录分析。科斯塔可以应用于以矩阵形式表示的任何空间转录数据,并且可以具有未来应用到数据集如组织学,其中不同基因的图像是相似的但不相同的生物部分。

背景

近年来,空间转录组学受到了科学界的广泛关注。不同的技术已经能够高分辨率测量基因调控是如何在一个组织或数千个单细胞中进行空间组织的[1].这些数据的分析已经揭示基因之间的空间关系,监管的潜力。然而,当前的分析管线经常治疗在表达矩阵作为一个独立的特征的每个像素,从而失去空间信息。For example, the seqFISH+ technique can fluorescently detect 10,000 mRNAs in situ at single cell resolution, and there are often groups of cells that have correlated gene expression with their neighbors to make up larger structures. However, the original report analyzed these expression patterns using PCA and hierarchical clustering, treating each cell as an independent feature, rather than preserving spatial positions of cell neighbors [2].Slide-seq同样使用测序而不是荧光来产生高通量的空间分辨转录信息。之前对Slide-seq数据的分析首先确定了空间非随机基因表达,然后使用像素级重叠分析而不是根据空间特征来寻找以类似模式表达的基因[3.]. 现有的空间转录组学分析算法都是基于统计建模的,主要用于区分空间表达或可变(SE或SV)基因和随机空间表达噪声。例如,SpatialDE和SPARK分析方法都可以估计基因的空间模式有多重要[45].Spatialde进一步构建了一个无监督的模式检测算法,将重要的SE基因聚类为具有集体中具有某些空间模式的不同组。相比之下,火花仅用于寻找SE基因。为了检查基因之间的空间关系,该方法仍然依赖于使用各个像素作为特征的分层聚类。因此,即使火花可以识别具有显着的空间模式的基因,火花分析的后半部分使表达与其原始空间背景上的表达。到目前为止,现有的空间转录组学分析涉及用于空间量化或基于人类施加的刚性或统计建模的候选SE基因的多步复制特征工程。在现有方法中,两个基因之间的表达模式的相似性是二进制 - 基于像素级相关性的基因是否聚集在一起或量化。

在这项工作中,我们提出了一种受计算机视觉和图像分类启发的方法,以发现不同基因的空间表达模式之间的关系,同时保留整个空间上下文(图。1a).我们的目标是在保持相邻细胞和组织区域空间关系的方式下,找到基因表达模式之间的定量比较。我们的目标是找到一种方法,即使某些像素集不完全重叠,也能识别出整体相似的表达式形状。这在概念上类似于计算机视觉任务中的图像识别。卷积神经网络的使用为计算机视觉中的深度学习带来了成功,并展示了广泛的应用,包括图像分类和物体识别。有几个小组提出了在无监督学习中使用卷积神经网络(ConvNet)的不同方法[678].因此,在这里,我们采用无人监督CO.NVNet学习策略年代(ε2)Transcriptomics一个分析(CoSTA)。通过模拟数据,我们证明CoSTA可以正确地分类各种不同的空间模式,并且CoSTA检测的模式依赖于空间分组而不是单个像素。然后,我们将CoSTA应用于已发表的MERFISH和Slide-seq数据,表明CoSTA有时识别出具有显著空间关系的较小的基因集,但这些已识别的关系是生物学相关的。

图1
图1

科斯塔模型方法和动机。一个总体科斯塔管道。输入是从空间转录实验基因矩阵。ConvNet阶段图像转发至3的卷积层,然后变平,输出到一个空间表示向量。这些基因的表示用于成簇基因与GMM之前UMAP减少从ConvNet阶段的空间表示中的维数。然后,将每个基因被指定基于距离聚类中心,其被转换为能够通过减少双回火物流损失和/或中心损失被最小化的辅助目标分布簇概率。梯度通过完全连接层ConvNet backpropagated。重复该过程,直到模型收敛,在该点从ConvNet的输出被用作最终的空间表示(红色箭头)。B受生物学启发的例子,其中重叠并不能捕获空间模式相似性的所有方面。矩形代表上皮细胞层,而卵圆形代表基质细胞。通过重叠比较,基因1与基因2和基因3具有相同的相似性(40%重叠)。然而,沿上皮层的生物相关表达仅在基因1和基因2之间共享。检测这种形状相似性需要学习空间表示。CSynthetic Datasets中Costa的性能。左侧面板:5个鼠标嗅灯泡数据复制11的真实表达模式。我们为每个图案产生了2,000个模拟基因表达矩阵,具有不同的噪声水平。右侧小组:学习Costa分类模拟基因属于这5种不同噪声水平的模拟基因。归一化互信息(NMI)值量化Costa分配的群集标签与所有5个模式的真实类标签之间的相似性

结果

Costa架构:培训GMM群集生成的伪标签的ConvNet

虽然有许多无人监督的学习策略,但我们选择应用DeepCluster的工作流程,因为它很简单且易于实现[6].我们的科斯塔方法包括两个主要部分组成:通过高斯混合模型(GMM)和权重更新聚类如在训练神经网络通常执行(图1一个看见方法详细描述)。我们的输入是一组基因表达图像,每一幅图像都是一个矩阵,记录了一个基因在空间中每个位置的表达水平,所有的图像都属于同一个生物空间。我们首先随机初始化卷积神经网络,然后通过卷积神经网络转发这些基因表达矩阵。我们的卷积网络由三个卷积层组成,每个卷积层后面是批处理归一化层和最大池化层。我们将最后一个最大池化层的矩阵输出扁平化为捕获基因表达数据的空间特征的向量。这个矢量的大小将根据给定的空间转录组技术的图像大小而变化。然后,在对基因进行GMM聚类之前,通过UMAP对特征进行l2归一化和降维。UMAP在降维过程中可以保持全局和局部结构,并且在图像聚类方面的性能优于其他降维方法,如Isomap和t-SNE [79].这种聚类的目的是生成标签,这样我们就可以像在其他常见的监督神经网络训练方法中那样更新ConvNet。当卷积神经网络被随机初始化时,卷积神经网络提取的特征较弱。然而,使用它们生成标签仍然可以引导卷积神经网络学习更多有区别的特征。的确,Caron等人证明DeepCluster可以从微弱信号中学习,从而引导ConvNet的鉴别能力[6].不是给每个基因一个单一的簇标签,我们分配一个辅助目标分布作为软分配。这种方法强调在聚类任务中具有高置信度的基因,并剔除从ConvNet随机初始化开始的噪声标签。这样做也可以为训练神经网络带来更稳定的目标值[8].最后,我们使用这些软化分配来培训Gromnet。我们在GRANNET之后添加完全连接的图层,为分配给每个标签的每个基因产生概率。因此,我们可以通过基于来自GMM聚类的软分配与来自完全连接的层的概率之间的Bregman分歧来优化模型来优化模型10.]. 总之,CoSTA方法使用了一种ConvNet群集体系结构,它重复(1)通过ConvNet生成特征,(2)通过GMM群集生成软分配,以及(3)使用软分配更新ConvNet。一旦我们完成训练,我们只保留训练过的ConvNet用于特征提取。由于ConvNet主要由卷积层组成,因此由ConvNet提取的每个基因的最终载体应该是空间表示。利用这种空间表示,我们可以量化一个空间转录组数据集中任意两个基因之间的关系,通过UMAP可视化该数据集中的所有SE基因,并通过通用聚类算法分配模式。有关此学习架构的基本原理的更多详细信息,请参见方法

使用空间模式而不是精确像素重叠的基本原理

为了证明通过重叠分析和为什么的空间表示方法如科斯塔是有用丢失空间信息,提出了一种简化的仿生概念性的一例(图1b)。在生物组织切片中,我们通常观察与基质细胞(圆圈)的集合相邻的诸如紧密连接的细胞上皮层(卡通中的矩形)的结构。在该示例中,示出了三种基因的空间表达模式。仅通过重叠进行比较基因表达模式,观察到基因1和2具有与基因1和3的相同数量的重叠(40%)。因此,测量基因模式相似性的重叠方法,如先前幻灯片SEQ分析中使用的那样,将报告该基因1与基因2和基因3同样类似[3.].然而,从生物学角度来看,基因1和基因2主要在上皮层表达,而基因3主要在基质中表达是相关的。这种生物学差异不是通过严格的重叠来检测的,而是需要一种空间表征来检测上皮层表达的垂直条纹作为一个显著的模式。在计算机视觉中,通常使用滤波器来寻找这种局部相关性,卷积神经网络在模式识别中的成功也依赖于使用滤波器来识别局部相关性。利用这3个基因如何对相同的过滤器作出反应的信号,ConvNet方法将识别1号和2号基因更相似,3号基因更不相似。因此,我们有动力使用我们基于ConvNet聚类的CoSTA方法来优先考虑相似的形状,而不是重叠的生物情况,在这种情况下,细胞层和细胞组的整体模式比独立的单个细胞身份更重要[11.].

对合成数据的测试表明CoSTA的高特异性,对空间关系的依赖,以及从噪声中区分信号的能力

作为CoSTA在没有精确重叠的情况下检测相关空间模式能力的第一个测试,我们使用MNIST手写数字图像数据[12.].当目标是发现哪个数字对数字3具有相关的手写图案3时,Costa仅识别数字3的其他实例,如相关性(100%特异性)。相比之下,重叠分析发现所有其他数字的一些样本,作为3(特异性58%)的相关数字(附加文件1:图S1)。与此同时,CoSTA将数字3s的一个较小子集识别为相关的(35%的灵敏度),而重叠分析则在其较不特定的集合中捕获更多的相关数字(65%的灵敏度)(附加文件)1:图S1)。如下文所示,这种增加的特异性,但可能降低科斯塔的灵敏度与其它技术相比似乎保持为真生物数据为好。

在将CoSTA应用于真实的空间转录组数据之前,我们接下来在5个合成数据集上测试了CoSTA的性能,这些数据集是基于小鼠嗅球的真实表达模式模拟的,遵循SPARK中的模拟方法(图)。1下放置面板)513.].我们为每种图案产生2000个假基因表达矩阵,以模拟数据10,000个总基因。为了模拟每个基因的噪声和可变性,我们基于具有0.2至0.6的平均值的正态分布,在每个空间坐标上独立地添加了残留误差。然后,我们评估CostA是否可以将每个模拟的噪声基因分配给正确的模式。要将Costa派生的群集分配与真标进行比较,我们使用良好的群集比较度量标准化互信息(NMI)[14.].随着5种模式的基因分配变得越来越准确,NMI接近1。初始化CoSTA时,NMI的范围为0.27 ~ 0.57(图4)。1c右面板)。随着训练的进行,CoSTA学习了判别特征来区分这5种模式,最终获得了相对于真实类别标签的nmi值从0.85到0.98(图1)。1c右面板,附加文件13.:表S1)。对于最高噪声水平(0.6),我们发现在CoSTA训练中结合中心损耗(CL)和双脾气逻辑损耗显著提高了CoSTA的准确性(NMI从0.52增加到0.91)。然而,CL将样本推向5个质心,只有在已知最终模式数量时才适用。因此,我们不把CL包括在真实的生物情况中。

为了证明CoSTA从这些合成数据集中学习空间而不是像素级模式,我们打乱了这些合成数据集中的像素位置。以完全相同的方式洗牌所有的基因矩阵,使像素重叠信息保持一致,同时打乱相邻像素之间的相关性,从而破坏空间模式(见方法详情)。如果一种模式检测方法成功地利用了相邻像素之间的空间关系,那么它分类模式的能力就会被这种变换所破坏。事实上,我们发现,科斯塔无法区分基因导入正确的模式标签以及重组数据(敝中断范围从0.32到0.89),证明科斯塔检测空间特性取决于相邻像素的位置,而不是功能,可以捕捉到的一组单像素(附加文件2:图。S2和附加文件13.:表S1)。当我们应用在0.4噪声级培训,以逐步更洗牌图片科斯塔模型,我们发现的能力进行分类基因成团的比例下降到洗牌的量(附加文件3.:图S3A)。我们还测试了这些真实和无序的合成数据集的空间数据。正如预期的那样,SpatialDE在真实数据集上表现得非常好。但是,对数据进行洗牌通常不会改变SpatialDE(附加文件)的性能13.: Table S1),这表明CoSTA和SpatialDE之间有一个重要的区别:SpatialDE更倾向于检测单个像素的模式,而CoSTA强调这些像素相对于彼此的空间位置和模式的整体形状。

使用此相同的合成数据,我们接下来进行了中断测试,以证明使用单个像素的功能来分析空间数据转录的缺点。对于模拟基因矩阵的一半,我们掩蔽的图案的特定区域,并且掩模区在视觉上不改变的表达模式(附加文件3.:图S3b)。这模拟了一种情况,即某一区域由于技术原因而被模糊或没有从实验中很好地取样。在这种情况下,使用像素重叠来识别模式,将掩码和未掩码的基因分配到不同的组中,即使它们在其他情况下属于相同的模式。相比之下,CoSTA可以抵抗这种干扰(附加文件3.:图S3b)。

在真实的空间转录组学数据中,不是所有的基因都属于一个明确的空间模式——一些与给定的组织或条件无关的基因可能只会产生随机噪声或相当一致地表达。为了模拟这种情况,我们进一步遵循SPARK中的模拟方法,生成了具有5个空间模式并混合了SE(空间表达)和非SE基因的合成数据集(附加文件4:图。S4)。在90:10至10:90,我们在这些数据上培训了哥斯达,以不同的SE和非SE基因。我们发现,即使在高百分比的非SE基因培训哥斯达培训哥斯达培训时,SE基因的代表也与非SE基因不同。同时,哥斯达展示了即使存在非SE基因,也表明了即使存在非SE基因的不同模式(附加文件)4:图S4)。此外,CoSTA甚至没有将大量非SE基因分成单独的类别,这表明它不会在噪声中产生虚假信号。在这里,我们还注意到,与SpatialDE等方法相比,CoSTA的优势在于输出特征向量能够实现可视化,正如在这些模拟结果中所示。虽然空间DE可以将基因分类,但它并不能产生一个结果,即我们在这里为CoSTA所做的那样,能够可视化SE和非SE基因是如何分离的。总体而言,CoSTA与合成数据的性能表明,CoSTA可以学习有区别的空间特征。

Costa通过细胞类型分类基因,并识别Merfish数据中基因之间的定量关系

要将Costa的应用扩展到真实的空间转录组数据,我们首先将其应用于重新分析Merfish数据集(见Merfish分析方法完整的细节)15.].为了与使用火花方法的公布分析进行比较,我们专注于同一切片的小鼠下丘脑(BREGMA + 0.11mm型动物18)[5].在该切片上,我们用MERFISH测量了155个预期具有空间变量的基因,以及5个空白对照基因的表达模式。我们首先初始化一个ConvNet,通过它转发MERFISH空间基因表达矩阵,获得基因特征向量。然后,我们结合MERFISH和scRNA-seq数据,将155个空间可变基因与5个空白基因和9个细胞类型特异性表达模式聚类。我们将这些基因、对照和细胞类型模式聚类成10组,并通过UMAP可视化它们。未经训练,SE基因、控制基因和细胞类型在二维UMAP空间中传播,组间的边界没有明确定义(图2)。2a).接下来,我们对CoSTA模型进行训练,获得精炼的特征向量。训练后,SE基因、对照基因和细胞类型形成了截然不同的组,在二维可视化中界限更加清晰(图2)。2b)和改进的聚类成员资格,其根据线性固有量维度(盖子)估计器可重复和定量地形成更严格的簇(图。2c) (16.].

图2
图2

用CoSTA方法分析MERFISH数据。一个B在二维UMAP布局中,从MERFISH数据中获得的每个基因、空白对照和参考细胞类型模式的空间特征向量的可视化。填充圆表示真实基因,填充三角形表示细胞类型,填充正方形为空白对照。一个从不经过训练的随机初始化卷积网络中提取的特征。每个点代表一个基因、空白对照或细胞类型模式。颜色表示在完整的costa衍生的特征向量上聚类得到的聚类标签;B功能由训练有素的ConvNet提取。每个点是有色与原来的集群从标签一个显示一些集群成员关系如何重新排列。C科斯塔空间表示的局部内在维度没有和训练后(10次独立的科斯塔运行)。Dcosta检测到被SPARK唯一鉴定为SE的基因的空间相关性。顶部行显示了已知的特定于3个单元格类型的单元格表达式模式。较低的行显示特定基因的表达模式。虚线表示costa确定的一对基因或具有细胞类型模式的基因之间的相似性。每个图像的原始计数值从0缩放到1,以规范化视觉比较。E在d和室管膜或成熟OD图案所示的各基因之间的欧几里德距离。欧几里德距离是使用科斯塔空间表示测量

从这个数据MERFISH火花标识145个SE基因,包括一个空白对照,以及SpatialDE发现139个SE基因与一个空白对照[5].Costa主要设计用于检测空间基因表达模式之间的相似性,而不是估计空间相关性(鉴定SE基因)。因此,要定义哥斯达所谓的哪个基因,我们检查了哪些基因哥斯达焦炭鉴定与9个预定义的细胞类型特异性表达式模式中的一个高度相关。我们发现了一个相关阈值,在该相关阈值,在该相关阈值,其识别与不同的小区类型模式之一相关的133 SE基因,而没有任何空白控制被调用与模式相关联(附加文件14.:表S2)。因此,哥斯达的敏感性略低于火花和锭型,但具体程度较高(未检测到空白控制)。但是,哥斯达的结果既比TRENSCEEK方法都比更敏感,更具体,而且只识别了108硒基因和一个空白控制[17.].

MERFISH数据集中的三个基因,Avpr1a基因聊天,Nup62cl,是由Sun等人强调,因为他们只有SPARK认定为SE [5].Costa能够识别这些基因的空间表达模式,而且还通过定量相似性揭示这些基因与细胞型表达模式更加远离其他基因。我们检查了Costa确定的显着类似的组,并使用Costa学习的空间表示来测量这些基因的欧几里德距离彼此以及细胞型表达模式(图。2D、E和附加文件14.:表S2)。例如,CoSTA识别的基因有nnat.Cd24a与介绍细胞类型图案显着类似(虚线,图。2D)。Avpr1a基因量化与该突出图案更远的距离(图。2e),但它确实显示出一些相似之处nnat.Cd24a(无花果。2D)。相似地,MbpOpalin.与成熟的OD细胞类型图案显着相关(图。2D、E和附加文件14.:表S2)。Nup62cl比成熟的od更遥远Opalin.Mbp,但与的表达模式有关MbpOpalin..视觉检查Avpr1a基因Nup62cl确认这些模式是相当嘈杂的,不像关键细胞类型模式(图。2d).因此,通过量化模式之间的关系而不是报告统一的SE基因集,CoSTA澄清了这些基因可能是通过SPARK而不是其他方法识别的,因为它们实际上与关键细胞类型模式在空间上不太相似。CoSTA能够量化基因之间的关系,而不仅仅是对基因进行分类,这在生物环境中很重要,因为在生物环境中,通常会有一系列的相对相似性,而这些相似性会被严格的分类过度简化。

哥斯达学习Slide-SEQ数据的空间模式相关表示

我们下次扩展我们对哥斯达的应用到Slide-SEQ数据。SLIDE-SEQ利用高通量单细胞RNA测序和条形码。因此,它能够对基因组中的所有基因进行空间基因表达测量[3.].作为第一次演示,即哥斯达焦点可以应用于这种类型的高吞吐量空间转录组织数据,我们执行了一个实验混合测试,以评估哥斯达是否可以分离不同的空间模式。由于“黄金标准”对于基因表达的正面和负空间相似性,我们通过SLIDE-SEQ从四种不同的空间转录组学实验中混合基因矩阵,并测试了COSTA对它们进行了解压缩的能力[3.].每个整体实验都在不同鼠标的独立脑切片上进行,因此每个实验样本的形状和空间特征总体构成了实验之间的巨大差异。每个实验中的每个基因都有一定不同的模式(并且它将是我们的下一个目标来区分这些差异和相似之处),但我们首先测试了同一实验中的基因是否可以基于其总空间特征进行分类。我们在上面实施了培训,然后将混合实验基因矩阵聚集成4个簇。困惑矩阵显示聚类标签主要与真实的实验标签一致(附加文件15.:表S3)。

我们接下来进行对基因矩阵混洗测试从一个幻灯片-SEQ实验,打破邻近地区的相关模式在合成数据的上述混洗所描述的方式(见方法用于洗牌细节)。我们训练了一个新的模型,并检验了十个随机基因表达模式之间的相似性。如果CoSTA成功地学习了区分这些基因表达的空间特征,当空间模式和相邻像素之间的关系被破坏时,两个基因之间的距离应该会改变。我们随机抽取Prdx5作为参照基因,并用其计算其他9个基因的欧氏距离。我们根据它们的距离来排序这十个基因Prdx5.然后,我们对基因矩阵进行100次重组,将重组后的矩阵通过训练过的ConvNet,并重新计算配对距离Prdx5(无花果。3.a).我们发现,在9个比较中,有5个在变换后距离减小,因为通过变换,CoSTA捕捉到的独特模式被移除了,将矩阵转换成通用的、更相似的模式。在9个比较中有4个比较中,距离随着洗牌而增加,这可能表明在洗牌过程中,空间模式之间的关键相似性被破坏了。3.b).重叠分析所测得的相似度在变换后不会发生变化,因为每个像素的变换是相同的。这一结果再次表明,这一次使用的是真实的生物数据,CoSTA学习到的特征与空间表达模式密切相关。

图3
图3

对Slide-seq数据的CoSTA分析。一个洗牌测试破坏空间模式。左图:第一行示出的三个示例性的基因的三个原始空间表达模式。第二行中的图像是空间格局因此,尽管空间邻居关系broken-看到像素级重叠保留洗牌(以同样的方式打乱所有图像后方法和额外的文件12.:图。S12用于洗牌方法细节)。右侧面板:9个随机选择的基因之间的哥斯达推导的距离和Prdx5.基因的排列顺序是基于它们与基因的距离有多近Prdx5使用由从真实基因矩阵科斯塔提取的空间特征(从左到右:最接近最远)。改组的基因矩阵通过科斯塔转发,基因对之间的距离从距离unshuffled减去。每个点代表一个改组距离变化(100个shufflings总计)。在0红色线表示的距离没有变化将使用重叠计算被观察到。B重叠邻近基因的数量vim.CTSD,GFAP.之前,并在所有的训​​练时期(30个最近的邻居认为,每个配重更新之后,看其他文件5:图。用于不同大小邻居组的S5)。结果显示了两项实验:脑损伤后3天(蓝色)或2周(红色)。C哥斯达,空间de和火花基因的重叠和称为se并与之相关vim.CTSD,GFAP.在受伤数据集后的2周黄色= SPARK相关基因也被CoSTA。蓝色= SPARK相关基因,而非SE。红色交叉孵化=每个类别的比例也被SpatialDE识别。下图为SPARK、SpatialDE和CoSTA之间重叠的基因(Panther)(左)和SPARK和SpatialDE但CoSTA之间重叠的基因(右)(Panther)的基因本体富集。DGO在损伤后2周内逐渐富集vim.CTSD,GFAP.来自由原始幻灯片分析识别的生物学相关功能的不同方法的相关基因集。沿轴线量化是每种方法相关基因列表中的基因的一部分,这些基因列表被给定术语注释

集成学习识别空间的基因表达模式之间稳定的关系

接下来,我们应用CoSTA对两个空间转录组学数据集进行重新分析,这些数据集通过幻灯片顺序测量[3.].这些数据集来自两个生物条件:脑损伤后3天(“3天”)和脑损伤后2周(“2周”)。在第一次调查SLIDE-SEQ中这两个数据集,Rodriques等。主要关注在空间上相关的基因vim.CTSDGFAP.脑损伤后3天及2周[3.].为了比较,我们还检测了与vim.CTSDGFAP.从我们的哥斯达结果。我们的方法的一个属性是,当更新重量时,每个基因的特征会发生每个时代。这可能导致基因的最近邻居在模型训练期间改变,并且可用于推断推断的空间关系在给定条件的强度和稳定程度。我们在检测到之间测量重叠Vim, Ctsd和Gfap我们发现,2周数据集的邻居比3天数据集的邻居更稳定(图3)。3.b和附加文件5:图S5)。这可能表明在损伤后的急性期,相关基因vim.CTSDGFAP.更可变,更少空间图案化,但在伤害后的2周时间点,这些模式变得更强。

从噪声中筛选出显着的空间模式的基因,我们使用集合学习。简而言之,我们初始化了5个扫描仪并分别培训。然后,我们计算了相同数据集中的每个基因的最近邻居,在5,10,15,20,25,30,40,50和100的邻居设定大小。我们使用广泛的相邻级别,因为不同的基因可能形成不同大小的社区。接下来,我们计算了5个Costa模型的Jaccard相似性,并保持了在一个级别至少在0.2的平均Jaccard相似性的基因。我们称之为通过阈值“稳定”的基因,以及被滤出为“不稳定”的基因。我们提出稳定与不稳定基因的百分比代表实验组中的空间图案化程度。总体而言,在3天内认为较小的基因比例稳定,与上述3天条件观察到的更可变的基因邻居一致。这些“稳定”基因也可以被认为是与由火花鉴定的SE基因进行比较的肋座衍生的'空间表达的'(SE)基因组。大多数Costa-SE基因也被火花(86%在3天,2周内为78%,附加档案6:图。S6A)。vim.CTSD,GFAP.在2周的数据中被哥斯达所考虑为SE,但在为期3天的数据集中。尤其,vim.CTSD,GFAP.在SPARK鉴定的3天SE基因列表中也不存在,只有CTSDGFAP.在2周数据中被火花鉴定为SE基因。我们注意到,不太强烈的基因可以反映积极的可变生物调节(例如在急性反应期间可能发生的伤害),不仅是技术噪音。由于模式匹配缺乏“地面真相”,我们无法明确地区分弱空间模式。但是,如上所述,我们可以通过破坏真正的数据集来破坏空间模式,维护基因之间的像素相关性但删除空间信息(参见方法用于洗牌方法细节)。我们重组了3天2周的基因矩阵并将CoSTA应用于这些数据集。当我们在附加文件中打乱模拟数据时2:图S2,我们发现,此次播放数据集在培训期间的原始数据集具有总体较低的NMI(附加文件6:图S6b;看到方法有关NMI使用的细节)。此外,与真实数据相比,在2周随机数据中识别的SE基因数量显著减少(附加文件)6:图。S6C)。这再次表明,哥斯达黎加捕捉空间的功能,从单个像素的信息是不同的。对于真正的3天且改组3天的数据,也没有在确定SE基因的数量明显的差异(附加文件6:图。S6C)。这再次表明空间模式在3天的数据集中不太强劲。实际上,从3天开始,很少有模式对于例如基因矩阵(附加文件)7中:图的S7a)。

与SPARK和SpatialDE相比,CoSTA识别了更小的、但特定的、具有生物学相关性的空间相关基因集

我们将进一步的分析集中在两周的数据上。我们将SpatialDE和SPARK应用于该数据集,与CoSTA进行比较。最初的Slide-seq出版物之前确定了843个与之相关的基因vim.CTSD,GFAP.通过重叠分析[3.].然而,具有刚性邻居相似性稳定性阈值的Costa识别了许多较少的相关基因(具有Z分数< - 2.325的63),并且只有19个基因匹配原始幻灯片SEQ集合(附加文件8:图S8a)。SPARK首先识别出1294个显著的SE基因,然后以单个像素为特征进行分层聚类,将其聚类为10组。我们的CoSTA相关基因列表中只有5个基因与被分组的基因重叠vim.CTSD,GFAP.通过火花。我们还使用SpatialDE发现了显著的SE基因。令人惊讶的是,整个数据集通过了SpatialDE的显著空间表达测试。然后,我们应用SpatialDE中构建的无监督模式检测算法将基因聚类到10组。这导致了大量的基因与vim.CTSD,GFAP..大多数我们的科斯塔集(41个基因)的与由SpatialDE鉴定的基因重叠(附加文件8:图S8a)。该组由科斯塔鉴定相关的基因的比由其他3种方法鉴定的组要小得多。这部分是因为哥斯达黎加要求相邻基因之间稳定的关系都被列为SE基因,然后只SE基因可以被认定为高度相似的目的基因。事实上,与相关的火花识别350个基因Vim, Ctsd和Gfap在美国,只有28个基因被CoSTA归类为SE基因。然而,我们观察到的证据表明,这个costa确定的SE子集是可靠的和有意义的。首先,在这些被SPARK识别的CoSTA-SE基因中,75%也被SpatialDE识别为相关的,而在其余的非CoSTA-SE基因集中,SPARK和SpatialDE之间只有15%的重叠(图2)。3.C)。此外,基因火花SpatialDE之间的重叠,哥具有生物学相关功能富集(如离子迁移和胞吐作用),而基因科斯塔火花而SpatialDE但未被识别为SE之间的重叠示出了在所有(图没有功能富集。3.C)。我们还观察到空间模式相似性的可见证据与所考虑的基因的3个感兴趣的基因,并且哥斯达邦高度相关的基因和较少的基因的证据仅由火花确定的基因(附加档案8:图。S8B)。

此外,我们发现由Costa确定的63个基因与其明显相关vim,gfap,CTSD具有丰富的生物学功能。在最初的研究中,Rodriques等人强调基因与vim.CTSD,GFAP.增强了免疫反应、胶质发生和少突胶质细胞发育的功能,所有这些功能都是生物学上对损伤反应的预期[3.].我们发现,肋太斯塔鉴定的相关基因在免疫应答和胶质发生方面具有比仅由Spatialde,Spark和该原始幻灯片发表的基因更高的富集和胶质生成(图。3.d)。然而,没有基因落入少突卵细胞发育的类别。当我们在少突胶质细胞发育类别中视觉检查基因的表达模式时,其个体和集体模式与表达模式没有相似之处Vim, Ctsd和Gfap.它们要么是嘈杂的,要么是全局表示的(附加文件7:图S7b)。从上面的结果,我们得出结论,CoSTA返回的是一个减少了的、严格的相关基因集,从生物学意义上来说,这些基因集比其他方法返回的更丰富。

如前所述,CoSTA和其他方法的一个关键区别是,CoSTA不仅提供了一系列相似的基因,而且还提供了所有基因之间的定量成对比较。因此,我们可以从CoSTA中提取出每个CoSTA- se基因的相似程度Vim,CTSD,GFAP.(附加文件16.:表S4)。这使我们能够搜索使用类似的排名,而不是使用大猩猩富集工具[任意截止丰富的生物学功能18.]. 使用整个排名表,我们发现新的丰富功能,如胶原代谢、星形胶质细胞分化和血管内皮生长因子信号,可能与损伤修复相关(补充文件8中:图S8C)。基于像素的相关性,也可用于创建排名相似列表。当这两种方法进行比较,我们发现分享了一些高排名的基因,双方有明确的图形重叠到查询基因接近。其中这两种方法中基因的排名很大的不同,具体科斯塔基因趋向于具有表达的关键图案作为叠加在一个通用的弱背景邻接的模式,而像素特异性基因趋向于具有隔离像素重叠的关键区域(附加文件8:图。S8D)。

为了避免观察偏差,仅通过观察不同方法对不同的方法进行不同的方式来偏见,我们接下来将与Costa和其他先前的方法唯一地检测到的空间模式的类型。对于每种方法(COSTA,SPATIALDE,SPARK和原始SLIDE-SEQ重叠方法),我们认为分类为空间相关的基因列表Vim, Ctsd和Gfap如上所述根据方法的不同,检测到的与这些查询基因相关的基因的平均表达模式有所不同。值得注意的是,平均CoSTA模式更多地局限于诱发损伤的右上角区域(图3)。4一种)。相比之下,SPARK,SpatialDE和幻灯片-seq的每一个确定这么多相关的基因,它们的平均图案看起来非常像所有基因的数据集中的平均模式(比较图。4附加文件9中:图S9),而不是独特的。这再次强调了小,但也许更具体,设置科斯塔为相关鉴定的基因。当我们比较的科斯塔,而不是其他一些相关技术鉴定的基因,我们可以看到,哥斯达黎加,独特的基因有没有捕获为用其他方法很多(图某些局部图案。4b)。相反,再次,由其他方法检测到的基因,而不是CostA的平均值与整个基因组的平均基因表达更相似(图。4C)。

图4
图4.

Slide-seq数据中通过不同方法检测到的集体表达模式。一个平均表达式模式vim.GFAP.CTSD及其相关基因在2周后由不同方法定义的脑损伤。B平均表达式模式Vim, Gfap Ctsd通过CoSTA检测到相关基因,而不是通过指定的方法。C平均表达式模式Vim, Gfap Ctsd其他方法检测到的相关基因而不是哥斯达。D2个UMAP维度上的2周时间点CoSTA SE基因簇。对选定的聚类给出平均表达模式。显示从0到1缩放的原始计数值

最后,而不是使用显着的相关阈值,我们使用学习的空间表示在2周的时间点聚集了所有肋座确定的SE基因到6组。包含的群集vim.CTSD,GFAP.(聚类3)由89个以不同模式表达的基因组成(图3)。4d和附加文件17.:表S5)。其他簇也成功地识别了表达式的独特空间模式(图。4d和附加文件9:图S9)。我们还使用SpatialDE将CoSTA鉴定的SE基因聚类为6个聚类。我们发现这两种方法在检测模式方面有许多共同点,但也存在一些分歧9:图S9)。值得注意的是,当仅使用CoSTA鉴定的较窄的SE基因集时,SpatialDE鉴定的基因簇包含vim,gfap,CTSD(第2组,附加文件9:图。S9)具有比Spatialde默认设置分类所有基因的更具体,本地化模式。这再次表明Costa通过识别具有稳定空间关系的基因来提供特异性的有意义的增加。

讨论

我们已经证明,我们的CoSTA方法可以成功地实现计算机视觉的深度学习思想来推断空间基因表达关系。这种方法可以应用于任何为每个基因输出图像类型的基因表达信息矩阵的技术,不仅包括Slide-seq [3.19.]和Merfish [20.],但也有STARmap [21.]、10 × Visium (10 × Genomics)和HDST [22.]方法。然而,识别来自高吞吐量空间转录组数据的空间模式仍然具有挑战性。我们常常没有明确的地面真相答案,因为应该被检测到模式与噪音与噪声以及模式中最具生物学相关的内容。根据要检测的模式和关系的类型,不同的方法将具有不同的优点和弱点。以任何分析空间转录组织数据的方法的第一步是估算显着的SE基因。为了鉴定Se基因,Spatialde依赖于假设给定基因的空间表达遵循空间坐标的多元正态分布[4].然而,这种假设导致Slide-seq数据集中的所有基因被SpatialDE识别为SE基因。这可能是因为Slide-seq实验产生的噪声信号也可能遵循或混杂在多元正态分布中。因此,在某些类型的实验数据中,多元正态模型将无法区分空间模式和噪声。与SpatialDE不同的是,SPARK和CoSTA都使用kernel来识别SE基因。SPARK定义了5个周期和5个高斯核来覆盖作者认为在普通生物数据集中观察到的一系列可能的空间模式[5].因此,确定SE基因涉及的以及内核如何匹配所需的空间模式统计评估。如果实验数据集伴随着约相关的空间模式的先验知识。这一点的方法是非常有价值的。在哥斯达黎加内核也起到类似的目的,但并不预先设定。取而代之的是,在哥斯达黎加的内核是通过训练神经网络学会。为了确定SE基因,我们靠的是思想,一个真正的空间格局应该是集体的,该装置的一组基因应该分享的空间格局。因此,当我们申请从5个ConvNets独立了解到内核,基因在同一组应该有这些内核类似的反应。相反,有噪声的基因表达模式将向5套ConvNet内核不同的,每次用不同的基团的基因簇进行响应。事实上,我们发现,这个内核方法有助于识别在幻灯片-seq的数据更集中设置SE基因,而不需要相关模式的先验定义,SPARK需要。我们已经通过各种措施表明,通过科斯塔确定的SE基因是一个更小的组,但具有较高的富集有意义的生物学功能,并且更容易通过多种其他方法也发现,增加这组的信心。

SE基因的鉴定只是从空间基因表达中提取生物学意义的开始。仔细分析基因之间的空间关系也是必要的。通常,就像在重叠分析中一样,研究基因关系是基于向量化基因表达模式和测量它们在潜在空间中的相似性,而不考虑空间信息,如相邻数据点的位置。因此,CoSTA的一个关键动机是保存基因表达模式的空间和形状表征。相比之下,SPARK没有模式检测功能,但可以结合以像素为特征的分层聚类,为每个基因分配模式标签。SpatialDE实现了一个基于空间高斯过程(GP)先验的聚类模型[4].这个聚类模型是GMM的延伸通过加入上聚类中心的空间之前的。因此,通过SpatialDE图案检测超出像素级。在我们的方法,我们定义的关键目标是学习每个基因的空间表示。我们已经证明,由哥斯达黎加获悉功能都不是孤立的个体像素,而SpatialDE更回应了我们的模拟单个像素的信息。因为使用卷积层组成,由我们的方法得知空间特征表示局部图案和多个局部图案一起形成用于基因矩阵全局模式。最后,向量化基因矩阵使我们不仅要通过聚类发现数据集内的不同空间格局而且要研究对基因的空间关系。这样的配对检查,另一方面,在未在SpatialDE实现。

不仅在检测更窄的SE基因集,而且在识别基因之间的关系,我们的结果一致表明,CoSTA提供了更具体的,但不像其他方法那样敏感的结果。通过我们的分析,我们发现重叠方法,以及SPARK和SpatialDE倾向于将更大的、空间模式关系更遥远的基因集合在一起,而CoSTA捕捉更狭窄和更具体的基因集合。这在我们对数字图像数据的分析以及Slide-Seq和MERFISH的应用中都可以观察到。这种结果的差异再次表明了不同方法的不同优点和缺点。如果用户想要为未来的实验缩小候选相关基因的范围,那么CoSTA可能会更有用。我们还注意到,在整个方法部分中,CoSTA参数的变化可以允许检测更一般的模式。

同样,根据数据的生物现实,不同的方法将具有不同的优势。在整体图案形状重要的情况下,肋座达达方法将具有优势,而当细胞对细胞相关性更好的情况下,直接重叠计算可以更好地表现更好。CostA方法还可以将未来的应用程序应用于不同基因的图像不是来自相同的生物部分的数据集,而是来自邻近的组织切片,如传统组织学中常见。如果在精确重叠丢失的同时保持表达式或形状,因为我们用我们的模拟掩蔽方法证明,哥斯达仍然可以检测到这样的模式相似度,其中重叠方法不会。

结论

在这项研究中,我们证明了我们的深度学习哥斯达黎加的做法侧重于表达模式的形状提供了不同的角度对空间转录组分析。科斯塔包括关于比未重叠或单独的像素的相关性的方法的相邻像素的位置的详细信息。科斯塔可以应用于任何形式的空间转录数据的被表示以矩阵形式来查找相似的模式以及评估每个基因的空间图案化的强度表达的基因。我们发现的空间相关的基因,哥斯达黎加捕捉更注重群体,同时还检测发现由该报告大组相关基因的其他方法的生物功能信息。

方法

调整基因图像大小和标准化

Slide-seq数据来源于:https://portals.broadinstitute.org/single_cell/study/slide-seq-study.SLIDE-SEQ的原始图像由超过1,000,000像素组成,这使得计算困难。因此,我们首先将100像素聚集成一个像素并从不同实验中调整大小的矩阵,进入相同的48x48图像尺寸。这导致较低的分辨率,这可能会掩盖小规模的细节,但保留了大规模的基因表达模式的全局特征。只要用户有足够的计算资源可用,哥斯达焦点可以应用于任何分辨率的任何空间转录组数据集。为避免极端计算负担,我们建议对高分辨率感兴趣的用户缩放到该区域的兴趣区域和裁剪图像中,以有效地将CostA应用于其数据。在箱后,我们标准化基因矩阵,如Svensson等人所述。[4].这种归一化涉及到在所有基因矩阵中找到每个像素的总基因表达计数,然后通过该像素的所有矩阵的log总计数对每个矩阵的每个像素进行归一化。如果不进行这种归一化,基因的表达可能在某些空间位置被高估或低估,在这些位置上所有基因的表达水平都是系统的高或低。通过每个像素的总计数进行归一化,确保我们的方法捕获了超出这种潜在人为影响的每个基因的空间协方差。为了显示表达式模式,我们使用平均的原始计数值,以及从0到1的刻度值除以最大值。因此,所有图形中的表情图像都是0到1的比例。这允许对原始数据进行更直接的可视化检查。

哥斯达架构

  1. 1。

    ConvNet

COSTA的Convnet阶段由3个卷积层组成,用于幻灯片SEQ和Merfish分析。输入是如上所述的空间基因表达图像(矩阵)的集合。我们首先随机初始化卷积神经网络,然后通过卷积神经网络转发这些基因表达矩阵。卷积层中的所有重量都在Xavier均匀分布上初始化。每个卷积层由整流的线性单元功能激活,然后是批量归一化层和最大池层,以减小输出的尺寸。为了为每个基因生成特征向量,我们通过将所有矩阵列连接到单个列中,通过将所有矩阵列达到最后一个最大池化层的矩阵输出。在最后一个最大池层后,一个完全连接的图层将添加到模型中,其中包含自定义的softmax激活以产生输出作为概率(参见4.损失函数).完全连接的层仅在训练期间使用,当我们需要梯度通过模型后向后传递。一旦培训,将丢弃该完全连接的层,我们使用L2标准化输出作为空间表示。GRANNET中使用的特定参数,例如每个卷积层中的过滤器的数量和大小,可以在Python代码中找到。我们注意到,不同数量的卷积层已经用于不同的图像分类任务。我们建议用户从一个3卷大层网络开始以进行初始数据探索。然而,如果数据集具有更大尺寸的基因矩阵,则来自3卷积层网络的输出将是非常长的向量。因此,如果需要,用户可以增加卷积层的数量以减少输出的尺寸。

  1. 2。

    umap和聚类

在GMM聚类之前,利用UMAP减少了三个卷积层输出的平坦空间表示向量。我们使用原始的python源代码实现了UMAP [9].We set up “n_neighbors = 20” and “min_dist = 0”, while using UMAP for dimension reduction. To cluster samples into N clusters, a user can reduce dimensions to N UMAP-dimensions. In this study, we reduce all samples to 30 UMAP-dimensions and cluster all samples into 30 clusters by GMM. While 30 clusters are used here for the model training purpose, once the model is trained, the user can use the final output vector of spatial features to cluster genes into any number of groups desired. To test the influence of the initial choice of number of clusters, we tested 10, 20, and 30, 50, 75, and 100 clusters in 2-week Slide-seq data. Using larger numbers of clusters leads to the identification of fewer SE genes (Additional file10.:图。S10A)。无论用于培训多少个群集,我们的模型都可以收敛(附加文件10.:图S10b)。为了比较,我们把15个最接近的基因称为vim.CTSD,GFAP.单个或总共45个基因作为相关基因在一个测试中被用来比较聚类数量的效果。集群数量的选择将影响检测到的相关表达式模式的规模(附加文件10.:图S10c)。使用较少数量的群集检测更多全局模式差异,而使用较大数量的群集检测更精细的比例模式区分(附加文件10.:图S10c)。增加集群的数量也会带来较大的计算成本和较长的训练时间的缺点(附加文件18.:表S6)。在这种情况下,30簇显示出良好的特异性,并且所检测的空间图案没有进一步随簇编号精制(附加文件10.:图S10c)。如果没有数据集的基础事实,簇的数量必须根据特定生物应用所需检测的模式规模来选择,并对结果进行视觉检查。

  1. 3.

    辅助目标分布为软分配

群集之后,我们通过计算同一集群中的平均样本重心(公式。1).

$$ C_ {I} = \压裂{1} {{M_ {I}}} \ mathop \总和\ limits_ {J = 1} ^ {{M_ {I}}} {X_ IJ} $$
(1)

在哪里\ (c_{我}\)对于重心第四组,\(m_ {i})是样品的在该簇的总数,和\(X_ {I,J} \)是用于降低UMAP矢量j样品在集群。

然后,每个样本都基于欧几里德距离到群集质心(EQ。2).

$$ p(y = i | x)= \ frac {{{{\ text {e}} ^ {{1 / {\ text {d}}} {\ mathop \ sum \ nolimits_{i = 1} ^ {n} {\ text {e}} ^ {{1 / {\ text {d}} _ {i}}} $$
(2)

在哪里文本\ ({\ d{}} _{我}\)是样品的欧几里德距离\(X\)到质心\ (c_{我}\),\ (N \)是集群的总数。

接下来,我们使用Eq.(将每个样本的概率转换为辅助目标分布。3.).

$$ Q_ {IJ} = \压裂{{{P_ IJ} ^ {2} / F_ {I}}} {{\ mathop \总和\ nolimits_ {I = 1} ^ {N}(P_ {IJ} ^ {2} / F_ {I})}} $$
(3)

在哪里\(f_i = \ mathop \总和\ limits_ {J = 1} ^ {M} P_ {IJ} \)我\ \ ()表示个簇和\(j \)表示j个样本,\ (p_ {ij} \)概率是j这个样品属于我们通过eq。(2).\(q_ {ij} \)辅助目标概率是j这个样品属于集群。这种变换是由Xie等人提出的,目前正在兴起\ (p_ {ij} \)到所述第二功率,然后通过每个群集频率归[23.].幂2的使用是为了突出对聚类任务具有高置信度的样本和模型对聚类分配不确定的折扣样本。

  1. 4.

    损失函数

为了优化神经网络,我们使用基于Bregman divergence的双调性logistic损失作为主要损失函数。Amid等人提出了Bi-tempered logistic loss,显示了使监督学习对噪声具有鲁棒性的优势[10.].为了实现稳健性,他们设计了钢化型软态功能和钢化物流损失,并在后面提供了详细的数学原因(EQ。45).我们认为训练CoSTA也面临数据内部未知噪声的问题,因为聚类会给样本分配错误的标签。甚至当群集是基于随机初始化的ConvNet时也是如此。因此,使用bi-tempered logistics loss是为了处理聚类产生的错误或不确定的标签。在下面的方程中,\ (t_{1} \识别)\(T_ {2} \)是原工作中提出的两个温度参数。\ (t_{1} \识别)控制输入值的日志转换,而\(T_ {2} \)控制激活输入值的指数函数。当两个\ (t_{1} \识别)\(T_ {2} \)等于1,双回火物流损失与SOFTMAX激活公共KL散度的损失。

{{0{{{{{{{{{{{{{{{{{{{{{{{{1}}}}{{{{{{{{{{{{{{{{{{{{{{{{{1}}}L元元元元{{{{{{{{{{{{{{{{{{{{{{{{}}}}}}}学校学校学校学校学校教学{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{{}}}}}}}}}}}}}}}{{{{{{{{{{{{{{{{{{{{{{{{{{{}}}}}}}}}}}}}}}{{{{{{{{{{{{{{{{{{{{{{{}}}}}}}}}}}}}}}}}}}}}{1}}}\对)$$
(4)

在哪里\(log_{{t_{1}}} \左(x \右)\)可以近似\(\压裂{1} {{1 - T_ {1}}} \左({X ^ {{1 - T_ {1}}} - 1} \右)\)\(义}\)是目标值和\(\hat{y}{i}\)为完全连通层外的预测值。

$$ \ hat {y} _ {i} = exp _ {{t_ {2}}}左({\ hat {\ alpha} _ {i} - \ lambda _ {{t_ {2}}}左({\ hat {\ user2 {\ alpha}}} \右)} \右)$$
(5)

在哪里\(\帽子{\阿尔法} _ {I} \)是完全连接层的输出的线性激活th集群,\(\拉姆达_ {{T_ {2}}} \左({\帽子{\ USER2 {\阿尔法}}} \右)\在{\ mathbb {R}} \)是S.T.\(\ mathop \ sum \ limits_ {j = 1} ^ {k} exp _ {{t_ {2}}}左({\ hat {\ alpha} _ {j} - \ lambda _ {{t_ {2}}\ \ left({\ hat {\ user2 {\ alpha}} \右)} \右)= 1 \)

在我们的模型中,中心损耗是可选设置。在监督学习中,中心丢失首先被提出用于帮助模型学习区分性表示[24.].与中心损耗优化模型等于最小化由等式定义的类内的变化。(6).

$ $ L_ {c} = \压裂{1}{2}\ mathop \总和\ limits_ {j = 1} ^ {{M_{我}}}\ |间{我}- c_ {j} \ | ^ {2} $ $
(6)

在哪里\ (c_{我}\)质心是th集群,\(x_ {j} \)是的隐藏功能j此集群中的样本。

因为降低中心损失会使样本更接近聚类中心,学习到的表示在隐藏空间中会更有区别性。虽然我们没有使用中心损失来训练Slide-seq数据的模型,但我们发现在训练期间添加中心损失可以显著提高Fashion图像数据的准确性(附加文件11.:图S11),方差为0.6的合成数据。如果用户拥有一个具有一定程度的已知地面真相的生物数据集进行比较,那么初始数据探索应该探索结合中心损失和双脾气逻辑损失是否更适合捕获数据的已知空间特征。

  1. 5.

    规范化的互信息

与监督学习不同,我们没有对哥斯达的方法训练的原因真相。要监控培训率如何,我们使用规范化的互信息(NMI)来比较跨越培训时期的重量更新之前和之后的聚类标签。培训期间NMI的增加表明聚类标签的变化减少,因​​此表明模型的融合。我们不能在哥斯达培训期间封存验证集。因此,NMI也用作过度装备的指标。一旦我们在连续时代跳过NMI的大跳,我们认为该模型已经融合。对于具有合成数据的测试,我们还使用NMI来量化CostA分配的标签匹配的符合真品标签的程度。

  1. 6.

    使用常见图像数据集进行实验

MNIST手写、usps数字和时尚图像数据集从:http://yann.lecun.com/exdb/mnist/https://www.kaggle.com/bistaumanga/usps-datasethttps://www.kaggle.com/zalando-research/fashionmnist.These datasets come with true labels, and we noticed that the CoSTA approach can learn to predict more true labels than the model that is just initialized and exceeds UMAP + GMM with pixel values as features (Additional file11.:图。S11)。对于时尚图像数据集,我们在使用仿磨损的物流损失作为整个损失功能后,哥斯达队在加入中心损失后大大提高。然而,与这些数据集的哥斯达州的学习能力小于监督学习方法(通常> 95%的精度)。我们得到的最高精度是0.961(MNIST手写),0.931(USPS-Digit)和0.686(时尚),通过NMI测量的聚类标签和真实类标签之间。使用osta实现的NMIS应用于MNIST和时装数据集高于所有其他深度学习聚类方法,而SOSTA NMI对于USPS的评分在深度学习方法的排名中,[7].我们还测试了SpatialDE是否能够识别这三个图像数据集中的模式。我们利用SpatialDE实现的自动组织学模式检测,将MNIST手写、USPS-digit和Fashion图像聚类为10组,SpatialDE的MNIST手写、USPS-digit和Fashion图像聚类结果分别为0.532 (MNIST手写)、0.658 (USPS-digit)和0.568 (Fashion) NMIs,甚至低于UMAP + GMM像素聚类结果(Additional file)11.:图。S11)。

模拟数据集

  1. 1。

    用5种模式仿真合成数据

我们按照SPARK中的模拟方法生成了10000个假基因,这些假基因可以分为5种不同的模式[5].我们根据均值为零、方差范围为0.2 ~ 0.6的正态分布,在每个空间坐标上独立添加残差,得到5个不同噪声水平的合成数据集。模拟代码可在https://github.com/xzhoulab/SPARK

  1. 2。

    带掩模的合成数据

我们选择方差为0.4的合成数据进行检验。我们随意选择了一个区域来蒙版,在附加文件的蓝色圆圈里的区域3.:图S3b。尽管这是一个任意选择,但我们有意避免任何对每个表达式模式至关重要的区域。因此,掩模区域在视觉上不会破坏空间模式。对于每个模式,我们随机选择一半的模拟基因,并通过抑制该区域的表达来添加掩模。另外一半的模拟基因保持完整。因此,我们有5000个基因,每个都有面具和没有面具。

  1. 3.

    通过混合SE和非SE基因模拟真实的空间转录组数据

我们仍然关注方差为0.4的合成数据。我们进一步引入非SE基因,构建更多具有不同比例的SE和非SE基因的合成数据集。产生非se基因的代码也可以在https://github.com/xzhoulab/SPARK.在这个测试中,我们生成了5个合成数据集,SE和非SE的比率在90:10到10:90之间。

干扰空间信息但不干扰像素相关性的变换方法

为了评估CoSTA和其他方法在空间和像素信息上检测模式的程度,我们使用了一种数据变换方法,该方法将保留不同基因图像矩阵之间逐像素的相关性,但会扰乱相邻像素空间模式(附加文件12.:图S12)。每个基因矩阵(表达图像)通过将矩阵的所有行连接成单行而扁平化成单个载体。然后,对所有基因表达图像的单个元素在载体中的位置进行相同的排序。也就是说,对于所有图像,位置2的数据现在可能在位置10,而位置10现在将在位置3,等等。然后,这些载体被重组成一个矩阵,这些相同打乱的基因矩阵通过给定的分析工具传递。因此,任何方法(如像素重叠或相关),仅依赖于两个基因图像像素之间的一对一关系,将完全相同的执行打乱和原始数据。相比之下,当先前存在的更广泛的模式被打乱时,捕捉相邻像素之间共享模式信息的方法(如高基因表达的更广泛的斑块)将对打乱的数据执行不同的操作。

SE基因通话

要呼唤SE基因,我们使用一个集合学习的方法。简单地说,我们独立训练5个哥斯达型号。然后,我们计算一组相同数据集中的每个基因的最近邻居,使用5,10,15,20,25,30,40,50和100的相邻设定大小。这是因为与其邻居的不同基因可以形成一个不同尺寸的社区。使用宽范围的相邻设定尺寸可以使我们能够包括仅形成具有少数基因的小型社区的SE基因以及落入大基因组的SE基因。接下来,我们计算跨越5句容的Jaccard相似性,并保持具有大于0.2的平均相似度的基因至少在一个邻居设定尺寸:5,10,15,20,25,30,40,50或100中。

相关基因调用

为了找到重要的相关基因,我们使用来自5个Costa模型之一的学习功能来计算所有基因之间的欧几里德距离。例如,获得显着相关基因vim.,我们计算了所有其他SE基因到vim.基于学习到的特征。然后,我们用这些距离来创建一个零分布。z -分数低于−2.323 (p < 0.01) are considered significant, and genes that have significant distances would be called out as correlated genes tovim..由于我们训练了5个独立的模型,我们得到了数据中每个SE基因的5组相关基因。然后,我们保留至少在3个模型中出现的相关基因。

MERFISH分析

我们获得了取自Dryad的小鼠下丘脑视前区MERFISH数据集[15.](https://datadryad.org/stash/dataset/doi:10.5061/dryad.8t8s248),我们在Bregma + 0.11mm的切片距动物18以进行Spark分析的分析[5].我们将图像分辨率降低了10倍,并将图像大小调整为85X85矩阵。接下来,我们直接将定制的CoSTA模型应用到MERFISH数据集。如上所述,这种定制的方法具有定义CoSTA的通用架构。定制的ConvNet也有三个卷积层,但每个卷积层都有一个更大的过滤器,以减少输出的整体尺寸。为了与SPARK的结果进行比较,我们通过排列图像100次,创建了相关基因调用的空分布。排列后的图像通过CoSTA转发,得到排列后的空间特征。然后根据真实图像的空间特征计算它们的欧氏距离,并将这些距离作为零分布。因为这9种定义的细胞类型表达模式是已知的,与这9种表达模式显著相关的基因被称为SE基因。对于MERFISH数据集中的每一个基因,包括5个空白对照,我们计算了它的欧氏距离和它到9个表达模式的100次打乱距离。 If the true Euclidean distance of one gene to one cell type pattern are lower than Z-score − 2.323, we call this gene an SE gene that is correlated to the expression pattern typical of this particular cell type. To visualize the training process, we project the feature vectors of each gene onto the first two UMAP dimensions and label each gene according to clusters defined using the whole feature vector. We use a linear intrinsic dimensionality (LID) estimator to quantify the change in cluster distinctness before and after training. This estimator mainly measures a ratio between distance of each datapoint to its the second closest datapoint and distance to its closest datapoint. Ratios are ordered from low to high and it fits a line that crosses the origin. The slope of this line represents the LID of this data in the latent space. Simply put, the lower LID, the more clustered datapoints are in the latent space. Indeed, among 10 different runs, spatial representations after training show lower LIDs than without training.

用SPARK和SpatialDE分析幻灯片序列

与SPARK和SpatialDE滑序列分析如下用这两种方法提出,使用默认参数的标准分析管道。分析代码可以在GitHub的仓库中找到(https://github.com/rpmccordlab/costa.).

可用性数据和材料

从处理过的Slide-seq数据集中检索https://singlecell.broadinstitute.org/single_cell/study/scp354/slide-seq-study.. 我们还将本研究中所有分析的处理过的MERFISH和幻灯片序列数据和脚本存放在GitHub存储库中(https://github.com/rpmccordlab/costa.)在开源计划符合MIT许可证下。稿件中使用的代码的版本可用https://doi.org/10.5281/zenodo.3948711

缩写

事先:

卷积神经网络

SE或SV基因:

空间表达或空间可变的基因

哥:

无监督的空间转录组织分析的Convnet学习策略

参考

  1. 1。

    伯吉斯DJ。空间转录组学即将成熟。[j] .自然科学进展,2019;20(6):317。

    CAS.文章谷歌学者

  2. 2。

    Eng CHL, Lawson M, Zhu Q, Dries R, Koulena N, Takei Y, Yun J, Cronin C, Karp C, Yuan G-C, et al. .RNA seqFISH在组织中的转录组级超分辨率成像。大自然。2019;568(7751):235。

    CAS.文章谷歌学者

  3. 3.

    Rodriques Sg,Stickels Rr,Goeva A,Martin Ca,Murray E,Vanderburg Cr,Welch J,Chen Lm,Chen F,MacOSKO EZ。SLIDE-SEQ:一种可扩展技术,用于测量高空间分辨率的基因组表达。科学。2019; 363(6434):1463-7。

    CAS.文章谷歌学者

  4. 4.

    情人节,莎拉在,奥利弗S。空间变异:空间变异基因的鉴定。Nat方法。2018;15(5):343–6.

    文章谷歌学者

  5. 5.

    Sun S,朱家,周X.空间解决转录组研究空间表达模式的统计分析。NAT方法。2020; 17(2):193-200。

    CAS.文章谷歌学者

  6. 6.

    卡隆男,Bojanowski P,Joulin A,杜兹M.深聚类的视觉特征的无监督学习。2018年。v2 arXiv: 1807.05520

  7. 7.

    高伟R,桑托斯-Rodriguez的R,Piechocki RJ,克拉多克I. N2D:(不太)通过聚类的autoencoded嵌入的局部歧管深聚类。2019年。arxiv: 1908.05968版本6

  8. 8.

    基于无监督深度嵌入的聚类分析。见:第33届国际机器学习会议论文集。48卷,2016;478 - 87页。美国纽约。

  9. 9。

    Mcinnes L,Healy J,Melville J.Muap:尺寸减小的均匀歧管近似和投影。2018年。v2 arxiv: 1802.03426

  10. 10.

    在一片E,Warmuth MK,阿尼尔R,基于布雷格曼分歧科伦T.强大的双回火物流损失。2019年。v3 arxiv: 1906.03361

  11. 11.

    徐强,王志强,王志强。在后脑中,维甲酸信号调节的细胞身份转换维持着相同的节段。Dev细胞。2018;45 (5):606 - 620. - e603。

    CAS.文章谷歌学者

  12. 12.

    用于机器学习研究的MNIST手写数字图像数据库[最好的web]。信号处理学报。2012;29(6):141-2。

    文章谷歌学者

  13. 13。

    Ståhlpl,salménf,vickovic s,Lundmark a,Navarro Jf,Magnusson J,Giacomello S,Asp M,Westholm Jo,Huss M等。空间转录组织切片中基因表达的可视化与分析。科学(Am Ad Adv Sci)。2016; 353(6294):78-82。

    文章谷歌学者

  14. 14。

    荣NX,艾普Ĵ,贝利J.信息对群集合比较理论措施:变体,属性,归一化和校正的机会。J Mach Learn Res。2010; 11:2837-54。

    谷歌学者

  15. 15.

    Moffitt JR, Bambah-Mukku D, Eichhorn SW, Vaughn E, Shekhar K, Perez JD, Rubinstein ND, Hao J, Regev A, Dulac C,等。下丘脑视前区分子、空间和功能单细胞分析。科学。2018;362 (6416):eaau5324。

    文章谷歌学者

  16. 16.

    利用最小邻域信息估计数据集的固有维数。Sci众议员2017;7(1):12140 - 8。

    文章谷歌学者

  17. 17.

    Edsgärd D, Johnsson P, Sandberg R.单细胞基因表达数据中空间表达趋势的鉴定。Nat方法。2018;15(5):339 - 42。

    文章谷歌学者

  18. 18.

    Eden E,Navon R,Steinfeld I,Lipson D,Yakhini Z.Gorilla:在排名基因列表中发现和可视化富集术语的工具。BMC生物素。2009; 10(1):48-48。

    文章谷歌学者

  19. 19。

    基于Slide-seqV2的近细胞分辨率高敏感空间转录组学。生物科技Nat》。2021;(3):313 - 9。

    CAS.文章谷歌学者

  20. 20.

    Chen Kh,Boettiger An,Moffitt Jr,王S,庄X.在单细胞中分辨,高度复用RNA分析。科学。2015; 348(6233):AAA6090。

    文章谷歌学者

  21. 21。

    王X,艾伦我们,赖特马,斯卡沃斯塔克·埃尔,萨乌斯尼克··维苏纳州,埃文斯·刘开,ramakrishnan c,刘j等。单细胞转录状态的三维完整组织测序。科学。2018; 361(6400):EAAT5691。

    文章谷歌学者

  22. 22.

    Vickovic S,Eraslan G,Salménf,klughammer j,stenbeck l,schapiro d,äijöt,bonneau r,bergenstråhlel,navarro jf,等。高清空间转录组织原位组织分析。NAT方法。2019; 16(10):987-90。

    CAS.文章谷歌学者

  23. 23.

    杨志强,王志强,王志强。基于无监督学习的图像聚类算法。2016.v3 arxiv: 1604.03628

  24. 24。

    一种基于特征学习的人脸深度识别方法。计算机视觉- eccv 2016: 2016。可汗:施普林格;2016.499 - 515页。

    章节谷歌学者

下载参考资料

确认

我们感谢田红、沈彤叶和Amir Sadovnik的深入讨论。

资金

这项研究部分由NIH NIGMS资助R35GM133557给R.P.M.。资助机构在研究的设计、数据的收集、分析和解释以及手稿的撰写中都没有发挥作用。

作者信息

从属关系

作者

贡献

YX构思了该项目,开发了计算方法,并进行了分析。RPM监督该项目,进行了一些分析并编写了一些数字,而YX和RPM写了稿件。所有作者都已经阅读并赞成最终的手稿。

相应的作者

对应于Rachel Patton McCord.

伦理宣言

伦理批准和同意参与

不适用。

同意发布

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充信息

额外的文件1。补充图1:

科斯塔和重叠分析性能的找到相关位数位3 1000图像进行比较,从全MNIST数据集采样,并且每个数字包含100个样本。科斯塔(红色条)唯一调用位3的样本作为关联于位3。然而,重叠分析(蓝色条)标识的所有数字一些情况下,作为表示与数字3.科斯塔一些重叠更具体地,但较不敏感:科斯塔报告较少数量的相关数字3的图像(右下)的重叠的同时分析报告的相关数字的更大数量的整体。

额外的文件2。补充图。2:

学习使用真实且改组合成数据集科斯塔的曲线。2000点模拟基因矩阵用于每个图案,如在图1中,具有不同程度的噪声中加入(“方差”)的。洗牌每个模式并进行各种模拟基因相同,使基于像素相关性进行了保留,但被打乱的邻居之间的空间关系。(参见方法和图S12为混洗的方法的细节)NMI由相对于真类标签科斯塔生成的聚类标签进行比较。

附加文件3.补充图3:

使用合成的数据集与扰动科斯塔的性能。A)左图:相同的初始空间分布如图使用1。科斯塔施加到分类2000点模拟的基因,用于从原始图(顶部),每个图案,半混洗(中),充分混洗(底部)的图案。应用模拟基因的训练有素的科斯塔表示是2D UMAP使用空间可视化表达。基因是基于来自衍生它们的真实合成图案着色。剪影分数量化的代表性如何区分不同的模式。(越接近1 =更可区别的图案被恢复)。B)通过掩蔽中断测试。从每个图案的模拟的基因的一半有一个掩蔽区域,模拟实验缺失数据。所述掩模区被圈在蓝色在上面板。 Representation of simulated genes based on pixelwise values (left) and features extracted by CoSTA (right) are visualized in 2D UMAP, and genes are colored based on pattern type from which they were generated (upper panel) or according to whether they belonged to the masked or unmasked set (lower panel).

附加文件4.补充图4:

具有不同比例的SE和非SE基因的培训哥斯达队。(a)模拟非SE基因,使用了五种没有明确的空间特征的图案。(b)将模拟的非SE基因与从图1中的5种模式模拟的SE基因混合在不同比例从90:10至10:90中。这些基因混合物的Costa表示在2D UMAP中可视化。基于模式成员(顶部)或SE类型(底部)是有色的基因。(c)剪影分数量化表示在不同混合比中的SE和非SE基因的不同模式区分不同模式的程度。

额外的文件5。补充图。5:

vim,ctsd和gfap的重叠邻居数量在所有时期的每次重量之前和之后,考虑到10个最近的邻居(左),20个最近的邻居(中心),或50个最近的邻居(右)。

附加文件6.补充图6:

SE基因后3天至2周脑损伤的数量。重叠由火花或科斯塔确定SE基因的(A)。(B)与原始和混洗的数据科斯塔学习曲线。(参见方法和图S12为混洗的方法的细节)Y轴显示NMI簇标签之间计算在训练时期t与簇标签在先前时期T-1。x轴示出训练时期吨。的所有测量的基因被称为SE基因由方法3(C)的百分比。

额外的文件7。补充图7:

脑损伤后3天和2周的Vim、Ctsd和Gfap的表达模式。(A)脑损伤后3天Vim、Ctsd、Gfap的表达情况。(B)脑损伤2周后Vim、Ctsd、Gfap及少突胶质细胞发育相关基因的表达模式(下排)。在Vim, Gfap和Ctsd(小红框)之间明显相似的模式在少突胶质细胞发育基因中并不明显。

附加文件8.补充图8:

像素重叠SPARK的比较,SpatialDE,科斯塔,和结果。(A)由科斯塔,火花SpatialDE,和重叠分析(“幻灯片-SEQ”)来识别损伤后用Vim,CTSD,和GFAP在2周相关基因列表的重叠。(B)对基因的基因表达的图像的实例检测为火花并且还通过科斯塔类似的Vim,GFAP和CTSD(左)或火花和不科斯塔(右)。下面图片中的数字表示该特定基因的相关基因列表中的排名。见图S7用于查询的基因的表达模式。所有图像都在0和1之间的比例为可视化的目的。在Vim中,GFAP和CTSD高表达的关键可见区域以红色圆圈为所有图像的交叉比较。(C)基因本体论术语的富集使用经排序的科斯塔产生相关的基因列表由大猩猩评价(见表S4)。(d)的基因由科斯塔高排名的基因表达的图像的实例仅(左),只有像素(中),和两个(右)作为类似的Vim,GFAP和CTSD。注释旁边基因名称显示在哥斯达黎加“C”和像素“P”的排名。

额外的文件9。补充图9:

脑损伤后2周鉴定的SE基因的表达模式。SE基因通过SPATIALDE和COSTA聚集成6组。Costa群集号对应于图4D,最常相似的SpatialDe集群在可能的情况下放置在最近似的Costa集群下方。包含Vim,GFAP和CTSD的Spatialde集群是群集2.第3行中的平均表达式模式显示了在2周数据集中组合的所有基因的整体模式。

额外的文件10。补充图。10:

簇数对哥斯达结果的影响,2周后损伤幻灯片SEQ数据。A的SE基因,由肋斯塔用10-100集群鉴定。B,Costa学习曲线10-100集群。Y轴显示在训练EPOCH T和群集标签之间计算的NMI在以前的epoch t-1的群集标签之间计算。x轴示出训练时期吨。C,发现的基因的平均表达模式与Costa识别的Vim,GFAP和CTSD相关,其中簇数为10-100。对于这些可视化,原始计数值缩放为0到1。

附加文件11.补充图11:

CoSTA方法应用于USPS、MNIST和Fashion数据集的聚类。左面板:模型被训练为10个时代。每次权重更新后,我们将图像聚类成10个簇,并通过NMI直接将它们与真实类标签进行比较。灰色线表示以像素值为特征的UMAP+GMM聚类。黑线表示SpatialDE聚类。橙色线表示Fashion数据集中中心损失和双脾气逻辑损失组合的学习。右面板:NMIs之间集群在t更新和上一个(t-1)更新。

附加文件12补充图12:

保持像素相关性但破坏空间信息的变换方法。(A)代表洗牌方式的卡通。右图:两个初始的4x4基因矩阵(例如尺寸较小)。每个矩阵都显示了特定的表达模式,其中邻近的一簇像素显示了相似的基因表达。像素被编号,以便在洗牌过程中跟踪它们的位置。中间:4x4矩阵被平铺成一个单一的向量,然后像素的位置以同样的方式为Gene1和Gene2打乱(橙色箭头显示一些像素重新排列的例子)。每个图像中的像素顺序被打乱,但每个基因与其他基因具有相同的像素顺序。这保留了来自不同基因的图像的单个像素相关性,但破坏了相邻像素之间的空间排序和关系。右:洗牌后的向量被重组成4x4矩阵。(B) 2例Slide-seq基因矩阵洗牌结果示例。 Left: original gene expression image matrices. Shuffling is applied identically to the two genes as shown in A. Right: Resulting shuffled matrices. Visible spatial patterns are gone, but the pixel correlation of the two images would remain the same.

附加文件13.补充表1:

.比较10000年科斯塔和SpatialDE分类模拟基因属于5空间模式(见图1)。归一化互信息是用来衡量科斯塔之间相似性或SpatialDE-derived集群作业和真正的集群作业(值接近1表明更高的真实与预测相一致集群成员)。在噪声水平为0.6时,CoSTA在加入中心损失后表现更好(0.91 vs. 0.52)。对于打乱的数据,每个基因基质按照图S12和方法中所述进行相同的打乱。这种变换保留了基因之间的像素相关性,但破坏了整体空间模式,允许评估测试分析是否检测到像素或空间信息。

附加文件14.补充表2:

CoSTA在MERFISH数据集中确定的SE基因簇(细胞类型模式包括在簇中)。

附加文件15.补充表3:

CoSTA应用于4个不同的Slide-seq实验的基因图像,并评估它是否能够正确地将基因图像分离到原始组织切片(总体模式)中。表中为CoSTA结果衍生的聚类标签与原已知实验标签的混淆矩阵。

附加文件16.补充表4:

Slide-seq数据中所有的CoSTA SE基因在受伤2天后根据它们与查询基因Vim、Ctsd和Gfap的相似性进行排序。根据CoSTA特征向量和像素相关性进行排序。第4和5列表明每个基因是否被SPARK或SpatialDE发现与这些查询基因相关。

附加文件17.补充表5:

从2周的Slide-seq数据中,CoSTA得到的每个聚类的基因列表,如图4D所示。

补充文件18.补充表6:

CoSTA 3天2周Slide-seq数据的运行时间运行时以分钟为单位,并且在训练期间分配不同数量的集群。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

徐,Y.,麦科德,R.P.科斯塔:无监督卷积神经网络学习空间用于转录分析。欧宝娱乐合法吗22,397(2021)。https://doi.org/10.1186/s12859-021-04314-1

下载引用

关键词

  • 空间转录组
  • 基因聚类
  • 卷积神经网络