跳过主要内容

基于网络滤波器的大规模生物数据去噪

摘要

背景

大规模生物数据集通常是由噪音,从而可阻碍约潜在过程准确推断污染。这样的测量噪声可以从内源性生物因素,如细胞周期和生活史变化出现,并且从外源的技术因素等的样品制备和仪器变化。

结果

我们描述了大型生物数据集自动降噪的一般方法。此方法使用的交互网络,以确定相关的或抗相关测量的基团,可以被组合或“过滤”,以更好地恢复一个潜在的生物信号。去噪的图像的过程相似,一个单一的网络滤波器可被应用于整个系统,或者该系统可以首先被分解成不同的模块和施加到每个不同的过滤器。施加到与已知的网络结构和信号合成数据,网络过滤器精确地在宽范围的噪音水平和结构的噪声降低。施加到在健康组织和癌组织预测人蛋白表达变化的机器学习任务,网络相比于使用未滤波的数据到43%过滤训练增加之前精度可达。

结论

网络过滤器是去代标生物数据的一般方式,并且可以考虑不同测量之间的相关性和反相关。此外,我们发现在过滤之前划分网络可以显着降低具有异质数据和相关模式的网络中的错误,并且该方法优于现有的基于扩散的方法。我们对蛋白质组学数据的结果表明网络过滤器对系统生物学应用的广泛潜在效用。

背景

全系统的分子谱数据经常被噪声污染,噪声会掩盖感兴趣的生物信号。这种噪声既有内生的生物因素,也有外生的技术因素。这些因素包括试剂和方案的可变性、研究技术、传代数效应、随机基因表达和细胞周期的不同步性。当测量细胞状态及其在不同条件下(如发育中)如何变化时,这种可变性可以掩盖潜在的生物信号[1.,2.],癌症进展[3.和适应性耐药性[4.,5.].噪音也与错误信号的出现和一些研究的不可复制性有关[6.,7.].在分析之前识别和纠正噪声测量可能会提高对微妙生物信号的检测,并使系统生物学中的预测更准确。

如果相关分子信号之间的相关性比噪声源之间的相关性更强,那么可以将不同但相关的信号结合起来去噪生物测量,代价是减少有效样本量。识别相关信号有三种常用的方法:基因集、子空间嵌入和网络。在第一类中,像GSEA [8.,9利用基因的浓缩,将数据投射到生物学相关的特征上。虽然基因集可以增加识别差异调节过程的能力,但它们本质上是粗糙的,本身可能是嘈杂的,不完整的,或有偏见的,因此可能不能概括为新的过程。子空间嵌入技术包括PCA [10),聚类(11和神经网络自动编码器[12,13].这些方法可以捕获新的基因-基因相关性,但它们很少将生物信息纳入特征提取,这限制了可解释性和泛化性。

仅单独的分子分析数据不直接通知哪些测量应彼此多或多次。代表分子系统功能结构的网络可以提供这种缺失的信息。例如,蛋白质 - 蛋白质相互作用,代谢反应和基因调节网络各自编码精确和生物学上有意义的信息,关于哪些测量的蛋白质表达水平,代谢物浓度或转录水平在功能上有关,因此应该将其测量结合到过滤中独立噪音。目前的网络方法使用计算密集的方法来识别哪些实体最多是相关的,这可以限制其大型网络和一般可用性的实用程序[14,15]

在网络中的相邻元素中,基础信号可以是相关的(分类的)或反相关的(分离的)[16]. 例如,在调节网络中,差异表达往往与相邻基因相关[17].相反,抑制或补偿相互作用[18,19]将倾向于产生一种不和谐的关系。除了成对的测量之外,网络还可以在这些相互作用中表现出大规模的混合模式,这样一个网络在某些区域可能或多或少是分类的,而在另一些区域可能是非分类的[20.].现有的基于网络的方法通常不会利用这种可变性,而是通过将单个过滤器应用于整个网络来假设全局分类混合[14,15,21.].滤波器和关系类型不匹配,例如,具有反相关测量的各种过滤器,可以进一步模糊潜在的生物信号。在这里,我们描述了一种基于一般的网络方法,可以自动检测大规模混合模式并考虑到分类和抵消关系。

这些网络滤波器与图像处理中基于核的方法密切相关[22.,其中相关像素组被转换在一起,以改善它们潜在的视觉信号。大多数这样的技术利用图像的底层网格几何来选择哪些像素具有相关信号来去噪。网络缺乏这种几何结构,因为节点的相互作用本质上是无序的,而像素的左右邻居是明确定义的。网络过滤器和图像处理之间的这种联系具有丰富的潜在有用的想法,可以用于处理大规模的生物数据。例如,网络中的社区检测与图像分析中常见的“分割”步骤很相似,在这个步骤中,像素首先被分成代表图像大规模结构的组,例如,将前景和背景分离,或将汽车与街道分离,然后不同的过滤器被应用到每个片段(模块)。

我们首先描述两类网络滤波器,它们结合相邻节点的测量值来计算分类或非分类去噪值,我们描述了一种通用算法,该算法将网络分解为结构模块,然后自动对每个模块内的节点和连接应用最合适的过滤器。当应用于真实值和网络结构已知的合成数据时,这些过滤器大大减少了相对于基线的误差。此外,我们还展示了对潜在的生物学关系应用错误的过滤器如何导致错误的增加。最后,为了在更现实的环境中测试这些方法的实用性,我们研究了网络过滤对机器学习任务的影响,在机器学习任务中,我们预测健康组织癌变时人类蛋白质表达数据的变化。在模型训练之前,使用网络滤波器对表达式数据进行去噪,与未经滤波的数据进行训练相比,可将后续预测精度提高43%。

结果

网络过滤器

网络筛选器由函数指定\(f[i,{\mathbf{x}},G]\),它将要去噪的度量(节点)的索引、所有度量的列表作为输入\({\mathbf{x}}\)和网络结构G在这些测量。输出是去噪后的值\({\帽子{X}} _ {I} \).在这里,我们只考虑本地网络过滤器,它使用测量值一世的在近邻G由节点集合表示\(\ nu _ {i} \)这可能是与去噪最相关的生物学问题。每个滤波器同步应用,使所有去噪值同时得到,以防止去噪过程中出现反馈。

我们注意到,网络过滤器的思想可以自然地推广到利用信息,如果可用,关于符号或交互强度G.这个信息可以通过边的权值进行编码\(w{ij}\),这可以捕获强或弱的抑制或兴奋性相互作用。下面,我们专注于这些信息不可用的情况。

图1
图1

网络滤波器原理图。网络过滤器是一种工具,它利用一个有生物学意义的网络,利用相邻测量值之间的相关性(“平滑”)或反相关性(“锐化”),对真实值的生物数据去噪。一种测量\(x_ {i} \)以及网络中的相邻值,其中颜色强度与测量值成正比。在应用平滑过滤器时,\(x_i\)调整为更类似于其邻居;在应用夏普过滤器时,\(x_i\)被调整为与邻国的距离更远。B.也可以首先通过检测网络中的结构模块将测量划分为组(虚线),然后将不同的滤波器应用于不同的模块,忽略模块边缘之间的差异,例如,如果信号在某些社区中是分类的,而在其他社区中是非分类的

当一个测量\(x_ {i} \)与邻居的值相关\(间{\ν_{我}}\)在网络(协调性)中,应该调整网络过滤器\(x_ {i} \)更接近其邻居的测量值(图。1.一种)。在具有这种定性行为的函数的许多选择中,均值和中位数具有有用的数学属性,并与过去的工作连接[21.].这种设置类似于图像处理中的平滑操作,即像素值被其值及其相邻值的平均值或中值替换。在网络环境中,均值和中值“平滑”滤波器的形式如下:

$$\begin{aligned}f{\bullet,1}[i,{\mathbf{x},G]=\frac{1}{1+k{i}}\left({x{i+\sum{j\epsilon\nu{i}}x{j}\w{ij}\right),\end{aligned}$$
(1)

在哪里\ (w_ {ij} \ ! = \ ! 1 \)\ (k_{我}\)是节点的度数一世,反映未加权的交互,以及

$ $ \开始f{\子弹,2}{对齐}[我{\ mathbf {x}}, G) = \ mathrm{值}({\ {\,x_i间{\ν_{我}}\}})。\{对齐}$ $
(2)

当一个测量\(x_ {i} \)与其相邻节点的值反相关,网络过滤器应调整\(x_ {i} \)与邻国的距离更远(图。1.a) 。此设置类似于增强图像中的对比度,例如,当使用非锐化掩蔽技术增强图像中的高频信号以使其更清晰时。在网络环境中,“锐化”过滤器的形式如下:

$ $ \开始f{\保监会}{对齐}[我{\ mathbf {x}}, G) = \α(间{我}- f{\子弹,1}[我{\ mathbf {x}}, G)) + \酒吧{\ mathbf {x}} \{对齐}$ $
(3)

在哪里\(\α\)是一个恒定的比例因子,并且\(\ bar {\ mathbf {x}} = n ^ { - 1} \ sum _ {i} x_i \)是全球意味着。因为\(\α\)是一个自由参数,它的值应该为每个数据集从头确定。对于本研究的数据集,我们通过经验确定最优\α= 0.8 (\ \)使用交叉验证。

当一个系统表现出分类关系和非分类关系的大规模混合模式时,应首先使用社区检测算法将网络划分为结构模块,以便每个模块内的关系更加同质。让\(\ VEC {S} = {\ mathcal {A}}(G)\)表示应用社区检测算法的结果\({\ mathcal {a}} \)网络G,并说\(G{s{i}}\)表示模块内节点和连接的子图\ (s_{我}\)包含节点一世. 给定这样一个模分解vec{年代}\ (\ \),则过滤器只能应用于子图\(G{s{i}}\)包含测量一世.因此,跨越两个模块之间边界的关系将不会影响过滤后的值(图。1.b)。

在划分之后,可以对每个社区应用相同的筛选器,或者分别对具有更多或更少协调性值的社区应用尖锐和平滑的筛选器。我们将这种“拼接过滤器”定义为:

$$ \ begin {对齐} f [i,{\ mathbf {x}},g_ {s_ {i}}] = {\ left \ {\ begin {array} {ll} f _ {\ cir} [i,{\ mathbf {x}},g_ {s_ {i}}],&{} {\ mathrm {if}}〜r_ {s_ {i}} <0 \\ f _ {\ bullet,1} [i,{\mathbf {x}},g_ {s_ {i}}],&{} {\ mathrm {if}}〜r_ {s_ {i}} \ ge 0 \ neg {array} \ rothing。},\结束{对齐} $$
(4)

在哪里(r_ {s_ {i}} \)是否根据社区内的观察值计算出了标准配性系数\ (s_{我}\)[16].虽然任何社区检测算法,可用于\({\ mathcal {a}} \)在这里,我们使用来自三类算法的方法:模块化最大化[23.,谱划分[24.和统计推断。对于通过统计推理的社区检测,我们使用程度校正的随机块模型或DC-SBM [25.]或者DC-SBM的“元数据感知”版本[26.],被认为是最先进的方法[27.].

使用合成数据的测试

我们在两个控制实验中评估了这些网络滤波器的性能,其中包括非模块化或模块化合成网络,以及不同的结构和噪声水平。此外,我们将网络滤波器的性能与其他基于网络的去噪方法进行了比较,这些方法结合了由扩散矩阵加权的节点值[14,15].

在第一个实验中,我们生成了具有重型度分布的简单随机图(参见“方法“截面),并为每个节点分配一个从正态分布中得出的平均值\ \(\μ= 100)和标准偏差\σ= 10 (\ \). 这些值的绘制方式使得网络的分类系数范围为\(r \在[-0.8,0.8]中)(参见“方法”一节)。因此,关联值的范围从高度反相关到高度相关。为了模拟独立测量噪声,我们在25%的节点中均匀随机排列这些值,然后去噪这些“损坏”的值。我们发现其他排列的分数的选择在性质上相似的结果。结果报告了一个去噪值的平均绝对误差(MAE),平均超过5000次重复。

图2
图2.

综合网络上的过滤性能。网络滤波器对具有不同结构和已知噪声的合成图。平均绝对误差(MAE)一种网络过滤器,B.拉普拉斯指数扩散核,和C允许的节点上的NetSmooth作为Assortativty系数的5000个嘈杂非模块化图形的函数。平滑过滤器(均值和中位数)在各种数据上表现最佳(\ (r > 0 \)),而尖锐的过滤器是对解码数据的最佳状态(\(r<0\)).当数据既不是相配也不异配(\ (r \约0 \)),NetSmooth和Laplacian指数内核表现最佳。毛的D.网络过滤器,E.拉普拉斯指数扩散核,和F在允许节点上的NetSmooth作为社区分数的函数,具有100个嘈杂模块化图的100个实例的分类数据值。每个网络实例都有5个社区,我们各种各样的社区具有与中等的assortisivity系数的分类与解码数据值。\(| r | \在[0.4,0.7] \).阴影部分表示99%的自举置信区间

没有过滤器,一个“去噪”值的平均误差是独立的连接值之间的相关性底层(相配)的,因为这附近的信息被未加以(图2.一种)。相比之下,将网络滤波器应用于去代标损坏的值可以大大提高它们的准确性,具体取决于测量的真值与邻居的强烈耦合,以及应用哪些滤波器来恢复该信息。对于该实验的特定参数,过滤可以将误差减少37-50%,即使在不相关的信号的情况下,即使在不相关的情况下,也大约20%\(r=0\)),由于对平均效果的回归。当网络“平滑”滤波器应用于强的分类信号时,误差减少最大,并且当网络“锐化”滤波器应用于强辅音信号时。也就是说,当底层信号结构与滤波器的假设匹配时,去噪最佳。

然而,当应用错误的过滤器时,相对于未过滤可能会增加错误率。在这种情况下,过滤器在数据中创建多个错误而不是纠正。另一方面,这种“不匹配”惩罚仅降低了信号中非常高的相关性(反相关)的整体精度,其中其大小完全超过过滤的自然益处(图。2.a)当潜在相关性为中等时(r \ (| | < 0.4 \)),网络过滤的平均效益往往会超过应用错误过滤器所导致的平均误差。

我们还将另外两种网络方法应用于这些非模块化合成图。这些方法通过组合由扩散内核加权的节点值来欺骗数据。在称为NetSmooth的方法中[14[每个节点由个性化PageRank随机行走矢量加权[28.],这是线性组合以产生去噪值。第二种方法在概念上类似,但在线性地组合它们以创建新的去噪值之前,使用图拉瓦思角指数扩散内核到权重节点[15].这两种方法都有一个可调参数来决定结果去噪值的平滑度。对于较大的平滑参数,该方法对节点的原始噪声值赋予更小的权重,而对远处的节点赋予更大的权重。

我们将两种方法应用于与网络过滤器相同的合成随机图,同时改变低平滑(参数= 0.1)之间的平滑参数,以及高平滑(参数= 0.9)。拉普拉斯指数核(图。2.b)和netSmooth(图。2.C)随着协调性的增加,减少噪声数据的误差。两种方法的误差随平滑参数的增大而减小。这些基于扩散的方法在高度非协调性和弱协调性值上都比平滑网络滤波器表现得更好。由于这些方法通常使用更大数量的节点值去噪,它们的回归均值效应往往比更本地化的平滑网络滤波器更准确。然而,当一个节点的值与它的邻居的值变得更相关时,平滑网络滤波器比基于扩散的方法更能降低噪声。对于非协调性数据,基于扩散的方法优于平滑滤波器,而对于弱到强非协调性数据,锐化滤波器的性能最好。

这些测试假设网络结构本身没有噪声。然而,在真实的生物网络中,可能会有缺失边和伪边[29.]. 我们测试了网络滤波器对网络结构中噪声的鲁棒性。在创建合成图并将数据分配给节点后,我们通过在均匀随机选择的节点之间用新边替换真实边来添加不同级别的噪声[30.]. 因此,此过程模拟网络缺少边和包含假边的两种情况。我们发现噪声网络会降低平均滤波器(附加文件)的性能1.:图。S1A)和中值过滤器(附加文件1.:图S1B)在具有分类数据的图形上\ ((r > 0) \),以及对数据不匹配的图的锐过滤器\((r<0)\)(附加文件1.:图就是S1C)。然而,与没有过滤器的基线相比,网络过滤器仍然大大减少了误差。当网络非常嘈杂时(90%的边缘是重新布线的),与没有滤波器的基线相比,应用滤波器可以减少误差。这种模式是由于回归均值效应,因为重新连接网络有效地将协调性系数缩小到接近于零。

在第二个实验中,我们再次产生简单随机图与重尾度分布,但现在也采用模块化结构,更好的捕捉经验的生物网络的结构(见“方法“第节)。这些模块表示以统计上相似的方式连接到其他组的节点组。例如,蛋白质相互作用网络可以分解为具有相似生物学功能的组,这些组可以具有不同类型或水平的信号分类[20.].在这种情况下,与单独的滤波模块相比,将单个滤波器应用到网络的所有部分,通过不加区分地池化附近的测量值,会在去噪值中引入偏差。

在这里,我们种植\ \ (k = 5 \)与我们的第一个实验相同类型的合成网络中的模块,将每个模块设置为具有不同的平均值,然后改变具有正分类系数的模块的分数\(| r | \在[0.4,0.7] \)相对于负系数(参见“方法”一节)。这种模块间的信号异质性降低了简单均值回归去噪的好处,并为去噪方法提供了一个更难的测试。根据这些选择,我们在一个模块中生成值,并模拟前一个实验中的测量噪声(参见“方法”一节)。除了前面的过滤器,我们在这个实验中还使用了“patchwork”过滤器。

如前所述,无滤波器的去噪值的平均误差提供了一个一致的基线,我们可以根据该基线评估滤波的改进(图。2.d)。并且类似地,对于光滑和中值滤波器两者误差稳步下降,与相配的信号增加模块的分数。对于该实验,中值滤波器执行大约20%比平均滤波器更好的特定参数,这反映了中位数是公知的鲁棒性的离群值,其从种植信号异质出现在这里。

当在整个网络上统一应用时,全局锐化过滤器对所有比率的效果都很差1.:图。S2)。由于每个模块具有不同的平均值,因此通过假设全局均值是整个网络的良好表示,全局尖锐滤波器通过良好的表示来生成错误。

相比之下,采用不同社区检测算法的拼凑滤波器的误差动态范围较小(图。2.d).当与DC-SBM配对时,它在不同程度的模块协调性方面比任何其他过滤器都要准确得多。对于本实验的特定参数,与DC-SBM配对的patchwork滤波器比不滤波的平均误差降低了30-41%,比中值或均值滤波的平均误差降低了3-36%。只有当所有模块都是协调性的时候,中值滤波器才能接近DC-SBM拼接滤波器的精度。之所以会出现这种优势,是因为拼接滤波器避免了将相同的滤波器应用于不同类型的底层信号,如果这些信号的结构与网络的结构相关(就像这里所做的)。也就是说,如果模块间的局部混合模式是异构的,那么在去噪时对模块网络应用单一滤波器会引入错误。将社区检测算法与网络过滤器配对,可以通过识别需要一起过滤的大组节点来避免这个问题,这与首先将图像分割成不同的区域后使用不同的图像过滤器非常相似。

然而,对于模块化最大化和频谱划分算法来说,patchwork滤波器的性能不如与DC-SBM配对时的好,因为算法对网络的划分不像真正的社区结构那样紧密。因此,补丁过滤器更经常使用这些算法从单个社区之外的测量。尽管存在不完美的分割,与模块化和光谱分割算法配对的patchwork滤波器在所有模块化分类级别上的性能比均值滤波器高出14-28%。在模块协调性的最高级别上,中值过滤器的性能优于光谱拼接(9%)和模块化拼接(15%),但拼接过滤器在其余模块协调性级别上仍然优于或匹配中值过滤器。

我们还应用了基于扩散的方法,这些合成的模块化网络。同时为拉普拉斯指数内核错误(图2.e)和NetSmooth(图。2.f) 随着具有组合信号的模块比例的增加,仅略有减少。与非模块化情况相反,增加两种方法的平滑参数会增加所有设置的误差。发生这种精度损失的原因是,增加“平滑”参数会在更远处的节点上放置更大的权重,这些节点更有可能从不同的分布中绘制。因此,扩散核更可能合并来自不同社区的节点的值,从而导致更高的错误率。

癌症中的蛋白表达水平

为了评估网络过滤器在现实环境中去噪生物数据的效用,我们构建了一个机器学习任务,在这个任务中,我们预测健康组织癌变时人类蛋白表达水平的精确变化(见“方法”一节)。这项任务在检测癌前病变方面有潜在的应用价值[31.,32].然后,当使用网络滤波器在模型训练之前将输入表达数据置于模型训练之前,与在模型训练之前进行比较时,我们量化了样本预测准确性的改进,与未过滤数据的培训相比。

图3
图3.

去丧料预测健康和癌组织的蛋白质表达变化。癌症蛋白表达预测任务对网络过滤器的测试。在该测试中,我们预测健康组织变得癌症的癌症发生的蛋白质表达变化,通过使用网络过滤器在训练前预处理数据以预处理数据来定量。一种人蛋白地图集中健康和癌组织免疫组织化学数据的前两个主要成分。箭头将健康组织(蓝色)连接到相应的癌症(红色)。第一组件捕获跨组织的变化,而第二则捕获状态的变化(健康与癌症)。预测健康和癌组织之间的确切变化是一个非琐碎的任务。因此,我们在HPA数据上执行K-Collect邻居回归,而无需预处理网络过滤器。我们通过休假交叉验证来评估模型,并计算左上外健康癌症对的预测和实际数据值的MAE。B.与无过滤器基线相比,所有网络过滤器和扩散方法都改善了MAE。我们在不同的选择中比较这一点K,因为它是一个免费参数。阴影区域代表95%的自动置向置信区间

本实验的蛋白表达数据来源于Human protein Atlas (HPA) [33],它提供了大规模免疫组织化学(IHC)的测量在20个组织超过12,000人蛋白质中,每个在健康和癌性状态。基于抗体的方法,如IHC已知是嘈杂并且容易从不受控制的实验参数变化量34],这使得该数据集成为一个噪声分子分析数据的现实例子。对原始HPA表达数据的标准主成分分析(PCA)显示,第一个成分与组织类型的变化相关,而第二个成分与组织状态(健康与癌变)的差异相关(图。3.a).然而,有些组织比其他组织变化更大,而且变化的方向并不总是相同的。因此,预测精确的变化是一个有用的和非平凡的机器学习任务,网络过滤可以改进。

对于网络过滤器和基于扩散的方法,我们使用了人类蛋白质相互作用网络(PPIN)的综合图[35],它结合了来自几个interactome数据库的数据,并针对具有高水平证据的生物相互作用进行策划。虽然该网络代表了权威的interactome数据的广泛收集,但人类PPN的完整性仍不确定[29.],我们不认为这个网络本身无噪音。以表达数据和交互网络中包含的蛋白质交叉(参见“方法节)产生数据\(n = 8199 \)网络中的蛋白质\(m=37{,}607\)边缘。

在机器学习任务中,我们执行K-nearest邻居回归对蛋白质表达的数据的嵌入表示学习表达水平如何与组织状态发生变化(见“方法“第节)。我们通过MAE评估经过训练的模型,在保留一次交叉验证(其中我们对19个组织对进行训练,并在20日进行预测)下,预测的蛋白质表达变化与实际的蛋白质表达变化之间,在模型训练之前使用网络过滤器或基于扩散的方法对表达数据进行去噪或不去噪。因为号码K是一个自由参数,控制学习模型的复杂性,我们评估我们的结果的稳健性系统变化K.对于patchwork filter,我们使用DC-SBM将图划分为10个模块[25.]或谱算法[24.],而模块化最大化算法[23.自动选择模块的数量。然后,我们在每个模块中应用均值过滤器。在这些数据中,大多数测量值在蛋白质相互作用的边缘是弱协调性的,只有少数检测模块显示出任何不协调性信号,甚至它们的内部R.相对接近于零(附加文件1.中:图S3)。在这种情况下,平滑滤波器通常优于陡峭的滤波器(图2.一种)。

我们使用Ronen和Akalin提出的方法,通过最大化嵌入在二维主成分分析空间中的点的熵来优化基于扩散的方法的平滑参数[14].由于健康组织和delta矢量数据的分布差异很大,我们分别优化了各自的平滑参数。

通过模型的复杂性,我们发现,使用任何类型的网络过滤器或基于扩散的方法在模型训练前去噪,相对于在未经过滤的数据上训练,可以大幅减少预测误差(图3)。3.b、 附加文件1.:图S4)。中值滤波器和netSmooth具有非常相似的性能,从没有滤波器到MAE提高了约22%。拉普拉斯指数扩散核、与光谱社区检测配对的拼凑滤波器和平均网络滤波器具有最低的MAE,分别比原始数据提高32%、37%和43%。

错误率随着模型复杂度的增加而降低K暗示更复杂的模型更好地能够捕获组织状态之间精确表达水平的变化。在不首先过滤表达数据的情况下也会发生错误的降低。但是,在没有过滤的情况下增加模型复杂性的预测精度的提高是适度的(5.2%\(K=6\))相比于第一次应用最佳网络过滤器(42%)的改进\(k = 1 \), 43%\(K=6\)).

我们注意到,在这种现实环境中,首先将蛋白质相互作用网络划分为蛋白质组的拼凑过滤器在光谱或模块化最大化算法中的性能优于DC-SBM。与这些算法配对的拼凑滤波器性能非常好,但平均滤波器的性能仍然比它们好。这种行为表明,与我们的对照实验相比,社区检测算法产生的分区与生物信号的潜在变化相关性不够强,无法正确定位最相关的相邻测量值(图。2.d)。开发社区检测算法,以选择更多生物学相关的分区可能是未来工作的有用方向。

讨论

大量的生物信号数据集,例如全系统的分子浓度测量,往往是嘈杂的。然而,这些测量并不是完全独立的,因为它们反映了一个相互联系的系统的动力学。使用网络来表示底层生物的一组测量之间的关系,我们可以利用这些数据集的大小许多测量系统地消除干扰,提高数据的效用为理解复杂生物系统的结构和动力学或在系统生物学做出准确的预测。

使用具有真实生物网络结构和各种潜在信号的合成数据进行的实验表明,网络过滤器可以在广泛的环境下大幅降低大型生物数据集中的噪声(图)。2.a, d,附加文件1.:图。S1)。当过滤器的类型相匹配的信号中的基本关系,例如,获得最大的利益,用于平滑相配信号(相关性)和锐化异配信号(反相关性)。然而,对于相关的适度水平,甚至错误的一种过滤器的产生是因为均值回归效应,其中组合几个相关信号过滤掉更多的噪音比它通过引入偏见的一些好处。当信号类型是异质通过网络,使得在经常进行更好的网络,一个“拼凑”过滤器的不同部分相关的不同的强度或方向。在这种方法中,我们首先将网络划分为更小,更均匀的模块(相互关联的测量组),然后独立地应用过滤器现在每个模块(图中的局部测量。2.d)。

在一个更现实的环境中,我们训练了一种机器学习算法来预测健康组织癌变时人类蛋白质表达水平的变化,在模型训练之前,应用基于高质量蛋白质相互作用网络的网络过滤器,大大提高了预测的准确性,与在未经过滤的数据上的训练相比(图。3.b).在本实验中,蛋白质相互作用网络本身并不是无噪声的[29.,这表明使用一个不完美的网络进行过滤可能比完全不过滤要好。我们重新连接网络边缘的实验进一步证明,网络过滤器在有噪声的网络结构上仍然可以很好地工作1.:图。S1)。

在每个实验中,我们将网络过滤器与依赖于网络扩散算法的技术进行了比较,以便在组合它们之前重量节点。NetSmooth和Laplacian指数扩散内核都具有与平滑网络过滤器相似的特性。在非模块化合成图中,它们更好地使用更多的各种底层数据进行更好。然而,在具有异构数据值的模块化图上,随着更多社区具有各种数据值,性能略微增加,并且当社区具有辅助值时减少。

我们发现,用于去噪值的节点局部区域的大小与可恢复值的范围之间存在明显的权衡。当相邻值之间不存在相关或反相关时,基于扩散的技术优于局部平滑网络滤波器。这种改进是由于使用更多的邻居去噪任何给定值而产生的更大的均值回归效果。虽然这种效果在非模合成图的实验中是有益的,但它严重阻碍了它们在具有异质数据值的模图上的性能,因为基于扩散的技术倾向于使用来自不同底层分布的社区之外的值。此外,增加平滑参数会增加社区外值的权重,严重恶化它们的表现。因此,由于每个社区的数据值分布不同,回归均值在本实验中是无益的。另一方面,由于结合了来自不同社区的邻居值,均值和中值滤波器更本地化,因此出错更少。

网络过滤器最终应用于一组相关生物测量的系统级工具,以降低测量系统中的整体噪音。在平衡上,应用网络过滤器降低了测量系统中的噪声,如我们对合成和实时数据集的测试所证明的。但是,在应用网络过滤器后,无法保证每个单个节点的测量较小。此外,网络滤波器增加了该组的去噪值之间的相关性(或反相关),这降低了有效的样本大小。因此,在过滤整个数据集之后缩小到各个节点的焦点不是网络过滤器的预期用例。网络过滤器具有最大的潜力,可以获得整个数据集的问题,如我们的机器学习示例,而不是考虑单个节点的数据,例如差异基因表达分析。此类问题需要更专门适用于输入数据的专业工具。

网络过滤器可能对我们描述的数据集非常有用,因为它们只要求网络解释了测量系统的因果结构。但是,一些输入数据可能无法通过使用网络过滤器以其原始形式受益,特别是如果它没有有意义,以平均一组原始值。例如,在来自HPA的IHC数据中,每种蛋白质都是在相同的无,低,介质或高表达水平上,我们将其转换为0到三个之间的数值。由于每种蛋白质的值在相同的尺度上,因此在平滑过滤器中平均它们在一起是合理的,并且会产生移动的值,以便看起来更像其邻居节点。然而,其他类型的数据如来自基于质谱的蛋白质组学或来自RNA-SEQ的原始读数的强度可以在测量平台中固有的蛋白质和转录物之间具有良好不同的尺度。采用这些测量的平均值可能会产生很大程度上与原始值不同的典型值,因此可能不会非常良好地欺骗数据。在这些情况下,原始数据的转换,如在不同样本的节点的值的z评分标准化,可能更合适。

网络过滤器的未来工作有许多潜在的有价值的方向,这些方向可能会提高它们的错误率或使它们适应更复杂的设置或任务。来自图像处理的技术,无论是简单的还是先进的,代表了一个特别有前景的探索方向[36,37,38].例如,在这里,我们只考虑网络过滤器合并与直接相邻节点相关的测量值。因此,与网络中低度节点相关的去噪值来自相对较少的测量值,因此可能比高度节点具有更大的残余噪声。修改低度节点的网络过滤器以超越最近的邻居,例如,确保每个节点的集合测量的最小数量,可以更好地保证去噪值的准确性。图像处理中这类技术的一个例子包括高斯滤波器[39].

图像分割是图像分析中常见的预处理步骤,即首先将图像分割成视觉上不同的部分,例如将前景和背景分离。这里所考虑的拼接滤波器是对这一思想的简单改编,但它依赖于现成的社区检测算法来划分节点,独立地考虑不同的模块,忽略模块之间运行的连接。虽然这种方法应该保留测量之间最有信息的关系,但它也可以减少许多节点的度数,这可能会减少过滤的好处,如上所述。此外,对于社区结构为非协调性的网络,即同一社区中的节点之间不形成边的网络,patchwork filter也不能很好地工作。在这种情况下,拼接过滤器将显著降低所有节点的程度,并限制网络过滤器对其数据去噪的潜力。因此,如果社区检测算法返回协调性的社区结构并在社区内切断最少的边缘,那么patchwork过滤器的性能可能会最好。

开发出采用模块之间的边缘的过滤器都能减轻来自施加拼缝滤波器以考虑系统中的信号的异质性的诱导低度的效果。这样的模块之间-边缘应容易从内部模块的边缘,例如单独考虑,通过调整它们的权重\(w{ij}\)以更准确地捕捉包含节点的模块之间的特定关系信号的字符一世j

拼凑过滤器的好处必然取决于网络分区与系统底层生物结构的关联程度。现成的社区检测算法可能并不总是提供这样的分区[40].虽然DC-SBM能够在合成数据任务中恢复对去噪很好的分区,但在真实数据示例上,它的性能不如模块化最大化和频谱算法。由于人类蛋白图谱的协调性系数范围在0到0.1之间,所以收益主要是回归均值效应,这在高程度节点上做得更好,以减少噪声。因此,寻找最优去噪分区的社区检测方法可能因网络而异[27.].尝试一些不同的社区检测方法,如我们在这里应该有助于找到与系统底层结构最佳相关的网络分区。在某些设置中,开发特定于应用程序的分区算法,或可以利用生物学上有意义的节点属性的算法[26.],可以改善拼凑滤波器的行为。对于数据集相对均匀的数据集,整个数据应用于网络的平滑或锐化滤波器可以提供比拼接滤波器更多的益处。

最后,这里定义的网络过滤器对潜在的噪声产生过程本身很少做具体的假设。在特定的应用中,关于大尺度测量误差的方向、大小和聚类可能知道得更多。例如,在分子谱数据中,内源性生物因素(如细胞周期效应)与外源性技术因素(如样品制备或仪器变化)相比,可能诱发不同的噪声模式。开发更多特定于应用程序的错误模型,这些模型可以与网络过滤器相结合,从而提供比这里描述的一般过滤器更强大的去噪技术。

结论

网络过滤器是一种灵活的工具,可以利用各种网络数据,包括分子结合相互作用网络。可以扩展网络过滤器,以利用有关交互符号或强度的信息,或者允许网络中不同模块之间的交互类型有所不同。这些过滤器也可以应用于任何规模的网络,从局部信号通路到整个蛋白质相互作用网络。事实上,任何与一组测量变量的潜在因果结构相关的网络都可能被用作过滤器。通过利用这些基本关系,网络过滤器汇集相关信息,从而减轻独立噪声,这与图像处理技术使用来自附近像素的信息对图像进行去噪的方式大致相同。总的来说,我们的研究表明网络过滤器有可能改进系统级生物数据的分析。

方法

具有已知噪声和结构的合成数据

在第一个实验中,我们使用Chung-Lu(CL)模型生成简单的非模块化随机图[41,42,43]与\ \ (n = 100)节点和度分布,在期望中,遵循幂律分布\(Pr (k)\ proto k^{-\alpha}\)带参数\(\alpha=3\)对于\(k \ ge 1 \).如果生成的度序列包括具有学位的节点17 \ \ (k >),一个新的度序列被采样。这种选择确保了不会创建星形子图。在我们的分析中,仅包括最大连接组件中的节点。此选择减轻了低阶节点所经历的偏差,低阶节点是最有可能存在于最大组件之外的节点。

对于每个CL合成网络,我们使用下面描述的过程生成节点值。我们改变协调性系数\(r \in [-0.8, 0.8]\)绘制来自均值和方差的正态分布的值\(mu =∑^{2}= 100\).我们通过对25%的节点值进行均匀随机的随机排列来模拟测量噪声。然后我们将每个网络滤波器(均值、中值、锐度)应用于这些噪声值,并计算原始值和去噪值的平均绝对误差(MAE)。我们还应用了netSmooth和拉普拉斯指数核方法来改变平滑参数值,并计算原始值和去噪值的MAE。结果平均超过5000次。

为了创建有噪声的非模块化网络,我们执行了前面描述的随机重新布线过程[30.].在使用CL模型生成非模随机图并生成元数据之后,我们选择给定比例的边从图中删除。然后,我们在任意随机选取的任意两个节点之间放置相同数量的新边,同时确保图中没有多边。然后对噪声网络进行滤波处理。

在第二个实验中,我们使用度校正随机块模型(DC-SBM)生成简单的模随机图[25.),与\ \ (k = 5 \)的社区\(n_ {r} = 100 \)节点每个节点(\(n = 500 \)节点总数)和与非模块化情况相同的度分布。网络的模块化结构是使用标准的“种植分区”模型指定的[25.,其中为群落混合矩阵\(\omega{rs}\)是由一个完全模图和一个随机图的线性组合给出的,形式是\(\λω_ {rs} = \ \ω^ {\ mathrm{{种植}}}_ {rs} +(1 - \λ)\ω^ {\ mathrm{{随机}}}_ {rs} \),\ \λ= 0.85 (\)

对于每个DC-SBM网络,我们生成具有以下属性的节点值:(i)每个模块内的值分布来自具有平均值的模块特定正态分布\(\ mu = \ {110,80,60,40,20 \} \)和方差\(\ sigma ^ {2} = 25 \)(二)\(\kappa ' in [0,5]\)社区被分配为具有负数分组系数,并且(iii)在间隔内随机地均匀地选择内部的社区差异系数r \ (| | \ [0.4, 0.7] \).这些选择构成了一个艰难的测试,在这个测试中,如果过滤器使用给定社区之外的节点去噪某个特定值,那么它的准确性将受到有效的惩罚。对于patchwork filter,我们使用三种不同类型的社区检测算法对网络进行划分。“元数据感知”DC-SBM [26.]和谱算法[24.]在中分割图形{\ \({\帽子kappa}} = 5 \)社区。模块化最大化将图划分为最大化模块化函数的簇数[23.]. 除了节点在每个模块内而不是整个网络内随机排列外,在非模块情况下会产生噪声并评估精度。

生成合成相关测量值

我们生成具有指定assortativity系数的节点值\ (r_ {*} \),得到一个指定的邻接矩阵A.,使用马尔可夫链蒙特卡罗(MCMC)。分类系数R.被定义为

$$\begin{aligned}r=\frac{\sum{ij}\left(A{ij}-k{i}-k{i}-k{j}/2m\right)x{i}x{j}{\sum{ij}\left(k{i}\delta{ij}-k}-k{i}-k}-k}-k}i}k}/2m\right)x{i}x{j}-sum}j}$$

在哪里\ (k_{我}\)是节点的度数一世,\(x_ {i} \)该值是否与节点相关联一世,\ (2 m = \ _ {ij}和现代{ij} \)是网络边数的两倍,\(a_ {ij} \)邻接矩阵中的项是节点吗一世j,\(\ delta _ {ij} \)是克罗内克函数。

给定一个网络A.,期望的assortativity系数\ (r_ {*} \),以及节点值分布\(\Pr(x)\),我们生成一组节点值,如下所示。

  1. 1.

    给每个节点分配一个iid的值\(\Pr(x)\)

  2. 2.

    计算当前的协调性系数\ (r_ {0} \)

  3. 3.

    设置\(t=1\)

  4. 4.

    虽然所需和当前assortativity系数之间的差异\(\ delta = | r_ {t} - r _ {*} |> \ beta \),一个规定的公差,做:

    • 选择一个节点一世均匀随机分配一个新值\ (x ' _{我}\)iid来自\(\Pr(x)\)

    • 计算相应的配度系数\(r{t}\)和差异\(\Delta '=|r_{t} - r_{*}|\)

    • 如果新值不能提高分类能力,即:。,\(Delta ' > \Delta\)恢复\(x_ {i} \).否则,增量T.

  5. 5.

    返回节点值\({\mathbf{x}}\)利用期望的协调性系数,\ (r_ {*} \)

在我们的实验中,我们设置\(\ beta = 0.009 \)

基于扩散的去噪方法

我们将网络过滤器与基于不同扩散核的加权节点的两种比较方法进行了基准测试。拉普拉斯指数扩散核[15]\ ({\ mathbf{年代}}_{β\}\)被定义为

$ $ \开始{对齐}{\ mathbf{年代}}_{\β}= {\ mathrm {e}} ^{-β\ {\ mathbf {L}}} \{对齐}$ $

在哪里\(\beta\)是一个真实的平滑参数,和\ (\ mathbf {L} \)是拉普拉斯图。将矩阵与噪声数据向量相乘得到去噪数据向量

$ $ \开始{对齐}{\ mathbf {x}} _ {\ mathrm{{拉普拉斯算子}},{\β}}= {\ mathbf{年代}}_{\β}{}{\ mathbf {x}}。\{对齐}$ $

netSmooth方法[14]使用个性化PageRank [28.向量来加权每个节点。这个内核\(\mathbf{K}\)被定义为

$ $ \开始{对齐}{\ mathbf {K}} _{\α}=(1 - \α)({\ mathbf{我}}-α\ {\ mathbf {B}}) ^{1} \{对齐}$ $

在哪里\ (\ mathbf {B} \)是一个邻接矩阵,其度由列规范化,以便\({mathbf {B}}_{ij} = \frac{1}{k_{j}}\)如果存在和边缘之间一世j,\(\α\)是平滑参数(也称为重启概率),和\(\ mathbf {i} \)是身份矩阵。通过将此内核和嘈杂的内核乘以这样的核心内核找到了denoised数据矢量

$ $ \开始{对齐}{\ mathbf {x}} _ {\ mathrm {{netSmooth}},{\α}}= {\ mathbf {K}} _{\α}{\ mathbf {x}}。\{对齐}$ $

为简单起见,我们将两者都称为\(\beta\)\(\α\)“平滑参数”,因为它们具有相应方法的类似功能。

人蛋白表达和相互作用

从人蛋白质阿特拉斯(HPA)版本16中汲取蛋白质表达数据[33,它通过大规模免疫组化(IHC)详细描述了人类组织中的蛋白质表达,包括20种组织类型的12,000多种蛋白质,每一种都处于健康和癌变状态。我们将未检测、低、中、高的IHC评分分别表示为0、1、2、3。如果一种蛋白质有来自多个患者的评分,那么这些数值就会一起被取平均值。人类蛋白相互作用(PPIN)数据来自HINT数据库[35],它将来自多个互乱数据库的数据组合并策划了与高级别的生物相互作用。提示网络包含\ (n = 12 864年}{\)蛋白质和\(m = 62 {,} 435 \)无向,未加权的边缘。

为了构造网络过滤器,我们首先将数据从HPA映射到PPIN。HPA蛋白由其Ensembl id索引,HINT蛋白由其Uniprot id索引。使用HGNC BioMart工具构建了从Ensembl id到Uniprot id的映射。如果一个节点有多个映射的表达式值,我们将它们平均。我们允许HPA的蛋白表达值映射到多个节点,如果Ensembl ID映射到PPIN中的多个节点。如果基因表达值没有映射到PPIN中的任何节点,我们将其丢弃,因为网络过滤器无法去噪。在癌症数据集中有一个蛋白,在健康组织数据集中有283个蛋白在不超过2个癌症或健康组织中缺失蛋白表达值。在这些情况下,我们均匀随机地从另一种癌症或健康组织中的相同蛋白质推断缺失的数据(从健康推断健康,从癌症推断癌症)。

通过关联的HPA数据值保持节点最大连接组件,这些预处理步骤会产生网络\(n = 8199 \)所有20种组织类型的IHC表达信息的蛋白质和健康和癌症\(m=37{,}607\)边缘。包括的健康-癌变组织对是:乳腺、胶质瘤、子宫颈、结直肠、子宫内膜、睾丸、甲状腺、肾、肝、肺、淋巴瘤、胰腺、前列腺、皮肤、胃、黑素细胞、泌尿系统、头颈部、卵巢、类癌。对于健康组织,将可导致相应癌症的特定细胞类型的蛋白表达值平均在一起,形成一个载体(附加文件)1.:表S1)。

预测人类癌症中的表达变化

机器学习的任务是预测当人体组织从健康类型转变为癌症类型时蛋白质表达水平的变化。我们使用K-最近邻回归来学习一个模型,当给定健康组织的表达水平时,可以预测这些变化(图。4.).我们使用留一交叉验证对模型进行训练和评估,其中模型根据19对健康-癌变组织对的观察变化进行训练,并对其中一对未观察到的组织进行测试。我们首先在未经过滤的数据上训练和评估模型,然后将其与在训练前对表达式数据应用网络过滤器的模型进行比较。

图4
图4.

k近邻回归框架的原理图。我们设计了一个加权k -最近邻回归框架,以预测健康组织在癌变时的蛋白表达变化,给定一个健康组织的蛋白表达谱向量。首先,利用PCA对19个健康组织蛋白表达载体的训练集进行特征提取。其次,我们将遗漏的健康向量投影到相同的主成分分析空间,第三,确定k个最近邻用于预测任务。第四,利用PCA对19个样本进行特征提取;第五,对k近邻的样本进行加权平均,预测出健康样本的样本向量。最后,第六步,我们将预测的delta向量从主成分分析空间投影回一个蛋白质表达值的向量来计算误差

首先,我们将主成分分析(PCA)应用于19个健康组织蛋白载体的训练集作为特征提取方法。然后,利用从训练集学习到的嵌入PCA空间,将保留的健康样本投影到相同的PCA空间中。然后我们确定K-通过计算该点与所有其他健康组织之间前四个主成分的欧氏距离,获得健康组织的最近邻。

考虑到哪些健康组织与被忽略的健康组织最相似,我们预测保留观察的蛋白表达变化。我们计算癌组织和健康组织之间的表达变化,我们称之为“delta”载体。然后对19个增量向量进行主成分分析,提取特征。向量的加权平均值对应于K从健康组织中学到的最邻居被平均在一起,其中重量与欧氏距离与保持的健康组织的倒数成比例。最后,我们将预测的三角洲向量从四个主要成分投影回来\(n = 8199 \)蛋白质并计算该载体的平均绝对误差(MAE)和实际的DELTA载体。

本任务中评估的基本网络过滤器具有正文中给出的形式。对于拼接滤波器,DC-SBM或光谱算法将PPIN划分为\ \ (k = 10 \)社区,和模块化最大化自动选择社区的数量,使模块化功能最大化。然后,我们在每个社区应用均值过滤器。

对于基于扩散的方法,我们使用netSmooth作者描述的方法为人类蛋白质表达数据集选择优化的平滑参数[14]来最大化二维数据嵌入的熵。由于健康数据和delta向量的数据分布不同,我们分别对每个数据集选择最优平滑参数。简单地说,健康组织蛋白表达或delta载体被嵌入到前两个主成分的主成分空间中。这个空间被离散成一个4乘4的网格,从每个PC的最小和最大数据点等距。我们计算了香农熵,\(H(x) = - sum _{i} P(x_{i})\log P(x_{i})\),并选择最小的平滑参数使熵最大化。对于netSmooth,平滑参数对于健康组织为0.2,对于delta向量为0.3。对于健康组织和delta载体,拉普拉斯指数扩散核值分别为0.2和0.1。

数据和材料的可用性

支持文章结论的数据集和代码可在GitHub存储库中使用https://github.com/andykavran/network_filters.

缩写

CL:

仲路

DC-SBM:

度修正随机块模型

GSEA:

基因集富集分析

HGNC:

Hugo基因命名委员会

提示:

高质量的interactomes

HPA:

人类蛋白质图谱

包含IHC:

免疫组织化学

MAE:

平均绝对误差

MCMC:

马尔可夫链蒙特卡罗

主成分分析:

主要成分分析

PPIN:

蛋白质 - 蛋白质相互作用网络

参考

  1. 1.

    Woodworth MB,Girskis Km,Walsh Ca.从单细胞构建血统:用于细胞谱系跟踪的遗传技术。NAT Rev Genet。2017; 18(4):230。

    CAS文章谷歌学术搜索

  2. 2。

    麦肯纳,加格农。用单细胞动态谱系追踪记录发育。发展。2019;146(12):169730.

    文章谷歌学术搜索

  3. 3.

    Pastushenko I,Blanpain C. EMT过渡状态在肿瘤进展和转移过程中。趋势细胞BIOL。2018; 29:212-26。

    文章谷歌学术搜索

  4. 4.

    Hugo W,Shi H,Sun L,Piva M,Song C,Kong X,Moriceau G,Hong A,Dahlman KB,Johnson DB等。获得mapki抗性的黑色素瘤的非基因组和免疫进化。牢房。2015;162(6):1271–85.

    CAS文章谷歌学术搜索

  5. 5.

    Muranen T,Selfors LM,Lorster Dt,Iwanicki MP,Song L,Morales Fc,Gao S,Mills GB,Brugge JS。抑制pi3k / mtor导致基质附着的癌细胞中的自适应性。癌细胞。2012; 21(2):227-39。

    CAS文章谷歌学术搜索

  6. 6.

    米切尔斯S,科斯切尔尼S,希尔C。用微阵列预测癌症预后:多重随机验证策略。柳叶刀。2005;365(9458):488–92.

    CAS文章谷歌学术搜索

  7. 7.

    Power failure: why small sample size undermine the reliability of neuroscience.断电:为什么小样本会破坏神经科学的可靠性。神经科学。2013;14(5):365。

    CAS文章谷歌学术搜索

  8. 8.

    motha VK, Lindgren CM, Eriksson KF, Subramanian A, Sihag S, Lehar J, Puigserver P, Carlsson E, Ridderstrale M, Laurila E, Houstis N, Daly MJ, Patterson N, Mesirov JP, Golub TR, Tamayo P, Spiegelman B, Lander ES, Hirschhorn JN, Altshuler D, Groop LC。pgc -1α响应基因参与氧化磷酸化在人类糖尿病中协调下调。Nat麝猫。2003;34(3):267 - 73。

    CAS文章谷歌学术搜索

  9. 9.

    Barbie DA, Tamayo P, Boehm JS, Kim SY, Moody SE, Dunn IF, Schinzel AC, Sandy P, Meylan E, Scholl C等。系统rna干扰显示致癌kras驱动的癌症需要tbk1。大自然。2009;462(7269):108。

    CAS文章谷歌学术搜索

  10. 10.

    罗南T,齐Z,纳格尔公里。避免生物数据聚类时的常见陷阱。Sci信号。2016;9(432):6.

    文章谷歌学术搜索

  11. 11

    Sørlie T、Perou CM、Tibshirani R、Aas T、Geisler S、Johnsen H、Hastine T、Eisen MB、Van De Rijn M、Jeffrey SS等。乳腺癌的基因表达模式区分具有临床意义的肿瘤亚类。美国科学院学报,2001年;98(19):10869–74.

    文章谷歌学术搜索

  12. 12

    基于深度结构的基因表达数据学习方法,并应用于基因聚类。2015 IEEE生物信息与生物医学国际会议(BIBM), 2015;1328 - 35页。IEEE。

  13. 13。

    谭杰,翁美,郑志明,林志强。用去噪自编码器从乳腺癌全基因组分析中无监督特征构建和知识提取。见:太平洋生物计算研讨会,2015;132 - 43页。

  14. 14.

    罗宁J,阿卡林A。netsmooth:基于网络平滑的单细胞rna序列插补。F1000研究2018;7.

  15. 15.

    德鲁姆G、斯尼彭L、索尔海姆、塞博S。用网络信息平滑基因表达数据可以提高受调控基因的一致性。Stat Appl Genet Mol Biol 2011;10(1):37.

  16. 16.

    纽曼·梅杰。网络中的混合模式。物理修订版E。2003;67(2):026126.

    CAS文章谷歌学术搜索

  17. 17.

    发现分子相互作用网络中的调控和信号通路。生物信息学,2002;18 (suppl-1): 233 - 40。

    文章谷歌学术搜索

  18. 18.

    Goncalves A, lee - brown S, Thybert D, Stefflova K, Turro E, Flicek P, Brazma A, Odom DT, Marioni JC。小鼠基因表达进化中广泛的代偿性顺-反式调控。基因组研究》2012;22(12):2376 - 84。

    CAS文章谷歌学术搜索

  19. 19.

    Bauer PM, Fulton D, Bo YC, Sorescu GP, Kemp BE, Jo H, Sessa WC。内皮一氧化氮合酶中多个丝氨酸磷酸化位点的功能突变体的功能丧失和获得揭示的代偿磷酸化和蛋白-蛋白相互作用。中国生物化学学报。2003;27(17):14841-9。

    CAS文章谷歌学术搜索

  20. 20.

    基于网络的多尺度混合模式研究。美国国家科学院学报。2018; 115(16): 4057 - 62。

    CAS文章谷歌学术搜索

  21. 21.

    利用蛋白质相互作用网络从大规模磷蛋白组学数据中阐明信号通路。细胞系统。2016;3(6):585 - 93。

    CAS文章谷歌学术搜索

  22. 22.

    Mansourpour M,Rajabi M,Blais J. Active Radar和SAR图像上斑块降噪过滤器的效果和性能。在:2006年的ISPRS继续;卷。36,p。41.

  23. 23

    大型网络中社区的快速展开。统计力学理论Exp. 2008;2008(10):10008。

    文章谷歌学术搜索

  24. 24

    NG A,Jordan M,Weiss Y.在光谱聚类上:分析和算法。adv神经户流程系统。2001; 14:849-56。

    谷歌学术搜索

  25. 25。

    Karrer B,Newman Mej。随机块显示和网络中的社区结构。Phy Rev E. 2011; 83(1):016107。

    文章谷歌学术搜索

  26. 26.

    纽曼MEJ,Clauset A.结构和推理的注释网络。NAT Communce。2016; 7:11863。

    CAS文章谷歌学术搜索

  27. 27.

    Ghasemian A、Hosseinmardi H、Clause A。评估网络社区结构模型中的过拟合和欠拟合。IEEE Trans-Knowl数据工程2019;32(9):1722–35.

    谷歌学术搜索

  28. 28.

    Jeh G,Widom J。扩展个性化网络搜索。摘自:《第12届万维网国际会议记录》,2003年;P271-9.ACM。

  29. 29.

    Hart GT、Ramani AK、Marcotte EM.目前酵母和人类蛋白质相互作用网络的完整程度如何?基因组生物学。2006;7(11):120.

    文章谷歌学术搜索

  30. 30.

    Middendorf M,Ziv E,Wiggins CH.推断网络机制果蝇黑胶基蛋白质相互作用网络。中国科学院院刊。2005;102(9):3192-7。

    CAS文章谷歌学术搜索

  31. 31.

    Campbell JD,Mazzilli Sa,Reid Me,Dhillon SS,Platero S,Beane J,Spira Ae。癌前基因组图集(PCGA)的情况。癌症预防res。2016; 9(2):119-24。

    CAS文章谷歌学术搜索

  32. 32.

    Spira A, Yurgelun MB, Alexandrov L, Rao A, Bejar R, Polyak K, Giannakis M, Shilatifard A, Finn OJ, Dhodapkar M,等。癌症前图谱以推动精准预防试验。实用癌症杂志2017;77(7):1510 - 41。

    CAS文章谷歌学术搜索

  33. 33.

    UhlénM,Fagerberg L,HallströmBM,Lindskog C,Oksvold P,Mardinoglu A,Sivertssonå,kampf C,Sjöstedte,Asplund A等。基于组织的人蛋白质组。科学。2015; 347(6220):1260419。

    文章谷歌学术搜索

  34. 34.

    维伯格M,尼尔森S。来自北欧免疫组织化学质量控制(nordiqc)的免疫组织化学熟练测试经验。维尔乔斯·阿奇夫。2016;468(1):19–29.

    CAS文章谷歌学术搜索

  35. 35

    达斯Ĵ,俞H.提示:高品质的蛋白质相互作用组和他们的理解人类疾病的应用。BMC SYST BIOL。2012; 6(1):92。

    文章谷歌学术搜索

  36. 36

    Motwani MC,Gadiya MC,Motwani RC,Harris FC。图像去噪技术调查。在:2004年GSPX的诉讼程序;p。27-30。

  37. 37。

    基于自适应多列深度神经网络的图像去噪。神经信息处理系统研究进展,2013;p . 1493 - 501。

  38. 38.

    Öktem R, Egiazarian K, Lukin VV, Ponomarenko NN, Tsymbal OV。局部自适应dct滤波去除信号相关噪声。acta photonica sinica, 2007, 37(1): 42472。

    文章谷歌学术搜索

  39. 39.

    DENG G,CAHILL L.一种用于降噪和边缘检测的自适应高斯滤波器。:1993年IEEE会议记录核科学研讨会和医学影像会议,1993年;p。1615-9。IEEE。

  40. 40.

    基于网络的元数据和社区检测。Sci放置2017;3(5):1602548。

    文章谷歌学术搜索

  41. 41.

    王志强,刘志强。基于幂律图的随机图模型。Exp数学。2001;10(1):53 - 66。

    文章谷歌学术搜索

  42. 42.

    郑福路。给定期望度序列的随机图中的连通分量。安·科布林。2002;6:125–45.

    文章谷歌学术搜索

  43. 43.

    阿拉姆M,汗M,瓦利坎蒂A,马拉特M。一种生成大规模随机图的高效且可扩展的算法方法。摘自:SC'16:2016年高性能计算、网络、存储和分析国际会议记录;P372–83.IEEE。

下载参考

确认

我们要感谢Natalie Ahn和Mark Newman的有益对话。

基金

AJK部分得到了科罗拉多大学博尔德分校生物前沿研究所跨学科定量生物学(IQ生物学)项目(NSF IGERT Grant No. 1144807)的支持。AC得到了第一号批准的部分支持。来自国家科学基金会的is -1452718。资助方在研究设计、数据收集和分析、决定发表或手稿准备方面没有作用。

作者信息

从属关系

作者

贡献

概念化:AC,AJK。数据策策:AC,AJK。正式分析:AJK。资金收购:AC。调查:AC,AJK。软件:AJK。可视化:ajk。写作原稿草案:AC,AJK。写作审查和编辑:AC,AJK。两个作者都阅读并批准了稿件。

相应的作者

对应于亚伦冠军

伦理宣言

道德认可和参与同意

不适用。

同意出版物

不适用。

竞争利益

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在公布的地图和机构附属机构的管辖权主张方面保持中立。

补充资料

附加文件1:数字和表格。

图S1。重新布线的合成网络上的过滤器性能。图S2。模块化合成网络上的过滤器性能,包括夏普过滤器。图S3。网络模块与人类蛋白质图谱数据的分类系数分布。图S4。使用所有网络过滤器对人类蛋白质图谱数据进行KNN回归。表S1。人类蛋白质图谱数据集中的细胞类型平均在一起,形成一个单一的健康组织载体。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/. 知识共享公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

卡夫兰,A.J.,克劳塞特,A。使用网络滤波器对大规模生物数据进行去噪。欧宝娱乐合法吗22,157(2021)。https://doi.org/10.1186/s12859-021-04075-x.

下载引用

关键词

  • 网络
  • 去噪
  • 机器学习
\