跳到主要内容

所以你觉得你可以请检察官吗?

摘要

背景

局部最小二乘判别分析(PLS-DA)是一种流行的机器学习工具,它是越来越多地关注一个有用的特征选择器和分类器。为了了解其优势和缺点,我们进行了一系列具有合成数据的实验,并将其性能与其紧密相对进行了比较,即最初发明的,即主要成分分析(PCA)。

结果

我们证明,即使PCA忽略了关于样本类标签的信息,这个无监督的工具作为特征选择器也是非常有效的。在某些情况下,它的性能优于PLS-DA,后者可以识别输入中的类标签。我们的实验范围从观察特征选择任务中的信噪比,到考虑在分析生物信息学和临床数据时遇到的许多实际分布和模型。其他方法也进行了评估。最后,我们分析了来自396个阴道微生物组样本的有趣数据集,其中特征选择的基本事实是可用的。本文中所示的所有3D图以及可以交互地观看辅助物品http://biorg.cs.fiu.edu/plsda.

结论

我们的结果突出了PLS-DA相对于PCA对于不同底层数据模型的优点和缺点。

背景

偏最小二乘判别分析(PLS-DA)是一种多元降维工具[12在化学计量学领域流行了20多年[3.,并已推荐用于组学数据分析。PLS-DA是代谢组学和其他综合组学分析[日益普及4.-6.].化学计量学和OMICS数据集都是大容量,大量特征,噪声和缺失数据的特征[27.].这些数据集的样本往往比特征少得多。

PLS-DA可以被认为是“监督”版本主成分分析(PCA)在某种意义上说,它实现了降维,但充分意识到类标签。除用于降维外,还可用于特征选择[8.]以及分类[9.-11].

随着它的普及,值得注意的是,它在判别分析中的作用很容易被误用和误解[212].因为它很容易过度装满交叉验证(CV)是使用PLS-DA作为特征选择器、分类器甚至只是为了可视化的重要步骤[1314].

此外,珍贵的少数人关于不同类型数据的PLS-DA的性能。我们使用一系列实验来阐明PLS-DA-Vis-Vis-Vis-Vis PCA的优点和弱点,以及PLS-DA可能有用的分布以及它在哪里票价不佳。

降维方法(如PCA和PLS-DA)的目标是实现线性转换,将数据以尽可能小的误差转换到更低的维空间。如果我们认为原始数据矩阵是Nm- vimensional vectors(即,X是一个N×m矩阵),那么上面的目标可以被认为是寻找一个m×D.变换矩阵一种最佳地转换数据矩阵X收集ND.维向量S..因此,S.=X一种+E.,在那里E.是错误矩阵。矩阵S.,其行对应于转换向量,给出D.维空间分数对于每一个NvectorsX

表示尺寸减小的新功能称为主成分(电脑)。在PCA中,转换在其第一个PC中尽可能保留原始数据的方差。另一方面,PLS-DA在它的第一个PC中尽可能地保留原始数据和它的标签之间的协方差。两者都可以被描述为迭代过程,其中误差项被用来定义下一个PC。数字1突出显示了一个合成数据集的例子,其中PCA选择的PC指向右下角,而PLS-DA选择的PC大致与它正交,指向左下角。

图1
图1

与通过PLS-DA(橙色)示出的数据组,其中PLS-DA挑选,有助于最好分离标签,而PCA挑选的方向上的方向来计算由PCA(粉红色)来计算第一主成分比较该至少有助于将它们分开

同样值得注意的是,对于PCA和PLS-DA来说,较高的解释方差或较高的相关性并不总是意味着更好的模型,即使它们是多次关联的[14].以下段落对方法及其差异进行更全面的描述:

PCA.非正式地,PCA算法通过最小化投影错误来计算沿第一特征向量的第一PC,然后迭代地将所有点投影到与最后一个PC正交的子空间,并重复投影点上的进程。另一种制剂是主成分载体由协方差矩阵的非奇异部分的特征向量给出C计算公式如下:

$ C = {T}C_{n}X, $
(1)

在哪里CNN×N中心矩阵。这加载向量,用L.1,...,L.N,是由特征向量给出的,E.1,...,E.N特征值,λ.1,...,λ.N, 的C如下:

$$ L_ {I} = \ SQRT {\ lambda_ {I}} \ E_ {I},\四I = 1,\ ldots,N,$$
(2)

PLS-DA在它的标准变体中,要求各分量彼此正交。在某种程度上与Eq. (1), PLS-DA的第一个PC可以表示为的非奇异部分的特征向量C由:

$$ c = \ frac {1} {(n-1)^ {2}} x ^ {t} c_ {n} yy ^ {t} c_ {n} x,$$
(3)

在哪里y是类标签向量。

迭代过程计算加载向量一种1,...,一种D.,它给出了该组件中每个特性的重要性。在迭代H,它具有以下目标:

$ $ \ max_{(现代{h}, b_ {h})} {x} \文本(间{h}现代{h}, y_ {h} b_ {h}), $ $
(4)

在哪里B.H是标签矢量的装载yHX1=X,XHyH残差(误差)是与前一个变换后的矩阵吗H−1组件。

sPLS-DApls-da的变体使a稀疏假设,即,只有少量特征负责驾驶在研究下的生物事件或效果的负责[1516],并在特征数量远远超过样本数量的应用中显示出成功[17].使用套索惩罚,这些方法增加了惩罚(L.1L.0.规范),以更好地指导特征选择和模型拟合过程,并通过允许选择协变量的一个子集,而不是使用所有的人都达到改善分类。

方法

在本节中,我们讨论了实验的目的,设计和设置。

实验的合成数据

下面介绍一个标准的实验装置。提供澄清的地方,从实验的这一规范是不同的。对于每一个实验中,产生了标记的合成数据如下所示。对于每个实验的基本输入参数是采样的数量N以及每个样本的特征数量m.每个数据集都假设有规则(例如,线性不等式),这是某些子集的函数m特征(即,信号特点),而其余的被认为是噪音特性。输入参数还包括规则,因此信号特征集。这条规则将被视为地面实况.然后将PLS-DA应用于数据集,以了解它执行的特征选择或分类的程度如何。使用PCA和SPLS-DA执行所有实验,其中加载矢量仅为所选功能的非零。两者都可以使用筹码R包(18,之所以选择它,是因为它是生物学家和化学家最常用的工具。所有点的噪声特征都是由指定为数据生成器输入的随机分布产生的。默认假设是均匀分布。满足的规则决定了信号特征的生成。

实验的性能指标

按照机器学习实验的标准,我们通过计算以下指标来评估实验:TP.),真正的否定(TN.)、假阳性(FP.)、假阴性(FN.), 精确 (T.P.÷(T.P.+FP.))和召回(T.P.÷(T.P.+FN)).注意,在我们的例子中,精确度和召回率是相同的。这是因为它们的公式是相同的FP.=FN.该数据与创建S.选择信号特征和s特征。因为S.为信号特征的个数,无论是否被选中,S.=T.P.+FN.另外,因为只有S.特征被选择,S.=T.P.+FP..使两个等式相等,我们得到了FP.=FN

自从TN.在我们所有的特征提取实验中,一些更复杂的度量是倾斜的,因此没有用处。例如,F1分数必然会很低,而准确性和特异性则会非常高。当噪声特征数较低时,可以人为地提高精度。然而,这在实际实验中是不可能的。

图形显示为3D图,其中Z.Axis表示性能度量(被工具标记为重要的特性中信号特性所占的百分比),而Xy轴显示实验的相关参数。

不同的实验N/m

我们首先展示样品数量的比例如何,N,到功能的数量,m影响PLS-DA的表观性能和发现的虚假关系的数量。

如前所述,我们生成了N随机数据点m- 多尺寸的空间(来自均匀分布)并随机标记它们。比例N/m从2:1降到1:2到1:20再到1:200。对于数据集,很明显,任何方法发现的数据分离都只是偶然发生的。当我们拥有的特征至少是样本的两倍时,PLS-DA很容易找到一个超平面,仅仅是偶然地将两者完美分离。如图所示。2,两个随机标记的点组变得越来越可分离。这是由维度的诅咒解释,它预测数据的稀缺性与尺寸的数量越来越快地生长。这些执行只有比例为2:1至1:200的比例。在许多当前的OMIC数据集中,比率甚至可以超过1:1000(即,具有50个样本的数据集和50,000个基因是常见的)。这是在设计实验时需要样本大小确定的原因之一[19].

图2
图2.

随机点的可分离性是样本数目的对特征降低的比率

如果使用任何分离超平面作为规则为了区分来自橙色点的蓝点,即使表观错误率(AE)为该集合减少,其区分任何新的随机点的能力将保持令人沮丧[20.].事实上,CV错误率使用1000年重复了在图2所示的四个实验的第一台PC。2分别为0.53,0.53,0.5和0.48,表明即使分离性增加,误差仍然不合理的大。CV误差随初始化矩阵所用的种子而变化,但趋势不变。

结果

在本节中,我们讨论了具有合成和实际数据的各种实验,帮助我们解释PLS-DA Vis-á-Vis PCA和其他工具的实力和缺点。

使用PLS-DA作为特征选择器的实验

我们使用了三组方法来生成合成点。在第一个集合中,我们考虑线性可分的点集。在第二个数据集中,我们假设一个类中的点的隶属关系是由所选信号特征是否在预定范围内决定的。最后,我们对聚集点进行了实验。

用线性可分离点进行实验

对于这些实验,我们假设数据包括N随机分S.信号功能和mS.噪声特性。它们被标记为属于两个类中的一个,使用随机选择的线性分隔符作为信号特征的函数。实验旨在测试PLS-DA(用于特征提取)正确识别信号特征的能力。性能分数如图所示。3.平均超过100次重复。请注意,使用的线性模型实现了以下规则\({\ mathcal r} _ {1} \),在那里C是一个常数设置为0.5:

$ $ {\ mathcal R} _{1}: \四\ sum_ {i = 1} ^{年代}s_{我}\组C \ Rightarrow \ mathrm{\ 0类,其他类\ \ 1}$ $
(5)
图3
图3.

当通过线性关系连接信号特征时,随着样本数量的增加,PCA优于PLS-DA

进行了两组实验。在第一盘,S.是固定在10,但是Nm变化(见图。3.).在第二盘N固定在200,但是S.m变化(见附加文件1).在所有这些实验中,PCA在所有这些实验中始终如一地表现出直线关系的PLS-DA。此外,当样本数量增加时,PCA的性能得到改善,因为有更多的数据来学习这种关系。但是,它没有帮助PLS-DA,因为模型不是旨在捕捉这种关系。请注意,PCA仅成功,因为信号是唯一关联的功能。

装载矢量是PCA或PLS-DA猜测的特征之间的线性关系的反映。因此,我们开始验证所使用的工具所猜测的线性关系到底有多远。即使工具选择了许多噪声特征,我们也想看看它们是如何加权它们选择的噪声和信号特征的。为了实现这一目标,我们使用上面所示的模型运行了一组额外的实验,以查看来自PLS-DA的加载向量是否表明了比Fig所建议的更好的性能。3..请注意,理想情况下,负载向量应该为零表示噪声特征,为1表示信号特征。我们计算了实验中计算的载荷矢量与真实关系所反映的矢量之间的余弦距离。如附加文件所示2,我们看到PCA和PLS-DA的装载矢量未能反映真正的关系。使用这些实验使用N= 200平均超过100次。尽管PCA成功入选的许多特征选择过程中的信号功能,它是无法得到足够接近底层的线性关系,可能是由于信号变量的成分性质,这引起了相关性。

其他实验也得到了同样的结果,包括改变不等式中常数的大小,将线性不等式的关系改变为两个线性等式,即点位于两个超平面上。

集群模式

在这些实验中,点的信号特征是由一个聚类分布产生的,两个聚类之间有一个预定的数量。所有的噪声特征都是均匀分布的。R包Clustergeneration.用于此目的,这也允许控制集群的分离。集群之间的集群分离在[−0.9,0.9]范围内变化。因此,当仅用噪声特征观察点时,它们看起来就像一个均匀的云,而当仅用信号特征观察点时,这两类的成员是聚类的。注意,-0.9的集群分离将显示为不可区分的集群,而0.9的集群分离将显示为分离良好的集群。实验是用S.= 10,N= 200,平均超过100重复。

聚类数据的执行表明PLS-DA明显优于PCA。如图所示。4.尽管如此,当样品的数量非常大或簇被广泛分离时,差异缩小(即,干净地分离的数据),但它仍然仍然很大。PLS-DA能够选择正确的超平面,即使有一些样本,甚至当簇之间的分离低(值接近0)时也是如此。PCA需要一个不合理的大量样品和非常好的分离的簇,以便相应地进行尊重。然而,具有高分离值的数据是令人尴尬的简单来分析许多竞争方法。

图4
图4.

当数据点来自聚类分布时,随着样本数量的增加,PLS-DA优于PCA

间隔模型

在这组实验中的规则确定的类别成员在生物数据集经常遇到。我们用两种不同的方法来生成该模型数据。在第一个,我们限制了信号的特征和在第二我们限制了噪音的。为了生成这样的数据集,一个类的成员具有从预先指定的时间间隔随机选择均匀地受约束的特征,而其他所有特征被从在范围[0,1]的均匀分布生成。

我们将范围[0,1]划分为宽度为1/的子区间P..实验进行了P.= 3,5和10。根据实验,信号和噪声特征被分配到宽度为1/的子区间P.或者整个区间[0,1]。

结果显示在附加文件中3..当信号特征受到约束时,PLS-DA算法的性能始终优于PCA算法。这是因为PLS-DA能够检测的类成员的信号特征之间有很强的相关性。另一方面,当噪声特征受到约束时,主成分分析的性能始终优于PLS-DA。当信号特征数为1和时,后者表现较差P.= 3,因为值的单信号的分布不是从噪声的分布非常不同。

作为分类器的实验

我们用合成数据做的最后一组实验是看看PLS-DA作为分类器的表现如何。以下实验各执行100次,共10个信号特征。为交叉验证使用误差计算,5倍和10个重复。在所有实验中,在高性能与特征选择器和低CV误差之间存在对应关系。

如附加文件所示4.A为线性关系模型,其表现并不比2类实验的机会好。这证实了PLS-DA作为该模型的特征选择器的糟糕性能。

对于具有额外文件中所示的集群模型的结果4.b,除了样本数较低时,其他情况下的CV误差几乎都为0,这与我们在特征选择实验中看到的情况一致。当样本数量较少,噪声特征数量较大时,性能会明显变差。这是因为信号隐藏在许多不相关的特征中,这是所有机器学习算法都预料到的。额外的文件4.C和d表示区间模型的结果。在特征选择实验中,两个版本的分类效果大致相同,分类效果远好于随机,并且在样本数量大、噪声特征数量低的情况下,如预期的那样,表现最好。

与其他方法的比较

为了与其他已知的功能选择比较PLS-DA,我们采用3种方法,以前的数据模型:独立分量分析(ICA),作为一种将输入信号转换为独立信号源的特征提取方法[21].稀疏主成分分析协会通过正规化奇异值分解(SVD)[22]通过将稀疏约束建成。正常的线性判别分析(RLDA)通过使用来计算L.2正规化以稳定LDA中的eigendecomposition [23].

我们发现基于PCA的算法(PCA和SPCA)在三个实验中具有相似的整体性能。基于lda的模型(RLDA和sPLS-DA)也是如此。

作为附加文件5.6.显示,PLS-DA,ICA和RLDA无法检测线性关系,而SPCA和PCA是。对于间隔模型P.= 3,要么约束信号或噪声似乎没有改变基于LDA的模型的行为,当噪声被约束时,PCA的表现优于如图所示的附加文件7.8..除ICA外,其他方法的性能均下降为S.就变小了。对于区间模型和线性模型,ICA的性能取决于噪声特征的数量。在群集模型实验中如附加文件所示9.,SPCA比PCA更好,因为群集之间的分离变得更高。群集之间的分离不会影响ICA的性能,该性能保持在0.RLDA和PLS-DA的性能Excel附近,具有类似的行为(图。5.).

图5
图5.

在间隔模型中比较五种方法。基于PCA的算法彼此具有可比的行为。基于LDA的算法也是如此

真实数据集的新颖分析

细菌性阴道炎(BV)是最常见的阴道炎,影响着世界各地的大量妇女[24].BV与阴道菌群的失衡以及对上皮和黏液层的损害有关,损害了身体的内在防御机制。这可能会导致不良后遗症,并增加许多性传播感染的风险[25].

在一个地标纸中,人类阴道微生物群落分为五种社区状态类型(CSTS)[26].CSTS I,II,III和V由不同的主导乳酸菌而CST IV没有特定的优势种,被认为是异质性类群。而这种CST分类提高了我们对细菌性阴道病的认识[26-28],可靠地区别CST则定量的方法是不可用直到特异性聚集指数的发展[29]基于物种的特异性[30.].该索引的值范围为0,表明该物种在CST到1中不存在,表明始终检测到OTU并仅在该CST中检测到。

我们使用了丰富的矩阵[26](394个样本,247 oTus),并且使用一个VS所有方法,我们设计了一种简单的方案,可以使用每个分类的丰富来区分每个其他CST。通过[的特异性指数给出的每个功能的重要性[29用作地面真理。考虑了每个CST的前10位OTU,并且它们的重要性值归一化。

结果如图所示。6..由于PLS-DA和PCA返回排名的功能列表,所示的功能百分比的变化阈值X轴的无花果。6..这y轴表示在该截止由最佳特征来实现的特异性指数的总和。请注意,仅通过选择的功能一半,0.9的累积特异性通过两种方法来实现的。PLS-DA超过0.8达到特异性值与选定小于5点的特性,这意味着在所有的情况下,PLS-DA的顶级功能是确权的功能集。相比之下,PCA的特异性的开头有一个缓慢增长(选择了错误的特征),但是当选择其中的一半两种方法实现相同的特异性。

图6
图6.

PLS-DA和PCA选择的特征对不同社区状态类型的性能

讨论

我们的工作阐明了PLS-DA可以有效地作为特征选择器和分类器的关系和数据模型。特别地,我们声称当类由线性或非线性关系决定时,PLS-DA几乎不能提供对数据的洞察。但当分类对信号特征具有聚类分布时,即使这些特征隐藏在大量的噪声属性中,它是有效的。当类被包含时,PLS-DA也保持了强大的性能N-正交(即信号特征子空间中的矩形框)。

在执行的所有实验中,工具的性能与特征选择器和CV误差之间的性能之间存在对应关系。这加强了CV误差是将良好模型与糟糕的模型区分以及每张纸张使用PLS-DA的纸张必须报告它有任何有效性。此外,在使用此工具时,逐步良好的行为是司空见惯的,因为数据的稀疏度越来越快,尺寸的数量越来越快,PLS-DA更容易找到一个完美的分离的超平面。

此外,即使PCA忽略了关于样本的类标签的信息,它作为分类问题的特征选择器仍然非常有效。在某些情况下,它的性能优于PLS-DA,后者能够识别输入中的类标签。

结论

我们实验中的明显结论是,通过所有数据集盲目地使用PLS-DA是一个可怕的想法。尽管其有吸引力识别可以分开类别的功能,但很明显,具有足够大量的功能的任何数据集是可分离的,并且大多数分离超平面都只是“噪声”。因此,使用它不分青红皂白将变成“金锤”,即,使用的OFT,但工具不当。幸运的是,当无效地使用时,CV的使用将易于指向。

我们的工作阐明了PLS-DA可以有效使用的关系和数据模型,并且在数据的底层模型已知或可以猜测的情况下,它既可以作为特征选择器,也可以作为分类器。当不可能的时候,你应该依赖简历错误,在做出结论和推断时要非常小心。

此外,应该根据数据集利用多种可用工具并使用不同的方法,因为根据条件,简单PCA的性能优于PLS-DA。

可用性数据和材料

生成和分析数据集可被下载的所有代码https://github.com/daniruizperez/soyouthinkyoucanpls-da_public..本文中所示的所有3D图以及可以交互地观看辅助物品http://biorg.cs.fiu.edu/plsda..分析的数据集源自以下已发布文章:[26]

缩写

简历:

交叉验证

FN:

假阴性

FP:

假阳性

ICA:

独立分量分析

个人电脑:

主成分

主成分分析:

主要成分分析

PLS-DA:

偏最小二乘判别分析

RLDA:

正则线性判别分析

SPCA:

稀疏主成分分析

sPLS-DA:

稀疏偏最小二乘判别分析

圣言:

奇异值分解

TN:

真正的否定

tp:

真正的阳性

参考

  1. 1

    StåhleL,Wold S.偏最小二乘分析与双层问题的交叉验证:蒙特卡罗研究。J Chemometrics。1987年;1(3):185-96。

    文章谷歌学术搜索

  2. 2

    Barker M,Rayens W.部分最小二乘歧视。J Chemometrics。2003;17(3):166-73。

    CAS.文章谷歌学术搜索

  3. 3.

    基于偏最小二乘判别分析的老年痴呆诊断。老年认知障碍。1995;6(2): 83 - 8。

    CAS.文章谷歌学术搜索

  4. 4.

    沃利B,在代谢组学的权力R.多因素分析。CURR Metabol。2013;1(1):92-107。

    CAS.谷歌学术搜索

  5. 5.

    Worley B, Halouska S, Powers R.在PCA/PLS-DA评分图中量化分离的实用程序。学生物化学肛门。2013;433(2): 102 - 4。

    CAS.文章谷歌学术搜索

  6. 6.

    Rohart F,Gautier B,Singh A,Le Cao K-A。混合组:“OMICS功能选择和多个数据集成的R包。PLO计算生物学。2017年;13(11):108597。

    文章谷歌学术搜索

  7. 7.

    Eriksson L, Antti H, Gottfries J, Holmes E, Johansson E, Lindgren F, Long I, Lundstedt T, Trygg J, Wold s使用化学计量学在基因组学、蛋白质组学和代谢组学(gpm)的大数据集中导航。肛门生物分析化学2004;380(3): 419 - 29。

    CAS.文章谷歌学术搜索

  8. 8.

    Christin C,Hoefsloot HC,Smilde Ak,Hoekman B,Suits F,Bischoff R,Horvatovich P.对临床蛋白质组学中生物标志物发现特征选择方法的关键评估。摩尔细胞蛋白质。2013;12(1):263-76。

    文章谷歌学术搜索

  9. 9.

    nguyen dv,rocke dm。基于DNA微阵列基因表达的急性白血病使用局部最小二乘法分类。Linux Journal。2002;:109-24。https://doi.org/10.1007/978-1-4615-0873-1_9

  10. 10

    Tan Y,Shi L,Tong W,Hwang Gg,王C.使用微阵列基因表达数据判别偏最小二乘判别多级肿瘤分类和分类模型的评估。计算Biol Chem。2004;28(3):235-43。

    CAS.文章谷歌学术搜索

  11. 11

    基于概率判别偏最小二乘的微阵列数据分类。Talanta。2009;80(1): 321 - 8。

    CAS.文章谷歌学术搜索

  12. 12

    偏最小二乘判别分析:带走魔力。化学计量学,2014;28(4): 213 - 25所示。

    CAS.文章谷歌学术搜索

  13. 13

    Westerhuis Ja,Hoefsloot HC,Smit S,VIS DJ,Smilde Ak,Van Van Duijnhoven JP,Van Dorsten Fa。评估PLSDA交叉验证。代谢组学。2008;4(1):81-9。

    CAS.文章谷歌学术搜索

  14. 14

    一些化学计量学中常见的误解。化学计量学,2010;24(7 - 8): 558 - 64。

    CAS.文章谷歌学术搜索

  15. 15

    Chun H,KeleşS.稀疏部分最小二乘因子回归同时尺寸减小和变量选择。J Royal Stat SoC:Ser B(stat方法)。2010;72(1):3-25。

    文章谷歌学术搜索

  16. 16

    Lê曹凯安,王志强,王志强。稀疏pls判别分析:多类问题的生物相关特征选择和图形显示。欧宝娱乐合法吗BMC生物信息学。2011;12(1): 253。

    文章谷歌学术搜索

  17. 17

    刘志强,刘志强。基于稀疏偏最小二乘的高维数据分类。Stat Appl Genet Mole Biol. 2010;9(1)。

  18. 18

    Le Cao K-A, Rohart F, Gonzalez I, Dejean S, Gautier B, Bartolo F. mixOmics:组学数据集成项目。R包,版本。2017.

  19. 19

    Saccenti E,蒂默曼ME。接近样品大小确定为多元数据:应用到PCA和组学数据的PLS-DA。J蛋白质组。2016;15(8):2379-93。https://doi.org/10.1021/acs.jproteome.5b01029.结论:27322847。

    CAS.文章谷歌学术搜索

  20. 20.

    Ambroise C, McLachlan GJ。基于微阵列基因表达数据的基因提取中的选择偏差。中国科学院学报2002;99(10): 6562 - 6。

    CAS.文章谷歌学术搜索

  21. 21

    Hyvarinen A KJ, E o独立成分分析:Wiley;2001.ISBN 978-0471-40540-5。

  22. 22

    沈浩,黄建忠。基于正则化低秩矩阵逼近的稀疏主成分分析。J Multivariate Anal. 2008;99(6): 1015 - 34。https://doi.org/10.1016/j.jmva.2007.06.007

    文章谷歌学术搜索

  23. 23

    弗里德曼jh。正常判别分析。J AM Stat Assoc。1989;84(405):165-75。https://doi.org/10.1080/01621459.1989.10478752。http://arxiv.org/abs/https://www.tandfonline.com/doi/pdf/10.1080/01621459.1989.10478752。

    文章谷歌学术搜索

  24. 24

    Allsworth Je,Peipert JF。细菌性阴道病的患病率:2001 - 2004年全国卫生和营养考试调查数据。妇产科妇科。2007;109(1):114-20。

    文章谷歌学术搜索

  25. 25

    妇女获得2型单纯疱疹病毒与细菌性阴道病的关系。临床感染疾病2003;37(3): 319 - 25所示。

    文章谷歌学术搜索

  26. 26

    Ravel J,Gajer P,Abdo Z,Schneider GM,Koenig SSK,McClle SL,Karlebach S,Gorle R,Russell J,Tacket Co,Brotman RM,Davis CC,Ault K,Peralta L,Forney LJ。生殖年龄的阴道微生物组。PROC NAT ACAD SCI。2011;108(补充1):4680-7。https://doi.org/10.1073/pnas.1002611107

    CAS.文章谷歌学术搜索

  27. 27

    Gajer P,BraTman Rm,Bai G,Sakamoto J,SchütteUme,Zhong X,Koenig SSK,FU L,MA ZS,周X,ABDO Z,Forney LJ,Ravel J.人类阴道微生物的时间动态。SCI Trans Med。2012;4(132):132-5213252。https://doi.org/10.1126/scitranslmed.3003605。http://arxiv.org/abs/http://stm.sciencemag.org/content/4/132/132ra52.full.pdf。

    文章谷歌学术搜索

  28. 28

    阴道微生物组:重新思考健康与疾病。Ann Rev Microbiol, 2012;66(1): 371 - 89。https://doi.org/10.1146/annurev-micro-092611-150157.结论:22746335。

    CAS.文章谷歌学术搜索

  29. 29

    马ZS,李L.定量人阴道社会状态类型(技术服务小组)与种属特异性指标。peerj。2017年;5:3366。

    文章谷歌学术搜索

  30. 30.

    Mahendra M,Samuel P,Dieter E.微生物生态系统由专业分类群体主导。ECOL LETT;18(9):974-82。https://doi.org/10.1111/ele.12478http://arxiv.org/abs/https://onlineLibrary.wiley.com/doi/pdf/10.1111/ele.12478

下载参考

致谢

作者感谢生物信息学研究小组(BioRG)成员在本研究过程中提出的有用意见。

关于这个补充剂

本文已作为欧宝娱乐合法吗BMC BioInformatics Stock 21补充1,2020:来自第8届IEEE的生物和医学科学国际计算进展国际会议的选定文章(ICCABS 2018):生物信息学.该补充的全部内容可在网上找到//www.christinemj.com/articles/supplements/volume-21-supplement-1

资金

这项工作是由国防部W911NF-16-1-0494,NIH授予1R15AI128714-01和NIJ Grant 2017-Ne-BX-0001的补助金的部分支持。出版成本由个人资金提供资金。

作者信息

从属关系

作者

贡献

DR-P是这项工作的主要贡献者。DR-P和GN构思设计了实验。DR-P实现了实验。DR-P和HG进行实验。PM和KM提供了阴道数据集并帮助进行生物学分析。DR-P, GN和HG参与了手稿的撰写,所有作者阅读并批准了最终的手稿。

相应的作者

对应于吉里纳史木汗

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

两位作者宣称他们没有相互竞争的利益。

附加信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

额外的文件1

图S1。线性可分点模型,变化信号和噪声的性能。

额外的文件2

图S2。线性可分点模型的性能与余弦模型,变化的信号和噪声。

额外的文件3

图S3。不同配置的时间间隔模型的性能表。

额外的文件4

图S4。不同数据模型的分类准确性。

额外的文件5

图S5。线性可分点模型,变化信号和噪声的性能。

额外的文件6

图S6。线性可分点模型、变化样本和噪声的性能。

额外的文件7

图S7。其他方法的性能,信号约束区间p=3。

额外的文件8

图S8。其他方法的性能,噪声约束区间p=3。

额外的文件9

图S9。群集模型的其他方法的性能,样本数量大。

权利和权限

开放获取本文根据创意公约署署署的条款分发了4.0国际许可证(http://creativecommons.org/licenses/by/4.0/)如果您向原始作者和源给出适当的信用,则允许在任何介质中进行不受限制的使用,分发和再现,提供指向Creative Commons许可证的链接,并指示是否进行了更改。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条提供的数据,除非另有说明。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

王志强,王志强,王志强。等等。所以你觉得你可以请检察官吗?.欧宝娱乐合法吗21,2(2020)。https://doi.org/10.1186/s12859-019-3310-7

下载引用

关键词

  • PLS-DA
  • PCA.
  • 特征选择
  • 降维
  • 生物信息学
\