跳过主要内容

DI2:生物数据的现有和多项离散化和其应用

抽象的

背景

大量用于生物医学数据分析的数据挖掘方法,包括最先进的关联模型,都需要一种数据离散化形式。尽管已经提出了不同的离散化方法,但它们通常是在一套严格的统计假设下工作的,这些假设可能不足以处理给定数据集内的临床和分子变量的多样性和异质性。此外,尽管生物信息学中越来越多的符号方法能够为离散化边界附近出现的值分配多个项,以获得更好的稳健性,但对于如何执行多项离散化,还没有参考原则。

结果

在本研究中,对于任意偏态分布的变量,提出了一种无监督离散方法DI2。用于评估性能差异的统计检验证实,DI2通常优于具有统计学意义的成熟离散化方法。在分类任务中,DI2显示了具有竞争力或更高水平的预测精度,特别是能够容纳边界值的分类器的描述。

结论

本文提出了一种新的无监督数据离散方法DI2,该方法考虑了潜在的数据规律,干扰预期规律的离群值的存在,以及边界值的相关性。DI2可在https://github.com/jupitersmight/di2.

背景

连续变量离散化的方法长期与他们的优势和缺点一起讨论。altman等。[1和Bennette等人[2[讨论分类连续变量和减少分类变量的基数的相关性和影响。Liao等人。[3.]比较了在医学领域分类任务的背景下各种分类技术,在不使用领域的专家的领域知识。数据挖掘相当大的进展正在被象征性的方法,特别是那些源于生物信息学,压缩和模式挖掘研究,包括关于符号序列,文本或篮交易的分析贡献驱动。离散化的相关性同时满足描述和预测的端部,包含最先进的国家的作为基于模式的双聚类方法,例如[4.]和关联模型,如XGBoost [5.].

在本文中,我们提出了DI2,一个Python库,它扩展了非参数测试,以找到给定变量的最佳拟合分布并相应地离散它。DI2提供了三个主要贡献:(i)在统计拟合之前对经验分布进行修正,以确保候选分布的近似更为稳健;(ii) 100个理论概率分布的有效统计拟合;最后,(iii)根据值与离散化边界的接近程度对多个项进行赋值,这种可能性得到了许多符号方法的支持[4.6.7.].多个项目的分配[8.[通常称为多项离散化,赋予了从文本处理和生物信息学社区中利用大量数据结构和算法的可能性,而没有良好的项目边界问题的风险。

离散化方法有广泛的分类[9.]用行列式师在:(1)监督,其中该方法使用类变量bin中的数据,和,(2)无监督,其中该方法是独立于类变量。DI2地方本身就后者而言,它独立工作的类变量。DI2的其它特征是:(1)静态的,其中变量的离散化发生之前的地方的算法;(2)全球性的,使用关于变量作为一个整体,使分区和仍然可以与观测的数量稀少应用信息;(3)直接和分割,分割的整个值的范围进K.同时间隔;(4)多元和单变量,DI2既可以使用整个数据集创建区间并离散化每个变量,也可以使用每个变量单独创建各自的区间。

无监督的离散化方法的一些例子是比例离散化(PD),固定频率离散化(FFD)[10],相等宽/频率(也称为均匀和分位数)和k-means [11].本文将DI2与这些经典的离散化方法进行了比较。如图所示。12, 和3.

图。1
图1

等频法插图,沿轴9个点,3个类别。这种方法基于项目的频率,其中每个类别有相同数量的项目,以便设置间隔

图2
figure2

说明等宽方法与9点沿着一个轴和3类。该方法基于条目的范围,其中每个类别具有相同的宽度间隔

图3.
图3

说明k -均值法,沿轴9个点和3个类别。这种方法基于k-means聚类,其中每个类别都由一个质心定义

归一化和特征缩放

虽然不是强制性的,DI2支持:最小最大缩放

$$ \ {开始对齐} X'= \压裂{X - X_ {分钟}} {X_ {MAX} - {X_分钟}},\ {端对齐} $$
(1)

在哪里X是一个有序组观察到的值,并且\(x_ {max} \)\(x_ {min} \)是内的最大值和最小值X;Z.-分数标准化正态分布观测资料[12],

$ $ \{对齐}开始X ' = \压裂{X -{\眉题{X}}} {S_n}, \{对齐}$ $
(2)

在哪里X是观测值的有序集,\({\划线{X}} \)样本均值和\ (S_n \)为样本方差;和平均归一化,

$ $ \{对齐}开始X ' = \压裂{X -{\眉题{X}}}{间{马克斯}-间{分钟}}。\{对齐}$ $
(3)

在哪里X是观测值的有序集,\({\划线{X}} \)样本均值和\(x_ {max} \)\(x_ {min} \)是内的最大值和最小值X

统计假设

为了将数据离散成区间,DI2提供了两个统计假设检验:(1)\({\波浪号{\气}}^ 2 \)测试 [13],和(2)的Kolmogorov-斯米尔诺夫拟合优度测试拟合[14].

在上述试验中,经验分布与理论连续分布相匹配脚注1,由SciPy开源库提供[15],其中的参数是通过最大似然估计函数来估计。我们认为零假设是“经验概率分布的理论概率分布相匹配”。考虑0.05的显着性水平和自由度的数目可以由用户减去一减去估计的参数的数目[输入类别的数目16](不包括比例和位置参数)。如果是\({\波浪号{\气}}^ 2 \)统计量高于0.05的临界值,我们拒绝假设。同样的逻辑也适用于Kolmogorov-Smirnov统计量。中使用的每个类别的预期分布\({\波浪号{\气}}^ 2 \)测试对应输入的类别由所述用户的数量。用户既可以选择\({\波浪号{\气}}^ 2 \)或者是Kolmogorov-Smirnov的适应度基本的拟合测试。统计测试均屈服于兴趣的性质。虽然Kolmogorov-Smirnov不提供详尽表征参考和经验概率分布之间的差异,因为它的统计数据来自累积分布之间的最高远端,\({\波浪号{\气}}^ 2 \)取决于分类评估拟合优度的选定数量。铭记这些问题,\({\波浪号{\气}}^ 2 \)建议测试为默认选项,除非有大量数据实例可用。在后一种情况下,Kolmogorov-Smirnov测试提供了更精细的视图,因为它更准确地模拟了经验累积分布。

DI2告知用户每列选择的分布、应用测试的统计量以及计算的统计量是否通过拟合优度检验。可能出现以下情况之一:(1)至少有一个理论分布通过了统计检验,或(2)没有理论分布通过了统计检验。在这两种情况下,选择检验统计量最低的分布。第二种情况可能是有意为之。考虑以下情况,如果用户知道经验分布是一个服从正态分布的总体样本,他可以相应地输入理论连续分布(正态分布及其变体)。

离群值修正

根据所评估的理论连续分布,可以选择性地使用Kolmogorov-Smirnov拟合优度检验从经验分布中去除高达5%的离群点。Kolmogorov-Smirnov拟合优度检验返回一个统计量(D统计量),测量实证分布和理论分布之间的最大距离,

$$ \ {开始对准} d = \最大\大\ {\最大_ {1 \文件Ĵ\文件N} \大\ {\压裂{Ĵ} {N} - F(X_j)\大\},\最大_ {1 \乐J□\了N} \大\ {F(X_j) - \压裂{(J-1)} {N} \大\} \大\} \ {结束}对齐$$
(4)

在哪里N.是观察的数量,j是给定观察的指数,和F观察的频率是多少\ (X_j \).第一个内马克斯功能称为D.-plus统计量,而第二内马克斯功能被称为D.-minus统计。使用D.统计我们可以找出其中分布之间的最远点是,将其取下。观测的最多5%的已被删除后,用最好的Kolmogorov-Smirnov统计迭代被拾取(从0离群移除以高达5%)。由异常值去除所产生的数据随后被用于运行拾取的主要统计假设检验(\({\波浪号{\气}}^ 2 \)或洛夫 - 斯米尔诺夫)。这种校正保证了不存在引起的由所选择的直方图粒度和帮助从动巩固理论连续分布的选择还突然杂散偏差penalizations的。离群的观测只是暂时移除微调前面提到的统计假设检验。一旦最佳拟合分布选择和类别边界估算,该库返回原始数据(所有的异常值和缺失值),而不是产生在剩余的变量或后续的数据挖掘任务的影响。

多项目离散化

在选择最适合连续变量的理论概率分布之后,DI2继续离散化。鉴于期望的类别(箱),使用理论分布的逆累积分布函数来生成多个截止点。截止点保证了每类别的近似均匀的观察频率,尽管经验理论分布差异可能是不平衡。提供参数化箱数的可能性,因为在一些应用程序域中,所需的数字是已知的先验(例如,用于表达数据分析的明确定义数量的基因激活水平)。

仓的最佳数量可替代地hyperparameterized。在监督的设置,训练数据交叉验证可以追求为此。同样地,在无监督的设置,不同的基数可以针对一个定义良好的质量标准(在聚类溶液或在双聚类溶液的统计学显著模式的数量例如轮廓)来估计箱柜的数目评估。用于参数仓的数量,包括启发式搜索替代品已经建议[17].在临床领域,Maslove等人。[18]在使用非监督方法离散数据时,使用启发式方法来确定箱子的数量。

不像其他的公知的无监督离散化方法,(例如上述方法)DI2通过识别每个类别边界值支持多项目分配,这在图例举4..还需要注意的是,在能够处理来自类别边界的多个项目的算法的存在下,与不同的箱子选择相关的项目边界问题得到了改善。为此,用户还可以选择定义一个边界接近百分比(在0和50%之间,20%是默认值),以影响到类别边界的距离。让我们介绍一个例子:一个变量的离散服从一个正态分布,N(0,1),有三个类别。分界点分别为−0.43和0.43。为了允许存在边界值,离散化边界附近值的观测值被分配为两类。默认情况下,对于多个项目的分配,假设接近离散化边界的20%。接近百分比的估计方法是将观测与最近的离散化边界之间的概率分布曲线下的面积除以观测类别离散化边界之间的面积。在给定的例子中,观测值在−0.63和−0.43之间,以及在−0.43和−0.26之间,有两个项目。还可以观察到,接近百分比转换成边界边界(较小的括号)被放置在离散边界(中等大小的括号)的左右。

图4.
装具

(属于2个类别的值)与沿轴线9分和3个类别考虑边界值离散化的图示例子

执行

DI2工具在Python 3.7中完全实现脚注2(附加文件1).DI2为它的主要功能的一个实际例证提供作为开源方法由GitHub与注释良好的API和笔记本教程。该算法的工作流程在算法1以及Kolmogorov-斯米尔诺夫校正显示在算法2中。DI2的工作流程在图中进一步示出5..所有代码与英特尔(R)核心(TM)计算机i5-8265U CPU @ 1.60 GHz的1.80千兆赫和24 GB的RAM上被执行。

图5.
figure5

DI2的流程图。从数据输入端,通过数据归一化,类别的配合,最后的离散化

figurea
figureb

结果和讨论

为了说明一些DI2属性,我们考虑了两个发布的数据集:(1)乳腺组织数据集[19,包括在新鲜切除的乳房组织样本中测量的电阻抗,以及(2)酵母数据集[20.,包含分子统计变量。这两种方法都可以在UCI机器学习知识库中找到[21],更详细的变量解释见表12

表1的变量乳腺组织数据集及其各自的描述
表2酵母数据集及其各自的描述

DI2用\({\波浪号{\气}}^ 2 \)作为主要的统计检验,有或没有Kolmogorov离群值去除,有单列和全列离散化,每个变量输出3、5和7个类别。预测性能进一步评估原始连续数据。本节中提到的概率分布的首字母缩写见表3.

表3理论概率分布首字母缩略词(为完整列表访问https://docs.scipy.org/doc/scipy/reference/stats.html-SciPy统计功能)

案例分析:乳房组织的数据集

图6.
figure6

来自乳腺组织AGAINT的DA变量的分布匹配两个统计分布(recipinvgauss一种卡方B.,以及相应的离散边界和边界值

乳腺组织数据集包含106个数据实例和10个变量(9个连续变量和1个分类变量),如表所示1.收集的结果显示了DI2在不存在或存在Kolmogorov-Smirnov优化的情况下做出的决策。

桌子4.显示分布屈服于数据集的每个连续变量的最佳拟合。变量“I0”,“PA500”,“A / DA”,“DR”和“P”仍然保持不变,除以最高可达5%的异常值。变量“HFS”和“区域”产生了更好的结果\({\波浪号{\气}}^ 2 \)试验拆除异常值凝固分布选择。最后,拟合选择改变了变量“da”和“max ip”\({\波浪号{\气}}^ 2 \)检验,从残差分析中揭示出更可靠的选择。

表4各连续变量无Kolmogorov-Smirnov校正和有Kolmogorov-Smirnov校正的最佳拟合分布

考虑到“da”变量,图。6.a, b显示其Q-Q(分位数-分位数)图,提供了统计拟合充分性的观点。在这种情况下,我们描述了100个箱子(蓝点)的经验数据的直方图,以更好地可视化离群值去除的影响,并选择了没有Kolmogorov-Smirnov校正或使用Kolmogorov-Smirnov校正(红线)的最佳理论分布。从Fig。6.A, b可以检测到,经验分位数(蓝点)更接近理论连续分位数(红线)。

所述嵌合阶段后,截断点被计算以产生最终的类。数字5.c比较不同的离散化选项:分位数、均匀分布和两种最佳拟合理论连续分布(没有Kolmogorov-Smirnov优化和使用Kolmogorov-Smirnov优化)。类别分界点用红线标出,边界值分界点用黄色标出。该分析显示了离散化在确定是否包含或排除高密度容器方面的关键作用。因此,DI2使用边界分配多个项目的能力可以通过符号方法进行探索,以减轻离散化过程中固有的漏洞[2223].

案例分析:酵母数据集

酵母数据集包含1484个数据实例和10个变量,包括样品标识,类和8个分子统计变量(表2).在以前的分析中,乳房组织的数据集将DI2分类截断点与替代的无监督离散化程序(分位数(等频率)和均匀(等宽度))进行比较。这酵母数据被用来综合评估离散化方法的预测能力,包括k-均值方法。

桌子5.在将每个变量和整个数据集一起应用于每个变量时显示DI2产生的统计测试结果,考虑每个变量的5个类别。如表所示5.,变量的经验分布并不总是与已知的具有统计学意义的理论分布相匹配(例如变量“alm”)。尽管如此,仍然选择具有最低检验统计量的理论分布,以努力通过防止严重失调的概率分布来改善糟糕的离散决策。

数字7.A显示了变量“mit”在离群点移除前(直方图棕色和蓝色区域)和离群点移除后(直方图棕色区域)的值分布。数字7.B比较所有离散化技术的类别的分布(DI2,Smasterile,统一和k-means),并进一步评估了异常删除在分类数据的不同执行中的数据的影响。数字8.给出了每个类别的观测频率分布,以及由DI2的边界值产生的中间类别。

图7.
figure7

变量“麻省理工学院”分发(一种).k-means、分位数、均匀化和DI2离散化后的类别分布(B.

图8
figure8

变量“mit”的类别分布经过DI2离散化后,不同的设置与边界值。使用Kolmogorov-Smirnov离群值去除的单柱离散化(浅蓝色柱),不使用Kolmogorov-Smirnov离群值去除的单柱离散化(深蓝色柱),使用Kolmogorov-Smirnov离群值去除的全数据集离散化(浅紫色柱),不去除Kolmogorov-Smirnov离群值的整体离散化(深紫色柱)

表5每个连续变量的最佳拟合分布,没有和kolmogorov-smirnov异常删除,考虑每个变量的5个类别

执行的分析酵母数据集显示类别边界有多重要,前面用乳腺组织数据集,可以。可以通过符号方法探索DI2使用边框分配多个项目的能力,以缓解所讨论的离散化过程固有的脆弱性,如下所述。

预测性能

为了评估DI2的预测影响,我们重用了酵母数据集,应用10倍的交叉验证方案和六种监督分类方法:天真贝叶斯[24[随机森林[25],使用顺序最小优化(SMO)支持向量机[26],C4.5 [27],多项式物流回归模型(MLRM)[28]和FleBiC [29].将离散化程序应用于每变量3,5和7类。为了保持评估的健全性,仅在每折的训练数据上学习离散化阈值。然后使用从训练数据的学习离散化阈值离散化测试数据实例。

数字9.呈现上述模型的结果与原始数字数据和每个变量5类的离散化。在每个模型中,DI2,与单个列离散化和异常值去除的配置,是顶执行过程中。特别是,C4.5模型,DI2,结合柱离散化配置中,与其它离散化方法相比,达到的最高准确度。考虑朴素贝叶斯和SMO模型,DI2实现对原始数值数据竞争力的性能,具有普遍较高的平均单柱离散化,但没有产生具有统计学显著改善精度。

图9.
figure9

Average accuracy per classifier and discretization method available without border values and considering 5 categories per variable(for more information consult Additional file2).每组柱从左到右:K-means,四分位数,均匀,DI2(单,kol。校正)、DI2(单)、DI2(全)、kol。修正)、DI2(整体)和原始数据

数字10显示每个变量的离散化3和7类的每个模型的平均精度。考虑3类和7类的结果在准确性方面不如5类的最佳。尽管如此,这些结果进一步鼓励超参数化以找到最优的容器数量。

图10.
图10

与多个离散化方法执行不同的模型时的准确性。从左至右的条是:K-装置,四分位数,制服,DI2(单,KOL校正。)无边框的值和原始数据

为了充分测试出DI2的潜力,我们现在考虑的边界值。FleBiC [29]能够基于多项目作业场所决定的分类。其他方法,如BicPAMS [4.(图案化的基于双聚类算法),可替代地考虑到容纳边界值,从而尽量减少潜在的离散化的缺点。FleBiC作为一个独立的分类器,并作为一种辅助分类来指导随机森林,其中决定从FleBiC(50%)和随机森林(50%)的两个概率输出导出的,这将通过被表示的决定在此执行FleBiC混合。数字11显示了FleBiC和FleBiC Hybrid的结果。在平均准确性方面(图11.A),败类和败类的混合动力术均比其他离散化方法产生更高的预测精度。在DI2的不同设置中,当预测模型考虑边界值时,对于败类的混合来实现最佳预测精度。数字12在考虑3和7个类别时给出结果。最后,考虑到NUC结果的敏感性(图11.b),我们可以看到,边界值的合并起着决定性的作用,使得有可能突破对离散化方法不能考虑边界值的NUC可预测性的上限。在补充材料中提供了更多关于边界值的相关细节以提高其他类的敏感性。这一分析表明使用边界值可以产生显著的改进。

图11.
figure11

执行不同FleBiC版本时的准确性,以及预测类NUC时的敏感性,使用多个离散化方法,考虑每个变量5个类别(更多信息请参阅附加文件)2).从左至右的条是:K-装置,四分位数,制服,DI2(单,KOL校正。),DI2(单),DI2(边界值,单一的,KOL校正。)和DI2(边界值,单个)

图12.
figure12

使用多个离散化方法执行不同FleBiC版本时的准确性,考虑每个变量7个类别。条形图从左到右分别为:原始数据,K-means, Quantile, Uniform, DI2 (single, kol.)。校正),DI2(单),DI2(边界值,单,kol。修正),DI2(边界值,单)

为了评估是否在预测准确性先前差异有统计学显著,一尾配对T.以及应用。我们考虑备选假设(P.-Value <0.05)为“DI2优于使用相同分类器的识别的离散化程序”。考虑到每变量的5个类别的离散化获得的结果呈现在表中6..在所有分类模型中,DI2相对于均匀离散化显示了统计上显著的改进。采用单列和优化的单列配置的DI2,尽管在大多数分类器中对k-means和分位数离散显示出具有竞争力的预测精度,但没有显示出统计学上的显著改善。然而,当考虑FleBiC时,DI2优于所有其余的离散方法,无论是否有边界值(P.-Value <0.05)。在Flebic Hybrid中,DI2也优于所有其他离散化方法,除了考虑边界值时,除了定量的离散化之外。

表6聚集P.- 使用单尾配对来统计测试DI2的优越性,以防止替代离散化程序的预测精度和原始数据T.- 最低,并考虑每个变量的5个类别(附加文件中的互补信息3

离散化的好处超过了以前评估的预测设置。在深度学习方法的背景下,Rabanser等人[30.[]研究了数据输入和输出转换对几种神经预测体系结构的预测性能的影响,得出结论,当输入数据被离散化时,WaveNet模型产生的结果最好。

可扩展性

DI2的执行时间,提出了图。13.数字13A根据测试的理论分布的数量(从参数估计的最快到最慢)显示效率酵母数据集(1484个观察)。数字13.b描绘了考虑到的DI2默认设置的观测次数如何变化。酵母所有变量的数据。

图13.
图13.

不去除离群值的DI2根据潜在概率分布数量(一种)和观察次数。在上升计算时间内添加候选分布(从0到95),即从最快到最慢的理论分布参数估计

结论

这项工作提出了一种新的无监督方法,用于数据离散化DI2,它考虑了底层数据规律,扰乱了预期规则的异常值,以及边界值的相关性。提供了一种具有任意偏斜可变分布的自主,自由的自由分散的工具,本端提供了任意偏斜的可变分布。

我们的研究表明,与建立的无监督的离散化方法相比,DI2是一种可行和稳健的离散化程序。应用于评估性能差异的统计测试证实DI2通常优于统计显着性的替代离散化方法。分类任务中的DI2的结合使用导致竞争或卓越的预测精度。DI2作为允许结合边界值的独特功能。Flebic是一个能够容纳边界值的分类器,在存在多项目分配的情况下实现了统计上显着的性能改进。

可用性和需求

项目名称:DI2:现有和多项离散化。

软件主页:欧宝直播官网apphttps://github.com/jupitersmight/di2.

编程语言:Python。

其他要求:python 3.7, pandas 1.2.4, scipy 1.5.1和numpy 1.20.2。

许可协议:麻省理工学院许可证。

任何限制非学者使用方法:无。

数据和材料的可用性

该软件可在https://github.com/jupitersmight/di2..数据在UCI机器学习存储库中公开提供[31].这乳腺组织数据集可在:https://archive.ics.uci.edu/ml/datasets/Breast+Tissue酵母数据集可在:https://archive.ics.uci.edu/ml/datasets/yeast.

笔记

  1. 1.

    https://docs.scipy.org/doc/scipy/reference/stats.html

  2. 2.

    DI2目前使用以下库:熊猫1.2.4,scipy 1.5.1, 和numpy 1.20.2

缩写

DI2:

分布离散化

分位数:

频率相同

制服:

等宽

Q-Q Plot:

Quantile-Quantile情节

败笑:

灵活Biclustering-based分类器

BicPAMS:

双聚类基于模式挖掘软件

参考

  1. 1.

    奥特曼DG。分类连续变量。威利StatsRef:统计参考。在线的;2014年。

  2. 2.

    BENNETTE C,VICKERS A.反对量级:流行病学研究中连续变量的分类及其不置。BMC MED RES方法。2012; 12(1):21。

    文章谷歌学术

  3. 3.

    廖士卓,李仁。适用于数据挖掘分类技术的医学数据分类。医学信息网络医学2002;27(1):59-67。

    文章谷歌学术

  4. 4.

    利克斯R,马德拉SC。BicPAM:基于模式的双聚类生物医学数据分析。算法Mol Biol。2014; 9(1):27。

    文章谷歌学术

  5. 5.

    Chen T,Guestrin C. XGBoost:可伸缩的树升压系统。在:22nd ACM SIGKDD关于知识发现和数据挖掘的国际会议的诉讼程序;2016. p。785-794。

  6. 6.

    冈田Y,大久保K,霍顿P,基因表达模块Fujibuchi W.穷举搜索方法及其应用到人体组织的数据。IAENG诠释J COMPUT科学。2007; 34(1):119126。

    谷歌学术

  7. 7。

    张L,Shah Sk,Kakadiaris IA。使用完全关联集合学习的分层多标签分类。模式识别。2017; 70:89-103。

    文章谷歌学术

  8. 8。

    基于特征有效表示的可解释分类的多值规则集。见:第32届国际神经信息处理系统会议论文集;2018.p . 10858 - 68。

  9. 9。

    加西亚S,LuengoĴ,Sáez研究JA,洛佩兹V,离散化技术Herrera的F.调查:分类和在监督学习经验分析。IEEE Trans Knowl Data Eng。2012; 25(4):734-50。

    文章谷歌学术

  10. 10。

    Yang Y, Webb GI。朴素贝叶斯学习的离散化:管理离散化偏差和方差。马赫学习。2009;74(1):39 - 74。

    文章谷歌学术

  11. 11.

    Tou JT,Gonzalez RC。模式识别原则;1974年。

  12. 12.

    《牛津统计术语词典》。牛津:牛津大学出版社按需出版;2006.

    谷歌学术

  13. 13.

    洛瑞R.概念和推断统计中的应用;2014年。

  14. 14.

    冈萨雷斯T,萨尼S,福兰特WR。一个高效的算法柯尔莫哥洛夫 - 斯米尔诺夫和里尔福斯测试。ACM跨数学软件选装。1977; 3(1):60-4。

    文章谷歌学术

  15. 15.

    Virtanen的P,Gommers R,奥利芬特TE,哈伯兰男,雷迪T,Cournapeau d,等。SciPy的1.0:在Python的科学计算的基本算法。NAT方法。2020; 17(3):261-72。

    CAS文章谷歌学术

  16. 16.

    沃森GS。最近的一些成果在Chi-Square的拟合性测试中。生物识别技术。1959; 15:440-68。

    文章谷歌学术

  17. 17.

    Martignon L, Katsikopoulos KV, Woike JK。资源有限的分类:一组简单的启发式。数学心理学报。2008;52(6):352-61。

    文章谷歌学术

  18. 18。

    Maslove DM, Podchiyska T, Lowe HJ。临床数据集连续特征的离散化。J Am Med Inform Assoc. 2013;20(3): 544-53。

    文章谷歌学术

  19. 19。

    正常和病理乳腺组织中障碍的变异性。医学生物工程计算机。1996;34(5):346-50。

    CAS文章谷歌学术

  20. 20。

    一种用于预测蛋白质细胞定位位点的概率分类系统。Proc Int Conf Intell Syst Mol Biol. 1996; 4:109-15。

    CASPubMed谷歌学术

  21. 21。

    DUA D,GRAFF C. UCI机器学习存储库;2017年。http://archive.ics.uci.edu/ml

  22. 22。

    Ushakov N,Ushakov V.由于离散化而恢复信息丢失。在:xxxiv。随机模型稳定性问题的国际研讨会。p。102。

  23. 23。

    Chmielewski MR,Grzymala - 布斯JW。连续属性的全局离散化作为预处理机器学习。在:粗糙集与软计算第三届国际研讨会;1994年第294-301。

  24. 24.

    John Gh,Langley P.估计贝叶斯分类器的连续分布。:在:人工智能中不确定性的第十一会议。San Mateo:摩根Kaufmann;1995. p。338-45。

  25. 25.

    Breiman L.随机森林。马赫学习。2001; 45(1):5-32。

    文章谷歌学术

  26. 26.

    普拉特J.顺序最小优化:一个快速算法训练支持向量机。1998年。

  27. 27.

    昆兰JR。C4。5:机器学习计划。阿姆斯特丹:elestvier;2014年。

    谷歌学术

  28. 28.

    le Cessie S, van Houwelingen JC。logistic回归中的岭估计。:统计。1992;41(1):191 - 201。

    文章谷歌学术

  29. 29.

    FleBiC:从高维生物医学数据中使用具有非恒定模式的鉴别双聚类学习分类器。模式Recognit。2021;115:107900。

    文章谷歌学术

  30. 30.

    基于神经时间序列模型的离散化预测方法研究。arXiv预印本ARXIV:200510111..2020.

  31. 31.

    UCI机器学习知识库;2007.

下载参考

资金

这项工作得到了Fundação para a Ciência e a technologia (FCT)、IDMEC、LAETA项目(UIDB/50022/2020)、IPOscore with reference (DSAIPA/DS/0042/2018)和ILU (DSAIPA/DS/0111/2018)的支持。本研究进一步得到绿色化学联合实验室(LAQV)、FCT/MCTES国家基金(UIDB/50006/2020和UIDP/50006/2020)、INESC-ID多年生基金(UIDB/50021/2020)和RSC合同CEECIND/01399/2017的支持。资助实体没有参与研究的设计、数据的收集、分析和解释以及手稿的撰写。

作者信息

隶属关系

作者

贡献

所有作者都促成了方法的设计。LA实施了软件并制作了稿件的初稿。RH提供了预测性能的结果。RSC验证了数据集和结果,保证了其可用性。RSC和RH都会广泛修改了稿件。所有作者阅读并认可的终稿。

通讯作者

对应于莱昂纳多亚历山大

道德声明

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

额外的信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1。

文件夹包含DI2和一个例子,在Jupyter笔记本使用乳房组织数据集的例子。

额外的文件2。

采用离散化方法的模型考虑5个类别时的平均精度。

额外的文件3。

在考虑5个类别的每个模型中,每种离散化方法在交叉验证中所达到的精度。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Alexandre,L.,Costa,R.S.&Henriques,R.ID2:生物数据及其应用的现有和多项离散化。欧宝娱乐合法吗22,426(2021)。https://doi.org/10.1186/s12859-021-04329-8

下载引用

关键字

  • 多项目离散化
  • 在此之前,离散自由
  • 异质生物数据
  • 数据挖掘