跳转到主要内容

缺失数据统计学习模型建筑的动态模型更新(DMU)方法

抽象的

背景

在具有缺失信息的研究中开发统计和机器学习方法是现实世界生物学研究中普遍存在的挑战。文献中的策略要么依赖于删除缺失值的样本(如完整案例分析(CCA)),要么依赖于将信息输入缺失值的样本(如预测均值匹配(PMM),如MICE)。这些策略的一些局限性是信息丢失和输入值与缺失值的接近。此外,在具有零碎医疗数据的情况下,这些策略必须等待完成数据收集过程,以便为统计模型提供完整的数据集。

方法和结果

本研究提出了一种动态模型更新(DMU)方法,是开发缺失数据的统计模型的不同策略。DMU仅使用数据集中可用的信息来准备统计模型。DMU将原始数据集分为小型完整数据集。该研究使用分层群集将原始数据集段分为小型完整数据集,然后是每个小型完整数据集上的贝叶斯回归。使用来自每个数据集的后估计更新预测估计值。通过使用模拟数据和实际研究来评估DMU的性能,并显示出更好的结果或与其他方法(如CCA和PMM)相提并论。

结论

DMU方法提供了在处理具有缺失值的数据集中的信息消除和夸张方法的替代方法。虽然该研究应用了连续横截面数据的方法,但该方法可以应用于纵向,分类和发生时间的生物数据。

背景

缺失数据是非实验性,基于现场的研究的普遍存在的问题,例如基因组,流行病学和社会科学研究。传统上,完整的案例分析(CCA)和估算是解决缺失的两种方法。CCA使用具有用于模型构建的完整数据的样本,这将其应用于具有大型完整数据样本的场景。此外,CCA在案件中提供偏置估计,当时数据不会完全缺失(MCAR)[1]。

归纳方法可以通过用单个值(单个归属)或多个值(多重归批)替换缺失数据而无需完整数据处理样本。单个归纳技术为每个缺失值增加了单个合理的值,并创建单个潜在的数据集。单个估算方法将避税视为实际值,而不是在下游分析期间用标准误差值估计,这在结果中创造了潜在的偏差[2]。平均imputation是最直接的imputation技术之一。它用预测器观测数据的平均值来代替预测器的缺失值。它的主要缺点是低估了预测因子的方差,忽略了预测因子之间的关系[3.4.]。回归imputation是另一种方法,它将有缺失值的预测量与无缺失值的预测量进行回归。最后,通过回归模型估计预测量的缺失值[5.]。但是,该技术依赖于线性关系[6.],可能会影响模型质量。

与单一估算方法相比,多重估算方法提供了更不偏的估计,因为它认为估计中的不确定性。多个归纳方法为每个缺失的值分配多个合理的值,该值创建多个避障数据集。每个数据集都会经过分析,使用鲁宾的规则汇集结果[7.]。这老鼠R中的包是用于执行多个避免的流行包之一[8.]。它提供了许多多重估算方法,如预测均值,贝叶斯回归和线性回归。但是,多个估算方法仍然无法为所有场景提供无偏见的估计[9.]。

在预测器中的非线性关系中,使用基于机器的基于机器的技术来执行估算。k最近邻居(k-nn)是用于归档的机器学习技术之一。对于具有缺失值的任何预测器,K-NN试图识别K.使用具有非缺失数据的预测器对每个缺失值的最近邻居。的值来计算缺失的值K.最近的邻居[10.]。k-means群集分离将完整的数据集(包括缺失值)分离为K.集群。然后,在每个群集中应用K-NN算法,以施加群集中的缺失值[11.]。然而,在许多情况下,基于K-NN和K-means的方法与其他方法相比可能表现不佳[12.13.]。MissForest技术使用随机林来抵御缺失的数据来克服基于回归的估算方法的局限性[14.]。

在许多现实世界场景中,数据收集并不同步。相反,它随着时间的推移而发生。CCA和基于归纳的方法必须等待完成数据收集过程。在高吞吐量数据的情况下,数据存储可以是一个问题[15.]。本文成功地提出了一种替代方法,即动态模型更新(DMU)方法来分析缺失值的数据集。DMU分析从原始数据集而不是原始数据集获得的多个小数据集,并允许每次分析都进行估计更新。本文的组织结构如下。'方法'部分描述了DMU算法;使用模拟和真实数据集研究评估和演示模型性能“模拟研究”和“真实数据研究“部分分别。最后,'结论与讨论’部分对论文进行了总结,并讨论了研究的局限性。

结果

对模拟数据集和真实数据研究的CCA和PMM方法进行评估,并将DMU的性能进行评估。

仿真研究

我们使用模拟研究来评估模型性能。在模拟研究中,数据是从以下回归模型生成的:

数组$ $ \开始{}{* c {20}} {y = \ beta_ {0} + \ beta_{1}间的{1}+ \ cdots + \ beta_ {p}间{p} + \ε}\ \ \{数组}$ $
(1)

在哪里ε ~ N(0, 0.25) is noise in the model and x1,…,XP.是预测的因素。预测器x的值1和X.2分别由beta (~ beta(7,2))和均匀分布(~ U(0,2))得出,而预测因子x3.,…,XP.由正态分布(~ N(0,1))得出。x的系数值1, X2和X.3.分别为0.2,0.3和0.4。剩下的预测器具有零系数值。相关矩阵旨在为模型添加多型性。预测器{x1,…,X5.}在[−0.5,0.5]之间随机赋值替换,其余情况均赋值为零,如下图所示。

左$ $ \[{\开始{数组}{* c{20}}{\开始{数组}{* c{20}}{间的{1}间的{1}}和{间的{1}间的{2}}&。\\ {x_{2} x_{1}} & {x_{2} x_{2}} &。\ \。&。&。{\ \end{array}} & {\begin{array}{*{20}c}。& {x_{1} x_{5}} & {\begin{array}{*{20}c}。&。\\ end{array}} \\。& {x_{2} x_{5}} & {\begin{array}{*{20}c}。 & . \\ \end{array} } \\ . & . & {\begin{array}{*{20}c} . & . \\ \end{array} } \\ \end{array} } \\ {\begin{array}{*{20}c} . & . & . \\ {x_{5} x_{1} } & {x_{5} x_{1} } & . \\ {\begin{array}{*{20}c} {x_{6} x_{1} } \\ . \\ {x_{p} x_{1} } \\ \end{array} } & {\begin{array}{*{20}c} {x_{6} x_{1} } \\ . \\ . \\ \end{array} } & {\begin{array}{*{20}c} . \\ . \\ . \\ \end{array} } \\ \end{array} } & {\begin{array}{*{20}c} . & . & {\begin{array}{*{20}c} . & . \\ \end{array} } \\ . & {x_{5} x_{5} } & {\begin{array}{*{20}c} . & . \\ \end{array} } \\ {\begin{array}{*{20}c} . \\ . \\ . \\ \end{array} } & {\begin{array}{*{20}c} {x_{6} x_{5} } \\ . \\ . \\ \end{array} } & {\begin{array}{*{20}c} . & . \\ . & . \\ . & . \\ \end{array} } \\ \end{array} } \\ \end{array} } \right] = \left[ {\begin{array}{*{20}c} 1 & {\left[ { - 0.5,{ }0.5} \right]} & . & . & {\left[ { - 0.5,{ }0.5} \right]} & 0 & . \\ {\left[ { - 0.5,{ }0.5} \right]} & 1 & . & . & {\left[ { - 0.5,{ }0.5} \right]} & 0 & . \\ {\left[ { - 0.5,{ }0.5} \right]} & {\left[ { - 0.5,{ }0.5} \right]} & 1 & . & {\left[ { - 0.5,{ }0.5} \right]} & 0 & . \\ {\left[ { - 0.5,{ }0.5} \right]} & {\left[ { - 0.5,{ }0.5} \right]} & . & 1 & {\left[ { - 0.5,{ }0.5} \right]} & 0 & . \\ {\left[ { - 0.5,{ }0.5} \right]} & {\left[ { - 0.5,{ }0.5} \right]} & . & . & 1 & 0 & . \\ 0 & 0 & 0 & 0 & 0 & 1 & . \\ . & . & . & . & . & . & 1 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ \end{array} } \right]$$

多元正常分布在模拟数据集中的20,25,30和100预测器(P)中生成数据,D.创建了两种情况以测试不同方法的性能。在第一个方案中,培训数据集包含一些完整的行(SCR)。训练数据包括3150个样本,每个预测器具有80%的值MCAR和所有预测器的完整数据的50个样本。测试数据由所有预测器中的1000个完整数据样本组成。在第二个设置中,训练数据集没有完整的行(NCR)。培训数据包括3150个样本,每个预测器具有80%的值MCAR。测试数据由所有预测器中的1000个完整数据样本组成。

DMU方法用于构建模型,估计其性能。先前的分布定义如下:

数组$ $ \开始{}{* c{20}}{\ε\ sim N \离开({0 \σ^{2}}\右)}\ \ \{数组}$ $
(2)
数组$ $ \开始{}{* c{20}}{\σ^ {- 2}\ sim伽马\离开({\压裂{5},{2}\压裂{50}{2}}\右)}\ \ \{数组}$ $
(3)
$$ \ begin {array} {* {20} c} {\ beta \ sim n \ left({0,100} \右)|\ beta \ varepsilon \ left \ {{\ beta__ {1},\ ldots,\ beta__ {p}} \ right \}} \\ \ end {array} $$
(4)

马尔可夫链蒙特卡罗(MCMC)用于在模型中产生参数的后部分布MCMC.r [16.]。执行总6000个迭代,第一个1000用作燃烧迭代。约束用于分段数据集DD.一世使用样本量到预测器设定比大于或等于两个用于模型建筑。因为最佳K.尚不清楚,因此遗传算法用于选择K.。利用模拟数据比较了DMU方法与简单线性回归(SLR)、基于k近邻的imputation (kNN)、简单线性回归结合imputation (SLRM)和基于随机森林的imputation (RF)的性能。在SLRM的情况下,提供了基于预测均值匹配(PMM)的imputation方法老鼠包r [8.]用于计算数据集中缺失的数据。VIM包裹missForestR的包分别用于kNN imputation和RF imputation [14.17.]。利用检验数据中估计结果与实际结果之间的均方误差(MSE)来评价不同方法的性能。报告的性能与平均imputation MSE性能归一化。R中的GA包[18.]用于遗传算法。

使用上述设置创建模拟数据集(S = 30),测量每个方法的整体性能。桌子1和额外的文件1:表S1显示了五种方法的性能结果。该研究表明,与SLR和SLRM的MSE相比,DMU具有较低或比较的MSE。在SCR设置中,SLRM提供了最糟糕的性能,KNN给出了最佳性能,而DMU性能则比SLR和RF方法类似或更好。在NCR设置中,RF给出了最佳性能,但DMU性能更好或与SLRM相似。总的来说,这些结果表明,与基于SLR和SLRM的模型,DMU可以在基于SLR和SLRM的基础上的数据集比随机缺失的数据集比,频道的模型更好或在PAR模型中开发出更好的模型。结果在更高的特征空间中验证(P.= 100),其中SCR的DMU MSE为0.16 (1.27 MSE(DMU)/MSE(mean imputation)),而SCR的SLRM MSE为0.23。KNN和RF imputation效果较好,MSE为0.13。在NCR情况下,DMU MSE性能为0.13,与RF imputation MSE性能为0.13相当,优于SLRM MSE性能为0.47。

表1调整平均估算性能后模拟数据集不同方法的MSE性能

桌子2为具有处理器Intel®Core(TM)I7-8750H CPU@2.20GHz的系统上的不同方法提供了用于Windows 10 64位操作系统的16 GB RAM的系统的计算时间。我们使用SCR方案和三个不同的特征空间(P.),即20,25和30,估计时间。结果发现,具有优化的超参数和SLRM的DMU采用类似的计算时间,该计算时间少于随机林和基于KNN的估算,但超过SLR。

表2 SCR场景中不同方法的计算时间比较

真实的数据研究

此外,本研究利用两个真实数据集,将所提出的回归方法与SLR和SLRM进行比较。数据集I是社区健康状况指标数据集,其中包含美国县级关于各种人口统计数据和健康参数的数据,以帮助在对抗肥胖、心脏病和癌症方面做出明智的决定[19.]。该数据集包含美国3141个县的578个特征数据。数据集II是2006-2008年全国妇女健康研究数据集,包含美国中年妇女的多站点数据身体,生物,心理和社会参数(20.]。DataSet包含887个功能的数据,适用于2245个受访者。

对这些数据集进行处理和清理,以删除文本或分类变量。其中一个入围变量被用作结果变量,其余变量被用作预测变量。使用这两个数据集可以创建不同的场景,如表中所示3.。每个场景中的预测器之间允许的最大相关性为±0.52。不同的预测因子具有不同的缺失值百分比;因此,为每个场景定义缺失值的最大百分比。例如,在场景1中,为模型建筑选择高达10%的预测器。可以在实际设置中具有数据集,其中没有单行具有所有预测器的数据。因此,该研究试图通过在两个不同的设置中测试方法的性能来重建设置。在第一个设置中,将一些完整的行(SCR)添加到训练数据集中。在第二个设置中,在训练数据集中不添加完整的行(NCR)。在两个设置中,测试数据集仅由竞争行组成。 Since SLR could be performed only on rows with complete data, so this method is not applied to scenarios with no complete rows in the training dataset. All three methods are compared based on their prediction performance in the test datasets.

表3真实数据集总结

桌子4.和额外的文件2:表S2在两个真实数据集中提供不同方法的性能。结果类似于模拟数据集中获得的结果。与其他方法相比,该提议的DMU方法提供了更好或参照MSE性能。性能跨越不同比例的缺失数据,但培训数据中的样本大小的增加提高了所有方法的性能。NCR似乎增加了这些方法的备发体制。

表4在实时数据集上的不同方法的性能

真实数据研究:基因组数据

该研究还使用现实世界基因组数据集比较了使用SLR,SLRM,KNN和RF的提出的回归方法。癌症(GDSC)DataSet中药物敏感性的基因组学使用含有拷贝数变化(CNV)的24,503个基因和癌症药物的抑制浓度(IC 50)进行946个细胞系样品[21.]。我们选择Devimistat(CPI-613)药物IC50作为临床结果和CNV作为输入特征空间。已知药物通过抑制三羧酸循环来降低胰腺癌的侵袭性,目前处于III期临床试验[22.]。

处理数据集并清理,以删除具有重复值,高相关性和缺失值的输入功能。缩小的数据集包含具有911个样本的42个输入功能。DataSet随机分为80%的培训数据和20%的测试数据。从训练数据随机删除每个输入功能的大约30%的输入特征值。比较了不同方法的性能,而是对SCR和NCR情景进行了比较了五种试验。在SCR的情况下,将50个样本随机添加到训练数据中。发现DMU表现出所有其他方法(表5.)。

表5在真实基因组数据集上不同方法的性能

讨论

在模型构建过程中处理缺失数据是本研究使用新视角解决的一个挑战。DMU允许从包含部分信息的样本构建模型,而不是删除包含部分信息的样本或输入信息。DMU应用于线性回归时,其性能优于完全案例分析和基于预测均值匹配的imputation。

该方法有一定的局限性。首先,DMU测试的全面性是有限的。该模型没有在不同的数据集上进行测试,比如包含分类结果、事件结果时间、分类预测器的数据集。同样,它没有考虑高相关变量、交互项和不同的连续分布,如指数和对数。因此,我们的方法可以考虑用于具有连续边缘特征的数据集,以及特征之间相关性较低的结果。未来的研究将会确定DMU在不同数据设置下的稳健性。

该研究的另一个限制是计算强度,特别是在亚组的数量未预定定义的情况下。在这种情况下,需要通过创建多个模型来花费计算资源来识别k的最佳值。该研究使用遗传算法来解决问题。可以探索各种其他优化算法,如群体优化和模拟退火在解决问题时。

结论

提出了一种创新的方法,用于构建具有缺失数据的统计模型。DMU方法将具有缺失值的数据集分为完整数据的较小子集,然后从每个较小的子集中准备和更新贝叶斯模型。该方法提供了使用可用数据的缺失数据的建筑模型的不同视角,与丢失数据的文献中的现有视角相比,或者丢失缺失数据。与现有方法相比,该方法更灵活,因为它可以使用新数据更新旧模型而无需保留旧数据。其次,DMU不依赖于预测器之间的关联来抵御数据。因此,即使新数据集包含不完整的预测器列表,MU也可以更新模型。

方法

在本节中,首先描述了基于CCA和预测性平均匹配(PMM)的归纳,然后具有动态模型更新(DMU)方法。

完整案例分析(CCA)

完整案例分析是一种用于处理缺失数据的常用方法。此方法省略具有缺失数据的所有样本。CCA从剩余的样本中建立统计模型,完整的数据(或完整的案例)。当省略许多样本时,方法表现会受到影响[23.,或者数据不是完全随机丢失的[1]。

预测平均匹配(PMM)的归属

预测平均匹配是一种常见的方法,用于在MCAR案例中抵御缺失数据。它是一种强大的方法,它将观察到的值分配给丢失的情况。在这种方法中,具有缺失值的预测器(x错过)在预定值/ s上回归(xobs.):

$$ \ begin {array} {* {20} c} {x_ {miss} = \ beta_ {0} + \ beta_ {1} x_ {obs} + ldots} \\ \ end {array} $$
(5)

式中β = βO.,β.1,...是回归系数的估计,并用于获得估计x的值错过。一旦X的估计值错过获得,这些值被替换为x的最近观察值错过在数据集中。通过随机采样其中一个来创建多个避障数据集K.对于x的估计值,最接近的值,而不是最接近的值错过在数据集中。K.通常在1-10的范围内。这种方法是实施的老鼠r中的包,其中默认值K.是5 (8.]。这种方法的一个局限性是它始终从观察到的值避阻数据。因此,在缺失值处于分布尾部的情况下,PMM可能具有偏置额度[24.]。

动态模型更新(DMU)方法

PMM基于估算是一种流行且强大的方法,用于处理MCAR和MAR类型的缺失数据,但它具有一定的限制。DMU方法(算法1)提出了处理缺失数据的不同视角。虽然任何归纳方法都侧重于用预测值替换缺失的值来完成信息,但DMU方法侧重于在不完整信息而不是估算信息上构建模型。基本框架是将数据集分成较小的数据集,其中包含较少数量的预测器但是完整的信息,并且顺序地构建每个数据集的模型,然后在每个模型之后更新预测器的估计,如图4所示。1。它在下面的更多细节中解释。

图。1
图1

模型更新概念的图形表示

算法:动态模型更新
一世 切片原始数据集D.P.用于创建集的特性D.K.数据集,这样:
\(d_ {k}没有缺失值,\)
\ (d_ {k} \ D,子集\)
\ (\ bigcap{\离开({d_ {l}, d_ {m}} \右)}= \ emptyset | d_ {l}, d_ {m}在d \ \;和\;l \ ne m \)
II 对每个数据集依次执行贝叶斯回归K.要得到后验估计,{{\ \(\帽子β}_ {j} {|} j = \左\ {{1 \ ldots p} \右\}\)。后估计\(\ hat {\ beta} _ {j} \)K-1TH DataSet以后用作Kth DataSet的先前估计

数据集碎片

一个数据集,dP.预测和空间N包含完整结果数据和不完整预测器数据的样本总数分割为K.较小的数据集。

$$ \ begin {array} {* {20} c} {d = \ left |{\ begin {array} {* {20} c} {\ begin {array} {* {20} c} {a_ {11}}&m \\ \ ldots&\ ldots \\ {a_ {i1}}&\ ldots \\ \ end {array}}&{\ begin {array} {* {20} c}&\ ldots&{a__ {1p}} \\ \ ldots&\ ldots&\ ldots&\ ldots\\ {a_ {ij}}&\ ldots&m \\ \ ex {array}} \\ {\ begin {array} {* {20} c} m&\ ldots \\ \ ldots&\ ldots \\ {一种_{n1} } & \ldots \\ \end{array} } & {\begin{array}{*{20}c} \ldots & M & \ldots \\ \ldots & \ldots & \ldots \\ M & \ldots & {a_{np} } \\ \end{array} } \\ \end{array} } \right| } \\ \end{array}$$
(6)

哪里A.IJ.(S.T.Iє[1,n]和jє[1,p])表示数据集D中的元素。M表示具有缺失值的元素。每一个K.d的d datasets的d没有缺失值,但可能具有降低的预测器空间和样本大小。

$$ \ begin {array} {* {20} c} {d = \ bigcup \ limits_ {i = 1} ^ {k} {d_ {l}} \\ \ end {array} $$
(7)
$$ \ begin {array} {* {20} c} {\ bigcap {\ left({d_ {l},d_ {m}}右)} = \ imptyset |d_ {l},d_ {m} \ in d \;和\;l \ ne m} \\ \ end {array} $$
(8)
$$ \ begin {array} {* {20} c} {d_ {l} = \ left |{\ begin {array} {* {20} c} {a_ {11}}&\ ldots&{a_ {a_ {1c}} \\ \ ldots&{a_ {a_ {a_22}}&\ ldots \\ {a_ {r1}}&\ ldots&{a_ {rc}} \\ \ ent {array}} \|c \ in \ left [{1,q} \ rectle],r \ left [{1,s} \ lectle],q \ left [{1,p} \ lectle],s \ left[{1,n} \右]} \\ \ end {array} $$
(9)

在哪里K.是数据集D分割的子集数量D.是否包含k较小的数据集。这D.创建设置,使其其两个元素中的任何一个都是相互排斥的。任何数据集,dL.将最大限度P.预测者和N样品。一种rc.数据集d中是否有元素L.

分层群集

不同的方法可以将数据集D分段为较小的数据集。文献提供了不同的聚类方法,可以广泛分为四种类型,即基于质心,基于密度,基于分布的或基于模型的和基于模型的[25.]。基于质心的聚类侧重于将样品分区为具有最接近均值或中位数的集群[26.]。他们提供局部最优,而不是全局最优[27.]。k-mean clustering是基于质心的聚类的示例[27.]。基于密度的聚类侧重于将样品划分为具有比样本的其余部分更高的密度的簇中[28.]。因此,可能不会分配许多样本。DBSCAN是基于密度的聚类的示例[28.]。

基于分布的聚类侧重于将样本分区为具有相似统计分布的集群[29.]。他们遭受了融合到当地的最佳和过度装备[30.]。高斯混合模型是基于分布的聚类的一个例子[29.]。基于连接的群集或分层群集基于样本与其他样本的距离分区样本。与不同的样品相比,相似的样品在它们之间具有较低的距离。它不提供一组群集,而不是基于用于分区数据的阈值距离值的群集层次结构[31.]。这是一种计算密集的方法[32.]。目前的研究使用分层群集到分区数据集D.分层聚类没有局部最佳问题,避免抑制稀疏样本,并且不需要先前了解样本的统计分布模型的知识。

亚组建设

数据集D的预测空间被分成K.使用分层聚类技术的子组(图。2)。聚类技术需要基于缺失模式中的相似性(或不相似性)对样品进行分类。DataSet D包含缺失值和非缺少值的混合。非缺失值的大小可以影响聚类计算,因为分层聚类技术依赖于样本之间的距离。通过将数据集D的预测空间转换为二进制数据来消除非缺失值的幅度效应,其中值零被分配给缺少值,并且将一个被分配给非缺少值的值:

$$ \ begin {array} {* {20} c} {d_ {ij} = \ left |{\ begin {array} {* {20} c} {\ begin {array} {* {20} c} {a_ {11}}&m \\ \ ldots&\ ldots \\ {a_ {i1}}&\ ldots \\ \ end {array}}&{\ begin {array} {* {20} c}&\ ldots&{a__ {1p}} \\ \ ldots&\ ldots&\ ldots&\ ldots\\ {a_ {ij}}&\ ldots&m \\ \ ex {array}} \\ {\ begin {array} {* {20} c} m&\ ldots \\ \ ldots&\ ldots \\ {一种_{n1} } & \ldots \\ \end{array} } & {\begin{array}{*{20}c} \ldots & M & \ldots \\ \ldots & \ldots & \ldots \\ M & \ldots & {a_{np} } \\ \end{array} } \\ \end{array} } \right|| i \in \left[ {1,n} \right], j \in \left[ {1,p} \right]} \\ \end{array}$$
(10)
数组$ $ \开始{}{* c{20}}{垃圾箱。D._{ij} = \left| {\begin{array}{*{20}c} {\begin{array}{*{20}c} 1 & 0 \\ \ldots & \ldots \\ 1 & \ldots \\ \end{array} } & {\begin{array}{*{20}c} 1 & \ldots & 1 \\ \ldots & \ldots & \ldots \\ 1 & \ldots & 0 \\ \end{array} } \\ {\begin{array}{*{20}c} 0 & \ldots \\ \ldots & \ldots \\ 1 & \ldots \\ \end{array} } & {\begin{array}{*{20}c} \ldots & 0 & \ldots \\ \ldots & \ldots & \ldots \\ 0 & \ldots & 1 \\ \end{array} } \\ \end{array} } \right| } \\ \end{array}$$
(11)

其中dIJ.表示具有n个样本和p预测器的原始数据集,m表示缺失的值和bin.dIJ.代表D的二进制变换IJ.矩阵。Bin的分层集群。D.IJ.执行。这N行被用作要与之聚集的样本P.- 实证数据。

图2
图2.

子组建设的图形表示。mMI.

从分层群集中选择的群集数表示子组的总数,K.数据集D被分割。K.是确定模型构建中使用的子组数量的封路数据库,并且是用户定义的。

建筑模型

模型建立步骤依赖于贝叶斯范式和预测因子相互独立的假设。贝叶斯范式专注于寻找预测器参数估计的分布[33.]。贝叶斯模型对参数估计的分布具有先验信念。该先验信念被更新,以给出预测器参数估计的后验分布和使用数据的似然估计。前一个模型的预测器的参数估计的后验分布可以作为下一个模型的先验信念。如果连续模型包含相同的预测因子,则更新先验分布;否则就不会了。贝叶斯回归用于为每个数据集创建一个模型,D.L.。动态地,一个模型的后验概率用作下一个模型的现有概率。仅对第一模型仅需要预先指定每个预测器的现有概率。

HyperParameter选择

普遍的参数K.,即,模型中的子组的总数是用户定义的。但是,可能并不总是有可能知道最佳K.。在这样的场景中,可以为所有可能的值运行DMU方法K.,即1到N,将产生N不同的模型。选择性能最优的模型作为最终模型。研究人员可以定义用于选择模型的性能指标,因此,K.。在目前的研究中,用于评价不同模型的性能度量是模型在测试数据集或未知数据集上的均方根误差。

在大型数据集中,超级计数器选择可以变为计算密集。因此,希望结合优化算法以提高速度并降低计算强度。文献中存在各种类型的优化算法[34.35.]。目前的研究选择了遗传算法(GA),其是一种不执行差异的成群质算法。该算法受到生物体中发生的自然演化过程的启发。总之,GA从初始化开始人口(或样本)来自搜索空间并确定其健康(或,性能)。根据其选择一些样品健康价值作为亲本种群,影响这一点后代人口(或新样本)。算法依赖于交叉(重新组合所选择的对的参数值父母人口)用于收敛和突变(所选对的参数值中的随机更改父人口)对于发散后代人口。这个过程经历迭代,直到达到理想的或最好的性能。它的局限性之一是可能会陷入局部最优,但它可以为多种问题提供一个很好的解决方案[36.]。在目前的研究中,GA人口是值的价值K.健康函数是由贝叶斯回归测试数据集获得的根均线错误。

可用性数据和材料

所有数据集和代码都在GitHub链接中:https://github.com/rahijaingithub/dmu.

缩写

CCA:

完整的案例分析

DMU:

动态模型更新

遗传算法:

遗传算法

K-NN:

k - 最近邻居

MCAR:

随机缺失

MCMC:

马尔可夫链蒙特卡洛

MSE:

均方误差

NCR:

没有完整的行

PMM:

预测的意思是匹配的

SCR:

一些完整的行

单反:

简单线性回归

SLRM:

简单的线性回归结合imputation

参考文献

  1. 1。

    白色IR,Carlin JB。与缺少协变量值的完全案例分析相比,多重估算的偏差和效率。统计医学。2010; 29:2920-31。

    文章谷歌学术搜索

  2. 2。

    Glas Caw。缺失的数据。在:Peterson P,Baker E,McGaw B,编辑。国际教育百科全书。3 ed。阿姆斯特丹:elestvier;2010. p。283-8。

    谷歌学术搜索

  3. 3。

    Kalton G,Kish L.两个有效的随机估算程序。在:调查研究方法部分的诉讼程序。1981. p。146-51。

  4. 4.

    Grzymala-Busse J,Goodwin L,Grzymala-Busse W,Zheng X.处理早产出生数据集中缺少的属性值。在:第10次粗糙集和模糊集和数据挖掘和粒度计算(RSFDGRC)的诉讼程序。2005. p。342-51。

  5. 5.

    小rja,rubin db。缺少价值观的社会科学数据分析。Sociol方法Res。1989年; 18:292-326。

    文章谷歌学术搜索

  6. 6.

    Maxwell Bae。多元线性回归模型使用的限制。br j数学统计心理。1975; 28:51-62。

    文章谷歌学术搜索

  7. 7.

    鲁宾DB。调查中无回应的多重归咎。纽约:威利;1987.

    谷歌学术搜索

  8. 8.

    关键词:多元回归模型,多元回归方程,多元回归模型

    文章谷歌学术搜索

  9. 9。

    Tilling K, Williamson EJ, Spratt M, Sterne JAC, Carpenter JR. .需要适当的包含交互,以避免多重归责中的偏差。临床流行病学杂志。2016;80:107-15。

    文章谷歌学术搜索

  10. 10。

    Troyanskaya O,Cantor M,Sherlock G,Brown P,Hastie T,Tibshirani R等。DNA微阵列的缺失值估计方法。生物信息学。2001; 17:520-5。

    中科院文章谷歌学术搜索

  11. 11.

    Li D,DeoGun J,Spaulding W,Shuart B.缺少数据估算:模糊K型聚类方法研究。在:第四届粗糙集团国际会议和计算中的电流趋势(RSCTC)的讨论。2004. p。573-9。

  12. 12.

    SIM J,LEE JS,kwon O.缺失值和最佳选择的归纳方法和分类算法,提高普遍存在的计算应用的准确性。数学probl eng。2015; 2015:1-14。

    文章谷歌学术搜索

  13. 13。

    [13]张国栋,张国栋。基于模糊预测的数据重构方法研究。计算机工程与应用,2013,34(5):1 - 7。J Mach Learn Res. 2018; 18:1-39。

    谷歌学术搜索

  14. 14.

    Stekhoven DJ,BühlmannP.Sistlest-Non-Parametric缺少价值估算混合型数据。生物信息学。2012; 28:112-8。

    中科院文章谷歌学术搜索

  15. 15.

    大数据在高通量测序领域面临的挑战和机遇。系统生物医学。2013;1:29-34。

    文章谷歌学术搜索

  16. 16.

    马丁广告,奎因公里,公园jh。McMcPack:Markov Chain Monte Carlo在R. J Stat软件。2011; 42:1-21。

    文章谷歌学术搜索

  17. 17.

    Kowarik A,Templ M.用R包Vim的归纳。j stat softw。2016; 74:1-16。

    文章谷歌学术搜索

  18. 18.

    一种基于遗传算法的算法集。

    文章谷歌学术搜索

  19. 19.

    疾病预防与控制中心。社区健康状况指标(CHSI)打击肥胖,心脏病和癌症。healthdata.gov。https://healthdata.gov/dataset/community-health-status-indicators-chsi-combat-obesity-heart-disease-and-cancer

  20. 20。

    Sutton-Tyrrell K,Selzer F,Sowers M,Finkelstein J,Powell L,Gold E等人。妇女在全国妇女健康(SWAN),2006-2008:访问10个数据集。大学间政治和社会研究的联盟。https://doi.org/10.3886/ICPSR32961.v2

  21. 21。

    威康桑格研究所。癌症药物敏感性基因组学。Cancerrxgene.org。2013.https://www.cancerrxgene.org/downloads/bulk_download

  22. 22。

    王永强,王永强,王永强,等。一项III期开放标签试验评估了pi -613加改良FOLFIRINOX (mFFX)与FOLFIRINOX (FFX)在胰腺转移腺癌患者中的疗效和安全性。将来时肿瘤防治杂志。2019;15:3189 - 96。

    中科院文章谷歌学术搜索

  23. 23。

    Altman DG, Bland JM。缺失的数据。Br Med J. 2007;334:424。

    文章谷歌学术搜索

  24. 24。

    Morris TP,White IR,Royston P.通过预测平均匹配和局部残留绘制调整多重归责。BMC MED RES方法。2014; 14:1-13。

    中科院文章谷歌学术搜索

  25. 25。

    Jain AK, Topchy A, Law MHC, Buhmann JM。聚类算法的景观。见:第17届模式识别国际会议论文集,2004。IEEE;2004. p。26.0–3.

  26. 26.

    Uppada Sk。基于质心的聚类算法 - 一个克朗的研究。int j计算sci inf技术。2014; 5:7309-13。

    谷歌学术搜索

  27. 27.

    Steinley D. K-Means聚类:半个世纪的合成。br j数学统计心理。2006; 59:1-34。

    文章谷歌学术搜索

  28. 28.

    Kriegel HP,KrögerP,桑德尔J,Zimek A.基于密度的聚类。Wiley Interdicip Rev Data Min Inginl Discov。2011; 1:231-40。

    文章谷歌学术搜索

  29. 29.

    钟S,Ghosh J。一个统一的基于模型的聚类框架。J Mach Learn Res。2003; 4:1001-37。

    谷歌学术搜索

  30. 30。

    安德鲁斯JL。解决基于高斯模型的聚类的过度装备和垫底。计算统计数据肛门。2018; 127:160-71。

    文章谷歌学术搜索

  31. 31。

    Theodoridis S,Koutroumbas K.模式识别。第四届。学术出版社;2009年。

    谷歌学术搜索

  32. 32。

    Du Z,Lin F.一种用于分层聚类的新颖的并行化方法。并行计算。2005; 31:523-7。

    文章谷歌学术搜索

  33. 33。

    Bolstad wm。贝叶斯统计介绍。1 ed。Wiley;2011年。

    谷歌学术搜索

  34. 34。

    arora rk。优化:算法和应用。CRC压力;2015年。

    谷歌学术搜索

  35. 35。

    杨X.工程中的优化与成群质算法。在:杨奇,Gandomi啊,Talatahari S,Alavi Ah,编辑。水,岩土工程和运输工程中的Metaheuritics。elewsvier;2013. p。1-23。

    谷歌学术搜索

  36. 36。

    遗传算法教程。统计1994年第一版。;4:65 - 85。

    文章谷歌学术搜索

下载参考

确认

不适用。

资金

W.X.由加拿大自然科学和工程研究委员会资助(NSERC拨款RGPIN-2017-06672)作为主要调查员,R.J.和w.x.被前列腺癌加拿大资助(翻译加速度授予2018年)作为实习生和调查员。资金来源没有参与研究设计,在收集,分析和解释数据中;在写作报告中;在决定提交本文的出版物。

作者信息

隶属关系

作者

贡献

所有作者都读过并批准了稿件。概念化:RJ,WX。正式分析:RJ。调查:RJ。方法论:RJ,WX。软件:RJ。监督:RJ,WX。验证:RJ,WX。写作原始草案:RJ。写作审查和编辑:RJ,WX。

通讯作者

对应到魏徐

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

作者们宣称他们没有相互竞争的利益。

附加信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充信息

附加文件1。

表S1:模拟数据集中不同回归方法的MSE性能。

附加文件2。

表S2:实际数据集中不同回归方法的MSE性能。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

缺失数据统计学习模型建筑的Jain,R.,XU,W.动态模型更新(DMU)方法。欧宝娱乐合法吗22,221(2021)。https://doi.org/10.1186/s12859-021-04138-z.

下载引用

关键词

  • 缺失的数据
  • 贝叶斯回归
  • 分层群集
  • 模型更新
  • 动态模型更新
\