跳过主要内容

Bcrocsurface:用于校正验证偏差的R包,以估计ROC表面及其持续诊断测试的体积

抽象的

背景

受试者工作特征(ROC)表面分析通常用于评估医疗诊断测试的准确性,当有三种有序的疾病状态(如无病、中度、病)。在实践中,由于忽略了真实的疾病状态,验证偏差可能会发生,并可能导致对诊断准确性的扭曲结论。在这种情况下,需要偏差校正推理工具。

结果

本文介绍了一个R包,名为bcROCsurface,提供验证偏校正ROC曲面分析的效用函数。在ROC表面分析的估计中,验证偏差的校正也得到了发展。

结论

bcROCsurface在存在验证偏倚的情况下,可能成为对三类诊断标志物进行统计评价的重要工具。在CRAN上可以获得R包、自述和示例数据。web界面可以让不太熟悉R的用户评估诊断测试的准确性,可以在http://khanhtoduc.shinyapps.io/bcrocsurface_shiny/

背景

诊断测试的使用在医学上变得越来越流行,这种流行满足了评估其准确性的需要。为了达到这个目的,一种常用的方法是接受者工作特征(ROC)分析。对于三级疾病状态(如非患病、中度和患病),经常使用ROC曲面和ROC曲面下体积(VUS)。ROC曲面图位于单位立方体内,VUS在0 ~ 1之间变化。更准确地说,一个无用测试的ROC曲面是三个顶点(1,0,0),(0,1,0)和(0,0,1)的三角形平面,而一个完美测试对应的ROC曲面是单位立方体的曲面。因此,当测试无效时VUS值为1/6,如果诊断测试是完美的,则VUS值为1。

有多种方法[1[当研究中的所有受试者经历金标准(GS)测试时,用于估计ROC表面及其VUS,通常称为对受试者的全部验证的条件。在R中,在完全验证下ROC表面分析存在一些包。例如,DiagTest3Grp2给出了一些估算VUS的工具,Rocs.3.处理高吞吐量的类倾斜数据和嗡嗡声4]提供用于可视化ROC表面的工具。

但是,由于GS检查的费用昂贵和/或侵入性,通常只选择一部分受试者进行疾病验证。如果只有验证的被试被用来估计ROC表和VUS,那么推理工具是有偏差的,这一效应被称为验证偏差。没有软件包可用于校正ROC表面和VUS的验证偏差估计量。R包bcROCsurface旨在填补这一空白。它为偏校正的ROC曲面分析提供了几个新的功能。更准确地说,它实现了To Duc等人的方法[56],世卫组织提出了用于ROC表面的五个偏置校正估计,以及连续诊断测试的VUS,即全归装(FI),平均分数归档(MSI),反概率加权(IPW),半射频高效(SPE)和最近的k-Neighbor(knn)估计。这些方法表现为缺失机制是MAR(随机缺失)。

执行

bcROCsurface导入各种R包(例如,rgl, nnet, boot),并构建在Rcpp之上[7].这个包可以从CRAN免费下载,CRAN是一个R包的全局存储库http://cran.r-project.org,并为VUS上的偏差校正推理提供了若干函数,用于构造和绘制3D-ROC曲面以及给定切点上真类分数的椭球置信区域。

需要详细阐述的数据应包括:代表疾病状态的变量(分为三类的分类变量)、代表诊断检验的变量(连续变量)和代表验证状态的变量(二元变量,1和0分别表示验证对象和未验证对象)。一些其他辅助协变量(数值变量)也可能存在。该包的实际使用包括三个步骤:数据准备、建模和推断。

数据准备

在这一步骤中,在研究中的三种疾病课程单调序排序的条件[8检查了]。该条件是必须进行后续分析的强制性。用文字,条件假定来自第3类的受试者比第2类的受试者具有更高的测试结果,并且后者的测试结果比类中的主题更高。功能preDATA ()执行此类检查,警告用户不满足单调排序。当满意时,该功能将疾病状态(1,2,3)胁迫对应于增加疾病状态。它还生成具有三列的二进制矩阵,对应于疾病状态的三类编码,用作主要功能的输入。

建模

校正验证偏差需要对一种疾病的估计和一个验证模型。这个函数psglm ()获得确定验证过程一般线性模型的验证概率。在实践中,用户可以选择逻辑回归模型、概率回归模型或阈值回归模型(默认是逻辑回归模型)。功能rhoMLogit ()Rhoknn()基于多项逻辑回归估计疾病的概率。特别是,rhoMLogit ()打电话给nnet包多项logistic建模,然而Rhoknn()使用K最近邻回归。

推理

提供了两个主要功能:Rocs()用于构造和绘制ROC曲面,以及vus()用于估计VUS值以及获得置信区间。估计方法可以通过参数灵活地选择方法,在6个选项中,即完整的如果完整数据可用;fi对于FI估计,MSI对于MSI估计量,ipw对于IPW估计值,SPE.SPE估计量和knn.对于存在部分验证的KNN估计器(见[56]以了解估计量的定义)。绘制ROC曲面和椭球置信区域,函数Rocs()采用绘图功能rgl包中。vus()采用一些核心功能,用C ++语言编写并集成在R中RcppRcppArmadillo包。VUS值的置信区间是基于渐近分布或bootstrap重采样过程(由并行计算支持)建立的。此外,该函数还进行了统计检验,H0: VUS = 1/6 vs . H1: vus > 1/6。检验统计量为

$ $ t = \压裂{\ widehat{\文本执行{的vu}} - 1/6}{\√6 {{\ widehat {Var}}{\文本(\ widehat{\文本执行{的vu}})}}} \打翻{。} {\ sim} \ mathcal {N} (0, 1), $ $

在哪里\ (\ widehat文本执行{的vu}} {\ \)是vus和vus的估算者\(\ widehat {\ text {var}}(\ widehat {\ text {vus}})\)的方差的估计\ (\ widehat文本执行{的vu}} {\ \)

除了上面描述的功能外,包还提供了估计方差和选择的其他功能K来计算KNN估计值。

一个闪亮的web应用程序也被开发出来,提供了部署的可能性bcROCsurface包在网上。bcROCsurface web界面的布局是干净和直接的(图。1).它提供了加载用于分析的数据集和访问的所有函数的可能性bcROCsurface包中。在这里,用户加载一个数据文件(通常是.csv、.txt或.dat文件),为“分隔符”和“引用”选择合适的选项来正确读取数据,然后选择输入变量,即诊断测试、疾病状态。如果真正的疾病状态没有丢失,则用户按照步骤1和步骤2获取结果。否则,用户点击方框,选择验证状态,然后按照步骤1、2、3进行偏校正ROC曲面分析。

图。1
图1

bcROCsurface的GUI截图,内置在闪亮的web应用程序中。诊断试验结果的箱形图对应三个有序的疾病状态

结果与讨论

在下面的例子中,该包被用来评估卵巢癌相关肿瘤标志物CA125(癌抗原125)的准确性。CA125是一种高糖基化的唾液酸蛋白,表达于上皮细胞表面,尤其是在卵巢癌细胞上。在包中可用的数据集在[5].接下来,CA125将是感兴趣的诊断测试,CA153和Age将是两个辅助协变量。我们考虑了三种类型的癌症,即良性(1)、早期(2)和晚期(3)。数据集的前六行如下所示(V表示验证状态,D表示疾病状态)。

如上所述,在第一步中,应用preDATA (),以确保该方案能够被使用。在第二步中,生成估计器FI, MSI, IPW和SPE的函数rhoMLogit ()psglm ()调用来拟合疾病模型和验证模型。最后,vus()用于获得CA125标记点的VUS的偏差校正估计值和统计量t用于测试H0:VUS = 1/6与H.1: vus > 1/6。使用下面的R代码生成结果。

桌子1显示了vus,相关标准误差的四个偏置校正估计,以及在没有Logit转换的情况下构建的近似95%的置信区间。桌子2显示t-stat和p- 用于测试h的值0:VUS = 1/6与H.1: vus > 1/6。表中结果的统计解释1是在[5), 5.1节。由于这是一个人为的例子,即根据MAR假设人为地创造了疾病缺失的例子,上述部分解释了如何评估偏差校正的有用性,以及为什么在这种情况下SPE和IPW可以被认为是良好的估计。

表1用logit变换和不用logit变换建立的VUS的偏差校正估计和相应的95%置信区间
表2测试假设,h0: VUS = 1/6 vs H1: vus > 1/6

这个闪亮的web应用程序也很容易使用。通过使用它,可以很容易地获得上述biomarker CA125的四个偏校正ROC曲面,如图所示。2

图2
figure2

在闪亮应用中的偏校正的ROC曲面。采用全imputation (FI)、Mean score imputation (MSI)、Inverse probability weighting (IPW)和semi parameter efficient (SPE)估计ROC曲面

从计算的角度来看,需求bcROCsurface基本上与vus的差异估计有关(见[5])。建立功能的计算时间asyVarVUS ()vus(),进行了仿真研究。疾病状态作为三项式随机矢量生成(D1D2D3.),这样Dk伯努利随机变量是有均值的吗θkk= 1, 2, 3。设置θ1= 0.4,θ2= 0.35,θ3.= 0.25。一个诊断测试T和一个辅助的协变量一个由以下条件模型生成

$$ T,A | D_ {K} \ SIM \ mathcal {N} _ {2} \左(K \左({2 \顶上1} \右),\左(\ BEGIN {阵列} {CC} 1.75&0.1 \\ 0.1和2.5 \ end {array} \右)\右),\ \ \ quad k = 1,2,3。$$

验证状态V是否使用以下模型进行模拟

$ ${分对数}\ \文本左\{\公关(V = 1 | T) \右\}= 1 - 2.2 T + 4 A $ $

在该模拟中,SPE估计器被采用(是最计算要求的)和样本大小变化从200至2000。计算被重复100次,并在PC上英特尔(R)核心(TM)i7-2720QM CPU执行,2.2 GHz,8.00 GB RAM。功能的平均时间(以秒为单位)vus()asyVarVUS ()如图所示。3.

图3.
图3

计算时间asyVarVUS ()vus()SPE估计器

结论

纸张呈现r封装bcROCsurface,该方法提供了构建ROC曲面的程序,并在疾病状态随机缺失时,为连续诊断试验估计VUS。闪亮的web界面使用起来很简单,因此不太熟悉编程语言R的用户也可以使用。

可用性和需求

bcROCsurface软件包可于CRAN (http://CRAN.R-project.org/package=bcROCsurface),与任何支持R程序的操作系统兼容。license为GPL-2 | GPL-3。Shiny web应用程序对所有用户免费开放http://khanhtoduc.shinyapps.io/bcrocsurface_shiny/

缩写

FI:

全归责

IPW:

逆概率权重

资讯:

K近邻

3月:

随机缺失

MSI:

平均评分归责

鹏:

接受者操作特性

SPE:

半参数效率

VUS:

ROC曲面下体积

参考文献

  1. 1

    纳卡CT。ROC表面分析和三级分类问题诊断标记物评估的发展。REVSTAT-Stat j . 2014;43分- 65。

    谷歌学者

  2. 2

    罗军,程杰。DiagTest3Grp:一种用于诊断试验的R包。J Stat software . 2012;53(3): 24。

    谷歌学者

  3. 3.

    Yu T. Rocs:接收器操作特征表面,用于类偏置的高吞吐量数据。Plos一个。2012;7:7:E40598。

    文章PubMed谷歌学者

  4. 4

    Wang J, Li J, Wang J, Pessler F. HUM calculator and HUM package for R:一种易于使用的多类别接收机工作特性分析软件工具。生物信息学。2014;30:1635 - 1636。

    中科院文章PubMed谷歌学者

  5. 5

    对于DUC K,ChioGna M,Adimari G.校正校正方法,用于估计连续诊断测试的接收器操作特征表面。电子j stat。2016;10:3063-3113。

    文章谷歌学者

  6. 6

    基于验证偏倚的ROC曲面非参数估计。https://arxiv.org/abs/1604.04656.提交。

  7. 7

    EddelBuettel D.与RCPP的无缝R和C ++集成。纽约:斯普林克;2013年。

    谷歌学者

  8. 8

    Nakas CT, Yiannoutsos CY.连续测量的有序多类ROC分析。统计地中海。2004;23:3437-49。

    文章PubMed谷歌学者

下载参考

确认

作者感谢帕多瓦大学统计科学系的Monica Chiogna和Gianfranco Adimari的意见,他们的意见帮助改进和完善了实施。

资金

这项研究没有收到任何资金。

作者信息

从属关系

作者

贡献

KTD编写了bcROCsurface包,进行了分析,并撰写了手稿。

相应的作者

对应到同庆,Duc

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

作者没有竞争利益。

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议(http://creativecommons.org/licenses/by/4.0/)如果您向原始作者和源给出适当的信用,则允许在任何介质中进行不受限制的使用,分发和再现,提供指向Creative Commons许可证的链接,并指示是否进行了更改。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)除非另有说明,否则适用于本文中提供的数据。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

到Duc,K.BCrocsurface:用于校正验证偏差的R包,以估计ROC表面及其用于连续诊断测试的体积。欧宝娱乐合法吗18,503(2017)。https://doi.org/10.1186/s12859-017-1914-3

下载引用

关键字

  • 软件
  • r包
  • 中华民国表面分析
  • 随机缺失