跳转到主页内容
美国国旗

美国政府的官方网站

点政府

gov表示它是官方的。
联邦政府网站通常以。gov或。mil结尾。在分享敏感信息之前,确保你是在联邦政府网站上。

Https

站点安全。
https://确保您连接到官方网站,并且您提供的任何信息都经过加密和安全传输。

访问键 NCBI主页 MyNCBI主页 主要内容 主导航
2016年9月,23(5):879 - 90。
doi: 10.1093 /地点/ ocv195。 Epub 2016年2月15日

通过全血细胞计数分析在初级保健中检测结直肠癌的预测模型的开发和验证:一项两国回顾性研究

从属关系
免费PMC文章

通过全血细胞计数分析在初级保健中检测结直肠癌的预测模型的开发和验证:一项两国回顾性研究

Yaron Kinaret al。 美国医学信息协会 2016年9月
免费PMC文章

摘要

摘要目的:随着电子病历的广泛使用,风险预测模型的使用也在增长。在这里,我们开发并验证了一个模型,通过分析血液计数、年龄和性别来识别结直肠癌(CRC)风险增加的个体,然后确定模型用于补充常规筛查时的价值。

材料和方法:初级保健数据来自606403名以色列人(其中3135名被诊断为CRC)和5061名CRC病例和25613名对照病例的英国病例对照数据集。该模型是在80%的以色列数据集上开发的,并使用剩余的以色列和英国数据集进行了验证。根据曲线下面积、特异性和几个工作点的优势比来评估性能。

结果:使用诊断前3-6个月的血液计数,以色列验证组用于检测CRC的曲线下面积为0.82±0.01。以色列验证集的特异性为88±2%,英国数据集的特异性为94±1%。检测50%的CRC病例,假阳性率为0.5%,比值比分别为26±5和40±6。50%检测的特异性为诊断前一年87±2%,局部癌症为85±2%。当与粪便潜血测试一起使用时,我们的模型使CRC检出率提高了2倍以上。

讨论:2个不相关人群的比较结果表明,该模型一般适用于其他人群的CRC检测。该模型的性能优于目前的缺铁性贫血管理指南,并可能帮助医生确定需要额外临床评估的个体。

结论:我们的模型可能有助于在临床实践中更早地发现CRC。

关键词:结直肠癌;癌症的早期发现;电子病历;机器学习;初级保健;风险预测。

数据

图1:
图1:
(A)模型构建与评价。所示的是我们模型构建过程的不同步骤的说明。对于每个拥有CBC数据的个体,输入的训练数据(顶部)包括他/她的年龄、性别和所有可用的血细胞计数面板参数集。在数据准备阶段(中间),汇总每个人的CBC数据(生成CBC历史),生成特征,包括参数的值以及这些值在过去18个月和36个月的变化。接下来,在模型构建阶段(中下),我们自动生成旨在识别CRC案例的决策树。然后将构建的树组合成一个统一的模型。数据准备和模型构建阶段的参数通过交叉验证进行优化——我们使用90%的数据作为学习集,构建模型,并评估其在剩余10%上的性能。通过将数据划分到不同的学习集和测试集,这个过程重复10次。然后,生成的模型可以使用未见过个体的年龄、性别和CBC数据作为输入,并生成CRC风险分层评分(左下)。然后在外部数据集上验证模型,包括以前未见过的以色列和英国人口(右下)。 (B) Model evaluation criteria. Shown are the 3 different measures used to evaluate model performance: (1) the area under the receiver operating characteristic curve (AUC) is used to measure overall performance, as it is a standard measure of performance in classification problems; (2) to assess the utility of our model for identifying individuals with the highest probability of having CRC, we consider a model threshold score that corresponds to false positive rate of 0.5% (i.e., a model score for which only 0.5% of the individuals没有CRC得分高于该阈值,代表得分最高的人群),并使用比值测量来比较模型得分高于或低于该阈值的个体的CRC患病率;(3)为了检验我们的模型用于识别大部分CRC病例的效用,我们计算了在对应50%敏感性的模型评分阈值处被正确分类为不具有CRC(特异性)的个体的百分比(即50%的个体的模型评分)CRC分数高于它)。
图2:
图2:
模型在未见独立总体上的表现。所示为诊断前1个月(2个右面板)和诊断前3-6个月(2个左面板)的ROC曲线和其他性能测量,用于推导集交叉验证总体(推导,黄色)和以色列数据集(以色列Val.,紫色)和英国数据集(UK Val.,绿色)的外部验证总体。仅基于年龄的预测(蓝色)和随机预测(红色)也被显示出来进行比较。上方2个面板显示完整的ROC曲线和对应于50%敏感性的特异性,而下方2个面板显示来自上方面板的放大视图,重点关注最高风险评分(0.5%假阳性率)的模型行为。
图3:
图3:
参数对模型性能的贡献。所示是CBC参数对我们模型性能的贡献的评估。(特别是0-30天和90-180天时间窗口的AUC测量。)在评估一个参数的重要性时,我们既要考虑它对性能测量的直接贡献,也要考虑它与其他模型参数的冗余(即,它的贡献可以被其他参数替代的程度)。因此,每个参数在冗余(水平轴)和直接贡献(垂直轴)的二维空间中被分配一个点。为此,我们从模型中逐个删除其他参数,按照它们与相关参数的相关性排序。在每一步中,我们确定有和没有相关参数的子模型的性能,并计算差异。参数的冗余是在差异显著之前所需的最小步数(由自举过程估计的2个标准差定义),直接贡献由最大差异定义。我们只显示在某一点上有重大贡献的参数。我们发现红细胞系参数是主要贡献者,血小板相关参数贡献较少,与其他参数冗余,白细胞系参数主要在0-30天时间窗口贡献。
图4:
图4:
我们的模型即使使用CRC诊断前2年的CBCs也能预测CRC。所示为仅使用诊断日期前60天时间窗口采集的cbc时的表现(AUC和特异性对应于50%敏感性)。仅显示年龄(蓝色)和随机(红色)的表现也用于比较。请注意,我们的模型表现明显优于单纯年龄,同样当CBCs仅限于CRC诊断前2年进行的CBCs时。
图5:
图5:
校准图表。该图显示了模型在推导集和2个验证集上的校准。评分范围被分为10个十分位数,涵盖推导集(交叉验证)中相等部分的人口,并对每个集上的每个十分位数评估3-6个月内CRC的概率。推导集上的概率是预期的概率,而验证集上的概率是观测到的概率。根据CRC发生率将概率归一化,以说明以色列集是队列,而英国集是病例对照。我们看到,以色列验证集校准得很好,英国验证集对9个较低的十分位数显示了良好的校准,但在最高十分位数中CRC概率较高。
图6:
图6:
对其他癌症敏感。该图显示了我们的模型在3%假阳性率下对衍生集上不同部位恶性肿瘤的敏感性(交叉验证)。绿色条表示胃肠癌,红色条表示血液肿瘤,灰色条表示其他癌症类型。只显示了足够普遍的遗址。该评分显示对结直肠癌和胃癌(其他胃肠道肿瘤,如食道癌或小肠肿瘤,由于其在以色列人群中的患病率非常低而被忽略),对某些类型的血液癌症,以及在较小程度上对肺癌的敏感性较高。对所有恶性肿瘤的剩余敏感性是由于年龄依赖性。

类似的文章

引用的

参考文献

    1. DesRoches CM, Charles D, Furukawa MF等。电子健康记录的采用迅速增长,但在2012年,只有不到一半的美国医院拥有至少基本的系统。卫生事务,2013年。;32(8): 1478 - 1485。-PubMed
    1. 肖志杰,兴娥。基于办公室的医生实践中电子健康记录系统的使用和特征:美国,2001-2013。NCHS数据简报,2014。;143: 1 - 8。-PubMed
    1. Steyerberg EW, moon KG, van der Windt DA,等。预后研究策略(PROGRESS) 3:预后模型研究。《公共科学图书馆·医学》2013。;10 (2): e1001381。-PMC-PubMed
    1. 费雷J, Soerjomataram I, Dikshit R,等。全球癌症发病率和死亡率:来源、方法和主要模式。《国际癌症杂志》2015。;136 (5): e359 - e386。-PubMed
    1. 刘志强,刘志强,等。一次性乙状结肠镜筛查预防结直肠癌:一项多中心随机对照试验柳叶刀》2010。;375(9726): 1624 - 1633。-PubMed

发布类型