． 2016年9月,23(5):879 - 90。

doi: 10.1093 /地点/ ocv195。 Epub 2016年2月15日

通过全血细胞计数分析在初级保健中检测结直肠癌的预测模型的开发和验证:一项两国回顾性研究

Yaron Kinar¹，近红外光谱Kalkstein¹，普Akiva²，伯纳德•莱文^3.，伊丽莎白·E⁴， Inbal Goldshtein⁵，加布里埃尔Chodick⁵，瓦尔达她⁶

从属关系

¹医学研究，Kfar Malal，以色列。
²以色列Kfar Malal的《医学研究》pini@medial-research.com。
^3.德克萨斯大学安德森癌症中心，美国德克萨斯州休斯顿。
⁴以色列海法兰巴姆卫生保健校区消化内科胃肠恶性肿瘤科。
⁵以色列特拉维夫马卡比保健服务处医务司。
⁶以色列特拉维夫市公共卫生学院马卡比保健服务部医学部，特拉维夫大学萨克勒医学院，以色列特拉维夫市。

PMID:26911814
PMCID:PMC4997037
DOI:10.1093 /地点/ ocv195

免费PMC文章

通过全血细胞计数分析在初级保健中检测结直肠癌的预测模型的开发和验证:一项两国回顾性研究

Yaron Kinaret al。美国医学信息协会． 2016年9月．

免费PMC文章

． 2016年9月,23(5):879 - 90。

doi: 10.1093 /地点/ ocv195。 Epub 2016年2月15日

作者

Yaron Kinar¹，近红外光谱Kalkstein¹，普Akiva²，伯纳德•莱文^3.，伊丽莎白·E⁴， Inbal Goldshtein⁵，加布里埃尔Chodick⁵，瓦尔达她⁶

从属关系

¹医学研究，Kfar Malal，以色列。
²以色列Kfar Malal的《医学研究》pini@medial-research.com。
^3.德克萨斯大学安德森癌症中心，美国德克萨斯州休斯顿。
⁴以色列海法兰巴姆卫生保健校区消化内科胃肠恶性肿瘤科。
⁵以色列特拉维夫马卡比保健服务处医务司。
⁶以色列特拉维夫市公共卫生学院马卡比保健服务部医学部，特拉维夫大学萨克勒医学院，以色列特拉维夫市。

PMID:26911814
PMCID:PMC4997037
DOI:10.1093 /地点/ ocv195

摘要

摘要目的:随着电子病历的广泛使用，风险预测模型的使用也在增长。在这里，我们开发并验证了一个模型，通过分析血液计数、年龄和性别来识别结直肠癌(CRC)风险增加的个体，然后确定模型用于补充常规筛查时的价值。

材料和方法:初级保健数据来自606403名以色列人(其中3135名被诊断为CRC)和5061名CRC病例和25613名对照病例的英国病例对照数据集。该模型是在80%的以色列数据集上开发的，并使用剩余的以色列和英国数据集进行了验证。根据曲线下面积、特异性和几个工作点的优势比来评估性能。

结果:使用诊断前3-6个月的血液计数，以色列验证组用于检测CRC的曲线下面积为0.82±0.01。以色列验证集的特异性为88±2%，英国数据集的特异性为94±1%。检测50%的CRC病例，假阳性率为0.5%，比值比分别为26±5和40±6。50%检测的特异性为诊断前一年87±2%，局部癌症为85±2%。当与粪便潜血测试一起使用时，我们的模型使CRC检出率提高了2倍以上。

讨论:2个不相关人群的比较结果表明，该模型一般适用于其他人群的CRC检测。该模型的性能优于目前的缺铁性贫血管理指南，并可能帮助医生确定需要额外临床评估的个体。

结论:我们的模型可能有助于在临床实践中更早地发现CRC。

关键词:结直肠癌;癌症的早期发现;电子病历;机器学习;初级保健;风险预测。

©作者2016。由牛津大学出版社代表美国医学信息协会出版。

数据

**图1:**
(A)模型构建与评价。所示的是我们模型构建过程的不同步骤的说明。对于每个拥有CBC数据的个体，输入的训练数据(顶部)包括他/她的年龄、性别和所有可用的血细胞计数面板参数集。在数据准备阶段(中间)，汇总每个人的CBC数据(生成CBC历史)，生成特征，包括参数的值以及这些值在过去18个月和36个月的变化。接下来，在模型构建阶段(中下)，我们自动生成旨在识别CRC案例的决策树。然后将构建的树组合成一个统一的模型。数据准备和模型构建阶段的参数通过交叉验证进行优化——我们使用90%的数据作为学习集，构建模型，并评估其在剩余10%上的性能。通过将数据划分到不同的学习集和测试集，这个过程重复10次。然后，生成的模型可以使用未见过个体的年龄、性别和CBC数据作为输入，并生成CRC风险分层评分(左下)。然后在外部数据集上验证模型，包括以前未见过的以色列和英国人口(右下)。 (B) Model evaluation criteria. Shown are the 3 different measures used to evaluate model performance: (1) the area under the receiver operating characteristic curve (AUC) is used to measure overall performance, as it is a standard measure of performance in classification problems; (2) to assess the utility of our model for identifying individuals with the highest probability of having CRC, we consider a model threshold score that corresponds to false positive rate of 0.5% (i.e., a model score for which only 0.5% of the individuals没有CRC得分高于该阈值，代表得分最高的人群)，并使用比值测量来比较模型得分高于或低于该阈值的个体的CRC患病率;(3)为了检验我们的模型用于识别大部分CRC病例的效用，我们计算了在对应50%敏感性的模型评分阈值处被正确分类为不具有CRC(特异性)的个体的百分比(即50%的个体的模型评分)与CRC分数高于它)。

**图2:**
模型在未见独立总体上的表现。所示为诊断前1个月(2个右面板)和诊断前3-6个月(2个左面板)的ROC曲线和其他性能测量，用于推导集交叉验证总体(推导，黄色)和以色列数据集(以色列Val.，紫色)和英国数据集(UK Val.，绿色)的外部验证总体。仅基于年龄的预测(蓝色)和随机预测(红色)也被显示出来进行比较。上方2个面板显示完整的ROC曲线和对应于50%敏感性的特异性，而下方2个面板显示来自上方面板的放大视图，重点关注最高风险评分(0.5%假阳性率)的模型行为。

**图3:**
参数对模型性能的贡献。所示是CBC参数对我们模型性能的贡献的评估。(特别是0-30天和90-180天时间窗口的AUC测量。)在评估一个参数的重要性时，我们既要考虑它对性能测量的直接贡献，也要考虑它与其他模型参数的冗余(即，它的贡献可以被其他参数替代的程度)。因此，每个参数在冗余(水平轴)和直接贡献(垂直轴)的二维空间中被分配一个点。为此，我们从模型中逐个删除其他参数，按照它们与相关参数的相关性排序。在每一步中，我们确定有和没有相关参数的子模型的性能，并计算差异。参数的冗余是在差异显著之前所需的最小步数(由自举过程估计的2个标准差定义)，直接贡献由最大差异定义。我们只显示在某一点上有重大贡献的参数。我们发现红细胞系参数是主要贡献者，血小板相关参数贡献较少，与其他参数冗余，白细胞系参数主要在0-30天时间窗口贡献。

**图4:**
我们的模型即使使用CRC诊断前2年的CBCs也能预测CRC。所示为仅使用诊断日期前60天时间窗口采集的cbc时的表现(AUC和特异性对应于50%敏感性)。仅显示年龄(蓝色)和随机(红色)的表现也用于比较。请注意，我们的模型表现明显优于单纯年龄，同样当CBCs仅限于CRC诊断前2年进行的CBCs时。

**图5:**
校准图表。该图显示了模型在推导集和2个验证集上的校准。评分范围被分为10个十分位数，涵盖推导集(交叉验证)中相等部分的人口，并对每个集上的每个十分位数评估3-6个月内CRC的概率。推导集上的概率是预期的概率，而验证集上的概率是观测到的概率。根据CRC发生率将概率归一化，以说明以色列集是队列，而英国集是病例对照。我们看到，以色列验证集校准得很好，英国验证集对9个较低的十分位数显示了良好的校准，但在最高十分位数中CRC概率较高。

**图6:**
对其他癌症敏感。该图显示了我们的模型在3%假阳性率下对衍生集上不同部位恶性肿瘤的敏感性(交叉验证)。绿色条表示胃肠癌，红色条表示血液肿瘤，灰色条表示其他癌症类型。只显示了足够普遍的遗址。该评分显示对结直肠癌和胃癌(其他胃肠道肿瘤，如食道癌或小肠肿瘤，由于其在以色列人群中的患病率非常低而被忽略)，对某些类型的血液癌症，以及在较小程度上对肺癌的敏感性较高。对所有恶性肿瘤的剩余敏感性是由于年龄依赖性。

在PMC中查看此图像和版权信息

类似的文章

使用性别、年龄和全血细胞计数数据的机器学习模型检测早期结直肠癌。
Hornbrook MC, Goshen R, Choman E, O'Keeffe-Rosetti M, Kinar Y, Liles EG, Rust KC。 Hornbrook MC等人。中国生物医学工程学报，2017年10月;62(10):2719-2727。doi: 10.1007 / s10620 - 017 - 4722 - 8。Epub 2017 8月23日。《Dig Dis science》，2017。 PMID:28836087
机器学习标记系统的性能分析，用于识别一组具有结肠直肠癌高风险的个体。
Kinar Y, Akiva P, Choman E, Kariv R, Shalev V, Levin B, Narod SA, Goshen R。 Kinar Y，等人。公共科学图书馆，2017年2月9日;12(2):e0171759。doi: 10.1371 / journal.pone.0171759。eCollection 2017。 PLoS One, 2017。 PMID:28182647 免费的PMC文章。
结直肠癌筛查:转铁蛋白与免疫粪潜血试验的比较。
陈建国，蔡军，吴海林，徐辉，张彦阳，陈超，王强，徐军，袁小林。陈建国，等。世界胃肠杂志，2012年6月7日;18(21):2682-8。doi: 10.3748 / wjg.v18.i21.2682。世界胃肠病杂志，2012。 PMID:22690078 免费的PMC文章。
初级保健诊断结直肠癌和炎症性肠病:粪便血红蛋白、粪便钙保护蛋白、贫血和缺铁试验的有用性前瞻性研究。
Högberg C，贾琳，Rutegård J，李丽佳。 Högberg C，等。中华胃肠病学杂志，2017年1月;52(1):69-75。doi: 10.1080 / 00365521.2016.1228120。Epub 2016 9月14日。 Scand J胃肠，2017。 PMID:27623716
[大肠癌筛查中粪便潜血检测的化学或免疫学试验?]。
Quintero E。 Quintero E。《胃肠肝病杂志》2009 10月;32(8):565-76。doi: 10.1016 / j.gastrohep.2009.01.179。Epub 2009 7月3日。胃肠肝病杂志，2009。 PMID:19577340 审查。西班牙语。

查看所有类似文章

引用的

使用监督学习模型基于免疫表型的SNP谱预测结直肠癌易感性。
Cakmak A, Ayaz H, arakkan S, Ibrahimzada AR, Demirkol Ş， Sönmez D, Hakan MT, Sürmen ST, horozo土耳其卢C, do土耳其MB, Küçükhüseyin Ö， cacakhna C, kiran B, Zeybek Ü， Baysan M, yylim İ。 Cakmak A，等。中国生物医学工程杂志。2023 01(1):243-258。doi: 10.1007 / s11517 - 022 - 02707 - 9。Epub 2022 11月11日。医学生物工程计算。2023。 PMID:36357628
初级保健中大肠癌检测的全血计数趋势:动态预测模型的开发和验证。
韦迪，帕特尼克，沃特金森，霍尔特，伯克斯。 Virdee PS，等。癌症(巴塞尔)。2022年9月29日;14(19):4779。doi: 10.3390 / cancers14194779。癌症(巴塞尔)。2022. PMID:36230702 免费的PMC文章。
IBD诊断前5年生化参数、医疗资源和药物使用趋势:一项健康维护组织队列研究
Cohen NA, Kliper E, Zamstein N, Ziv-Baran T, Waterman M, Hodik G, Tov AB, Kariv R。 Cohen NA，等。《Dig Dis science》2022年10月11日。doi: 10.1007 / s10620 - 022 - 07714 - 2。在线先于印刷。《挖掘科学》，2022年。 PMID:36221010
低资源环境下的结肠癌和直肠癌管理。
船夫S, Nalluri H, Gaertner WB。 Boatman S，等。中华外科杂志。2022年9月13日;35(5):402-409。doi: 10.1055 / s - 0042 - 1746189。收藏2022年9月临床结肠直肠外科。2022。 PMID:36111080 审查。
大数据在改善胃肠病学患者护理中的作用。
卡特罗J，布雷B，莫里斯E，拉特M。 Catlow J，等。《前沿胃肠杂志》2021年5月28日;13(3):237-244。doi: 10.1136 / flgastro - 2019 - 101239。eCollection 2022。前线胃肠病，2021年。 PMID:35493622 免费的PMC文章。

参见所有“引用”文章

参考文献

1. DesRoches CM, Charles D, Furukawa MF等。电子健康记录的采用迅速增长，但在2012年，只有不到一半的美国医院拥有至少基本的系统。卫生事务，2013年。；32(8): 1478 - 1485。-PubMed
1. 肖志杰，兴娥。基于办公室的医生实践中电子健康记录系统的使用和特征:美国，2001-2013。NCHS数据简报，2014。；143: 1 - 8。-PubMed
1. Steyerberg EW, moon KG, van der Windt DA，等。预后研究策略(PROGRESS) 3:预后模型研究。《公共科学图书馆·医学》2013。；10 (2): e1001381。-PMC-PubMed
1. 费雷J, Soerjomataram I, Dikshit R，等。全球癌症发病率和死亡率:来源、方法和主要模式。《国际癌症杂志》2015。；136 (5): e359 - e386。-PubMed
1. 刘志强，刘志强，等。一次性乙状结肠镜筛查预防结直肠癌:一项多中心随机对照试验柳叶刀》2010。；375(9726): 1624 - 1633。-PubMed

发布类型

行动

网格计算

行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动

将引文保存到文件

电子邮件引用

添加到集合

添加到我的参考书目

保存的搜索

为外部引用管理软件创建一个文件

你的RSS订阅

通过全血细胞计数分析在初级保健中检测结直肠癌的预测模型的开发和验证:一项两国回顾性研究

从属关系

通过全血细胞计数分析在初级保健中检测结直肠癌的预测模型的开发和验证:一项两国回顾性研究

作者

从属关系

摘要

数据

类似的文章

引用的

参考文献

发布类型

网格计算

LinkOut -更多的资源

全文来源

其他文献来源

医疗

摘要

数据

类似的文章

引用的

参考文献

发布类型

网格计算

相关信息

LinkOut -更多的资源

全文来源

其他文献来源

医疗