摘要
背景
目前还没有一种准确而简单的风险预测模型,以促进胰腺腺癌(PDAC)的早期发现。在本研究中,我们比较了不同的风险预测算法,以选择构建基于生物标志物的风险评分(PancRISK)的最佳算法。
方法
379例使用回顾性收集的样本测量了三种尿液生物标志物(LYVE1、REG1B和TFF1)以及肌酐和年龄的患者被随机分为训练组和验证组,然后分层为病例组(PDAC)和对照组(健康患者)。使用了几种机器学习算法,并比较了它们的性能特点。后者包括AUC (ROC曲线下面积)和临床相关特异性的敏感性。
结果
这些算法都没有明显优于其他算法。最容易解释的逻辑回归模型被纳入到PancRISK评分中,随后对整个数据集进行评估。当常用的PDAC生物标志物CA19-9加入到模型中时,PancRISK的性能甚至可以进一步提高。
结论
PancRISK评分可以方便地解释生物标志物面板数据,目前正在进行测试,以确认它可以使用尿液样本完全无创地对有发展为胰腺癌风险的患者进行分层。
背景
自1976年的弗雷明汉研究产生了第一个冠心病风险预测模型以来,许多预测模型已被报道用于各种疾病,包括癌症。1,2,3.,4,5在胰腺导管腺癌(PDAC)中,很少设计这样的模型,包括绝对风险预测的模型6,7,8,9,10,11,12基因载体状态预测,13以及高危人群的预测模型。14,15最近,两个独立的模型也被报道用于确定新发糖尿病(NOD)队列患者发生PDAC的风险。16,17这些预测模型大多基于之前建立的风险因素、相关的实验室结果和临床症状,但尚未得到彻底验证或在临床中采用。
我们最近报道了尿液中的三个生物标志物面板,具有早期检测PDAC的前景。18为了使其能够应用并允许在临床环境中无缝地解释结果,我们旨在基于这三个生物标志物(年龄和尿肌酐)开发一个风险评分。为了确定是否使用了最合适和性能最好的模型,我们比较了几种不同的算法:神经网络(NN)、随机森林(RF)、支持向量机(SVM)、神经模糊(NF)技术和逻辑回归模型。这些都是有监督的方法,需要对已知病例/对照标签的患者进行培训。在培训阶段之后,所有这些方法都可以应用于新患者,这将给出疾病的风险或类别(病例/对照)标签的确切预后。
这些方法各有优缺点。在临床研究中最广泛使用的方法是多变量回归,逻辑回归是最适合的二元结果(病例/对照)。19它包括连续的、分类的和顺序的变量,并且不需要预测因子的正态分布,同时提供可以很容易地转换为优势比(or)的系数,并提供直接的解释。另一种方法,深度学习,也被广泛应用于不同的生物医学数据集。20.,21尽管深度网络更适合于大型数据集,但它们也已成功用于小容量的医疗数据。22
射频是另一种常用的机器学习技术,用于建立预测模型。这是一种基于孔多塞陪审团定理(Condorcet’s jury theorem)的集成学习分类方法,该定理指出,随着陪审员人数的增加,一组有能力的、独立的陪审员使用多数投票方案对二元结果做出决定的效率会更高。该方法的主要优点之一是组合多个决策树避免了过拟合。23,24,25同样,SVM是一种监督学习算法,它将原始的输入空间转换为高维的特征空间,以最优的方式找到分离类的超平面。控制裕量和训练误差之间权衡的“惩罚”项防止了模型的过拟合。26
一个较新的技术,NF技术,建模复杂的过程,并解决在不确定情况下的最优集合划分问题。27,28这种方法统一了两个独立的数学结构,模糊逻辑29以及网络神经网络,它提供了将网络神经网络的学习能力与透明度和模糊规则“If-Then”的简单解释结合起来的可能性。30.,31
所有五种算法都进行了测试;他们首先接受数据子集的训练,然后使用剩下的子集进行验证。
材料与方法
临床样本集进行分析
本分析使用的数据是通过酶联免疫吸附测定在皇家伦敦医院、伦敦大学学院医院、利物浦大学外科和西班牙马德里CNIO收集的标本上的三种生物标志物,结合参考文献中描述的肌酐和患者年龄获得的。18除已有资料外,从胰腺组织库(https://www.bartspancreastissuebank.org.uk)也以同样的方式进行了分析,得出了总共180个健康对照和199个PDAC样本(102个I/II期和97个III/IV期)(这些数据将分别详细报道)。该分析得到了东北-约克研究伦理委员会的伦理批准(参考文献:18/NE/0070)。
算法训练
逻辑回归、神经网络、射频、支持向量机和NF技术在训练集中进行训练,在验证集中按1:1的比例进行随机划分检验。训练集包括PDAC和健康患者。
使用五种预测因子(三种尿液生物标志物、肌酐和年龄)对训练集进行逻辑回归模型拟合。内部验证采用Bootstrap交叉验证,以避免过拟合。32然后利用弹性网对系数进行正则化,得到最终模型。33使用来自R的“glmnet”包实现具有弹性网络正则化的逻辑回归模型。
在我们的研究中,神经网络的深度和结构是不同的。特别地,我们尝试了隐含层1-16的神经网络,神经元数量从第一层的16个增加到最后一层的256个。此外,还尝试了不同的优化器、学习率和激活函数。实验结果表明,最优模型由7个前馈隐层组成,分别包含32、32、64、64、128、128和2个神经元,隐层之间包含6个概率为0.2的退出层。神经网络接受了标准化特征的训练。最后,使用学习率为0.001的亚当优化器训练该神经网络100个周期,批大小为16。为了实现该模型并测试其性能,使用了以下Python包:tensorflow、keras和scikit-learn。34
在训练集上拟合条件推理树的射频。使用来自R的“party”包,然后将其应用于验证集,以测试其性能。这种方法为验证集的敏感性和特异性提供了固定的值,而不是一个值的范围,因此这种方法没有计算受试者工作特征曲线(ROC)下的面积。
为了选择最优的支持向量机参数,35采用十倍交叉验证。使用R中“插入”包中的“svmLinear”方法对支持向量机进行训练和测试。
为了调优NF方法,Shor开发的r-算法被精确地使用ε=0.001。36这种方法的软件实现是在Visual Studio 2013环境中开发的。
统计分析
分析结果为PDAC诊断。
本研究中的零假设是,逻辑回归模型是最容易实现和从算法列表中评估的,它的性能并不比任何更复杂的技术差。
从灵敏度(SN;在固定的特异性(SP;健康对照组中被正确检测出没有癌症的比例);对于射频和支持向量机,阈值在公式中是隐式的;对于logistic回归、神经网络和NF技术,阈值为SP值为0.90的值;和AUC。ROC曲线的推断基于考虑样本序列相关性的聚类稳健标准差。由于结果不是连续的,因此无法创建RF和SVM的ROC曲线和AUC。采用McNemar精确检验评估固定SP下SN差异的显著性,采用DeLong检验评估不同方法间AUC差异的显著性。37基于DeLong方法推导出AUC的置信区间CI 95%,用于评价AUC的不确定度;SN和SP 95% CI通过自助复制得到。
为了允许多重测试,两种类型的测试都使用Bonferroni校正进行了调整。由于主要假设属于逻辑回归模型,所有其他方法都与该模型进行了比较,并使用0.05/4 = 0.0125的阈值来定义在调整多重性后的显著结果。
所有的分析都在R版本3.5.1和Python版本3.0中进行。
结果
总共有379个样本被纳入分析。训练和验证集分别包括191例患者(96例PDAC病例和95例对照组)和188例患者(103例PDAC和85例对照组)。对样本的特征进行了平衡1).训练阶段结束后,将所有算法应用于验证集。数字1logistic回归、神经网络和NF技术检测PDAC病例的ROC曲线。ROC曲线上的圆点给出了由SVM和RF提供的SN和SP的特定值。Logistic回归和NF技术的AUC相同,为0.94 (95% CI: 0.91-0.97),略高于神经网络的0.93 (95% CI: 0.9-0.97);然而,差异并不显著(p逻辑回归vs神经网络和= 0.26pNF技术vs NN = 0.24)。固定SP为0.9时,logistic回归的SN为0.81 (95% CI: 0.7-0.89), NN为0.81 (95% CI: 0.63-0.95), NF技术为0.87 (95% CI: 0.72-0.95)(见表2).由于支持向量机和射频算法的结果不是连续的,这些都包含了它们所提供的实际特性。
为了评估不同算法在固定特异性下灵敏度差异的显著性,采用McNemar精确检验,并利用logistic回归对四种算法的多重比较进行调整。如表所示2,没有一种方法明显优于逻辑回归,这意味着零假设不能被拒绝。在PDAC早期和晚期的亚组分析中(表3.),性能相似,逻辑回归与其他技术之间的AUC差异可以忽略不计。因此,利用所有可用数据,在PancRISK中实现逻辑回归。
为了分析CA19-9(一种常用的胰腺癌生物标志物)是否与已开发的PancRISK互补,在血浆CA19-9测量可用的数据子集中对两者进行评估。根据提供0.9特异性的阈值,PancRISK将样本分为“正常”或“异常”,而对于CA19-9,使用临床使用的截断值37 U/mL。表格4显示了使用PancRISK和CA19-9 37 U/mL截止值被分类为“正常”和“异常”的健康和PDAC样本的数量。“PancRISK或CA19-9是Abnormal”规则的特异性为87/91 = 0.96,敏感性为144/150 = 0.96。
讨论
随着发病率的增加,在检测和治疗方法上没有重大改进,PDAC顽固地仍然是少数预后异常差的癌症之一。我们相信,在仍处于完全可切除阶段的早期癌症检测中,使用非侵入性检测可能对改善胰腺癌患者目前惨淡的预后至关重要。由于即使结合了一些众所周知的风险因素,加上或不加上PDAC症状(由于其发生较晚且非特异性),总体风险的增量也相当小,基于分子生物标志物的风险预测模型更有可能加快PDAC的早期检测。
在本研究中,为了构建基于生物标志物的风险评分,我们使用尿液生物标志物数据比较了五种不同的分类技术:逻辑回归、神经网络、射频、支持向量机和NF技术,发现所有这些技术的表现都相似,因此不能拒绝关于它们相等的零假设。由于任何更复杂的方法都不能优于逻辑回归,因此我们将其应用于PancRISK评分的构建中。在所有使用过的算法中,它是最容易实现和解释的,这一事实证实了这种选择。
随后将PancRISK的性能与CA19-9血浆进行了比较,并在有匹配测量值的数据子集中进行了比较。结果表明,该组合对PDAC检测具有很高的敏感性和特异性。
PancRISK的预期用途是将患者分层为风险正常(“正常”)或升高(“异常”)的患者,在后者组中进行进一步的、更昂贵的和有创的临床检查。因此,PancRISK可用于有家族病史和遗传背景的个体的监测,或用于因胰腺炎性疾病(如慢性胰腺炎)而风险增加的患者。此外,在ENDPAC评分为中等的PC-NOD组中评估模型也很有趣。17
我们的研究有几个局限性,最主要的一个是,虽然我们的目标是在尽可能早的阶段发现癌症,但在我们的数据集中,大约一半的PDAC病例是晚期患者。这是由于在发现早期疾病的PDAC患者方面存在挑战,因为目前大多数患者是在疾病局部晚期或已经转移时被诊断出来的。同样,我们也用健康的人作为具有遗传背景的个体的代表,直到我们可以获得这样的样本。另外的限制是结合分析PancRISK和CA19-9,这两种测量方法仅在一小部分患者中可用。然而,我们研究的主要优势是对五种不同分类算法的综合比较,这是我们的主要目标。由于在构建预测模型时只使用了5个预测因子,因此很容易满足每变量10个事件的经验法则。38因此,本文分析的大量数据使我们能够得出这样的结论:逻辑回归是建立PDAC风险预测的合适模型。
目前,PancRISK的性能需要在临床观察研究的背景下,在大量前瞻性收集的标本中进一步评估,包括单独和与CA19-9联合使用,这将对这种联合的预测能力给出明确的估计。
参考文献
Cassidy, A., Duffy, S. W., Myles, J. P., Liloglou, T. & Field, Y. K.肺癌风险预测:早期发现的工具。Int。j .癌症120, 1-6(2006)。
王晓霞,Oldani,李明娟,赵晓霞,黄晓霞,钱琼。含遗传变异的癌症风险预测模型的研究进展。癌症的通知。13, 19-28(2014)。
Tyrer, J, Duffy, S. W. & Cuzick, J.一个包含家庭和个人危险因素的乳腺癌预测模型。统计,地中海。23, 1111-1130(2004)。
温锦鹏、林俊杰、杨玉春、蔡明琨、曹锦琨、艾泽尔、蔡俊杰等。一般人群的肝细胞癌风险预测模型:转氨酶的预测能力。美国国立癌症研究所。104, 1599-1611(2012)。
Blyuss, O., Burnell, M., Ryan, A., Gentry-Maharaj, A., Marino, I., Kalsi, J.等。纵向算法作为卵巢癌筛查一线检测的比较:英国卵巢癌筛查合作试验(UKCTOCS)中的一项嵌套队列研究中国。癌症Res。24, 4726-4733(2018)。
结合PubMed知识和HER数据,开发用于胰腺癌风险预测的加权贝叶斯网络。j .生物医学。通知。44, 859-868(2011)。
Klein, A. P, Lindstrom, S., Mendelsohn, J. B., Steplowski, E., Arslan, A. A. & Bas Bueno-de-Mesquita, H.确定一般人群中胰腺癌风险升高个体的绝对风险模型。《公共科学图书馆•综合》8, e72311(2013)。
吕凌庚,吕基德,李志刚,李志刚,李志刚。胰腺癌诊断前的可检测症状学与胰腺癌诊断的绝对风险。点。j .论文。18226-34(2015)。
hipisley - cox, J. & Coupland, C.评估男性和女性常见癌症未来风险的风险预测算法的开发和验证:前瞻性队列研究。BMJ开放5, e007825(2015)。
庞涛,丁国刚,吴志忠,蒋刚,杨玉莹,张旭等。一种新的评分系统分析生活方式因素对胰腺癌风险的综合影响:一项回顾性病例对照研究。科学。代表。7, 13657(2017)。
Kim J, Yuan C, Babic, A, Bao Y, Brais, L. K. & Welch, M. W.摘要4945:胰腺癌的绝对风险预测模型。癌症Res。78, 4945(2018)。
中中敏,林颖,伊藤浩,原凯,木下,F. &小林,Y.日本普通人群胰腺癌风险的预测模型。《公共科学图书馆•综合》13, e0203386(2018)。
Wang W., Chen S., Brune, K. A., Hruban, R. H., Parmigiani, G. & Klein, A. P. PancPRO:胰腺癌家族史个体的风险评估。j .中国。肿瘤防治杂志。25, 1417-1422(2007)。
蔡庆春、陈玉玉、肖玉玉、朱伟、徐庆芳、钟磊等。既往EUS-FNA细胞学阴性伴有局灶性胰腺肿块的慢性胰腺炎患者胰腺癌风险的预测规则Scand。j .杂志。46, 464-470(2011)。
F.拉克特,布鲁西格,T.库恩,M.克斯汀,S.班克,A.饥饿,M.等。慢性胰腺炎的恶性:诊断程序的分析和临床算法的建议。Pancreatology13, 243-249(2013)。
布尔西,B.,芬克尔曼,B.,吉安安东尼奥,B. J.,海因斯,K.,拉斯基,A. K.,莱姆,A. D.等。评估新发糖尿病患者胰腺癌风险的临床预测模型。胃肠病学152, 840-850(2017)。
夏尔马,坎德拉昆塔,H.,辛格纳格帕尔,S. J.,冯,Z.,胡斯,W.,彼得森,g.m.等。确定新发糖尿病患者胰腺癌风险的模型。胃肠病学155, 730-739(2018)。
拉东,t.p.,马萨特,新泽西州,琼斯,阿尔拉瓦德,W.,达马丁,L.,恩尼斯,D.等。尿液中三个生物标志物面板的鉴定用于胰腺腺癌的早期检测。中国。癌症Res。21, 3512-3521(2015)。
毕晓普。模式识别与机器学习(施普林格,2006)。
Manaswini, P. & Sahu, R. K.多层感知器网络在HIV/AIDS中的应用。Int。j .第一版。达成。Eng。科学。1, 41-48(2011)。
闫红梅,蒋勇,郑建军,彭晨,李强。基于多层感知器的心脏病诊断决策支持系统。专家系统。达成。30., 272-281(2006)。
在医疗应用中,用神经网络处理有限数据集:一种小数据方法。Artif。智能。地中海。75, 51-63(2017)。
霍桑,霍尼克,K. & Zeileis .无偏递归划分:一个条件推理框架。j .第一版。图形统计。15, 651-674 (2006).
C. Strobl, Boulesteix, a . L, Zeileis, a . & Hothorn, T.随机森林变量重要性度量的偏差:插图、来源和解决方案。BMC生物信息学8, 25(2007)。
C. Strobl, Boulesteix, A. L., Kneib, T., Augustin, T. & Zeileis, A.随机森林的条件变量重要性。BMC生物信息学9, 307(2008)。
Marjanovic, M., Bajat, B. & Kovacevic, M.基于机器学习算法的滑坡易感性评估。在智能网络与协作系统国际会议273-278 (ieee, 2009)。
Kiseleva, E. M. & Koriashkina, L. S.作为构造voronoi图的通用数学形式主义的连续最优集划分问题的理论及其推广。一、理论基础。Cybern。系统。肛交。3., 325-335(2015)。
O. Blyuss, L. Koriashkina, E. Kiseleva和R. Molchanov .放射治疗计划中辐射源的最佳放置:数学模型和求解方法。第一版。数学。地中海的方法.2015, 142987(2015)。
王晓燕,王晓燕。神经模糊系统的可解释性与学习。模糊集系统。147(2004)。
Kiseleva, e.m., Prytomanova, o.m. & Zhuravel, s.v.用神经语言学识别目标泛函中的函数来解决最优分配的连续问题的算法。自动化信息科学。3., 1-20(2018)。
基于神经模糊技术的创业公司投资吸引力评估。自动化信息科学。9, 1-22(2016)。
Steyerberg, E. W., Harrell, F. E. Jr, Borsboom, G. J., Eijkemans, M. J., Vergouwe, Y.和Habbema, J. D.预测模型的内部验证:逻辑回归分析某些程序的效率。j .中国。论文。54, 774-781(2001)。
邹鸿辉,黑斯迪。基于弹性网的正则化和变量选择。J. R.统计社会B67, 301-320(2005)。
Chollet F。使用Python进行深度学习(曼宁出版公司,2017)。
决策树、支持向量机和神经模糊模型在GIS滑坡易感性制图中的预测能力比较研究。第一版。Geosci。51, 350-365(2013)。
Kiseleva, E. M. & Koriashkina, L. S.作为构造voronoi图的通用数学形式主义的连续最优集划分问题的理论及其推广。2基于最优集划分理论的Voronoi图构造算法。Cybern。系统。肛交。4, 489-499(2015)。
DeLong, e.r., DeLong, d.m. & clark - pearson, d.l.比较两个或多个相关接收者工作特征曲线下的区域:非参数方法。生物识别技术44, 837-845(1988)。
Peduzzi, P., Concato, J., Kemper, E., Holford, T. R. & Feinstein, A. R.逻辑回归分析中每个变量事件数量的模拟研究。j .中国。论文。49, 1373-1379(1996)。
确认
作者感谢所有的患者和健康捐赠者,没有他们,本研究就不可能进行。
作者信息
作者和隶属关系
贡献
概念和设计:O.B。,A.Z d.m., S.W.D T.C.-J。提供研究资料:o.b., S.W.D, T.C.-J。算法结构:O.B A.Z。,风险投资者,E.M.K, O.M.P.手稿写:O.B,风险投资者,d.m., O.M.P, S.W.D T.C.-J。最终审稿:所有作者。
相应的作者
道德声明
伦理批准和同意参与
该分析得到了东北-约克研究伦理委员会的伦理批准(参考文献:18/NE/0070)。这项研究是根据《赫尔辛基宣言》进行的。所有患者在登记时都提供了知情同意(IC)进入研究。
同意发表
不适用。
数据可用性
支持本研究结果的数据可向通讯作者索取。
相互竞争的利益
作者声明没有竞争利益。
资金信息
该研究由美国国立卫生研究院胰腺癌研究基金(PCRF)和DFS(发展资助方案)资助。a.z感谢MRC赠款MR/R02524X/1以及俄罗斯联邦教育和科学部第07515-2019 -871号协议的支持。
额外的信息
出版商的注意施普林格自然对出版的地图和机构附属的管辖权要求保持中立。
权利与权限
开放获取本文遵循创作共用署名4.0国际许可协议(Creative Commons Attribution 4.0 International License),该协议允许在任何媒体或格式中使用、分享、改编、分发和复制,只要您给予原作者和来源适当的署名,提供创作共用许可协议的链接,并说明是否有更改。本文中的图片或其他第三方材料包含在文章的创作共用许可中,除非在材料的信用额度中另有说明。如果材料不包含在文章的创作共用许可中,并且您的预期用途不被法律法规允许或超出了允许的使用范围,您将需要直接从版权所有者那里获得许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.
关于本文
引用本文
Blyuss, O., Zaikin, A., Cherepanova, V.。et al。PancRISK的开发,基于尿液生物标志物的胰腺癌患者分层筛查风险评分。乳腺癌122, 692-696(2020)。https://doi.org/10.1038/s41416-019-0694-0
收到了:
接受:
发表:
发行日期:
DOI:https://doi.org/10.1038/s41416-019-0694-0
这篇文章被引用
人工智能和机器学习在癌症研究中的高维作用
英国癌症杂志(2022)
评论:“开发PancRISK,一种基于尿液生物标志物的胰腺癌患者分层筛查风险评分”
英国癌症杂志(2020)