背景

自1976年的弗雷明汉研究产生了第一个冠心病风险预测模型以来,许多预测模型已被报道用于各种疾病,包括癌症。123.45在胰腺导管腺癌(PDAC)中,很少设计这样的模型,包括绝对风险预测的模型6789101112基因载体状态预测,13以及高危人群的预测模型。1415最近,两个独立的模型也被报道用于确定新发糖尿病(NOD)队列患者发生PDAC的风险。1617这些预测模型大多基于之前建立的风险因素、相关的实验室结果和临床症状,但尚未得到彻底验证或在临床中采用。

我们最近报道了尿液中的三个生物标志物面板,具有早期检测PDAC的前景。18为了使其能够应用并允许在临床环境中无缝地解释结果,我们旨在基于这三个生物标志物(年龄和尿肌酐)开发一个风险评分。为了确定是否使用了最合适和性能最好的模型,我们比较了几种不同的算法:神经网络(NN)、随机森林(RF)、支持向量机(SVM)、神经模糊(NF)技术和逻辑回归模型。这些都是有监督的方法,需要对已知病例/对照标签的患者进行培训。在培训阶段之后,所有这些方法都可以应用于新患者,这将给出疾病的风险或类别(病例/对照)标签的确切预后。

这些方法各有优缺点。在临床研究中最广泛使用的方法是多变量回归,逻辑回归是最适合的二元结果(病例/对照)。19它包括连续的、分类的和顺序的变量,并且不需要预测因子的正态分布,同时提供可以很容易地转换为优势比(or)的系数,并提供直接的解释。另一种方法,深度学习,也被广泛应用于不同的生物医学数据集。20.21尽管深度网络更适合于大型数据集,但它们也已成功用于小容量的医疗数据。22

射频是另一种常用的机器学习技术,用于建立预测模型。这是一种基于孔多塞陪审团定理(Condorcet’s jury theorem)的集成学习分类方法,该定理指出,随着陪审员人数的增加,一组有能力的、独立的陪审员使用多数投票方案对二元结果做出决定的效率会更高。该方法的主要优点之一是组合多个决策树避免了过拟合。232425同样,SVM是一种监督学习算法,它将原始的输入空间转换为高维的特征空间,以最优的方式找到分离类的超平面。控制裕量和训练误差之间权衡的“惩罚”项防止了模型的过拟合。26

一个较新的技术,NF技术,建模复杂的过程,并解决在不确定情况下的最优集合划分问题。2728这种方法统一了两个独立的数学结构,模糊逻辑29以及网络神经网络,它提供了将网络神经网络的学习能力与透明度和模糊规则“If-Then”的简单解释结合起来的可能性。30.31

所有五种算法都进行了测试;他们首先接受数据子集的训练,然后使用剩下的子集进行验证。

材料与方法

临床样本集进行分析

本分析使用的数据是通过酶联免疫吸附测定在皇家伦敦医院、伦敦大学学院医院、利物浦大学外科和西班牙马德里CNIO收集的标本上的三种生物标志物,结合参考文献中描述的肌酐和患者年龄获得的。18除已有资料外,从胰腺组织库(https://www.bartspancreastissuebank.org.uk)也以同样的方式进行了分析,得出了总共180个健康对照和199个PDAC样本(102个I/II期和97个III/IV期)(这些数据将分别详细报道)。该分析得到了东北-约克研究伦理委员会的伦理批准(参考文献:18/NE/0070)。

算法训练

逻辑回归、神经网络、射频、支持向量机和NF技术在训练集中进行训练,在验证集中按1:1的比例进行随机划分检验。训练集包括PDAC和健康患者。

使用五种预测因子(三种尿液生物标志物、肌酐和年龄)对训练集进行逻辑回归模型拟合。内部验证采用Bootstrap交叉验证,以避免过拟合。32然后利用弹性网对系数进行正则化,得到最终模型。33使用来自R的“glmnet”包实现具有弹性网络正则化的逻辑回归模型。

在我们的研究中,神经网络的深度和结构是不同的。特别地,我们尝试了隐含层1-16的神经网络,神经元数量从第一层的16个增加到最后一层的256个。此外,还尝试了不同的优化器、学习率和激活函数。实验结果表明,最优模型由7个前馈隐层组成,分别包含32、32、64、64、128、128和2个神经元,隐层之间包含6个概率为0.2的退出层。神经网络接受了标准化特征的训练。最后,使用学习率为0.001的亚当优化器训练该神经网络100个周期,批大小为16。为了实现该模型并测试其性能,使用了以下Python包:tensorflow、keras和scikit-learn。34

在训练集上拟合条件推理树的射频。使用来自R的“party”包,然后将其应用于验证集,以测试其性能。这种方法为验证集的敏感性和特异性提供了固定的值,而不是一个值的范围,因此这种方法没有计算受试者工作特征曲线(ROC)下的面积。

为了选择最优的支持向量机参数,35采用十倍交叉验证。使用R中“插入”包中的“svmLinear”方法对支持向量机进行训练和测试。

为了调优NF方法,Shor开发的r-算法被精确地使用ε0.001。36这种方法的软件实现是在Visual Studio 2013环境中开发的。

统计分析

分析结果为PDAC诊断。

本研究中的零假设是,逻辑回归模型是最容易实现和从算法列表中评估的,它的性能并不比任何更复杂的技术差。

从灵敏度(SN;在固定的特异性(SP;健康对照组中被正确检测出没有癌症的比例);对于射频和支持向量机,阈值在公式中是隐式的;对于logistic回归、神经网络和NF技术,阈值为SP值为0.90的值;和AUC。ROC曲线的推断基于考虑样本序列相关性的聚类稳健标准差。由于结果不是连续的,因此无法创建RF和SVM的ROC曲线和AUC。采用McNemar精确检验评估固定SP下SN差异的显著性,采用DeLong检验评估不同方法间AUC差异的显著性。37基于DeLong方法推导出AUC的置信区间CI 95%,用于评价AUC的不确定度;SN和SP 95% CI通过自助复制得到。

为了允许多重测试,两种类型的测试都使用Bonferroni校正进行了调整。由于主要假设属于逻辑回归模型,所有其他方法都与该模型进行了比较,并使用0.05/4 = 0.0125的阈值来定义在调整多重性后的显著结果。

所有的分析都在R版本3.5.1和Python版本3.0中进行。

结果

总共有379个样本被纳入分析。训练和验证集分别包括191例患者(96例PDAC病例和95例对照组)和188例患者(103例PDAC和85例对照组)。对样本的特征进行了平衡1).训练阶段结束后,将所有算法应用于验证集。数字1logistic回归、神经网络和NF技术检测PDAC病例的ROC曲线。ROC曲线上的圆点给出了由SVM和RF提供的SN和SP的特定值。Logistic回归和NF技术的AUC相同,为0.94 (95% CI: 0.91-0.97),略高于神经网络的0.93 (95% CI: 0.9-0.97);然而,差异并不显著(p逻辑回归vs神经网络和= 0.26pNF技术vs NN = 0.24)。固定SP为0.9时,logistic回归的SN为0.81 (95% CI: 0.7-0.89), NN为0.81 (95% CI: 0.63-0.95), NF技术为0.87 (95% CI: 0.72-0.95)(见表2).由于支持向量机和射频算法的结果不是连续的,这些都包含了它们所提供的实际特性。

表1训练集和验证集中的案例和对照的详细信息。
图1:用逻辑回归、神经网络、神经模糊技术、随机森林和支持向量机解释的胰腺癌(PDAC)病例尿液生物标志物的性能特征。
图1

圆点给出了由随机森林和支持向量机提供的灵敏度和特异性的特定值。LR逻辑回归,NN神经网络,NFT神经模糊技术,RF随机森林,支持向量机支持向量机,ROC曲线下AUC面积。

表2切点敏感度、特异性、曲线下面积(AUC)。

为了评估不同算法在固定特异性下灵敏度差异的显著性,采用McNemar精确检验,并利用logistic回归对四种算法的多重比较进行调整。如表所示2,没有一种方法明显优于逻辑回归,这意味着零假设不能被拒绝。在PDAC早期和晚期的亚组分析中(表3.),性能相似,逻辑回归与其他技术之间的AUC差异可以忽略不计。因此,利用所有可用数据,在PancRISK中实现逻辑回归。

表3 PDAC早期和晚期亚组曲线下面积(AUC)。

为了分析CA19-9(一种常用的胰腺癌生物标志物)是否与已开发的PancRISK互补,在血浆CA19-9测量可用的数据子集中对两者进行评估。根据提供0.9特异性的阈值,PancRISK将样本分为“正常”或“异常”,而对于CA19-9,使用临床使用的截断值37 U/mL。表格4显示了使用PancRISK和CA19-9 37 U/mL截止值被分类为“正常”和“异常”的健康和PDAC样本的数量。“PancRISK或CA19-9是Abnormal”规则的特异性为87/91 = 0.96,敏感性为144/150 = 0.96。

表4使用PancRISK和CA19-9截止值37 U/mL对健康和PDAC样本的子集进行分类。

讨论

随着发病率的增加,在检测和治疗方法上没有重大改进,PDAC顽固地仍然是少数预后异常差的癌症之一。我们相信,在仍处于完全可切除阶段的早期癌症检测中,使用非侵入性检测可能对改善胰腺癌患者目前惨淡的预后至关重要。由于即使结合了一些众所周知的风险因素,加上或不加上PDAC症状(由于其发生较晚且非特异性),总体风险的增量也相当小,基于分子生物标志物的风险预测模型更有可能加快PDAC的早期检测。

在本研究中,为了构建基于生物标志物的风险评分,我们使用尿液生物标志物数据比较了五种不同的分类技术:逻辑回归、神经网络、射频、支持向量机和NF技术,发现所有这些技术的表现都相似,因此不能拒绝关于它们相等的零假设。由于任何更复杂的方法都不能优于逻辑回归,因此我们将其应用于PancRISK评分的构建中。在所有使用过的算法中,它是最容易实现和解释的,这一事实证实了这种选择。

随后将PancRISK的性能与CA19-9血浆进行了比较,并在有匹配测量值的数据子集中进行了比较。结果表明,该组合对PDAC检测具有很高的敏感性和特异性。

PancRISK的预期用途是将患者分层为风险正常(“正常”)或升高(“异常”)的患者,在后者组中进行进一步的、更昂贵的和有创的临床检查。因此,PancRISK可用于有家族病史和遗传背景的个体的监测,或用于因胰腺炎性疾病(如慢性胰腺炎)而风险增加的患者。此外,在ENDPAC评分为中等的PC-NOD组中评估模型也很有趣。17

我们的研究有几个局限性,最主要的一个是,虽然我们的目标是在尽可能早的阶段发现癌症,但在我们的数据集中,大约一半的PDAC病例是晚期患者。这是由于在发现早期疾病的PDAC患者方面存在挑战,因为目前大多数患者是在疾病局部晚期或已经转移时被诊断出来的。同样,我们也用健康的人作为具有遗传背景的个体的代表,直到我们可以获得这样的样本。另外的限制是结合分析PancRISK和CA19-9,这两种测量方法仅在一小部分患者中可用。然而,我们研究的主要优势是对五种不同分类算法的综合比较,这是我们的主要目标。由于在构建预测模型时只使用了5个预测因子,因此很容易满足每变量10个事件的经验法则。38因此,本文分析的大量数据使我们能够得出这样的结论:逻辑回归是建立PDAC风险预测的合适模型。

目前,PancRISK的性能需要在临床观察研究的背景下,在大量前瞻性收集的标本中进一步评估,包括单独和与CA19-9联合使用,这将对这种联合的预测能力给出明确的估计。