条文本

下载PDF

机器学习在胃肠道内窥镜检查:如何解读小说领域的实践指导
  1. Fons van der Sommen1,
  2. 珀斯de Groof2,
  3. Maarten Struyvenberg2,
  4. Joost van der Putten1,
  5. 蒂姆·波尔人1,
  6. Kiki•2,
  7. 埃里克J katryn Schoon3,
  8. Wouter Curvers3,
  9. 彼得德与1,
  10. 祐一森4,
  11. 迈克尔·伯恩5,
  12. 雅克·J G H M伯格曼2
  1. 1电气工程系,VCA组,科技大学的埃因霍温,埃因霍温,Noord-Brabant、荷兰
  2. 2胃肠病学和肝脏病学,阿姆斯特丹UMC-Locatie AMC,阿姆斯特丹,北荷兰、荷兰
  3. 3胃肠病学和肝脏病学,Catharina医院,埃因霍温、荷兰
  4. 4消化系统疾病中心,昭和横滨北部大学医院,横滨,神奈川,日本
  5. 5胃肠病学分工,温哥华总医院,英属哥伦比亚大学的,温哥华,英属哥伦比亚、加拿大
  1. 对应到雅克·J博士G H M伯格曼,胃肠病学和肝脏病学,阿姆斯特丹联电Locatie AMC,阿姆斯特丹1105 AZ,荷兰;j.j.bergman在{}amsterdamumc.nl

文摘

已经有一个巨大的增加胃肠道文学关注机器学习在内窥镜的使用。这个领域的相对新奇的评论家和读者提出了挑战GI期刊。欣赏科学的质量和新颖的机器学习的研究,对技术的理解基础,常用的技术是必需的。临床医生往往缺乏这种技术背景,虽然机器学习专家可能不熟悉日常实践的临床意义和影响。因此,人们越来越需要一个多学科,国际评估如何执行高质量的机器学习研究内镜。本综述的目的是提供指导读者和评论家的同行评议的GI期刊允许最相关的关键评估机器学习研究的质量要求。共同趋势的论文概述及其潜在的缺陷,提出了综合素质要求在六个包罗万象的主题:术语、数据、算法描述、实验设置、解释结果和机器学习在临床实践中。

  • 内窥镜检查
  • gastrointesinal内窥镜检查
  • 计算机图像分析
https://creativecommons.org/licenses/by/4.0/

这是一个开放的分布式依照创作共用署名4.0条Unported (4.0) CC许可,允许他人复制、分配、混音、转换和发展这项工作为任何目的,提供了最初的工作是正确地引用,执照的链接,并表明是否变化。看到的:https://creativecommons.org/licenses/by/4.0/

来自Altmetric.com的统计

请求的权限

如果你想重用任何或所有本文的请使用下面的链接,这将带你到版权税计算中心的RightsLink服务。你将能够获得快速的价格和即时允许重用内容在许多不同的方式。

介绍

在过去的几十年,在胃肠病学内窥镜成像质量的急剧增加。所有当前最先进的内窥镜系统配备高清白光内窥镜光学色觉检查(HD-WLE)和预处理技术。因此,在内镜已经从可视化诊断挑战解释。这一转变,结合增加现代电脑的计算能力,应用扫清了道路机器学习在内镜辅助endoscopist解释这些高质量、多峰性图像。在一些医疗领域,如放射学和病理学,使用机器学习已经取得不错的效果。1 - 5最近,有一个巨大的机器学习增加内窥镜文学。6 - 12深度学习与人工神经网络的引入进一步加剧了这一增长。13尽管深度学习提供了机器学习的有力工具,其应用与陷阱。相对新奇的这个领域,越来越多的机器学习研究构成挑战的评论家和读者内镜GI期刊,因为报道研究的质量差别显著。14欣赏科学的质量和新颖的机器学习的研究,对技术的理解基础,常用的技术是必需的。临床医生往往缺乏这种技术背景,虽然机器学习专家可能不熟悉的日常训练的临床意义和影响。本综述的目的是指导同行评议的GI期刊的审稿人和读者都在如何解释机器学习的研究在内窥镜检查,并允许最相关的关键评估这些研究的质量要求。

我们将首先解释最相关的通用机器学习方面的内窥镜检查。我们专注于共同的趋势及其潜在的缺陷,然后提出相应的基本质量要求。这是集群分成六个包罗万象的主题:术语、数据、算法描述、实验设置、解释结果和机器学习在临床实践中。

术语:清晰的沟通的基础

应用机器学习的复杂的技术科学领域的临床内镜可能导致术语,容易误解、歧义和混乱。从工程和医学科学家之间的合作,每个都有自己的专业术语和专业知识,容易导致沟通障碍。这种分离是显而易见的,在许多出版物在内窥镜检查机器学习,随着部分描述的临床设置算法的研究和技术背景常常感到完全断开。在本节中,我们提供了一个依据明确的跨学科交流通过定义最相关的技术术语在概念层面的读者内窥镜GI期刊、总结表1。更广泛的解释常用的技术术语,但不解决在评估中,可以找到表2

表1

机器学习中最常用的术语的概述文献综述(解决)

表2

机器学习文学中常用的术语的概述,本文并没有进行进一步的描述

一般(mis)使用术语

机器学习

机器学习领域的目标是根据给定的数据,建立数学模型对新的预测能力,看不见的数据。当给定的数据提供一个特定的标签,例如‘变态’或‘non-dysplastic’,这就是所谓的监督学习,当没有(金标准)与数据相关的标签,这叫做无人管理的学习。而监督学习旨在预测新数据点的标签基于模型从标签的例子,非监督学习的目标是发现底层的数据结构,例如,预测数据点是相似的。后一个方面可以帮助金本位时不可用(例如,由于数据集的大小),或在这种情况下,没有明显的黄金标准,一个是只把数据分割成有意义的团体共享某些属性。流行的“人工智能”一词(AI)通常是交替使用“机器学习”,但它地址一个更广泛的领域,还包括推理和自然语言处理。大致说来,而机器学习只能适用于特定的任务,人工智能的目标是开发一个更一般的形式的自主学习。

特性

机器学习算法产生一个预测之前,输入数据总结在一个紧凑的表示,这是一般的数字数组。这种表示法表示的属性数据,帮助独立的不同的类或集群。这个表示的数字被称为功能。例如,当分离从橙子、柠檬的形状和水果的颜色可以用数字表示,作为有用的特性分离两类。在传统机器学习中,这些特性通常是由研究人员基于人类选择的特定领域的知识。相比之下,现代的深度学习方法学习最好的特性自动基于大量的数据。

深度学习

虽然常作为一种机器学习,深入学习是机器学习的一种形式,在深(人工)神经网络(款)。松散的灵感来自于哺乳动物的大脑,一款由几层人口相互关联的人工神经元。人工神经元在生物神经元,每收到一个加权在前一层神经元的输入和超过某一阈值时“火灾”。每个神经元响应不同的模式,一层抽象的网络将作为一个步骤,从原始图像像素的输入网络,结束在一个类标签输出。在第一层神经元的反应基本特性,如点和边缘,由下一层组合成简单的形状和所使用的层构造对象后,最后导致神经元的深层火如果某些组合图像中物体的存在,导致预测图像的类。通过这种方式,获得输入数据的分层表示的网络:像素对比差异使边缘,边缘使基本形状(如圆圈、线条、矩形),形状使对象(例如,一个鼻子,嘴巴和眼睛)类和对象导致预测(例如,一张脸)。同时介绍了人工神经网络几十年前,突破性的结果实现了直到最近,研究人员发明的技术培训是至关重要的更深层次的网络,也就是说,有一个更大的层数。这些网络的深度是至关重要的捕捉存在复杂的关系,在一个图像。

学习和pretraining转移

深层神经网络训练通常需要大量的标签数据(即至少成千上万的样品)。这并不总是可用的数据量为特定的机器学习任务,特别是医疗应用程序。一个名为转移的方法学习减轻这个问题首先训练的网络大数据集是现成的(如ImageNet标签15)(ImageNet是一个公开的数据集120万标签图像,包含1000个对象类别,如“枕头”,“火烈鸟”和“注射器”),然后利用目标分类任务的学习网络(如损伤分类)。这可以通过使用两种不同的方法:(1)使用整个网络作为特征提取器(见也特性没有进一步优化网络,然后火车一个简单的分类方法使用这些特性(也称为CNN代码)或(2)优化网络的参数通过网络培训的一些层使用目标数据。16最优策略取决于目标问题的数据集的大小和它相似的数据用于pretraining。最初的训练在一个不同的数据集称为pretraining,它允许网络已经学习通用的模式和结构,也用于目标分类问题。

Hyperparameters

几乎所有的机器学习方法有很多可选的设置定义的调查员。这些设置被称为hyperparameters和影响行为的模型,可以用来优化其性能。这是与设置在相机,照片,您可以手动设置曝光时间和孔径,从而改变不同条件下图像质量。一般来说,两种类型的hyperparameters相关神经网络:hyperparameters(1)模型,定义的架构模型(例如,数量和类型的层)和(2)训练hyperparameters确定培训过程(如regularisation的学习速率和类型)。

计算机辅助检测和计算机辅助诊断

机器学习算法可以应用于协助解释医学图像,通常被称为计算机辅助检测(凯德)和计算机辅助诊断(CADx)。凯德和CADx算法之间一个重要的区别是,第一个开发为主检测病理学,而CADx算法设计分类病理学(即凯德检测算法红旗结肠息肉;CADx算法分类为腺瘤或增生性)。最后,机器学习算法可以应用于指导干预,通常被称为计算机辅助干预例如,当一个算法检测到损伤,帮助指导活检针使用超声波成像。在本文中,我们关注凯德和CADx算法,因为这些代表绝大多数的出版物在内窥镜文学。

培训和过度拟合

不同的机器学习数学模型存在的关系来描述一个输入(如图像)和所需的输出(如标签)。支持向量机,随机森林或神经网络模型很受欢迎的选择。虽然以不同的方式构造不同的机器学习模型,他们使用数据来建立模型。建立这样一个模型基于数据被称为训练,因为该模型可以从给定的例子。在培训期间,由数学优化方法,在捕捉模式将逐渐提高的输入-输出关系给定的训练数据的例子。例如,给定一组图像息肉和相关类的息肉,它将学会预测类,基于图像。一旦训练模型,它还应该为新数据工作,并没有用于训练模型。这个性质叫做概括。如果模型只适用于训练数据,但不适合新数据,这就是所谓的过度拟合,作为训练数据的模式过于紧密安装,不概括对新数据(图1)。特别是对于小集和更复杂的模型,过度拟合提出了一个严重的问题。

图1

过度拟合训练数据的图形化显示。在这个图中,左边的面板显示数据点的两个类,类的用颜色表示。中心面板显示相同的数据包括预测模型的训练数据为背景颜色。过度拟合模型清晰可见的孤立点红色类的,而不是捕捉类作为一个整体。右边的面板显示了不同的预测模型作为背景颜色。尽管这个模型犯错(红点可以看到蓝色背景,反之亦然),这个模型展示了更好的概括,它捕获类分布而不是单个的点。

培训,验证集和测试集

在建立在内窥镜检查机器学习模型,可用的数据通常分成三个不同的组:(1)训练集,验证集(2)和(3)测试集(图2)。训练集用于构建模型(例如,训练一个模型,预测一个标签基于图像特征)。检查模型不是overfitted训练数据,验证集。使用这个单独的集合,一个可以验证该模型也适用于看不见的数据。此外,几乎所有的机器学习模型在一定程度上受所谓hyperparameters,选择最优的选择也可以基于性能验证集。最后,第三个部分是用来评估模型与最优hyperparameters训练。这部分的数据被称为测试集。重要的是,选择hyperparameters不是基于模型的性能测试集,因为这将让模型偏向于看不见的数据,从而创建一个类型的过度拟合。这种效应也被称为数据泄漏,因为数据应该只用于测试性能也被用来优化模型。

图2

可视化的训练,验证和测试集和过度拟合,适当使用。训练数据集被用来训练模型,其次是验证。不令人满意的性能,模型改变,接受再培训,再一次验证。令人满意的性能,然后测试模型在一个单独的测试集来评估模型的性能。

交叉验证

带注释的内窥镜的可用性数据通常是有限的培训和验证CAD系统,可以使用一个特定的验证过程最优地利用可用的数据,被称为交叉验证。在这种验证方法中,数据被分成相等的部分,通常4,之后一部分作为验证集,而其余(在本例中3)部分用于培训。这是重复共有四次,每次都有不同的验证集,之后的四个实验是汇集成一个点估计,产生的结果更健壮的数据变化。图3图形化的显示与四倍交叉验证数据集。使用交叉验证时,重要的是,数据的分区上执行一个病人基础:数据从一个病人只能发生在一个四部分组成。这个方法时不小心,交叉验证可能会提供一个有偏见的过高估计算法的性能。例如,当研究人员现在交叉验证结果相同,不同的息肉患者中包含多个“折叠”(即,在训练和验证部分),这可能会导致一个过高的估计模型的性能。一个好方法来处理一个不平衡的数据集,例如,由一个包括许多息肉患者和只有少数其他患者的息肉,是分层数据集的大小和类平衡。注意,在优化hyperparameters (图2使用交叉验证),不过,一个独立的测试集估计算法性能是必要的。

图3

图形显示的四倍交叉验证。

数据:机器学习算法的燃料

机器学习算法,特别是那些使用深度学习技术,严重依赖于大型带注释的数据的可用性。然而大规模、高质量的代表数据的采集是具有挑战性的,因为两个数据集的数量和质量是重要的为获得最佳性能,无论算法结构。下面我们描述几个频繁发生缺陷。

选择性偏差、过度拟合和代表性的数据

重要的是要意识到机器学习算法将在任何区别的特性,让他们更好的独立数据,而不管这个区别的特性是合乎逻辑的,临床相关的或明显偏见的结果。13一个很好的例子是一个研究中,开发了一种算法,识别肿瘤组织学幻灯片。算法高效乍一看似乎是,然而事实上承认墨水痕迹被发现,病理学家来表示而不是真正的肿瘤形态学异常区域。

大多数机器学习研究内镜的使用回顾收集的数据集,经常收集在先前的研究与严格的选择标准。17这些数据集通常从只有检索数据库专家中心,包含许多类似的样品,不包括成像对象的自然变化,英国和成像设备在日常实践。18这些研究因此容易选择性偏差(即随机选择的数据并不完全代表研究人口,从而限制了结果的外部效度)和过度拟合,机器学习的一个普遍现象。13过度拟合导致高估了结果缺乏代表性一般内窥镜设置。过度拟合的风险进一步增加时,只有静态的,使用内窥镜图像,因为英国往往只捕获和储存高质量的图像。视频,包括30个视频帧每秒,通常包含一个更大的多样性在图像质量(例如,通过模糊的存在,粪便或部分被遮挡的病变)。8 10因此视频分析可能会添加到CAD系统的鲁棒性,降低过度拟合的风险,而基于图像的方法。

一般过度拟合的风险降到最低是使用大型和异构数据集。使用多个异构数据集是首选,因为异构训练导致鲁棒性,是一个最好的措施,防止过度拟合。这样的数据集应该是独立的,也就是说,他们至少表现出没有重叠的病人,但最好也不同操作员等其他方面,医疗中心或收购协议。前瞻性收集的数据集不太容易选择性偏差,往往更类似于普通内镜设置。也就是说,大型前瞻性收集的数据集的集合很麻烦。然而,前瞻性收集的数据集应该优先于回顾性收集数据集在测试集。

启用识别偏差和过度拟合在CAD研究中,重要的是,在训练的过程中使用的所有数据集,验证和测试是定义良好的。数据集包含的完整描述至少:数据来源(如内窥镜数据库中随机搜索,现有的研究对象、潜在协议);包含和排除标准的图像;数量的收集和排除图片和数量的病人。最后,一些基本的技术信息的图像和任何预处理技术都应该声明(如决议、文件类型)。19此外,重要的是要考虑这些技术方面在规划建设这样一个数据集,因为他们可以结果在实时环境产生负面影响,甚至导致过度拟合。例如,如果如JPEG有损压缩标准使用在多中心的一项研究中,很可能稍微不同的压缩设置为每个中心使用。一个算法可以利用这种偏见学习一定的压缩类型的图像更可能是某个类的。这是一个特别臭名昭著的类型的偏见,因为现代压缩标准优化生产的文物,不能被人类的视觉系统。表3显示了一个完整的概述基本数据需求。

表3

检查表的关键元素中描述机器学习论文,结构化的手稿部分

黄金标准的发展

旁边的多个独立的数据集,最好应该大的和异构,感兴趣的标签的可靠性至关重要。我们只能建立一个可靠的模型,如果有关预测相关特性的结果就是“真”。这意味着对于所有我们正在使用的数据集的构建模型(学习、验证和测试),感兴趣的标签应该明确建立。这就是所谓的黄金标准(或地面实况)算法的输入。CADx算法,黄金标准输入一般是相应的组织学图像。这样一个分类模型支持基于图像的预测的组织学的新形象,例如,正常和肿瘤,或腺瘤与增生性息肉。10个20 21然而应该指出的是,组织学CADx并不总是首选的黄金标准系统,例如,由于抽样误差和interobserver病理学家之间的可变性。22例如,在某些情况下,光学切片的专家可能优于病理学评估。

提供一个合适的黄金标准本地化算法更具挑战性,因为这些对图像进行分类,一般有图像中确定病变部位。这后一种约束适用于大多数凯德算法,因此他们通常训练有素的手工注释。然而,对于本地化的损伤在一个图像,几乎是不可能获得pixel-precise注释根据病理结果。因此,除了组织病理学黄金标准标签的形象,描绘由多个英国提供了一个合理的估计图像中病变的位置。这是一个艰难的过程,通常由英国专家。

由于这个原因,经常一个专家注释用于训练和/或测试。18 23日24重要的是要意识到,这样的黄金标准注释只是一个近似实际的黄金标准,也就是说,潜在的病理的分界线。因为专家倾向于不同意pixel-precise注释,导致interobserver可变性,单一的专家品是主观和不准确。通过包括多个专家对每个图像描绘,可以区分模糊图像区域和领域专家的共识。特别是对于靶向活检,专家共识提供了有价值的最优估计活组织检查的位置。图4显示一个模范形象微妙的巴雷特的瘤形成的三个专家被要求显示病变的边界。尽管这三个专家同意的中心部分病变(“甜点”),他们在其他部分不同意。“甜蜜点”逻辑上包含肿瘤可能性更高,因此包含更多的信息,因此作为黄金标准比个人专家描绘。25应该强调本土化功能的CAD算法只会提高肿瘤病变的主要检测概述,使靶向活检的非专业英国否则会错过了病变。不需要一个精确的组织学检查相关描述以来的实际切除病变将使用不同的完成内镜方法(如光学与光学放大chromoendoscopy),通常在另一个会话和更有经验的endoscopist内窥镜。

图4

模范微妙的巴雷特的肿瘤,并由三个专家(黄色,蓝色和绿色)。部分的病变(“甜点”)认可所有专家(黑色),但其他部分只承认一个或两个专家。转载来自伯格曼J, de Groof AJ Pech O, et al .交互式网络教育工具提高检测和描述的巴雷特esophagus-related瘤。胃肠病学156:1299 2019;1308年,爱思唯尔的许可。

除了黄金标准的可信度评估预测,利用interobserver变化越来越感兴趣的话题在机器学习社区和有助于使更健壮的模型。26

使用多个专家注释每箱因此首选凯德算法建立一个黄金标准。最小化interobserver可变性的黄金标准注释,注释说明专家应提前确定避免一个场景,一位专家注释只总值异常病变的一部分,然而,其他专家试图精确地确定病变的更微妙的外围。在出版物中,黄金的质量标准的注释应该清楚地描述(多的专家,他们的资历和pre-delineation指令)。

描述的视频,包含成千上万的视频帧,通常是由非专家。这些必须品是由专家确认,以确保准确和正确的黄金标准。

数据所有权

使用临床病人数据(商业)CAD系统的发展是世界上目前正在辩论的AI,涉及道德和监管问题。这场辩论在内镜超过机器学习领域的但是是至关重要的,因为所有的研究小组使用临床病人数据没有具体同意将面对当地和国际立法当他们寻求的商业化产品。目前是一个未满足的需要统一的立法解释这个话题。27等待一个普遍接受的法律解释问题,作者应该提供详细信息伦理批准他们的科学论文。

关键信息

  • 使用多个风险最小化过度拟合,最好是独立的数据集,这应该是大的和异构。

  • 提供一个完整的数据采集过程的描述:这允许评估潜在的选择性偏差。坚持一个显式的讨论选择偏差和过度拟合的限制部分所有出版物。

  • 描述图像的基本技术信息和任何预处理方法的使用。

  • 定义一个可靠的黄金标准的所有数据用于训练,验证和测试模型。

  • 凯德算法,算法定位病变在图像和视频,可靠的模型应该包含黄金标准输入注释由多个专家。

  • 目前是一个未满足的需要统一的解释数据所有权在人工智能领域的立法。应该鼓励作者提供详细信息伦理批准有关病人数据的使用在科学论文。

算法描述:相关性和完整性

上文中提到的,有许多不同的方法来构造一个机器学习算法。目标受众的GI期刊,一些见解的动机的选择算法架构对这项研究的一个基本的了解是至关重要的。然而,解释算法架构的技术背景是具有挑战性的。许多研究方法目前广泛的技术细节,从而压倒性的临床医生技术术语,他们不能解释。在最近的一次审查,立顿,作者建议,这一趋势可能造成的渴望说服审查员的技术深度的研究。28一个完整技术的深入描述算法和其新奇是重要的,允许足够的同行审查和告知读者有技术背景。因此,我们认为作者应该包括完整的技术细节补充材料的临床出版。或者,当先前的技术出版物存在与一个完整的技术系统的描述,作者应该参考这项工作的技术细节,同时解决临床中最重要的元素。

对于一个好的评估临床目标受众的可读性,迭代与临床的合作者是至关重要的。应该鼓励技术作者出版前咨询医生。作为一个经验法则,为每个术语应简短的解释性描述为目标受众提供洞察力。临床论文的可读性,然而,也会受到评论家的技术背景。他们有时会要求具体的技术细节,不适合临床的主要文本。GI期刊应特别注意保护CAD文件的可读性的指示他们的代码开发者和评审者。

关键信息

  • 提供一个基本的描述算法的结构和清晰的动机最相关的技术选择。

  • 广泛的技术细节描述在不同的技术出版物,或补充材料。

  • 与临床的合作者协商,以确保论文的可读性。

试验装置:generalisability是关键

在机器学习中,一项研究的结果取决于数据的数量和质量,以及模型的实验设计。在许多出版物,最重要的方法论的局限性与不恰当的选择对模型的实验设计。在这方面,三个问题才是最重要的。

选择性能指标和他们的动机

有不同的方法来表达一个模型的性能。不同的机器学习任务,描述了一些定义良好的指标:敏感性,特异性曲线下的面积两种分类,混淆矩阵意思是平均精度多类分类和十字路口在联盟(借据)或骰子系数分割(即描述)。29日然而,有时,这些指标并不完全反映所需的算法结果。例如,当大量interobserver变异性存在边界的黄金标准注释,这些地区可以考虑重要性较低的比有共识的领域,如前款所述。在这种情况下,这不是明显的应用借据或骰子,有多个细分,是正确的,而这些指标只能处理单一金本位分割/形象。在这种情况下,可以使用稍微改编版的一个指标25 30或目标明确模型interobserver可变性和这个合并到评价指标。31日偏离设置的默认度量时,重要的是要提供一个清晰的理由,为了避免指标会仅仅因为他们取得了最有利的结果,这将导致选择偏差和过度拟合。

方法验证和测试

实验设计的另一个关键参数的选择方法是机器学习算法验证和测试。正如前面提到的,通常包含几个hyperparameters机器学习模型,可用于优化其性能。为了测试训练模型的性能,通常使用一个单独的测试集,包含的数据没有被用于训练模型。在运行这个测试集训练模型,人们可能会调整现有的hyperparameters模型根据其性能测试集。这通常会导致过度拟合的一种形式被称为“数据泄漏”(如测试数据中包含的信息实际上是使用(即“泄漏”)来训练模型,而不是只来测试其性能)。数据泄漏从而经常导致误传和过高的估计模型的实际性能。

为了避免数据泄漏,通常使用一组验证实验设计中的一个中间步骤。这个验证步骤然后用于优化模型的hyperparameters,从而防止数据泄漏测试集。在这个“培训set-validation set-test设置序列”,训练集用于优化模型的性能预测的黄金标准训练集图像,然后使用验证集的优化模型的性能预测验证集的黄金标准图像的优化模型和测试集的hyperparameters用于关联模型的整体性能预测新数据集的黄金标准模型尚未暴露。

的相对股票之间找到合适的平衡这三个不同的数据集可能是一个挑战。首先,充足的数据是必要的训练好的模型:该模型应该“看到”足够的例子充分确保模型可以预测感兴趣的结果。第二,验证设置应该足够大,以找到合适的hyperparameters,防止过度拟合。最后,测试集应该足够大,异构模型来反映在“现实”的表现,有足够的统计能力的有意义的估计性能指标。后者约束是最重要的保证结果的有效性和永远不能妥协的有更多的训练例子。理想情况下,多个独立的测试集是用来评估模型的鲁棒性对不同医疗中心,收购协议或病人的种族。

此外,平衡各自的班级规模应该仔细考虑。大多数报纸报告表现统一的类分布(例如,与肿瘤病变,50% - 50%的病例控制),虽然这是很少在实际临床中,疾病的发病率一般远低于50%。训练一个大约制服类分布是出于防止模型开发要么偏向的类。然而,研究人员应该报告预期的类概率在临床设置和推断它们的数量从一个统一的测试意味着在设想应用程序设置。表4显示了一个说明性的例子所发生的系统性能良好的敏感性和特异性,发病率下降,导致大量虚假的检测,可以大大稀释真正的检测数量。

表4

假阳性的预期数量(FPs)真阳性(TP)固定性能和不同的发病率

内镜在大多数机器学习研究、数据采集由数据可用性和方便比的最优实验设计。这常常会导致使用一个数据库的手动分成训练集和验证集和测试集也缺乏或来自同一个数据库。这种情况下承担着重要的局限性。首先,因为三个子集用于培训、验证和测试来自相同的数据集,这些子集将均匀,这将导致模型的良好的性能,当进行三组。然而,整个数据集可能会患有选择性偏差,可能不反映真实的暴露和自然变化。第二,三组的同质性将不允许潜在的过度拟合训练阶段或hyperparameter优化过度拟合的验证阶段了。这三个数据集都有相同的背景噪音,这将没有直接承认,但结转整个training-validation-test集作为模型的相关信息。第三,创建一个手动分割训练集和一个内部验证设置从一个数据集可能创建并不是独立的子集。这拥有特别如果多个图像是来自相同的病人(如800图片来自50个病人)是由子集划分图像而不是病人。在这种情况下,训练集和验证集将包含不同的图像,但源于相同的病人。 Such images are clearly not independent, and the validation set will generate results that are too optimistic since they reflect overfitting. Therefore, the optimal experimental design of a machine learning model in endoscopy incorporates a training phase, a validation phase and a testing phase. Ideally, these should consist of independent datasets and not originate from a manual split of the same database.

涉及hyperparameters和方法来确定其最优值

第三个关键因素在机器学习算法的实验设计涉及到多个测试不同模型和挑选的只有表现最好的算法。算法发展的早期阶段,选择关于一般模型架构,例如,你可以使用不同的cnn,整体学习不同的技术和不同的交叉验证方式。虽然这是好的做法,这些早期的阶段,在此期间它有助于选择最有前途的候选人时,不应将其重新设计的架构在以后阶段算法的发展。当测试大量的模型,很有可能一个模型在测试集将产生好结果。一个常见的趋势是,作者只选择表现最好的算法,和漠视其他模型(即“挑选”)。类似的效应发生在作者描述一个交叉验证的过程,在这几个模型训练和评估(每个交叉验证一个折叠),然后继续他们的分析只表现最好的褶皱。这是矛盾的,因为交叉验证的基本原理是平均异常值,而不是突出。

关键信息

  • 清楚地描述算法的试验装置和选择适当的性能指标。

  • 意识到过度拟合的风险当分割数据集和不优化hyperparameters测试集。

  • 确保培训,验证集和测试集总是分裂患者。

  • 报告的完整概述所有评估模型,以防止“挑选”表现最佳的算法。

解释的艺术效果

机器学习中正确解释的结果是具有挑战性的,因为它的多学科性质。虽然承认事实,几乎所有研究至少会受限于某种形式的选择偏差和过度拟合,作者的建议是谨慎当解释结果和结论。

结果应该解释光的两个模型的实验设计的局限性和使用的数据集的质量和generalisability和临床应用模型的设想。例如,巴雷特早期的CAD系统设计用于检测肿瘤应该测试在测试集上细微的损伤,很难探测到英国。测试的CAD系统数据集包含明显的病变可能导致精度高,但代表了更少的临床实用性。合理的建议和结构化的方法。这始于一个逻辑顺序表示的结果,基于预设结果的措施。这些结果措施(或模型的性能参数)应该基于设想应用在临床实践中,并且最好与endoscopist性能基准测试。这是至关重要的评估是否以及在多大程度上的CAD系统将endoscopist有益的价值。当开发主要检测结肠息肉的CAD系统,该系统应测试视频没有关注任何感兴趣的特定区域,模仿日常实践范围撤离期间,息肉可能错过的地方。测试这样一个系统在专用的视频息肉,然而,不是预想的应用程序在日常实践中,由于主要检测系统根据定义是不关注任何异常。技术科学家们倾向于执行各种实验来评估算法的总体性能,即使实验和性能参数偏离一个合乎逻辑的临床应用。 A driving force for this phenomenon is that technical science journals tend to focus on the implementation of technical novelty in machine learning, rather than to value its potential clinical relevance. Yet, in a clinical paper these experiments merely distract readers from assessing the value in clinical practice. This again highlights the importance of having continuous multidisciplinary iterations in scientific collaborations, to ensure that the right message is conveyed to the target audience.

尤其是在早期的研究中,使用小,回顾性收集数据集可以使它具有挑战性的推断结果临床设置和结果进行解释时应特别谨慎。在这方面,作者应该承认这些限制并描述对临床实现设想的步骤,包括在这个过程中他们希望所面临的挑战。

关键信息

  • 总的来说,结果应该谨慎和在一个结构化的方法。

  • 主要结果应该基于参数模型的设想的临床应用。

  • 所有机器学习文件应该包括一个区域,限制对数据选择偏差,过度拟合和generalisability是显式地讨论。

  • 对临床实施必要的步骤应该清楚地描述。

机器学习在临床实践中的作用

什么是机器学习在内窥镜的未来角色吗?目前,最常见的应用机器学习系统的内窥镜检查的重点是病变检测(凯德)和描述(CADx)。大多数研究关注结肠息肉,小肠出血病灶,胃癌和食道癌。最近,越来越多的研究描述了使用视频分析和其潜在的优势使用静态图像。视频算法有几个理论优势基于图像的算法。静态图像的视频基本上是一组随着时间的推移,它包含时空信息,使用单独的静态图像时不可用。通过加入这样的时空关系CAD可能提高性能:例如,两个连续的视频帧几乎重叠的空间预测更有可能代表一个肿瘤病变比两个连续的视频帧的空间预测没有重叠。然而,视频的方法未必比一个基于图像的系统。这尤其适用于检测相对微妙的病变。例如,早期肿瘤病变巴雷特食管很难检测内窥镜:他们是明显的形态学变化与低于其他CAD目标如结肠息肉或小肠血管畸形。 In addition, Barrett’s lesions occur against a background mucosa that much more resembles the neoplastic abnormality than the normal colonic mucosa or small bowel mucosa do for colonic polyps and angiodysplasias, respectively. Optimal endoscopic visualisation of Barrett’s oesophagus therefore requires optimal image quality by a combination of adequate insufflation, clean mucosa and no blurring due to motility, breathing and patient movement. During real-time inspection of Barrett’s oesophagus, most expert endoscopists inspect the Barrett’s segment with video endoscopy and then strive to obtain an optimal still image in overview, by sequential freezing/unfreezing the video sequence, thereby disregarding images of suboptimal quality, until an optimal still image is acquired. When the endoscopist is asked to capture only video input for a Barrett’s CAD algorithm, these quality constraints cannot be guaranteed, potentially leading to (1) missed lesions due to insufficient video quality and (2) spurious detections distracting the endoscopist. Moreover, whereas the endoscopist would actively control image acquisition when capturing optimal still images for an image-based algorithm, a video-based alternative may give the false impression that a simple video recording of the Barrett’s segment will suffice. As a consequence, the algorithm will be supplied with inferior quality information compared with a still image-based approach.

多个商业当事人,包括三大内镜制造商,和许多著名的研究机构,目前开发的CAD系统。这些政党已经提出了原型系统,如WavSTAT4光学切片系统(宾得医疗),EndoBRAIN系统(奥林巴斯),胃肠道天才智能内镜模块(美敦力公司)和NvisionVLE系统(NinePoint医学)。这些都是介绍为“游戏的规则”领域的内窥镜检查,然而研究报告结果CAD的实现在实时过程仍然稀缺。这表明基础研究到临床应用的发展是一个复杂的过程,需要强大的多学科协作。

商业聚会,然而,在他们希望保护自己的知识产权,将最有可能产生“黑箱”系统,没有科学证据支持。这是一个现象与光学色觉检查十年前:一个概念上有趣的和有前途的技术介绍,然而商业发射之前几乎没有科学证据。这部分是由阈值的预期临床许多CAD系统的实现将不会很高,因为大多数这些系统依赖于一个“低风险、高影响”的原则,虽然目前监管实体不一定认为人工智能是低风险。32一个假的预测算法在最坏的情况下会导致额外的活检,但算法可以发现癌症,可能已经错过了。此外,几乎所有的CAD系统现在视为second-readers,只是协助英国。33然而,这可能会导致大量的商业化CAD系统进行了测试,不良负面影响的一般信誉技术。另一方面,如果我们等待完美,我们将永远等待,我们会不必要地否认病人最好的护理时间点。因此,CAD系统已在体外环境上进行了全面试验,应该允许体内科学测试由监管机构,以进一步评估工具是真正有用的临床实践。这样做最好应该在国际多中心研究提供足够的统计能力(包括样本量计算),使评估的临床表现和CAD系统的鲁棒性。

领先的内窥镜检查社会该如何处理这些发展吗?临床前实现,理想情况下,所有的CAD系统应通过控制测试良好的临床试验。第二,为了客观地评价性能,使CAD系统之间的直接比较,不同种类的测试数据集可能会收集的内窥镜检查社会,在CAD系统可以检测性能阈值临床实现。这样的基准数据集应该满足一些需求。他们应该包含异构数据,代表自然变化的损伤外观和质量。其次,他们应该包含足够的样本大小。第三,这些数据将用于测量算法的性能,但不应该用于候选算法的训练。

内镜社会应该发挥主导作用,提供指导和建立质量要求。第一步可能是由指定的一个财团国际关键意见领袖在内镜在机器学习领域,达到共识以证据为基础的,机器学习的最低质量标准报告论文。随后这可能导致一个正式的国际指导方针,类似于统一的报告标准试验(配偶)的指导方针或三脚架语句。34 35

值得一提的是,在内窥镜检查我们应该批判性地评价所有新诊断工具,产生的附加价值和他们的陷阱。已经有冗余的胃肠内窥镜检查与性能的一个重要问题。新的诊断工具可能会加剧这种overutilisation。例如,CAD系统,使结肠息肉的主要检测也可能导致许多临床无关和冗余切除无害的增生性息肉,内镜程序的长度,增加医疗费用,病人负担。这些因素往往被忽视在评估新的诊断工具,但高度相关。这强调了预设的重要性的结果基于设想临床应用的措施。

CAD算法只能检测endoscopist展示给他们的是什么。虽然这尚未广泛审问,机器学习系统可能因此也有助于改善或内镜质量监测。36这些质量保证(QA)算法可能充当“裁判”内镜质量标准,例如,显示结肠表面积是错过了多少回调期间,当粘膜表面需要清洁,或结肠撤军速度需要慢了下来。论点可以说明,这对临床结果的影响可能超过一个特定的胃肠道病理检测工具。QA算法因此有可能逐渐成为内镜领域的兴趣。

关键信息

  • 大多数研究机器学习在内窥镜目前专注于发现和描述。

  • 研究报告实施CAD在日常临床相关改善的结果内窥镜实践很少。

  • 内镜社会应该发挥领导作用在建立CAD在临床实践中质量要求。

  • 新的机器学习工具应该批判性评价,平衡潜在的临床价值和过度使用内窥镜检查。

  • 质量控制内镜是一种很有前途的潜在应用机器学习。

结论

机器学习领域具有潜在的革命性的内窥镜检查。近年来,已经有一个快速增长的使用机器学习在内窥镜文学。这导致了一个未满足的需要多学科评估内镜机器学习研究的质量要求。在这篇文章中,我们启动了这个评价,通过提供洞察机器学习的几个重要方面。

引用

脚注

  • 种和张东健是共同第一作者。

  • 推特@FvdSommen

  • 种和张东健同样起到了推波助澜的作用。

  • 调整通知本文已经被修正,因为它第一次在网上发布。确认已经添加为图4传奇。

  • 资金作者并没有宣布具体资助这项研究从任何公共资助机构,商业或非营利部门。

  • 相互竞争的利益没有宣布。

  • 病人同意出版不是必需的。

  • 出处和同行评议不是委托;外部同行评议。