条文本

原始研究
筛选正常内窥镜大肠活检可翻译的图学习:回顾性研究
  1. 西蒙·格雷厄姆1,2,
  2. Fayyaz Minhas1,
  3. Mohsin Bilal1,
  4. 默罕默德阿里3,
  5. 绮华曾3,
  6. 马克·伊斯特伍德1,
  7. Noorul华1,
  8. Mostafa Jahanifar1,
  9. 艾米丽的英雄4,
  10. 凯瑟琳·多德3,
  11. Harvir Sahota3,
  12. Shaobin吴5,
  13. 陆麒1,
  14. 阿伊莎阿扎姆3,
  15. Ksenija贝奈斯3,6,
  16. 穆罕默德Nimir3,
  17. 凯瑟琳·休伊特3,
  18. Abhir Bhalerao1,
  19. 安德鲁•罗宾逊3,
  20. Hesham Eldaly3,
  21. 山E Ahmed Raza1,
  22. 基肖尔葛3,
  23. 大卫大镰刀刀柄2,3,7,
  24. 纳西尔Rajpoot1,2,3
  1. 1计算机科学部门,华威大学,考文垂、英国
  2. 2Histofy有限公司,伯明翰、英国
  3. 3病理学系,考文垂和沃里克大学医院NHS信托,考文垂、英国
  4. 4病理学系,莱斯特大学医院NHS信托,莱斯特、英国
  5. 5病理学系,东部萨福克郡和北埃塞克斯NHS信托基金会,科尔切斯特、英国
  6. 6病理学系,皇家伍尔弗汉普顿医院NHS信托,伍尔弗汉普顿、英国
  7. 7生物医学科学部门,沃里克华威大学医学院,考文垂、英国
  1. 对应到纳西尔Rajpoot教授,计算机科学系,华威大学、考文垂CV4 7 ez,英国;n.m.rajpoot在{}warwick.ac.uk;西蒙·格雷厄姆博士;simon.graham在{}warwick.ac.uk

文摘

客观的开发一个可判断的人工智能算法排除正常大肠内窥镜活检,节省资源和协助早期诊断病理学家。

设计图神经网络开发结合病理学家领域知识分类6591 whole-slides图像(WSIs)内窥镜从3291例大肠活检(大约54%的女性,46%的男性)为正常或异常(non-neoplastic和肿瘤)使用临床驱动的可判断的功能。一个英国国民健康服务(NHS)网站用于模型训练和内部验证。进行外部验证数据来自两个其他NHS网站和一个葡萄牙语网站。

结果模型训练和内部验证进行5054 WSIs curve-receiver下2080例导致一个地区的运行特性(AUC-ROC) 0.98 (SD = 0.004)和AUC-precision-recall (PR) 0.98 (SD = 0.003)。的性能模型,命名可判断的Gland-Graphs使用神经聚合器(鬣蜥),一致于1211年测试超过1537 WSIs的患者从三个独立的外部数据集意味着AUC-ROC = 0.97 (SD = 0.007)和AUC-PR = 0.97 (SD = 0.005)。在高灵敏度阈值为99%,该模型可以减少正常的幻灯片以供病理学家大约55%。鬣蜥还提供了一个可辩解的输出强调潜在的异常WSI的形式的热图以及数值将模型预测与不同的组织学特征。

结论模型取得了一致高精度显示其潜在优化病理学家资源越来越稀缺。可辩解的预测可以指导病理学家在他们的诊断决策算法,帮助提高他们的信心,为其未来的临床应用铺平了道路。

  • 内窥镜检查
  • 结肠腺瘤
  • 结直肠癌筛查
  • 结肠疾病

数据可用性声明

WSIs考文垂和沃里克大学医院NHS信托,东部萨福克郡和北埃塞克斯NHS信托基金会,和南沃里克郡NHS信托基金会将在成功应用PathLAKE数据访问委员会。相关信息获取IMP的数据队列中可以找到原来的出版。

http://creativecommons.org/licenses/by-nc/4.0/

这是一个开放的分布式条依照创作共用署名非商业性(4.0 CC通过数控)许可证,允许别人分发,混音,适应,建立这个工作非商业化,和许可他们的衍生产品在不同的协议,提供了最初的工作是正确地引用,给出合适的信用,任何更改表示,非商业使用。看到的:http://creativecommons.org/licenses/by-nc/4.0/

来自Altmetric.com的统计

请求的权限

如果你想重用任何或所有本文的请使用下面的链接,这将带你到版权税计算中心的RightsLink服务。你将能够获得快速的价格和即时允许重用内容在许多不同的方式。

已知关于这个主题是什么呢

  • 增加筛查结肠癌的早期检测将有明显的压力已经人手不足,超载的组织病理学资源在全球范围内,尤其是在英国。

  • 大约三分之一的结肠内镜活检报告为正常的,因此,需要最少的干预,但是活检结果需要2 - 3周。

  • 人工智能(AI)模型蕴含着巨大的希望减轻负担的癌症筛查诊断,但需要合并的病理学家域知识和explainability。

这个研究增加了

  • 本研究提出第一个人工智能算法,排除异常的正常大肠内窥镜活检与高精度跨不同的患者群体。

  • 为结肠活检预测异常,模型能突出活检诊断重要地区和提供临床有意义的功能的列表等这些地区的腺体结构,炎症细胞密度和炎症细胞之间的空间关系,腺体结构和上皮细胞。

这项研究可能会如何影响研究、实践或政策

  • 该工具可以屏蔽正常活组织检查和异常活检作为决策支持工具,因此,在病理学家提供显著减少工作量和更快的周转时间。

介绍

组织学检查是一个至关重要的组件在确保准确的诊断和适当治疗许多疾病。在日常实践中,它涉及到视觉评估关键的组织学和细胞组织模式,这是一个主要的步骤,理解各种条件,如癌症。组织病理学已成为众多先进的护理,包括但不限于,癌症筛查项目,分子病理,肿瘤分类和同伴的诊断测试,导致histology-derived需求快速增长的数据。1病理学家,这个额外的工作负载将巨大的压力2与英国78%的细胞病理部门已经面临重大的人员短缺。3激增的需求和员工的挑战最终导致延误诊断,4负面影响病人的治疗尤其是那些异常条件(如癌症或严重炎症),早期干预和治疗是至关重要的。5

新的国家健康研究所和卓越护理指南推荐疑似癌症的预测在内镜需求空前高涨,每年有超过750 000额外的程序执行到2020年,6导致违反标准的等待时间在四分之一的国民医疗服务制度(NHS)医院。7 8内窥镜大肠活检占大约10%的所有请求在英国NHS病理学实验室。在考试过程中,每个活检病理学家检查滑寻找疾病,通常从低到高放大工作,和分析一组预定义的组织学特征,如腺架构,炎症和核异型性异常的迹象。9日10生成的报告指出存在的任何疾病过程的异常被分类为最适当的诊断。11日12病理学家的概述报告结肠内镜活检诊断决策过程中提供在线补充图1。大约三分之一的正常结肠活检样本报告(在线补充表1),代表一个实质性的工作负载,病理学家的专业知识不充分利用。本研究的基本假设是,自动筛选正常活检可能帮助解决不断上升的组织病理学能力的挑战。

从数字病理的到来,13有急剧增加,人工智能(AI)的开发工具,使计算分析multi-gigapixel整场幻灯片图片(WSIs)。特别是深度学习(DL)算法取得了显著的性能不仅在日常诊断的任务,比如癌症分级14和发现淋巴结的转移,而且还找到癌症的起源未知的主15和改善患者分层。16日17值得注意的是,坎帕内拉18提出了一个开创性的论文clinical-grade WSI分类,而Ehteshami Bejnordi19表明,人工智能模型能够超越病理学家乳腺癌转移的性能检测。这些模型可用于帮助减少不可避免的错误诊断,鉴于人类天生容易错误,特别是当面对疲劳或干扰。20 21尽管挑战与算法相关的偏见,22日23日AI工具不那么容易受到这些错误,因此可以帮助减轻监管,减少工作量,增加再现性。

区分正常和肿瘤结肠直肠WSIs使用DL曾被解决,性能优良的报道。24 - 26日然而,区分正常和不正常大肠组织样本需要活检检查仍然是一个挑战,由于难以检测各种微妙的条件,如轻微的炎症。我们所知,没有现有的multi-centric研究正常与异常的分类大肠活检。结肠分析现有方法对高功率运行子图象(或图像补丁)所以没有明确组织微观结构和宏观结构模型,包括腺架构,炎症细胞密度和炎症细胞之间的空间关系,腺体结构和上皮细胞。单纯依赖DL模型来自动检测组织学诊断相关模式的小图像区域可能会导致表现不佳。另外,明确合并组织学特性,通常用在结肠活检病理诊断工作流程在传统DL模型不仅可以提高性能,但也可能增加算法的决策的透明度和可解释性pathologist-a值得信赖的医疗决策模型基于ai的关键需求。27 28

帮助减少筛查大肠活检的负担,我们提出第一个可判断的人工智能算法对大型肠滑用人gland-graph网络分类命名鬣蜥(使用神经可Gland-Graphs聚合器)。在建议的方法,WSI与节点描述为一个图,29-33每个代表一个腺与一组25捕捉腺可翻译的功能架构,intra-gland核形态和inter-gland细胞密度。这些节点捕获之间的互联空间组织内的腺体组织。节点特征与病理学家是合作开发,按照现有的诊断途径来提高预测精度,可解释性和符合已知的各种结直肠疾病的组织学特征。鬣蜥活检组织幻灯片和标识高度预测的地区提供了一个解释为什么他们可能高度预测。由于使用生物意义的特性,这个解释可以很容易地解读为病理学家的基础算法的诊断决策。我们验证算法在一个内部数据集包含5054 WSIs和一个独立的多中心数据集包含1561 WSIs,实现最佳的性能相比,最近的表现方法。此外,我们分析预测区域被鬣蜥以及当地和WSI-level解释和显示,我们的方法可以识别异常、炎症和肿瘤等。鬣蜥的代码可以在开源领域为研究目的(https://github.com/TissueImageAnalytics/iguana)和例子结果得以成像在交互式演示可用https://iguana.dcs.warwick.ac.uk

材料和方法

研究设计

使用数据集的总结和整体管道中可以看到图1,它包括以下步骤:(1)组织学分类,(2)特征提取和边缘的一代,(3)图预测和(4)图解释。实验设计中提供了概述在线补充图2和深入的描述数据集在使用在线补充部分S4.1,包括疾病和人口细分(在线补充图3和图4在线补充表2 - 4)。此外,我们提供一个详细的描述方法在线补充部分S4.1-S4.7

图1

说明总体管线结肠组织的分类与gland-graph卷积网络。(一)概述用于我们的实验数据的使用不同的扫描仪从四个不同的中心。(B)的管道,包括图施工,gland-graph推理和gland-graph解释。(C)放大图像区域和相应的结果来自在b .奴仆的示例中,东部萨福克郡和北埃塞克斯;UHCW考文垂和沃里克大学医院;WSI,整场幻灯片图像。

病人和公众参与

把成员作出了宝贵的贡献这个项目在确保病人这个项目的核心。三躺顾问的概念以来,已与我们合作这个项目。顾问之一是美国国家癌症研究所的一部分消费者网络和独立的癌症病人的声音,谁都支持新技术被纳入NHS患者受益。

结果

大规模的交叉验证对结肠活检检查

为结肠活检检查严格评估我们的方法,我们进行了三倍交叉验证使用5054 H&E-stained结肠活检WSIs考文垂和沃里克大学医院(UHCW),其中每个幻灯片贴上正常或者是不正常的。可说明的筛查正常的结肠活检是一项具有挑战性的问题由于广泛的大肠异常包括各种肿瘤和炎症条件。图2显示了鬣蜥的结果,实现平均接受者操作特征(AUC-ROC)曲线下的面积0.9783±0.0036,AUC precision-recall (AUC-PR) 0.9798±0.0031。我们还包括结果使用等现有slide-level分类算法迭代画和等级抽样(伊)34Clustering-constrained关注多个实例学习(蛤)35和一个随机森林(RF)基准分类器使用我们的腺体功能(用Gland-RF)。我们观察到鬣蜥达到最佳性能与patch-based方法相比(伊和蛤),证明其预测能力强,因为它只使用25功能/腺。我们提供额外的鬣蜥和伊之间的比较结果在线补充图5。详细的统计结果也提供在线补充表5 - 9。注意,尽管鬣蜥超越它,Gland-RF模型产生类似performance-signifying我们组临床派生的力量features-although没有本地化鬣蜥提供的可解释性。而不是两个patch-based方法,鬣蜥提供了具体的理由为什么一定是预测诊断类。我们进入更详细的可解释性和explainability之后在这一节中。

图2

结果在四组用于我们的实验。在这里,我们显示ROC曲线和公关以及各自的AUC分数我们的方法与伊达相比,蛤蜊和Gland-RF(随机森林方法使用相同的手工制作的特性与全球聚合)。我们也显示获得的特异性灵敏度的否决的0.97,0.98和0.99。阴影区域的曲线和误差在酒吧情节展示一个SD结果。AUC,曲线下的面积;蛤,Clustering-constrained注意多个实例学习;底层人,东部萨福克郡和北埃塞克斯;伊达,迭代画和等级抽样;公关,precision-recall;射频、随机森林; ROC, receiver operating characteristic; UHCW, University Hospitals Coventry and Warwickshire.

此外,我们评估模型的性能的差异在性别、年龄、种族和解剖部位的活检。对于每个subgroup-level分析,我们跑100引导程序运行来计算平均AUC-ROC及其SD在子类(在线补充表10)和观察,我们的方法不偏向任何特定的子群只有细微的差别。

模型概括独立军团

真实反映模型的临床实用程序需要评估其性能完全看不见的军团。为此,我们使用了三个额外的群H&E-stained结肠活检幻灯片,提供1537 WSIs。这群由1132幻灯片IMP诊断实验室在葡萄牙,25148幻灯片从东部萨福克郡和北埃塞克斯(奴仆)NHS信托基金会和257幻灯片和南沃里克郡NHS信托基金会,在幻灯片重新归类为正常或异常。我们观察从图2我们的模型达到高性能的奴仆和南沃里克郡人群,达到AUC-ROC分数为0.9567±0.0155,0.9649±0.0025,0.9789±0.0023和AUC-PR分数为0.9731±0.0105,0.9466±0.0034,0.9949±0.0006底层人,分别为南沃里克郡和IMP的数据集。很明显,有一个大型鬣蜥之间的性能差异及其他方法在外部的同伴表示上级概括看不见的是我们的模型的强度数据。在灵敏度为0.99,我们获得一个百分比比伊达47.4%,增加63.6%和58.9% IMP,分别奴仆和南沃里克郡的同伴。这可能是部分原因是我们最初的细分模式的能力表现良好在图像用不同的染色协议。36例子结果由该模型所示的四个数据集图3

图3

例子多任务模型获得的分割结果在四个数据集用于我们的实验。最上面一行显示正常的例子,而下面一行显示异常的例子。特别是,左下角奴仆的例子显示了一个从南沃里克郡增生性息肉和右下方的例子展示了炎症。AUC-PR curve-precision-recall下的面积;蛤,Clustering-constrained注意多个实例学习;底层人,东部萨福克郡和北埃塞克斯;伊达,迭代画和等级抽样;鬣蜥,解释Gland-Graphs使用神经聚合器;射频、随机森林;大学UHCW医院考文垂和沃里克郡。

预期的病理学家减少工作负载分析

我们的方法的实际价值是由其减少病理学家工作负载的能力。我们的模型是用于筛选,必须实现高灵敏度。因此,评估特异性的高灵敏度阈值下限提供了一个很好的指示其潜在的有效性作为筛查工具。这里,特异性的象征的百分比减少正常需要病理学家检查的幻灯片。在中间列的图2,我们显示我们的模型的特异性敏感的0.97,0.98和0.99在所有数据集用于我们的实验中,我们发现鬣蜥维持最佳的性能在不同与其他方法相比的否决。内部交叉验证期间,我们获得特异性的0.7865±0.0429,0.6720±0.1128,0.5409±0.1210 0.97的敏感性分别为0.98和0.99。独立验证,我们的方法获得平均特异性跨三个外部数据集0.7513±0.0919,0.6679±0.0779,0.5487±0.1599敏感性的0.97,0.98和0.99。因此,在0.99的敏感性,这表明我们的方法能够屏幕大约54%的正常情况下在内部和外部验证。

在线补充图6,我们将展示幻灯片需要病理学家检查的比例达到一定的敏感性。18在这些情节,我们考虑一个目标0.99的敏感性,这是由于高水平的合理interobserver分歧等条件轻度炎症。我们还显示一个垂直虚线的比例异常的幻灯片在每个数据集,这表明最低数量的幻灯片需要进行筛选。为每个军团,我们观察到的目标0.99灵敏度模型就可以排除32%,31%,17%和13%的从UHCW幻灯片,沃里克郡南部,分别奴仆和IMP的数据集。如果考虑灵敏度为0.97,我们可以从UHCW筛选出44%的幻灯片,46%来自沃里克郡南部,30%来自底层人从IMP和19%。

本地特性的解释增加模型透明度

鬣蜥的主要组成部分是能够提供一个解释和可辩解的输出。在图4,我们显示的视觉解释大多数预测节点和功能由鬣蜥。节点解释的形式所示的热图,相对比较高的值表明腺的地区,导致幻灯片被归类为不正常。因此,我们应该认为所有腺体正常的幻灯片是低价值相关的热图所示图4一,没有腺体为幻灯片被归类为不正常。图4罪犯显示WSIs与增生性息肉、炎症和腺癌。增生性息肉通常特点是管腔内的折叠和腔扩张。另一方面,炎症条件通常有一个淋巴细胞数量的增加,浆细胞、嗜酸性粒细胞和嗜中性粒细胞内腺体内的固有层和潜在的。其他的炎症指标可以包括地下室分支和地下室的辍学生。结肠腺癌通常是用不规则的腺体形态、核异型性和多腔上皮。高档癌症通常失去腺肿瘤细胞的外观和形式。它可以观察到,鬣蜥是能够拿起腺体功能异常符合上述描述。特别是,我们发现最预测腺体图4 b包含腔明显不规则的形态,而强调腺体图4 c显示区域高度的炎症。的腺癌的热图图4 d突出的地区已经失去了传统腺外观。具体来说,在腺上皮细胞核不再安排边界,筛状架构是观察和腺体出现更大,由于肿瘤细胞的形成表。

图4

可视化的explainability节点和功能。我们显示覆盖的节点级的形式来解释热图显示WSI最有预测力的节点。我们也显示裁剪的图像四个最有预测力的节点在每个WSI连同相关的十个最有预测力的特性及其功能价值的重要性。前的边界节点的颜色(腺)表示节点的对应值解释的热图。(模拟)幻灯片显示例子是正常的,增生性炎症或癌症,分别。通用电气,腺上皮聚类;GECV,腺上皮集群变化;格,腺上皮细胞密度;地理,腺上皮组织;大地测量学、腺嗜酸性粒细胞密度; GEOV, GEO variation; GES, gland epithelial size; GESV, GES variation; GD, gland density; GLD, gland lymphocyte density; GM, gland morphology; GND, gland neutrophil density; GS, gland size; ICD, Inflammatory cell density; LEO, Lumen epithelial organisation; LEOV, Lumen epithelial organisation variation; LPCP, lamina propria connective proportion; LPEoP, lamina propria eosinophil proportion; LPLP, lamina propria lymphocyte proportion; LPNP, lamina propria neutrophil proportion; LPPP, lamina propria plasma proportion; WSIs, whole-slide images.

除了节点解释的热图,鬣蜥表明为什么某些腺体被确认为异常。这是有用的,因为它可以提供确认正确的特性被确定的模型,给研究人员和临床医生的信心,它是按预期执行。这种策略也可以用来确定附加功能在异常条件。为了展示这一点,图4,我们在每个幻灯片显示最预测腺体和提供相应的功能解释。具体来说,我们以降序排列显示十大功能的意义,及其相应的特征值在0和1之间的重要性。这里,我们期望功能的解释应该结合什么是观察到相关的裁剪区域。在增生性息肉的案例中,我们可以看到,顶部腺(例如,1、2和3)包含腔与异常形态,而管腔扩张中观察到腺4。符合这一点,腔形态和腔作文高分特征在提供的例子。我们也观察到管腔上皮细胞核的大小和组织内的腺体通常发现重要的功能。在这个示例中所示图4 c,我们观察到顶端腺体有高度的炎症,由高级匹配特性,如炎症细胞密度、腺体密度和固有层嗜中性粒细胞比例。在腺癌的例子中,我们可以看到,四大腺体都大,有不规则的形态和经常显示肿瘤细胞没有明显的腺的结构。这是高亮显示的功能解释,腺形态、腺大小和上皮组织一直顶级特性。在这里,上皮组织描述如何在腺上皮细胞核定位边界。由于固体肿瘤的存在模式顶部腺,这个特性在癌变情况下经常强调。我们提供额外的视觉模型输出的可解释性的例子图5

图5

explainability额外的节点和可视化功能。像以前一样;我们显示覆盖的节点级的形式来解释热图显示WSI最有预测力的节点。我们也显示裁剪的图像四个最有预测力的节点在每个WSI连同相关的十个最有预测力的特性及其功能价值的重要性。(模拟)显示的幻灯片,是正常的,炎症(隐窝脓肿),分别高档发育不良或腺瘤息肉。通用电气,腺上皮聚类;GECV,腺上皮集群变化;格,腺上皮细胞密度;地理,腺上皮组织;大地测量学、腺嗜酸性粒细胞密度; GEOV, GEO variation; GES, gland epithelial size; GESV, GES variation; GD, gland density; GLD, gland lymphocyte density; GM, gland morphology; GND, gland neutrophil density; GS, gland size; ICD, Inflammatory cell density; LEO, Lumen epithelial organisation; LEOV, Lumen epithelial organisation variation; LPCP, lamina propria connective proportion; LPEoP, lamina propria eosinophil proportion; LPLP, lamina propria lymphocyte proportion; LPNP, lamina propria neutrophil proportion; LPPP, lamina propria plasma proportion; WSIs, whole-slide images.

WSI-level符合已知的组织学特性解释模式

图6,我们将展示WSI-level解释平均在不同子条件UHCW和IMP军团。我们关注这些数据集,因为他们是最大的,与包含超过1000个样本。这里,我们把十大特性在各个子条件以提高可读性。这些情节可以用来确认全球解释,了解哪些特性尤为重要对划分一定子条件异常。UHCW和IMP军团,正常的雷达情节有一个小半径,表明没有特性有助于幻灯片被归类为不正常。炎症情况下,UHCW和IMP雷达情节显示广泛的功能可以为幻灯片被归类为不正常,可能有两种细胞和组织架构变化。然而,最重要的特性,可以区分其他子条件包括炎症细胞密度、腺淋巴细胞浸润和腺体密度。腺体密度可以表明腺辍学,这是一种炎症的迹象。UHCW雷达发育不良和腺癌是类似的情节,最重要的特性是腺形态,腺上皮细胞组织,腺上皮细胞的大小和变化的腺上皮细胞的大小。这是符合预期的关键观察组织学模式在这些组织类型。 Likewise, these plots are similar to the low-grade and high-grade dysplasia plots for the IMP cohorts, indicating that the correct histological features are being highlighted when providing the WSI feature explanation. For hyperplastic polyps, we can see that lumen composition, lumen morphology and epithelial cell organisation have a large influence in the slide being classified as abnormal. Lumen composition is the ratio of lumen to gland size, and therefore, can identify glands with lumen dilation, which is a distinguishing feature of hyperplastic polyps. Conversely, lumen serrations, which are present in hyperplastic polyps, can lead to irregular lumen morphology, further validating the feature explanations output by our model.

图6

全球分析解释。(一)雷达情节展示全球功能UHCW子条件的重要性和IMP的数据集。(B)分层biclustering功能重要的价值观。1 - 7表示突出集群biclustering后,用以下区分组织学特点:(1)炎症,没有腺嗜中性粒细胞浸润;(2)腺淋巴细胞和中性粒细胞浸润炎症;(3)与不规则的腺瘤形态和大上皮细胞;(4)不规则的腺体形态以最小的炎症;(5)与不规则增生腔形态和组成与固有层中炎症;(6)嗜酸性渗透在固有层(7)瘤与腺上皮细胞集群。大学UHCW医院考文垂和沃里克郡。

WSI-level特性解释识别人口子组

图6 b,我们执行分层biclustering所有异常的幻灯片和WSI-level功能重要性分数来确定UHCW数据集内的各种存在的子组。底部的情节,我们识别各种病人集群不同组织学外观。这些编号如下:(1)一般炎症的迹象,没有中性粒细胞浸润;(2)与高度的淋巴细胞和中性粒细胞炎症腺渗透;(3)主要与形状不规则的腺体和大型上皮细胞肿瘤幻灯片;(4)不规则的腺体形态,以最小的炎症;(5)异常腔形态和成分,在固有层炎症的迹象;(6)增加嗜酸性渗透在固有层和(7)与腺上皮肿瘤幻灯片集群。因此,这给了我们信心,网络学习主要组织学差异做出明智的WSI-level预测的数据集。可以观察到更细粒度的集群biclustering指相关的系统树图的阴谋。

交互式可视化的结果

我们提供一个交互式演示https://iguana.dcs.warwick.ac.uk显示样本鬣蜥结果和突出的完整输出我们的模型在全球和当地的水平,包括中间腺腔和核分割结果。特别是,我们显示的节点覆盖解释作为一个热图的腺体和当地解释悬停在每个节点的覆盖图。在这里,我们提供了五大功能提供洞察是什么导致某些腺体被标记为异常。也可能感兴趣的评估整个WSI节点特性的差异。也因此,我们启用可视化每个25功能上覆盖的热图的腺体。

讨论

有人力资源危机病理学多年,37这是进一步加剧了组织病理学检查的需求增加。拥抱新技术和人工智能在临床实践中可能是必要的,因为医院试图找到新的方法来改善病人护理。38人工智能筛选大肠内窥镜活检拥有更大的潜力,帮助减少过滤掉这些升级工作负载正常标本。然而,目前并不存在一个解决方案,可以高的预测性能。也可辩解的AI现在被认为是值得信赖的一个关键要求AI在以人为本的决策,28但通常不被认为是在许多医疗应用程序。因此,在这项研究中,我们开发了一个人工智能模型,可以准确区分正常和异常大肠内窥镜活检,同时提供一个解释为什么一个特定的诊断。

我们证明了该方法自动结肠活检检查能够实现强劲表现在内部交叉验证(意味着AUC-ROC = 0.98,意味着AUC-PR = 0.98)和三个独立的外部数据集(意味着AUC-ROC = 0.97,意味着AUC-PR = 0.97)。高度敏感的筛查工具需要减少数量的未被发现的异常情况,由于假阴性报告可能会导致延误诊断和患者潜在危害。我们认为0.99的敏感性是一个合理的目标,因为所使用的地面实况提供的诊断病理学家,可能不到完美的敏感性。这也反映在乳房活检筛查指南在英国,预计0.99的敏感的地方。39目前,我们获得承诺特异性的敏感性为0.789±0.043 0.97和0.541±0.121 0.99的敏感性,从而减少病理学家工作产生积极的影响。我们还在在线补充图6预期减少临床工作负载,我们报告了32%节省时间通过筛选正常活组织检查,不需要评估,同时仍然保持灵敏度为0.99。

理解错误分类由我们的模型,我们将展示六正常预测异常分数最高的幻灯片在线补充图7。检验后,我们发现鬣蜥正确分类这些幻灯片,因此识别标签错误中的错误数据集。这里的例子应该贴上炎症或增生性息肉。在图中,我们包括样本图像区域,以及本地和WSI-level反光的特性解释每个幻灯片的真正的类别。此外,我们进行了假阴性分析,在线补充图8我们展示各种子条件的统计以及相应数量的假阴性。在在线补充图8 b,我们给每个类别的假阴性率。可以观察到淋巴细胞和胶原性结肠炎模型发现幻灯片有点挑战性,与假阳性率分别为0.29和0.46。显式建模的牙龈胶原蛋白乐队应该使我们能够更好的检测胶原性结肠炎。值得一提的是,有相对较少的胶原性结肠炎样本在所有四个军团,所以他们可能没有一个大对整体性能的影响。另外,假阴性率高轻度炎症中可观察到一类,但这是可以预料到的,因为他们是视觉上类似于正常样本。

在线补充图9,我们表明,我们的模型输出校准,因此可以解释为一定程度的信心。使可辩解的预测,我们的算法依赖于一个精确的中间分割步骤中,需要许多进行像素级注释。这是一个耗时的步骤,因此可以作为类似的方法发展的瓶颈。此外,该类型的特性,可以被纳入我们的人工智能算法依赖于哪种组织学对象最初是局部的。例如,目前我们不检测杯状细胞,因此不包括功能的杯状细胞种类增生性息肉的说明。可以添加其他组织学的对象包括巨细胞,印戒细胞有丝分裂的人物。此外,尽管我们段表面上皮,我们不提取任何相关的特性,可以帮助识别条件如胶原性结肠炎。我们的方法还不评估表面异常检测肠道spirochaetosis或色素检测结肠黑变病。这些缺点将在后续的工作。视觉特性我们的框架中使用的例子,例子的结果是5世纪和第95百分位数值,给出了在线补充图10。我们还提供了一个更深入的描述这些特性,在什么条件下可以检测在线补充表11。在在线补充图1 b,我们强调诊断功能(红色)不是目前在我们的框架模型。

有最近研发的人工智能方法在结肠WSIs癌症检测。24 40 41然而,这样的方法不能用于检测在临床实践中,因为他们常常无法确定发生炎症等异常。同样,AI模型已经开发了检测息肉,42 43炎症性肠病44或分级发育不良,25但是他们不解决这一问题的筛选正常所有类型的异常。我们的方法使用回顾性活检病理档案,相应数据贴上正常或异常反映了临床筛选过程。因此,与其他方法不同的是,我们的人工智能模型可以直接作为筛选工具,因此可以实现对减少病理学家工作负载产生深远的影响。此外,最近的自动方法依赖于弱监督,只有整体的诊断是用于指导算法。这种策略可能是有利的,因为它不依赖于收集许多注释的耗时的任务。然而,这限制了输出的可解释性,这可能会阻碍在医院接受这样的模型。

分析结肠活检幻灯片的外观检查,显微镜下或最近在电脑屏幕上,是当前黄金标准。然而,目前的做法是不可持续的,越来越多的标本,需要检查和由于人员短缺,那里只有3%的NHS医院报告足够的人员。3随着癌症筛查项目的进步并没有立即签署病理学家人力资源危机的解决,额外的措施协助报告将至关重要。我们提出人工智能模型地址未满足的需要通过自动过滤掉正常结肠活检需要最低限度的干预,但占了很大比例的情况下,与高度的准确性。因此,我们的模型可以显著减少样本的数量需要审查的病理学家。

AI模型现在开始在临床实践中用于前列腺癌检测,为临床医生已经证明,一个明显的优势而言,减少工作量,提高报告的准确性。45 46有越来越多的证据表明,自动化的方法可以改变组织诊断病理学家工作流和帮助推动医疗保健的新政策。但是,没有这样的工具目前筛查大肠内窥镜活检,也许是因为没有自动化工具能够准确地检测各种异常,包括炎症、发育不良、增生和肿瘤。筛选功能,该模型承诺对患者的治疗有积极的影响由于更快的诊断时间,导致潜在的早期干预最需要的地方。

该模型可能特别有利在低收入国家,那里存在一个更大的病理学家的短缺。尽管外包任务的明显好处AI在这些国家,仍然有缺乏数字病理基础设施,这是我们的方法要求。几个选项可能探索克服这一挑战,比如使用数字手机摄像头,35 47获得低成本消费级扫描仪和获得通过融资、租赁、慈善或非营利组织来源。而不是投资于昂贵的硬件和执行完整的临床集成、基于云的设置可能是一个更实惠的选择在资源匮乏的地区,在扫描幻灯片可以上传到网上进行处理。与人工智能模型现在市场上迅速出现,越来越重要的倡议被决策者实施帮助的数字化病理实验室在世界各地,使计算的广泛应用病理学。

我们发现鬣蜥提供了基于ai的承诺作为一个有效的工具结肠活检筛选重点强调诊断可解释性提供具体的理由为什么一定诊断类预测,其预测透明和简单。提出人工智能方法可以帮助缓解当前问题在NHS的病理学家短缺和全球,减少周转时间的筛选世界杯2022小组积分结果。在临床实践中部署之前,需要大规模的验证与鬣蜥的进一步分析功能解释输出。此外,需要投入大量的时间到扩展当前的用户界面,这样容易与现行病理学家的临床工作流集成。这将包括一个详细的研究决策支持工具的有效性在活组织检查和评估其影响时间异常诊断报告。

数据可用性声明

WSIs考文垂和沃里克大学医院NHS信托,东部萨福克郡和北埃塞克斯NHS信托基金会,和南沃里克郡NHS信托基金会将在成功应用PathLAKE数据访问委员会。相关信息获取IMP的数据队列中可以找到原来的出版。

伦理语句

病人同意出版

伦理批准

这项研究是在卫生研究机构进行的国家研究伦理批准15 /西北/ 0843;IRAS 189095和湖泊病理图像数据的分析,知识和教育(PathLAKE)研究伦理委员会批准(REC参考19 / SC / 0363, ira项目ID 257932,南Central-Oxford C研究伦理委员会)。组织病理学的研究是回顾性数据进行档案相关样本临床护理过程中,对于这对研究没有被同意。回顾性收集同意并不是可行的,认为没有必要研究伦理委员会,正如上面引用的。IMP诊断数据集的数据收集和使用执行按照葡萄牙国家法律和道德标准适用于群组。

确认

我们承认SA桑德斯博士和Naresh Chachlani博士对他们的援助提供WSIs从南沃里克郡NHS信托基金会。

引用

补充材料

  • 补充数据

    仅这个web文件已经由英国医学杂志出版集团从一个电子文件提供的作者(年代)和没有对内容进行编辑。

脚注

  • DS和NR联合高级作者。

  • 推特@simongraham73、@fayyazhere @bilal_mohsin、@AyeshaSAzam @sea_raza @nmrajpoot

  • 贡献者SG, DS和NR设计研究与所有合作者的支持。SG领导方法的发展与调频和NR的支持。SG写的代码并进行实验。使用伊和蛤MB提供结果。YWT马,呃,KD、HS AR,西南,AA, KB, MN, KH、他公斤和DS提供诊断结肠活检幻灯片的注释。SG,调频,妈,公斤,DS和NR进行分析和解释的结果。MB,乔丹、NW、西城、AB、烧提供了技术和物质支持。SG,调频,DS和NR都参与起草。NR的担保人是研究。所有作者阅读和批准了期末论文。相应的作者证明了所有作者列出符合作者的标准,没有其他会议的标准被省略了。 DS and NR are last authors.

  • 资金作者要感谢所有的支持PathLAKE数字病理财团资助的早期诊断和精密医学数据链的政府基金产业战略挑战,管理和由英国研究和创新(UKRI)。调频承认资助EPSRC格兰特EP / W02909X / 1。

  • 相互竞争的利益SG, DS和NR Histofy的创始人。外从皇家飞利浦DS报告个人费用,提交工作。从葛兰素史克NR和调频报告研究经费。

  • 病人和公众参与病人和/或公众参与设计,或行为,或报告,或传播本研究计划。是指部分进一步了解细节的方法。

  • 出处和同行评议不是委托;外部同行评议。

  • 补充材料此内容已由作者(年代)。尚未审查由BMJ出版集团有限公司(BMJ)和可能没有被同行评议。任何意见或建议讨论仅代表作者(年代)和不了BMJ的支持。和责任起源于BMJ概不负责任何依赖的内容。内容包括任何翻译材料,BMJ并不保证翻译的准确性和可靠性(包括但不限于当地法规、临床指南,术语,药物名称和药物剂量),和不负责任何错误或遗漏引起的翻译和改编或否则。