条文本
摘要
客观的组织病理学是UC潜在的重要预后指标。多种组织学疾病活动性(HA)指标,包括gebos评分(GS)和改良Riley评分(MRS);然而,这些仪器的操作特性并没有明确的定义。我们评估了现有HA测量的可重复性。
设计五名经验丰富的病理学家接受过胃肠道病理学培训,并在IBD方面具有专业知识,在至少相隔两周的三次不同情况下评估了49例UC结肠活检,并使用100毫米视觉模拟量表(VAS)对GS、MRS和组织严重程度进行了评分。通过基于双向随机效应模型的类内相关系数(ICCs)估计,对每个分级系统和单个仪器项目的可重复性进行量化。用非参数聚类自举法获得的95%双向ci来量化估计的不确定度。根据ICC的估计,活检是造成最大分歧的原因。一个共识过程被用来确定最常见的测量不一致的来源。随后提出了尽量减少分歧的建议。
结果总的GS、MRS和VAS评分的术中ICCs (95% ci)分别为0.82(0.73 ~ 0.88)、0.71(0.63 ~ 0.80)和0.79(0.72 ~ 0.85)。相应的评分者间的ICCs明显较低:0.56(0.39至0.67)、0.48(0.35至0.66)和0.61(0.47至0.72)。GS与VAS的相关性为0.62,MRS与VAS的相关性为0.61。
结论虽然在UC的HA评估中发现了“实质性”到“几乎完美”的等级间一致性,但等级间一致性的等级间一致性显著降低。根据共识的过程结果,需要对项目定义进行标准化,并对现有指标进行修改,以创建最佳的UC组织学仪器。
- 慢性溃疡性结肠炎
- 炎症性肠病
- 炎症性肠病
- 临床试验
数据来自Altmetric.com
本研究的意义
关于这个问题我们已经知道了什么?
内镜下肠道愈合与UC患者良好的长期预后相关,但不能保证组织学不活跃。
组织学炎症与复发风险增加有关。
在临床试验中,定量组织学指标优于主观症状评价。
虽然多种组织学评分系统已被开发并用于临床试验,但其操作特性尚未得到系统验证。
UC疾病活动的组织学特征的识别和标准化可能有助于确定临床实践中的治疗目标和临床试验的结果测量。
新的发现是什么?
当病理学家对活检进行集中评分时,UC中使用gebos评分(GS)、改良Riley评分(MRS)和100 mm视觉模拟评分(VAS)对组织学疾病活动性进行组内一致性的组内相关系数(icc)是“实质性的”到“几乎完美的”。
评级机构间协议的ICCs明显低于评级机构内协议。
组织疾病活动的整体VAS与GS和MRS之间存在良好的相关性。
协商一致过程确定了分歧的原因和改善评分者之间协议的潜在解决方案。
在可预见的未来,它会对临床实践产生怎样的影响?
UC需要有效的组织学评分系统。
部分验证的指标,如GS或MRS,可以提供疾病活动性和/或进展的初步指标,直到完全验证的仪器可用为止。
图像质量定义和度量的标准化可能会改善未来对现有指标的使用。
简介
临床症状和内窥镜检查通常用于评估UC的疾病活动性。然而,基于内镜治疗之外肠炎症的解决可能提供额外的临床益处这一概念,对组织学疾病活动性的评估越来越感兴趣。例如,在一项82例静止性UC患者的前瞻性研究中,直肠活检残余组织学炎症的存在与随访12个月时复发的三倍风险相关。1然而,在对组织学疾病活动性的评估能够被评价并最终被接受为临床研究和临床实践中的有用指标之前,必须开发经过验证的组织学疾病活动性仪器。2验证一个指标的过程通常涉及对再现性、有效性和响应性的评估。再现性,定义为重复测量提供相似结果的程度,通常通过测量一致性或可靠性来评估。测量误差和受试者之间的方差在基于这两种测量的再现性的解释中起着重要作用。信度被定义为评分者能够一致区分研究对象的程度,其中一致性被定义为多个评估中出现的相似反应的程度。3.正如Guyatt所强调的,对于评估工具的评估而言,一致性是相对更重要的属性,而区别于可靠性是优先考虑的判别工具。4效度,定义为分数衡量其意图衡量的程度,通常通过“标准效度”进行评估,这是通过与金标准的相关性来衡量的。然而,由于UC中没有组织疾病活动性的现有金标准,因此可以通过构建效度来建立组织疾病活动性的全局度量来建立标准相关效度。
最常用来评估UC疾病活动性的两个组织学指标是gebos评分(GS)和改良Riley评分(MRS)。GS是一个七项仪器,已被用作临床试验的结果测量,它将组织学变化分为0级(仅为结构变化);一级(慢性炎症);2级(a级,固有层中性粒细胞;B,固有层嗜酸性粒细胞);3级(上皮中性粒细胞);4级(隐窝破坏)和5级(糜烂或溃疡),评分从0到5.4,分数越高表明炎症越严重。GS下降到0级或1级已被经验地指定为组织学愈合。5MRS有6个项目,每个项目按4分制进行评分(无、轻度、中度或严重)。评分范围从0(无炎症)到7(严重急性炎症)。1,6MRS,它排除了在原始Riley评分中发现的建筑扭曲项目1基于这些不太可能对治疗后的变化产生反应的前提,在一项大型随机对照试验中被用作次要结果测量。6
这些指标的进一步特征需要对有效性、响应性和可重复性进行评估。然而,这两种工具都没有使用结构化的指数开发框架来开发,也没有很好地定义它们的操作特性。7在本文中,我们通过对GS和MRS进行评分者之间和评分者之间的一致性测试,评估了重复性,并确定了分歧最大的项目。同时评估视觉模拟量表(VAS)、GS和MRS之间的相关性。
方法
研究设计
直肠活检来自参与MLN-02(一种针对α -4- β -7整合素的单克隆抗体)II期随机对照试验的活动性UC患者。该试验的结果之前已报道过。6我们选择只评估来自试验对照组的患者,因为MLN-02(一种肠淋巴细胞运输的高选择性抑制剂)对粘膜炎症反应的特异性作用目前尚不清楚。
活检行石蜡包埋、切片和H&E染色。在Scanscope CS (Aperio, Vista, California, USA)幻灯片扫描仪上以40倍放大倍数扫描幻灯片,并使用专有ImageScope (Aperio, Vista, California, USA)软件在安全、符合法规的网站上查看数字化图像。
5位接受过GI病理奖学金培训并有IBD经验的病理学家(KG、CB、KK、RP和CL)参与了本研究。病理学家是根据他们的专业知识和愿意投入时间来选择的,并接受了使用托管数字组织学图像的中央图像管理系统的培训。提供了关于GS和MRS的标准化培训材料,其中包括每个单项索引项目的理想数字图像示例。在研究开始之前,讨论了读者之间关于项目定义的分歧,并达成了共识。在此培训期间,中心读者选择了不包括GS或MRS但被认为是相关的附加项目。这些项目被确定为其他两个未经验证的组织学指标的一部分:芝加哥8,9和Harpaz。10
每个病理学家分别独立随机检查50张数字幻灯片图像三次,间隔约2周。构成GS和MRS的所有单项都被包括在内进行评分。此外,每次阅读时都对芝加哥指数和Harpaz指数的项目以及病理学家认为可能相关的其他项目进行评估。使用100毫米VAS评估组织疾病的整体严重程度,其中没有疾病活动性记为0,最严重活动性记为1。在缺乏临床信息的情况下,对图像进行独立复查。基于三个标准(染色、切片和图像质量)对每张幻灯片的整体质量进行单独的主观评估。在初始阅读过程完成后,使用两步程序评估读者之间的分歧来源。首先,使用混合模型的病例删除诊断来识别外围图像,11这是通过按顺序删除项目并检查其中哪个项目对方差估计影响最大来执行的。其次,我们进行了一个共识过程,在这个过程中,另外五位专业病理学家(NH, RR, DD, MV和MP)被邀请加入最初的中心阅读病理学家,以最大程度的分歧重新评估数字图像。在审查了分歧最大的图像后,每位病理学家完成了一项调查,以确定潜在的分歧来源。12,13调查结果在小组中进行了讨论,以就方差的来源和标准化这些评估的方法达成共识。创建规则是为了帮助未来需要阅读数字组织学图像的研究。
统计分析和样本量考虑
所有分析使用SAS V.9.4 (SAS研究所,Cary, North Carolina, USA)。采用描述性统计方法评估患者的临床特征。评分者间一致性定义为由两个不同的病理学家对同一活检图像进行的两次测量之间的相关性,而评分者内一致性定义为同一病理学家对同一活检图像进行的两次测量之间的相关性。基于图像和评分者之间的双向随机效应模型,使用限制性极大似然方法估计每个组织学指标的一致性内和一致性间。由此得到的类内和类间相关系数(ICCs)可以被视为最一般的一致性统计,因为kappa、加权kappa和一致性相关系数被认为是ICCs的特殊形式。14 - 16使用非参数百分位自举法对2000个样本进行替换以保持数据结构,获得相关的双面95% ci。这种方法通常称为聚类自举方法。17同样的方法被用于亚组分析,仅限于没有质量问题的图像。一致性强度根据Landis和Koch的标准进行评估,其中icc <0.00、0.00 - 0.20、0.21-0.40、0.41-0.60、0.61-0.80和0.81-1.00分别表示“差”、“轻微”、“一般”、“中等”、“相当”和“几乎完美”的一致性。18这些基准比Cicchetti提出的更为保守,19他建议极佳的一致性应基于ICC不小于0.75。给出了每个指标和单项的测量误差(残差)和方差分量,以便解释国际商会各分量的影响。使用Pearson相关系数测量VAS与GS和MRS之间的相关性,考虑使用线性混合模型进行点估计的重复。采用2000个重复的聚类自举方法生成相关的双侧95% CI。20.
该研究采用五名病理学家对50张活检图像进行三次独立测量的设计,评估了GS、MRS和VAS的组内和组间重复性。在不考虑三张图像的情况下,这个样本量是足够的。21特别是,假设真正的ICC为0.75,该研究有83%的几率获得ICC为0.6(“实质性”一致标准)的片面95%低置信限。
本研究中分析的活检切片来自一项符合所有适用法规要求的临床试验。研究参与者的同意包括将收集的数据用于其他医疗目的,因此没有获得本研究的额外同意。本研究中使用的所有参与者信息都被去识别,病理学家对临床信息是盲目的。此外,读者不知道他们之前阅读的结果,也不知道其他读者的分数。
结果
指数再现性
总的GS(0-5级)、MRS和VAS评分的内icc分别为0.82(0.73 - 0.88)、0.71(0.63 - 0.80)和0.79(0.72 - 0.85),表明“基本”到“几乎完美”一致。总体GS(0-5级)、MRS和VAS评分的inter - rating icc (95% CI)分别为0.56(0.39 - 0.67)、0.48(0.35 - 0.60)和0.61(0.47 - 0.72),表明“良好”一致。当GS的ICCs在1到3之间的塌陷分类量表上测量时(1类= 0级或1级“不活跃或轻度活跃”;第2类= 2级或3级“中度活跃”,第3类= 4级或5级“严重活跃,伴上皮受累性”),区内ICC为0.77 (95% CI为0.71至0.83),分级间ICC为0.51 (95% CI为0.40至0.63),分别表明区内和分级间“基本”和“良好”一致。或者,当GS的ICC在0到22的连续尺度上测量时,区内ICC为0.84 (95% CI为0.80至0.89),而区间ICC为0.60 (95% CI为0.46至0.71),分别表明区内和区间“几乎完美”和“实质性”一致。各指标的方差分量和残差表示在表2.
建筑特色
用于评估建筑特征的单项ICCs概述于表3.隐窝结构扭曲的层内ICC最高,为0.85(0.76至0.91),最低的层内ICC为0.48(0.33至0.59)。根据MRS标准0.72(0.59至0.80),隐窝结构不规则的等级间ICC最高,斑块性的等级间ICC最低,为0.19(0.06至0.32)。
急性炎症
评估急性炎症的单项ICCs总结于表4.根据芝加哥指数0.76(0.69至0.83)观察到变化的最高层内ICC,隐窝脓肿评估的最低层内ICC为0.55(0.44至0.66)。中性粒细胞检测的最高等级ICC为0.52(0.40至0.62),而固有层嗜酸性粒细胞检测的最低等级ICC为0.26(0.15至0.37)。
慢性炎症
用于评估慢性炎症的单项icc总结于表5.根据GS 0.81(0.72 - 0.86),检测慢性炎症浸润时也观察到最高的腔内ICC,而评估基底浆细胞病时观察到最低的腔内ICC为0.81(0.72 - 0.86)。根据GS和MRS,检测慢性炎症浸润时的最高评分者ICC为0.81(0.72至0.86),评估基底浆细胞增多症时的最低评分者ICC为0.63(0.48至0.74)。
上皮损伤
评估上皮损伤的单项ICCs总结于表6.根据GS值0.78(0.71至0.84),检测糜烂或溃疡时的胞内ICC值最高,而检测肉芽肿时的胞内ICC值最低,为0.49(0.11至0.74)。根据GS的0.56(0.43至0.67)和MRS的0.56(0.43至0.67),在检测糜烂或溃疡和表面上皮完整性方面观察到最高的inter-rate ICC。肉芽肿鉴别的最低评分者间ICC为0.56(0.43至0.67)。
组织学指标与整体VAS的相关性
这些分析的目的是针对疾病活动的全球测量评估评分的标准有效性。通过VAS评分和MRS测量的总体组织学严重程度之间的相关性为r=0.624 (95% CI 0.545 ~ 0.688)。对于GS,使用三种不同的方法测量与VAS的相关性。首先,用GS作为6级序数量表(0-5)测量相关性,显示r=0.61 (95% CI 0.50 ~ 0.67)。其次,VAS与使用GS作为连续量表生成的总分(累计总分22分)之间的相关性得出r=0.66 (95% CI 0.57 ~ 0.72)。最后,当GS作为1至3级的分类量表(0或1级为不活跃,2或3级为轻度活跃,4或5级为严重活跃,上皮受累)时,相关检验显示r=0.58 (95% CI 0.48至0.64)(图2).
分歧和协商一致的过程
总的来说,49个活检图像中的17个占了大多数分歧。最常见的分歧来源是对几个项目定义的解释,包括人工制品、肉芽组织、隐窝破坏、隐窝扭曲、基底浆细胞增多症、固有层中性粒细胞以及次优和质量较差的玻片评分方法。在协商一致过程中制定了对分歧最大的项目进行标准化解释的方法(表7).
质量评估
病理学家发现734张数字幻灯片中有213张(29%)质量不佳。导致图像质量不佳的主要原因是染色过度(16%)、采样不足(8%)、定向不良(1%)、无法充分聚焦(1%)和其他(5%)。共有74张幻灯片(10%)被认为质量较差,随后在评分者内部和评分者之间的一致性亚组分析中被排除。
排除低质量图像的亚组分析结果
剔除被认为质量较差的数字幻灯片的分析显示,GS、MRS和VAS的区内ICCs分别为0.85(0.75,0.90)、0.72(0.62,0.79)和0.81(0.74至0.86),分级间ICCs (95% CI)分别为0.58(0.41至0.71)、0.49(0.35至0.61)和0.60(0.46至0.71)。评估结构、急性炎症、慢性炎症和上皮损伤的单项icc在网上分别总结补充附件.
讨论
在对UC疾病活动性组织学指标的大规模评估中,我们证明了在GS和MRS总评分以及构成这些仪器的个别项目的内部一致性方面,ics是“实质性的”到“几乎完美的”。这些发现令人鼓舞,因为高度的可重复性是有效的疾病活动仪器的关键操作特性。对于GS、MRS和VAS,评分者之间的ICCs明显低于评分者内部的ICCs。尽管这些内部和内部评级机构之间的协议icc存在差异是意料之中的,因为观察员们更有可能同意自己的观点,而不是彼此的观点,差异大于最近两项相同设计的研究中观察到的差异,这两项研究评估了UC的中心内镜评分(内镜下VAS观察者内ICC=0.91(0.80至0.94),观察者间ICC=0.78(0.70至0.85))和克罗恩病(克罗恩病内镜下严重指数观察者内ICC=0.89(0.86至0.93),观察者间ICC=0.89(0.86至0.93))。22,23我们假设这种不一致是由于读者对项目定义的解释不同造成的。用于UC的GS最初是为了比较局部治疗和系统作用药物。5因此,隐窝上皮损伤和表面上皮损伤作为单独的项目。因此,该指数的目的主要是能够区分静止(非活跃性疾病或1级)、轻度活跃性疾病(由多形核细胞或中性粒细胞的存在或2级和3级定义)和中度至重度活跃性疾病(由上皮细胞损伤或4级和5级定义)。5或者,可以使用连续评分。24虽然连续评分可以显示炎症强度的变异性,但阳性评分可能无法区分活动性或非活动性疾病。最佳分数将需要通过我们目前正在进行的附加协议和响应性测试来进一步定义。
与GS和mrs的固有层中性粒细胞相比,评估急性炎症的项目(包括表面定位的中性粒细胞)的评分者间一致性较高。然而,通过标准化活检的切片和染色质量,评估固有层中性粒细胞的评分者间一致性可能会提高(图3).急性炎症可根据中性粒细胞是否分散在上皮细胞或结肠隐窝,如隐窝炎或隐窝脓肿进行评估。提示慢性炎症的特征,如基底浆细胞增多症,可具有重要的预后意义25因此,检测是很重要的。根据GS和mrs,慢性炎症的所有特征均显示较高的腔内和分级间icc。上皮损伤可被认为是严重程度的标志,但也可能与获得内镜活检样本或制备载玻片时发生的人工制品混淆。我们的结果显示,这一类别的项目之间的一致性有适度程度的变化。GS和MRS显示的隐窝扭曲在中心病理学家和中心组织学评估之间具有高度一致性,因此可以被认为是诊断IBD的可重复性。然而,结构扭曲并不是疾病活动的标志。作为临床试验和临床实践的终点,急性和慢性炎症变化比结构变化更相关,对治疗和预后的决策贡献更大。
活检样本和组织切片的获取和制备在技术上是困难的过程,有可能存在人为因素和质量变化。然而,基于对最佳质量玻片的亚组分析,低质量玻片(占总样本的10%)似乎对病理学家之间观察到的分歧没有显著影响。由于组织学特征的评估是解释性的而不是定量的,评估存在固有的差异。在我们的研究中,17张幻灯片占了大多数的分歧。参与研究的病理学家的系统调查过程产生了评分定义的新建议,如果得到验证,可能会在未来的研究中减少评分者之间的评分变异性。需要指出的是,我们只评估了直肠-乙状结肠的活组织检查。虽然我们没有数据来解决这个问题,但结肠组织病理学的区域差异可能存在,这将排除我们的结果推广到其他地方的活检。未来纳入标准化定义、问卷调查和改进幻灯片质量的研究可能有助于客观地确定最佳评分系统,作为临床试验的终点。这一工具是现有指数的修订本还是新制定的指数,需要进一步评估。
在这项一致性研究中评估的许多单独项目显示,评分者内部和评分者之间的一致性具有较高的icc(根据MRS检测隐窝结构扭曲,根据芝加哥指数检测中性粒细胞,根据GS检测慢性炎症变化,根据GS和MRS检测慢性炎症变化,根据GS检测糜蚀或溃疡,根据MRS表面上皮完整性),并且很可能是纳入新的疾病活性仪器的最佳候选者,前提是它们对变化有反应。协议内和协议间的ICCs较低的项目(斑块、表面中性粒细胞评估、根据GS检测固有层嗜酸性粒细胞、基底浆细胞增多症、识别肉芽肿)很可能存在很大问题,除非可以通过重新定义、训练和提高样本质量来改进它们。特别是基底浆细胞增多症,需要正确定向的活检切片。协商一致进程为我们提供了改善协议的潜在办法。因此,我们计划重新评估当前研究中的大部分项目,并包括项目响应性的正式评估和对切片准备的改进质量控制。我们预计,这一过程将导致当前指数(GS和MRS)的统一定义版本,或一个新的组织学疾病活动指数,该指数经过优化配置,以最大限度地减少分歧,并最大限度地提高对有意义的变化的响应能力。缺乏可重复性的评价指标不太可能是有效的结果测量。4因此,确定一种可重复和反应灵敏的组织疾病活动指数,适合作为UC药物开发临床试验的终点,仍然是研究的重点。该指标将提供对治疗反应的客观测量,直接测量炎症,并可能预测长期临床结果。我们推测,这种指标也可能在临床实践中有用。VAS与GS和MRS之间的强相关性表明这两个指标是潜在有效的。
总而言之,我们发现病理学家在使用GS和MRS评估UC疾病活动性方面的“实质性”到“几乎完美”的ICCs,但评分者之间只有中等程度的一致性。这些发现表明,虽然单个病理学家在使用现有指标评估UC组织疾病活动性时具有高度的可重复性,但需要更多的研究来确定由多个病理学家评分时具有可重复性和响应性的指标。协商一致过程的结果帮助我们描述了最重要的分歧来源,并提出了可能改善评级者之间协议的建议,作为修订现有工具或创建新工具的基础。
参考文献
补充材料
-
补充数据
此网页文件由BMJ出版集团从作者提供的电子文件制作而成,并没有对内容进行编辑。
本数据补充文件:
- 数据补充1-在线补充
脚注
贡献者物品保证人:BGL。开发研究概念和设计:MHM, BGF和WJS, GD, RK, CB, KK, DKD, LMS, KAB, JKM, MKV, KG, MAV, RP, CL, RR, NH, MS, MP, LWS, GYZ和BGL。研究指导:MHM、BGF、WJS、GD、RK、MKV、KG、BGL。数据采集、分析和解释:MHM、BGF、WJS、GD、RK、CB、KK、DKD、LMS、KAB、JKM、MAS、MKV、KG、MAV、RP、CL、RR、NH、MS、MP、LWS、GYZ、BGL。统计分析:LWS和GYZ。稿件起草:MHM, BGF, LMS, LWS, GYZ, MS, BGL。重要知识内容的手稿关键修订:MHM, BGF, WJS, GD, RK, CB, KK, DKD, LMS, KAB, JKM, MKV, KG, MAV, RP, CL, RR, NH, MS, MP, LWS, GYZ和BGL。
相互竞争的利益以下作者为Robarts临床试验的员工或附属人员:MHM, BGF, WJS, GD, RK, CB, KK, LMS, KAB, JKM, MAS, MKV, KG, MAV, RP, CL, MP, LWS, GYZ和BGL。以下作者没有竞争利益:DKD, RR, NH和MS。
伦理批准西安大略大学伦理委员会。
出处和同行评审不是委托;外部同行评审。
请求的权限
如果您希望重用本文的任何或全部内容,请使用下面的链接,该链接将带您到版权清除中心的RightsLink服务。您将能够快速获得价格和即时许可,以多种不同的方式重用内容。