介绍

测量健康状况在科学研究和临床实践至关重要。基于与测量仪器获得的成绩,决定对随后的诊断测试和治疗的应用。健康状况测量仪器应该是可靠和有效的。否则有严重风险的不精确或有偏见的结果,可能会导致错误的结论。组织如美国食品和药物管理局(FDA)和欧洲药品局(EMEA)要求测量仪器必须被验证的目的(1,2]。需要可靠的和有效的测量仪器的健康结果显然证明了马歇尔,在精神分裂症试验显示,作者更有可能报告说,治疗优于控制当一个未测量仪是用于比较,而不是发表仪器(3]。

前健康状况测量仪可用于研究或临床实践,其测量特性,即可靠性、有效性和响应性,应该评估和考虑足够了。研究评估测量属性应该高方法学质量保证相关的结论关于乐器的测量性能。评估研究的方法学质量测量属性,标准是必要的。尽管许多标准和标准提出了,这些没有operationalised用户友好的和容易适用清单(如。4,5])。此外,这些标准不注意研究应用项目反应理论(IRT)模型,或不一致(如。6,7])。这样一个清单应包含一套完整的标准(指的是设计要求和优先统计方法)和标准的充分性什么是良好的测量性能。广泛的共识是必要的为了实现广泛接受的清单。

研究测量属性是特别重要的直接报告病人的健康状况,即健康patient-reported结果(HR-PROs)。HR-PRO是测量病人的健康状况的任何方面直接评估的病人,即没有解释病人的反应由一名医生或其他任何人(2]。HR-PRO仪器数据收集方式包括项访谈式仪器,自行管理的工具,或计算机支配的工具2]。HR-PROs的例子有问卷评估症状、功能状态和健康相关的生活质量。这些是结构不直接可测。因为这些构造的主观性质,是非常重要的评估测量仪器测量这些构造是否有效和可靠的方法。

COSMIN倡议一致同意的标准选择健康测量仪器)旨在改善健康测量仪器的选择。作为这个项目的一部分,本研究的目的是开发一个清单包含标准评估研究的方法学质量测量的属性。清单已经开发成一个多学科,国际合作涉及所有相关专业知识。德尔菲研究解决两个研究问题:

  1. 1。

    计量属性应该包含在清单?

  2. 2。

    这些测量属性应如何评估方面的研究设计与统计分析(即标准)?

在本文中,我们提出COSMIN清单,描述了面板的协议有关项目包含在清单中。

方法

COSMIN清单的焦点

COSMIN清单重点是评估研究的方法学质量测量HR-PROs的属性。我们选择把重点放在HR-PROs,因为这些工具的复杂性。这些仪器测量构造多维和不直接可测。

此外,我们关注评价的应用HR-PRO仪器,即纵向应用评估治疗效果或健康的变化。的规范评价是必要的,因为测量的需求属性随仪器的应用程序(8]。例如,工具用于评估需要响应,而仪器用于不歧视。

COSMIN指导委员会(附录1)文献搜索来确定测量属性通常是评估。两个搜索进行:(1)进行系统的文献检索识别所有现有的系统评价健康状况测量仪器的测量属性(9]。从这些评论、信息提取的测量属性进行评估,和标准用来评估的计量属性包括研究。对于每个度量属性,我们发现了几种不同的标准,其中一些是矛盾的9]。(2)指导委员会还执行另一个系统的文献检索(可以在请求从作者)来识别方法论的文章和教科书包含标准评价健康状况测量仪器的计量属性。文章被选中,如果这篇文章的目的是提供一个清单或测量标准属性。标准中确定上述文献在Delphi轮作为输入。

国际德尔菲研究

随后,德尔菲研究,由四个写轮。第一个问卷是送2006年3月,2007年11月最后的调查问卷。我们决定邀请至少80名国际专家参与我们德尔福小组,以确保30反应者在最后一轮。根据之前的经验与德尔菲研究[10,11),我们预计,70%的人同意邀请参与,和这些人65%会完成第一批名单。一旦开始,我们预期,75%将介入。我们心理学领域的专家,包括流行病学、统计学和临床医学。被邀请的那些评论的作者、方法论的文章,或教科书。专家必须有至少五个出版物(的方法)测量PubMed的健康状况。我们邀请了来自不同国家的人。

在第一轮,我们询问测量属性应该包含在清单,并对他们的术语和定义。例如,我们要求测量房地产内部一致性的哪一项你认为的最佳测量财产吗?”,回答选项的内部一致性”、“内部一致性可靠性”、“同质性”、“一致性”、“内部规模分半信度”、“可靠性”、“内部结构可靠性”、“项”、“一致性intra-item可靠性”,或“其他的一些空间给另一个术语。有关的定义,我们问你认为最好的定义内部一致性?”,并提供7定义在文献中被发现和选择的其他的小组成员可以提供另一种定义。在第二轮,我们介绍了关于首选标准每个计量属性问题。我们问的问题设计问题,即。”你同意以下要求的设计研究评估内部一致性HR-PRO仪器的评价应用程序?(1)政府应该是可用的。(2)检查uni-dimensionality /(子)规模应该执行。(3)内部一致性统计应分别计算每个(子)规模”。 The panel could answer each item on a 5-point scale ranging from strongly disagree to strongly agree. Next, the panel was asked to rate which statistical methods they considered adequate for evaluating the measurement property concerned. A list of potential relevant statistical methods for each measurement property was provided. For example, for internal consistency the following often used methods were proposed: ‘Cronbach’s alpha’, ‘Kuder-Richardson formula-20’, ‘average item-total correlation’, ‘average inter-item correlation’, ‘split-half analysis’, ‘goodness of fit (IRT) at a global level, i.e. index of (subject) separation’, ‘goodness of fit (IRT) at a local level, i.e. specific item tests’, or ‘other’. Panel members could indicate more than one method. In the third round, we presented the most often chosen method, both the one based on CTT and the one based on IRT, and asked if the panel considered this method as the most preferred method to evaluate the measurement property. For internal consistency, these were ‘Cronbach’s alpha’ and ‘goodness of fit (IRT) at a global level, i.e. index of (subject) separation’, respectively. In the third round, the panel members were asked whether the other methods (i.e. ‘Kuder-Richardson formula-20’, ‘average item-total correlation’, ‘average inter-item correlation’, ‘split-half analysis’, ‘goodness of fit (IRT) at a local level, i.e. specific item tests’) were also considered appropriate. Panel members could also have indicated ‘other methods’ in round 2. Indicated methods were ‘eigen-values or percentage of variance explained of factor analysis,’ ‘Mokken Rho’ or ‘Loevinger H’ for internal consistency. In round 3, the panel was also asked whether they considered these methods as appropriate for assessing internal consistency. In the final Delphi round, all measurement properties and standards that the panel agreed upon were integrated by the steering committee into a preliminary version of the checklist for evaluating the methodological quality of studies on measurement properties.

在每一个Delphi,上一轮的结果提出了一个反馈报告。小组成员被要求评估他们(dis)协议方面的建议。协议被评为5点量表(强烈disagree-disagree-no opinion-agree-strongly同意)。小组成员被鼓励给理由说服其他小组成员的选择,建议选择,或添加新问题。共识的一个问题被认为是达到至少67%的小组成员时表示“同意”或“强烈同意”在潜油电泵的规模。如果少于67%的问题达成了协议,我们问一遍在下一轮中,提供专业和反论点小组成员,或者我们提出一个替代。当没有达成共识,指导委员会最终决定。

在必要的时候,我们要求小组成员表示首选统计方法分别为每个测量理论,即经典测试理论(CTT)或项目反应理论(IRT),或为每个类型的分数,如二分,名义,顺序,或连续得分。

结果

小组成员

我们邀请了91名专家参与其中57例(63%)同意参加。参加的主要原因是缺乏时间。19专家(21%)没有回应。57岁的专家同意参与,43(75%)专家参与至少一个圆,和20(35%)参与了所有四个轮。平均数量(最小最大)测量健康或类似领域的多年的经验(如在教育或心理测量)(6-40)20年。大部分小组成员来自美国北部n= 25)和欧洲(n= 29),而两人来自澳大利亚,一个是来自亚洲。轮的反应率从48到74%不等。六个小组成员(11%)过程中退出。所有小组成员的名称至少完成一个回合的“确认”。

COSMIN分类

在德尔福的研究中,我们还开发了一个分类相关的计量属性的关系评估HR-PRO仪器,并达成共识的术语和定义的测量属性。所有属性之间的关系提出了分类(图。1)。分类包括三个领域(即可靠性、有效性和响应能力),其中包含测量属性。建构效度的测量属性都包含三个方面,即结构效度,假设测试和跨文化的有效性。可解释性也包含在分类和检查表,虽然它不是被认为是测量属性,但是一个重要的特点。百分比一致的术语和分类描述了其他地方的位置12]。

图1
图1

COSMIN分类关系的计量属性

COSMIN清单

结果达成的共识在Delphi轮是用于构造COSMIN清单(附录2)。清单包含12个盒子。10箱可以用来评估是否符合标准的研究方法学质量好。9包括这些框包含标准的测量属性(内部一致性(盒)、可靠性(箱B),测量误差(盒子C),内容效度(盒子D),结构效度(盒子E),假设测试(盒)、跨文化的有效性(盒子G),效标效度(盒子H)和响应能力(我),和一盒包含标准可解释性研究(盒子J)。此外,两个盒子都包含在清单包含文章中应用红外热成像方法一般要求(红外热成像盒),和一般要求结果的普遍性(普遍性盒),分别。

完成COSMIN清单,一个分4步的过程应遵循(无花果。2)[13]。第一步是确定哪些属性评估在一篇文章中写道。第二步是确定如果在文章中使用的统计方法是基于经典测试理论(CTT)或项目反应理论(IRT)。研究,应用红外热成像、红外热成像盒应该完成。第三步是完成盒子在步骤1中附带的属性选择标准。这些框包含问题率是否符合标准的研究方法学质量好。首选项包括对设计要求和统计方法每个测量的属性(盒子我)。此外,一盒与物品的可解释性(变化)评分包括(盒子J)。这些盒子的物品数量范围从5到18岁。步骤4的过程完成框一般要求概括性的结果。这个普遍性框应该完成步骤1中确定每个属性。我们开发了一个手动描述每个项目的基本原理,并建议评分(13]。

图2
图2

这4步过程来完成COSMIN清单

共识的面板

在表1,我们小组成员的百分比协议的范围为每个盒子,对设计要求和统计方法。大多数这些问题讨论了轮2和3。

表1协议比例的小组成员(强烈)同意的项目设计要求和统计方法COSMIN箱子j

百分比协议中小组成员在项目1 - 3的红外热成像盒从96%到81不等。第四项(即检查红外热成像模型的估计参数的假设)包括基于小组成员的建议轮4。因此,没有共识被评为,包括这个项目指导委员会决定。

四项清单中有不到67%的协议面板:9项框内部一致性,C测量误差项11盒子,项目11和17箱我响应能力。一个是关于统计方法。出于不同的原因,我们将先后解释,指导委员会决定包括这四个项目的清单。

当询问的首选统计方法内部一致性,我们最初并没有区分类型的分数,即二分或序数分数(9)项。因此,克伦巴赫α是首选在Kuder-Richardson公式20 (KR-20)。然而,指导委员会决定之后,KR-20被认为是适合两个分数。

11项框C测量误差包含三种方法,即标准测量误差(SEM),最小可检测变化署和限制的协议(贷款)。在第三轮,SEM被选为首选的测量方法测量误差(76%协议)。当询问其他适当方法时,只有20%的人同意提交,并与贷款28%。尽管低比例达成协议在第三轮接受署和贷款作为适当的方法,指导委员会决定之后,这两种方法应该考虑适当的测量测量误差和被包含在清单中。扫描电镜的发展是一个线性变换(14),即。,1。96× √2 × SEM. Because the SEM is an appropriate method, SDC should also be considered appropriate. The LOA is a parameter indicating how much two measures differ [15]。当这两个措施重复措施稳定的病人,它可以用作评估测量误差的方法。贷款与SEM(直接相关16),因此,我们决定将这个方法的清单。

11项框我响应能力(也就是说,“一个适当的描述提供了比较仪仪器(s)的)批准了64%的面板。尽管协议比例略过低,我们决定包括这个项目,因为它也包含在框F假设测试,反映出相似性构想效度和响应性。

盒子我17项包含两个方法,即变化之间的相关性分数和接收机运营商曲线下的面积(中华民国)。百分之七十六的小组认为第一种方法作为首选方法。时可以使用该方法测量仪在研究和它的黄金标准是连续的措施。只有60%认为中华民国方法作为一个适当的方法来测量响应(二分)金本位制时可用。在类比诊断研究,指导委员会认为中华民国方法一个适当的方法来评估如果测量仪的黄金标准。指导委员会因此决定包括这个方法。

讨论

在这个德尔菲研究中,我们开发了一个清单包含标准评估研究的方法学质量测量的属性。我们认为它有用独立研究的方法学质量评价和评价的结果,类似作为试验完成。COSMIN清单是用来评估研究的方法学质量的测量属性HR-PRO乐器,不是为了评估HR-PRO仪器本身的质量。评估质量的仪器,什么是良好的测量性能的标准应该应用于研究测量的结果属性。这种标准的例子以前由我们组的成员(6]。然而,基于这些标准并不一致。注意,COSMIN清单不包括这些条件的充分性。

虽然我们最初打算开发这些标准(17),由于缺乏时间和复杂性的问题,我们还没有开发的充分性标准计量属性。这样的共识标准应当在未来获得。此外,它可能是有用的开发评价系统的研究可以分为不同的质量水平,如优秀/良好/公平/可怜的方法学质量。

COSMIN清单可以用来评估研究的方法学质量健康状况测量仪器的计量属性。例如,它可以用来评估研究质量的一个测量仪或比较的度量属性的测量仪器系统回顾(如。18,19])。在这样一个审查,重要的是考虑到所选研究的方法学质量。如果高质量研究的结果不同于低质量研究的结果,这可能是一个迹象的偏见。COSMIN清单还可以用作指导设计或研究报告测量属性。此外,学生可以用它学习计量属性时,评论家和杂志的编辑可以使用它来评价的文章或授予应用研究的方法学质量测量的属性。

有理论观点有一个乐器需要具备良好的可靠性、有效性和响应能力。据我们所知,马歇尔(3)是唯一一个实证研究的结果表明,不同使用测量仪器进行验证时相比non-validated仪器使用的研究。然而,应该进行更多的实证研究支持的需要。研究可以为这个目的,例如,在随机对照试验的结果(相关的),使用well-responsive测量仪器和相关的使用仪器与未知的响应能力,进行了比较。

Delphi的方法是有用的情况下,有一个缺乏经验证据,并且有强烈的意见的分歧。COSMIN研究的研究问题的答案不能实证调查。因此,专家之间的协议是有用的。在文献中,否决55至100%(使用20.]。67%的截止共识是任意选择的。

是不可能画一个随机样本所有专家。因此,专家的选择必然是缺乏系统性。所有确认的第一个和最后一个作者的两个系统的文献搜索方法部分中描述被认为是潜在的专家。我们添加了那些我们认为是专家和那些没有在名单上。作为一个专家的检查,我们搜索PubMed是否作者已经发表了至少五篇文章测量问题。我们认为共有30专家足以传播各种各样的意见,而不是太大保持可控的。

在这项研究中,我们关注HR-PRO仪器。然而,同样的测量属性可能相关的其他健康相关的测量仪器,如绩效仪器和临床等级量表。此外,我们关注的评价工具。然而,对于歧视的或预测的目的,设计要求和标准的测量属性可能是相同的。

COSMIN清单给HR-PRO测量的一般建议。COSMIN清单的一些标准需要进一步细化,如通过定义什么是足够的样本大小或足够的两次试验法的时间间隔或当有充分的描述。因为这些问题是高度依赖于构造来衡量,为他们自己的应用程序用户应该做出这些决策。

帮助COSMIN未来用户的清单,我们描述了一些我们在Delphi轮讨论其他地方标准(21]。在手动13),我们描述了一个理由和建议为每一项得分的项目清单。

COSMIN倡议旨在改善测量仪器的选择。作为第一步,我们已经达成共识,测量属性很重要,我们已经开发出如何评估这些测量标准属性。COSMIN清单开发了许多该领域的专家的参与。COSMIN清单将促进竞争之间的选择最合适的HR-PRO测量仪器。由许多专家参与的开发过程COSMIN检查表,很有可能,所有有关项目包括所有相关的计量属性,导致其内容效度。此外,我们正在计划评估的两分的可靠性COSMIN检查表在一个大型国际研究小组。