用于医疗保健专业人员

教育和辩论

估计样本量为二进制,命令直言,连续在两组结果比较

BMJ1995年;311年doi:https://doi.org/10.1136/bmj.311.7013.1145(1995年10月28日出版)引用这个:BMJ311:1145 1995;

这篇文章有一个修正。请参阅:

  1. M J坎贝尔,读者在医学统计,一个,
  2. 年代Julious,统计学家程序员一个,
  3. D G奥特曼负责人b
  1. 一个医学统计和计算、南安普顿大学、南安普顿总医院,南安普顿SO16 6码
  2. b医学统计实验室,邮政信箱123,伦敦帝国癌症研究基金会WC2A 3 px
  1. 函授:坎贝尔博士。
  • 接受1995年7月21日

许多研究样本量计算现在强制性的协议,但在普遍情况下有用的不容易。本文概述了计算样本量的方法在两组研究二进制,下令直言,和持续的结果。公式和工作的例子。最大的权力通常是通过在两组人数相等。然而,这并不总是可能的不平等集团和计算大小。

在研究中样本量计算现在几乎强制协议和证明临床试验文件的大小。1然而,在论文中最常见的一种故障报告临床试验实际上是缺乏正当性的样本大小,它是一个主要关注重要的疗效被错过,因为大小的研究不足。2最近的一篇论文表明“统计力量和样本大小的报告需要改进。”3最近在英国医学杂志的文章描述了样本容量计算的基础上,45并解释了统计学意义(α)的基本概念,效果((δ)),和权力(1-ß)。样本大小的计算图表计算连续数据也可以。6然而,有一些理论的最新发展样本量的计算,这可能证明是有用的,本文的目的是提供一组公式和例子在实践中可能会遇到各种各样的情形。在特别情况下不处理在先前的文章中与不平等的样本大小两组比较,和样本大小有序分类结果(例如类别更好,同样,或更糟)。本文描述了样本容量的计算,并提供了表,研究比较两组个人,结果是二进制的变量(是/否),有序的分类,或连续。论文进一步数据配对时将考虑研究。进一步的例子是由食蟹猴和坎贝尔。7

参数定义

所有的参数必须指定在样本大小可以确定最重要的是效果。减少一半的效果将四所需的样本量。效果可以被解释为“临床重要差异,”但这通常很难量化。一个有价值的尝试分类是由努力等,回顾了三个主要医学期刊和寻找单词如“令人印象深刻的差异,”“重要的区别,”“急剧增加”,然后计算标准化效应大小。8这提供了一个指南的大小被其他作者视为重要的影响。有几种方法诱发有用的样本大小:贝叶斯的角度得到最近,9随着经济的方法,10和一个基于病人的而不是临床医生的利益的观念。11

在统计显著性的测试中设置一个零假设,考虑到感兴趣的差异,观察到的概率计算观察差异(或一个更极端的)在零假设下。这个收益率P值。如果P值小于某个预定的水平然后我们拒绝零假设。这个级别被称为显著性水平(α)。如果我们拒绝零假设为真时,我们制造一个错误,我们设置(α),显著性水平,控制这样的概率。如果零假设实际上是假的但我们不能拒绝它,我们使II型错误,II型错误的概率和ß表示。拒绝零假设的概率是假的时称为权力和被定义为1-ß。

每组中不平等的数字

对于一个给定的总样本量的最大力量是通过在两组相同数量的科目。通常,然而,在观察研究每组同等数量预计不会因为某个因素的发生率可能比在另一个更高的一组。在临床试验中,受试者的数量在一个治疗可能是有限的,因此实现必要的权力分配更多的病人到另一个治疗。在这种情况下,样本大小应该调整系数依赖于分配比例,12如方程1在附录中给出。

如果要保持同样的样本大小计算然后分配比例为1:1的比例2:1的权力损失将是非常小(约5%)。然而,如果分配比例不得超过2:1总样本容量相同的功率下降很快(损失在25%左右的比例5:1),因此需要一个相当大的总样本量与一个不平衡的研究,而不是保持一个固定的权力平衡。

连续的数据

在两组比较研究结果测量是一个连续变量,这就是合理的正态分布,如血压、两样本t考验将在最后的分析中使用的统计检验。

计算样本大小,除了上面所讨论的,参数估计的总体标准偏差(σ)必须。样本大小的公式7在附录中给出方程2,表我给所需的样本量不同值的标准化不同d,定义为d =(δ)/(σ),各级权力的双面5%显著性水平。

另外,莱尔给快速公式计算这些样本大小。13双面显著性水平的5%和80%的力量,要求每组数量得到m =约16 / d2。这个公式的样本大小有点高估了小的d值;否则它给密切近似样本大小。

工作的例子

在最近的一篇论文,戈弗雷et al14发现46人对他们的手指没有螺环平均136毫米汞柱的收缩压与93年相比患者至少有一个螺纹为谁平均血压是144毫米汞柱。

假设一个实验者希望证实这些发现,但怀疑平均差将观察不到,5毫米汞柱是临床上最小差异的接受。每组血压的总体标准偏差被认为是17毫米汞柱,与出版。我们发现d = 5/17 = 0.294, 0.3,所以我从表所需的样本量检测这种差异与双面显著性水平为5%和80%,将是176年科目在每组352例。另外,莱尔的快速公式得到m = 16/0.2942=每组185例。假设,就像戈弗雷等,我们将期待与螺纹型招聘两个人没有螺纹型的每一个人。从方程2 r = 1我们发现m = 3 x176/4 = 132所以rm的= 264,修改后的总样本量396。总体样本容量比较大如果团体是不平等的,因为设计能力低于设计相同大小的人数相等的两组。

表我

双面样本量要求每组5%的显著性水平不同的d值和功率(d =预期平均差/标准偏差)

把这个表:

二进制数据

一个二进制的结果是响应刚刚两类。这些类别表单的可能是/否或存在/没有与一个给定的因素,例如生/死。通常是实验者可能希望通过测试比较治疗反应比例的差异是否在每个治疗可能是由于机会。在这种情况下,效果可以制定(δ)= pA-pB、pA、pB在哪里比例预计将在两个治疗组。统计测试用来测试两个二进制变量的皮尔森χ之间的联系2测试。

计算所需的患者数量在每一个部门一个二进制试验使用方程3在附录中。比例大于0.1这个简化方程4。表2给出了样本大小所需的各种价值观的pA、pB双面显著性水平(α)和电力1-ß。但是请注意,pA的表只值0.5。这是因为有一个成功率为65%,说,是相同的失败率为35%,所以比较pA和pB的样本大小是比较1-pA和1 pB的相同。

一个近似的结果类似于莱尔的公式1380%的力量和双面5%显著性水平是m = 16 p (1 - p) / (pA-pB)2,p = (pA + pB) / 2。像莱尔前面给出的方程,这高估了样本容量。

观察等调查病例对照研究常常总结的优势比或相对风险,而不是一个比例的差异。如果pA的比例情况下暴露于危险因素和pB的比例控制暴露在相同的风险因素,然后的优势比情况下考虑到风险因素优势比= pA (1 pB) / {pB (1-pA)}。一个近似样本容量公式使用优势比(或)是由方程5在附录中给出。

工作的例子

Tovey和克劳斯说,52人(19%)的281个男人发现避孕套太紧。15这些经历过68%安全套分裂相比之下,只有26%的男性避孕套的不紧。研究员假设从坊间证据怀疑报道分裂的患病率接近50%组中发现避孕套太紧,希望进行的一项研究显示这种患病率仍明显高于其他组。

期望是观察到的频率比“不紧张”(A)“紧”(B)是4:1。pA = 0.5, pB = 0.25和r = 4。从表二世所需的样本量与平等分配在每组58岁,使用方程2修改后的样本大小的只有37个学科组中发现避孕套太紧,148年在另一组,共计185。平等的不可能事件组大小总共需要116名受试者,收益率储蓄69科目。这是因为组情况更为高效。注意,莱尔的公式相同大小的组织给大约每组60或120科目。如果我们指定大小的影响作为一个优势比,然后假定分裂的可能性当避孕套太紧,当它不是三倍。从方程5,我们发现在这种情况下,对于平等分配我们要求每组55科目。

表二世

样本大小来检测两个比例不同,pA、pB,在5%的显著性水平为80%的力量

把这个表:

有序分类数据

可能进行的一项研究结果衡量兴趣是有序的,比如李克特量表(强烈不同意,不同意,同意和强烈同意)或评定量表(更好,同样,更糟)。在这个实例中使用的统计检验是Mann-Whitney U测试中,关系的津贴。16样本大小的计算数据时立即下令不简单。问题就变得相当容易,然而,如果一个人认为许多务实的措施将在本节描述。

和之前一样,我们需要指定一个效果,这是更容易使用的几率比。我们还必须指定科目将在每个类别的比例尺度的团体之一。假设我们有t类别,命令类别越高表明更糟糕的预后,A组的比例预计pA1, pA2, ___pAt (pA1 +回目+ ___ +帕特= 1)和类似的符号组b让cA1,游离钙,___cAt,累积概率,所以cA1 = pA1游离钙= pA1 + pA2等等。的优势比是一个主题的机会相比,一组在一个给定的类别或更低。类别1是由1 = {cA1 / (1-cA1)} / {cB1 / (1-cB1)}同样的得奖感言第二类,一类t - 1。稍后将显示,比值比未必太难以估计,作为一个群体的比例预计可能已经通过试点研究或从之前的研究。实验者可以假定新的治疗一个病人可能只有一半分数高于给定的水平比旧的治疗和优势比将估计为0.5。或者,一个实验者可能知道预期的比例在每个类别一组和推测,如果比例,p,是在一个特定的类别或更好,那么临床显著性差异将相应的比例要高出大约20%在另一组。从这些信息优势比可以计算,因此另一个预期的比例和样本容量。

方程6在附录中给出了有序分类数据样本大小的计算公式。它假定每一对相邻的优势比是常数类别,或1 =得奖感言= ___ORt-1,这种假设意味着Mann-Whitney U测试是最好的测试使用。这也意味着你可以估计任何累积的优势比从每组比例。帮助计算表三世给值方程6分子的不同值的比值比和权力。

表3

对于有序分类数据,值为6 (z1 -(α/ 2)+ z1-ß2 /日志或)2的不同值比值比(或)和电力(1-ß)双面5%的意义

把这个表:

如果类别的数量很大,很难假设的人所占的比例将会下降在给定的类别。然而,怀特海德已经表明,几乎没有增加力量(因此储蓄的受试者招募数量),通过增加群体的数量超过5个。17

工作的例子

在随机对照试验中对乙酰氨基酚治疗发烧的孩子,Kinmonth et al嬉闹归入正常或略,适度,或者很无精打采。1843给出回答的结果在表V,连同比例和累计比例。第一优势比表中计算从{0.14 /(1 - 0.14)/(0.27 /(1 - 0.27))}= 0.44,以类似的方式,我们对其他两双0.287和0.1625。平均约为0.3。

假设一个新的研究计划我们希望复制这些结果。儿童的分布在对照组(A组)预计将与被发现之前,应使用样本大小的计算。如果一个支持扑热息痛的比值比为0.33(或等价的优势比约3对控制)预计,然后从优势比的定义我们可以计算预期的累积比例在治疗组(B组)公式CBi = CAi / (CAi +或(1-Cai))。因此预计比例在B组的第一类是0.14 /(0.14 + 0.33(1 - 0.14)= 0.33等等。B组的累积比例预期0.33,0.65,0.83,和1.00,所以实际的比例预计是0.33,0.32 =(0.65 - -0.33),0.18 =(0.83 - -0.65),和0.17 = (1.00 - -0.83)。的平均比例p是0.235,0.280,0.210和0.275。(1 -(σ)p3)= 0.935。权力和5%显著性水平为80%,从表3,分子是39.02,样本量是39.02/0.935 = 41.7,或每组约42个病人。

这个公式很复杂,我们有一些建议来简化问题。如果平均比例(π)在每个类别大致相等则方程6中的分母是常数对于给定的类别,如果类别的数量超过5个大约是统一。因此80%的力量和5%的双面意义,样本大小的估计可以获得从m = 47 /(日志)。2如果类别的数量小于或等于5然后这样本量估计乘以修正系数表四。从这个表,在比例大致相等的情况,很明显,只有两类数据分析可能需要你招募患者多于三分之一如果数据是连续的。在我们的示例中,校正因子从表4是1.067所以n = 1.067开发/ x47(0.33日志)2= 40.8,或者41例。

表4

校正系数是用于表三世当类别的数量< / = 5

把这个表:
表五世

儿童嬉闹

把这个表:

另一个简化发生如果对两组受试者在一个类别的比例预计将很大。我们可以结合分类直到只剩下两个了,使用前面给出的公式和表二进制数据。结合类别减少可用的信息量,所以人们会预计所需的样本量增加。

在工作的例子如果我们汇集这些1 - 2和3 - 4分,我们将比较比例pA = 0.38 pB = 0.65。公式4表明,这项研究需要49.9,或约50名患者每组。因此,使用所有四类,而不是简单的两个,在研究规模收益减少16%,这可能大于好处,一个更简单的样本大小的计算。

评论

从方程在附录中很明显,样本大小,显著性水平,力量,效果都是相连的。鉴于任何三个参数,原则上第四的方程可以解决。因此,如果样本容量有限的资源,提前和显著性水平固定,可以任意增加研究的力量对大尺度效应。然而在实践中,干预的影响的估计常常证明过于乐观,导致许多试验,太小了。需要样本大小的计算提供了一个极好的机会涉及统计学家早在规划时的一项研究,而不仅仅是分析是必需的。本文介绍了有限范围的设计,和一个统计学家可以建议其他的设计。其中包括超过两组比较,19生存曲线的比较,720.21研究证明生物等效性。22计算机软件可用于一些讨论的样本大小的计算,23242526和其他评论。2728

确认

我们感谢D食蟹猴博士评论早期手稿。

附录

在每个下面的m是所需的对象数量在每组双面意义(α)和电力1-ß,和z1 -(α/ 2)和z1-ß适当的值从100年的标准正态分布(1 -(α)/ 2)和100年(1-ß)分别百分位数。一些有用的值以下:双面(α)= 0.05,z1 -(α/ 2)= 1.96;两站(α)= 0.01,z1 -(α/ 2)= 2.58;对ß= 0.2,z1-ß= 0.84;ß= 0.1,z1-ß= 1.28。

不平等分配

鉴于m,计算假设同等大小的团体,让米的是第一组的样本大小和rm的第二组的样本大小。然后m”是由m1= r + 1/2rxm, (1) r是分配比例。

连续的数据

检测不同(δ)我们要求7:m = 2 (z1 -(α/ 2)+ z1-ß)2/ d2+ z21 -(α/ 2)/ 4 (2),d =(δ)/(σ)和测量的标准偏差(σ)。上学期的方程是一个校正因子,使正常的表而不是t表使用和可以忽略除了非常小的样本大小。双面5%显著性水平增加样本容量1。表我给不同的d值所需的样本大小和权力从50%降至99%。

二进制的结果

假设预期的比例在A和B组pA和铅。

(m = (z1) -α/ 2 (√){2 p (1 - p)} + z1-ß(√){pA (1-pA) + pB (1 pB)})2/(δ)2(3),(δ)= pA-pB和p = (pA + pB) / 2。一个近似,简化公式,是:m = (z1 -(α/ 2)+ z1-ß2(pA (1-pA) + pB (1 pB)] /(δ)2(4)这是足够准确除非pA、pB很小(< 0.05)。表二世给每组所需的样本容量在5%的显著性水平和80%的功率值0和0.45之间的pA、pB在0.05和1.00之间。

如果指定了效果作为优势比或= pA (1 pB) / pB (1-pA),然后一个近似公式是由m = 2 (z1 -(α/ 2)+ z1-ß2/日志(或)2p (1 - p)(5)有序分类数据m = 6 (z1 -(α/ 2)+ z1-ß2/(日志或)2/(1 -(σ)i = 1kπ3),(6)或者是一个病人的优势比我在类别或少一个治疗相比,k是类别和π的数量预计平均比例在类别我——也就是说,π= (pAi + pBi) / 2 pAi和pBi比例预计将在类别分别为a和B两组我。

脚注

  • 资金澳门赛马会和SAJ资助的高等教育资助委员会和DGA的帝国癌症研究基金会

  • 的利益冲突一个也没有。

引用