文摘

动机:微生物样品之间的社区组成的变化,称为β多样性,可以通过两两距离测量基于presence-absence或定量物种丰度数据。PERMANOVA, permutation-based扩展多元方差分析两两距离矩阵,分区类内和群体间的距离,允许评估暴露或干预的效果(分组因素)对微生物采样。类内距离和曝光/干预效果必须准确建模估算统计能力的微生物研究将分析两两距离和PERMANOVA。

结果:我们提出一个框架,用于PERMANOVA功率估算根据标志基因微生物将由两两距离分析的研究,其中包括:(i)距离矩阵模拟新方法,使建模的类内两两距离根据预先确定的人口参数;(2)方法将模拟的距离矩阵中不同尺寸的影响;(3)基于仿真的方法估计PERMANOVA权力从模拟距离矩阵;和(iv) R统计软件包,实现了以上。可以有效地模拟矩阵的两两距离满足三角不等式和合并组级别的影响,量化的调整确定系数,ω的平方( ω 2 )。从模拟的距离矩阵,可用PERMANOVA力量或必要的样本量估计微生物研究计划。

可用性和实现:http://github.com/brendankelly/micropower

联系人:brendank@mail.med.upenn.eduhongzhe@upenn.edu

1介绍

微生物的研究往往比较组的微生物群落和不同的环境因素,或应用了不同的干预措施。例如,一项研究可以评估不同人体的呼吸道微生物群落与接触不同的抗生素治疗。基本测量在这样一个研究社区成员的计数(物种或操作分类units-OTUs),通常通过测序完成标志基因16 s核糖体RNA基因等细菌。两两距离度量促进个体之间的标准化的社区成员的比较研究对象由微分会员和共同解决问题。评估学科组之间的差异(即分组的解释力的因素,如抗生素暴露),成对subject-to-subject距离必须排列在一个广场的距离矩阵。组级别差异可以分析分类方法如主坐标分析或通过显著性检验,如PERMANOVA (安德森,2001;勒让德勒让德,2013年;麦卡德尔和安德森,2001年)。

微生物研究的设计需要考虑的统计能量足够数量的受试者必须招募确保预期的暴露的影响或干预的兴趣可以被检测出来。在这里,我们专注于16 s标记的力量测序研究,分析了使用成对的距离(特别是UniFrac和Jaccard距离)和PERMANOVA。UniFrac距离度量是基于独特的分数系统树的分支长度由两套类群。比较微生物样品可以通过执行未加权的UniFrac,认为严格分类群的存在与否,或加权UniFrac还考虑相对丰度(Lozupone和骑士,2005;Lozupone艾尔。,2007年,2010年)。Jaccard距离,non-phylogenetic测量的区别两个样本集,计算作为一个-十字路口的比率的联盟;它也可以计算未加权的(“二进制”)或abundance-weighted时尚(曹国伟et al。,2005年;Levandowsky和冬季,1971年)。

PERMANOVA的力量,就像传统的方差分析的力量,取决于暴露的数量或干预组(自由度),受试者的数量每组(剩余自由度),类内距离(类内平方和)和效应的大小(群体间的平方和的区别和类内平方和)。II型错误与多组增加和统计能力减少,更少的科目,更大的类内距离和较小的影响(金,1999)。然而,pseudo -F比并不是像费舍尔的分布F比在零假设下,所以功率估计参数方差分析的标准方法不适用于研究分析了PERMANOVA (安德森,2001)。此外,微生物群落结构和类内距离之间的关系往往是模糊的,和预期的效果预期风险敞口或计划干预的微生物往往是不确定的。

在这里,我们提出一个框架PERMANOVA权力和样本量估算根据标志基因的微生物的研究将分析两两距离。我们首先描述一个距离矩阵模拟新方法,允许根据预先确定总体参数建模类内两两距离。然后,我们演示了如何将不同大小的影响在模拟距离矩阵。基于精确模型的能力在群体间的距离,提出了一种基于仿真的方法估计PERMANOVA权力。最后,我们提出了一个R统计软件包(R统计计算的基础,www.r-project.org- - - - - -R核心团队,2014年)实现,并提供其使用的例子。

2方法

2.1 PERMANOVA和效果

在许多微生物的研究,一个是有兴趣测试不存在任何差异的零假设总体微生物组成的p细菌类群之一一个暴露组。考虑简单情况一个接触或干预组n观察每组共有N=na观察。两个主题之间的微生物组成j决定了他们的距离dij我们关注UniFrac和Jaccard距离,因为他们被广泛使用,方便地实现生物信息学分析包(Caporaso艾尔。,2010年;城堡艾尔。,2009年)。基于距离的多元方差分析因此提供了一个非参数测试的零假设没有总体细菌成分的差异一个暴露组。

PERMANOVA是多元方差分析的非参数方法基于两两距离( 安德森,2001)。它扩展了传统方差分析成对的方阵距离测试由排列与意义。让dij是微生物组之间的距离观察j,ϵij如果观测值1j在同一组和0。两两距离的类内平方和(党卫军W)被定义为距离的平方之和群体内部的数量除以每组受试者,
党卫军 W = 1 n = 1 N 1 j = + 1 N d j 2 ϵ j ,
和总平方和党卫军T被定义为
党卫军 T = 1 N = 1 N 1 j = + 1 N d j 2
群体间的平方和(党卫军一个)被定义为总平方和党卫军的区别T和学生W, 党卫军 一个 =党卫军 T 党卫军 W 。PERMANOVA测试统计,称为伪F比,类似于费雪的F比率;它是基于距离的平方之和比法类内距离平方的总和
F = 党卫军 一个 / ( 一个 1 ) 党卫军 W / ( N 一个 ) ,
在哪里 一个 1 是定义的自由度和分组因素N一个是剩余的自由度。伪的重要性F比率可以评估排列。
与传统的方差分析,伪的效果F比率可以量化确定系数(R 2),这是一个负类内平方和的比值总平方和。这相当于群体间的平方和的比值总平方和,
R 2 = 1 党卫军 W 党卫军 W + 党卫军 一个 = 党卫军 一个 党卫军 T
然而,R 2距离的比例占的分组因素,是有偏见的,因为它完全依赖于样品的平方和的,估计没有调整的效果。ω的平方( ω 2 )提供了一个更少的偏见的影响大小为ANOVA-type分析会计均方误差( Olejnik Algina, 2004; 齐格勒Buhner, 2009)观察到的样本,
ω 2 = 党卫军 一个 ( 一个 1 ) 党卫军 W N 一个 党卫军 T + 党卫军 W N 一个
PERMANOVA的力量取决于样本大小,备择假设,可以指定不同的群体之间的微生物组成一个组和他们的差异。这些参数确定两两距离及其差异,群体间的平方和党卫军一个和总平方和党卫军T。在规划微生物研究,样本大小/功率计算的关键是指定这些关键量。在以下部分中我们提出一种新奇的方式生成两两距离内,可用于计算和群体间的广场和大小的影响 ω 2 。这提供了一个有效的方法,基于仿真的样本容量/功率的计算。

2.2模拟类内两两距离由OTU随机二次抽样数量

许多不同分布的社区成员之间可能会产生同样的距离两个微生物样品。PERMANOVA测试操作距离,不是物种或OTU计数。或许因此,多个不同物种分布模型微生物群落结构的目的PERMANOVA测试只要物种分布准确概括分布的距离。我们开发了一种技术来模拟一个预先确定的分布两两距离从一个简单的基于随机二次抽样,制服OTU向量。

我们开始于一个统一的向量的物种或OTU计数,代表一个微生物群落的主题。例如,我们生成一个向量1000辣子鸡单一序列数在每个OTU垃圾箱。然后我们取样OTU向量,随机选择一个序列保留的比例(休斯和张春,2005年)。我们发现随机二次抽样从两个主题向量在同一水平(即相同比例的序列数保留)生成一个可预测的两两距离。尽管二次抽样过程随机操作和独立在每个主题向量,其影响两两距离是一致的:序列保留越少,对象之间的距离就越大。

图1描述了二次抽样和两两距离四距离指标之间的关系。每个点代表一个副主题,每个小组描绘了10 000双。对相同主题向量的子样品随机生成的水平;每个主题在一对被分配的比例是相同的序列被保留,但保留序列是随机选择的个人主题和不同学科之间的一对。我们观察到,未加权和加权Jaccard UniFrac指标、学科之间的距离根据序列保留的比例不同。在所有序列都保留了距离是0,和更少的序列被保留,距离接近1。(加权UniFrac提出了归一化形式和所有后续分析。)这个增加的模式变化之间的距离度量。加权指标,它还根据数量的不同序列中每个OTU本前二次抽样(数据没有显示)。然而,随机二次抽样适用于均匀OTU向量用来生成一组两两距离匹配任何预先确定的平均距离; this was accomplished by choosing the proportion of retained OTUs from a distance–metric-specific hash table with the form of图1。因为所有的距离从OTU计数数据计算,模拟两两距离满足三角不等式。因此,我们可以模拟一个距离矩阵与预先确定的平均距离和任意数量的对象用于PERMANOVA力量的估计。对于未加权的Jaccard,预期的距离可以直接从辣子鸡留存的比例计算;所示图1,距离确认我们的仿真计算方法。

图1所示。

随机指定辣子鸡允许仿真的二次抽样两两距离。每个点代表一条制服OTU向量随机子样品没有更换同样比例的保留辣子鸡。辣子鸡保留在二次抽样的比例之间的关系和成员之间的距离对四种不同的距离度量显示:随着留存比例增加,减少的距离从1到0。未加权的距离,二次抽样应用于均匀OTU向量与单个序列每OTU本阅读;对加权距离,二次抽样是应用于均匀OTU向量与10序列读取/ OTU垃圾箱。对于未加权的Jaccard距离,一行也显示显示预期的直接计算距离的比例辣子鸡保留

2.3模拟类内距离方差通过指定的辣子鸡模拟矢量

正如意味着两两距离可以指定一组模拟对象的随机序列数的二次抽样OTU垃圾箱,我们发现两两距离的方差可以指定模拟OTU垃圾箱的数量。重复随机从5000年统一OTU向量与次级样本辣子鸡产生距离的分布和方差小于重复随机次级样本从500年统一OTU向量和辣子鸡,进而产生距离的分布与均匀矢量方差小于二次抽样的50个辣子鸡。图2描述了相同的分析未加权的Jaccard生成的主题对子样品之间距离的比例是描绘在保留辣子鸡图1,但主题对生成的每个主题包括不同数量的辣子鸡。随着每个样本的辣子鸡数量的增加,减重的方差Jaccard距离减少。观察相同的关系为加权Jaccard距离,未加权和加权UniFrac距离。

图2所示。

辣子鸡子样品的数量决定了模拟距离的方差。模拟的方差距离取决于模拟辣子鸡的数量的向量随机二次抽样过程。(一个)描述的辣子鸡、留存比例之间的关系产生的未加权的Jaccard距离。就像在图1,每个点代表一条OTU向量随机抽样不重复相同的水平。点的颜色表示向量的辣子鸡的数量。(B)之间的关系量化的辣子鸡子样品产生的距离向量和标准差。标准差OTU数量和距离之间的关系是线性的重对数坐标图,虽然指标描述的四个不同距离的关系。从二次抽样数据显示为50%

我们发现之间的关系的辣子鸡子样品OTU向量和标准差的两两距离造成二次抽样是线性的重对数坐标图。图2B描述这种关系未加权和加权Jaccard UniFrac距离。成对的距离描述被二次抽样模拟保留50%的模拟辣子鸡。辣子鸡的数量之间的关系和标准偏差的两两距离被发现也取决于二次抽样的范围(图2)。因此,准确建模的一个预先确定的距离标准偏差可以通过选择完成后辣子鸡的个数的比例辣子鸡是保留在二次抽样决定(根据预先确定的平均距离参数)。这个策略允许两两距离方差以及规范的意思是在一个模拟的平方距离矩阵。

2.4组差异纳入模拟距离矩阵通过隔离OTU会员

我们下寻求组差异合并到模拟距离矩阵,一个必要步骤,允许规范权力分析的效果。在建模的类内距离的二次抽样辣子鸡和类内距离的方差通过指定数量的辣子鸡子样品,我们发现组模拟对象可以通过隔离社区会员团体之间。例如,模拟研究三个暴露组,每组10科目,我们指定了类内距离分布在所有团体通过指定数量的辣子鸡、模拟社区辣子鸡的比例每二次抽样的样本被保留。然后,我们随机选择一个对象作为受影响的群体。对于这组主题,我们重命名一个比例的辣子鸡。通过重命名辣子鸡只有一组我们保存的模型分布各个群体的类内距离,但在更大的群体间的距离(即曝光的效果)。影响大小的比例是由独特的辣子鸡影响组,相对于组织的影响。

这样,大小可能产生一系列的影响:在影响组织中并没有独特的辣子鸡,群体间的距离匹配的类内距离,和附近的效果是0;受影响的群体包括完全独特的辣子鸡(即社区成员之间完全隔离的影响和影响组),规模也很庞大。当我们开始量化这些效应大小,我们发现大小影响的定义是取决于所选的距离度量和抽样site-i.e。在类内距离的分布(见2.8节)。

2.5估计PERMANOVA权力使用模拟距离矩阵

为了估计统计力量PERMANOVA测试,我们第一次模拟一组距离矩阵。指定的类内pairwise-distance分布是相同的在整个组的距离矩阵,但每个模拟距离矩阵在其模拟效果不同大小的比例(即独特的辣子鸡,区分受试者在一个随机选择的影响小组的主题影响组)。模拟的距离矩阵编码的影响,从非常小的影响(没有指定组成员关系的差异,只有组成员的随机差异可能导致二次抽样过程)非常大的影响(没有普通会员之间的影响和影响组织)。

然后我们选择引导的主题从每个样本模拟的距离矩阵。为例,分析PERMANOVA权力的一项研究,其中包括10科目/暴露组,我们随机选择替换10从每个暴露组在每个模拟距离矩阵,我们重复100次的选择过程。引导每个选择的结果是一个小型矩阵的两两距离较大的子集模拟距离矩阵。距离100引导选择从模拟矩阵从而担任100估计矩阵编码的真正影响较大的距离。

我们下一个执行PERMANOVA测试在每个引导PERMANOVA距离矩阵和比较P第一类误差值与预先确定阈值(通常,0.05)。引导距离矩阵来自距离矩阵,结合真实效果,PERMANOVA的比例P值超过第一类误差阈值(即这将被视为没有统计学意义,尽管真正的组级别效应)是II型错误。为每个模拟效果,PERMANOVA权力可以作为引导的比例计算距离矩阵PERMANOVAP值小于预先确定的阈值的错误。图3描述了该过程的结果:沿水平轴 ω 2 值与模拟相关距离矩阵(真正的影响)所示;纵轴显示了对应的PERMANOVA权力与每个模拟效果,基于PERMANOVA引导距离矩阵的测试。我们进行引导过程有五个,每组10和20个科目。正如所料,PERMANOVA受试者每组的数量增加了,力量也随之增强了。

图3所示。

引导抽样模拟距离矩阵允许PERMANOVA能力评估。PERMANOVA能力估计的一个例子的引导抽样模拟距离矩阵。横轴描绘了尺度效应模拟通过隔离OTU组成员,纵轴代表能力检测的影响,由引导距离矩阵的比例来自模拟PERMANOVA距离矩阵P值低于指定的错误阈值。模拟的研究包括三个接触组;电力检测效果有五个,每组10和20个科目描述了红色,绿色和蓝色分别。功率估计零效应(即组)之间的差异科目但不等于PERMANOVA错误

确认我们的估算方法的准确性,PERMANOVA力量观察在虚假设条件下从零距离矩阵计算,由计算两两距离生成一组模拟样品中所有组的受试者相同(即组织没有任何区别,只是对象群体内部之间的差异)。描述引导过程应用于零距离矩阵产生PERMANOVA权力等于预先确定的阈值估计错误,应该是这样。我们因此验证的能力估计方法。

2.6的微功率包允许方便的统计估计微生物的研究

实施上述策略在一个包R统计软件,以促进微生物研究的规划所要分析两两距离和PERMANOVA。包是GPLv2许可下免费网上通过Github (http://github.com/brendankelly/micropower)。包可以安装与R命令:

库(devtools)

install_github(回购=“微功率”,用户名=“brendankelly”)

2.7人类微生物组项目数据集提供参数类内距离

建立技术来模拟pairwise-distance矩阵与预先确定距离平均值和标准偏差,我们试图定义这些参数生物数据中观察到的范围。人类微生物组计划(HMP)数据集提供广泛的16 s rRNA标志基因人类微生物组采样的数据在多个网站。因此,它是一种资源的总体参数(即意味着两两距离和距离标准差)可以指定模拟距离矩阵。我们分析了减重的分布和加权Jaccard UniFrac距离计算出16 s rRNA标志基因样本18人体网站,提供参数建模将类内距离分布(HMP财团,2012b),在距离采样点分布在高熔点数据集(2010年7月16 s数据冻结;NCBI SRA项目SRP002395 SRP002012;http://hmpdacc.org/HMQCP/),它包含2910个样本V1-V3 16 s rRNA扩增子测序和4788个样本执行V3-V5扩增子测序进行描述图4

图4所示。

高熔点数据提供参数建模类内距离的分布。within-sampling-site距离的分布显示18个不同的人类微生物组采样站点。四种不同的距离度量描述为应用数据从两个不同的16 s rRNA扩增子(V1-V3和V3-V5)。彩色盒子描绘四分位范围(差),和胡须向1.5×差。离群值是描述为点。高熔点数据提供参数根据这类内距离分布可以建模为计划估计能源微生物的研究

2.8影响大小根据微生物数据集出版

我们编目的影响大小在微生物研究,发表的几个代表各种各样的抽样地点,接触和干预(Charlson艾尔。,2010年,2012年;Peterfreund艾尔。,2012年;艾尔。,2011年)。表1描述了这种分析的结果,观察到 ω 2 值计算出未加权和加权Jaccard UniFrac距离。我们限制我们的分析比较在距离度量因为距离度量的选择是决定由先验假设关于社区成员的最重要的特征。

表1。

尺度效应观察从不同曝光/干预研究各种微生物采样站点所示以ω的平方( ω 2 )统计,一起P值从PERMANOVA测试

网站 比较组
ω 2 /P价值
控制 曝光 加权 未加权的 加权 未加权的 参考
UniFrac UniFrac Jaccard Jaccard
鼻孔 不吸烟(33) 吸烟者(29) 0.042/0.001 0.009/0.001 0.023/0.001 0.007/0.001 Charlsonet al。(2010)
口服 不吸烟(33) 吸烟者(29) 0.032/0.001 0.008/0.001 0.024/0.001 0.007/0.001 Charlsonet al。(2010)
肠道 之前喂养(10) 在喂养(10) 0.056/0.138 0.013/0.986 0/0.989 0.014/0.985 et al。(2011)
口服 没有阿奇霉素(42) 阿奇霉素(6) 0.063/0.01 0.039/0.001 0.099/0.004 0.032/0.001 Charlsonet al。(2012)
没有阿奇霉素(34) 阿奇霉素(6) 0.065/0.005 0.038/0.001 0.019/0.089 0.033/0.001 Charlsonet al。(2012)
皮肤 离开retroauricular (186) 对retroauricular (187) 0.000/0.828 0.0001/0.327 0.000/0.986 0.000/1.000 HMP联盟(2012 b)
人类 前鼻孔(161) 凳(187) 0.567/0.001 0.201/0.001 0.230/0.001 0.117/0.001 HMP联盟(2012 b)
网站 比较组
ω 2 /P价值
控制 曝光 加权 未加权的 加权 未加权的 参考
UniFrac UniFrac Jaccard Jaccard
鼻孔 不吸烟(33) 吸烟者(29) 0.042/0.001 0.009/0.001 0.023/0.001 0.007/0.001 Charlsonet al。(2010)
口服 不吸烟(33) 吸烟者(29) 0.032/0.001 0.008/0.001 0.024/0.001 0.007/0.001 Charlsonet al。(2010)
肠道 之前喂养(10) 在喂养(10) 0.056/0.138 0.013/0.986 0/0.989 0.014/0.985 et al。(2011)
口服 没有阿奇霉素(42) 阿奇霉素(6) 0.063/0.01 0.039/0.001 0.099/0.004 0.032/0.001 Charlsonet al。(2012)
没有阿奇霉素(34) 阿奇霉素(6) 0.065/0.005 0.038/0.001 0.019/0.089 0.033/0.001 Charlsonet al。(2012)
皮肤 离开retroauricular (186) 对retroauricular (187) 0.000/0.828 0.0001/0.327 0.000/0.986 0.000/1.000 HMP联盟(2012 b)
人类 前鼻孔(161) 凳(187) 0.567/0.001 0.201/0.001 0.230/0.001 0.117/0.001 HMP联盟(2012 b)

观察到的效应大小的范围根据不同指标的两两距离选择进行分析。HMP数据来演示一个大效应(人类微生物组之间的差异程度,两个不同采样地点)和一个微不足道的影响(之间的差异程度,皮肤取样的左和右retroauricular折痕)

表1。

尺度效应观察从不同曝光/干预研究各种微生物采样站点所示以ω的平方( ω 2 )统计,一起P值从PERMANOVA测试

网站 比较组
ω 2 /P价值
控制 曝光 加权 未加权的 加权 未加权的 参考
UniFrac UniFrac Jaccard Jaccard
鼻孔 不吸烟(33) 吸烟者(29) 0.042/0.001 0.009/0.001 0.023/0.001 0.007/0.001 Charlsonet al。(2010)
口服 不吸烟(33) 吸烟者(29) 0.032/0.001 0.008/0.001 0.024/0.001 0.007/0.001 Charlsonet al。(2010)
肠道 之前喂养(10) 在喂养(10) 0.056/0.138 0.013/0.986 0/0.989 0.014/0.985 et al。(2011)
口服 没有阿奇霉素(42) 阿奇霉素(6) 0.063/0.01 0.039/0.001 0.099/0.004 0.032/0.001 Charlsonet al。(2012)
没有阿奇霉素(34) 阿奇霉素(6) 0.065/0.005 0.038/0.001 0.019/0.089 0.033/0.001 Charlsonet al。(2012)
皮肤 离开retroauricular (186) 对retroauricular (187) 0.000/0.828 0.0001/0.327 0.000/0.986 0.000/1.000 HMP联盟(2012 b)
人类 前鼻孔(161) 凳(187) 0.567/0.001 0.201/0.001 0.230/0.001 0.117/0.001 HMP联盟(2012 b)
网站 比较组
ω 2 /P价值
控制 曝光 加权 未加权的 加权 未加权的 参考
UniFrac UniFrac Jaccard Jaccard
鼻孔 不吸烟(33) 吸烟者(29) 0.042/0.001 0.009/0.001 0.023/0.001 0.007/0.001 Charlsonet al。(2010)
口服 不吸烟(33) 吸烟者(29) 0.032/0.001 0.008/0.001 0.024/0.001 0.007/0.001 Charlsonet al。(2010)
肠道 之前喂养(10) 在喂养(10) 0.056/0.138 0.013/0.986 0/0.989 0.014/0.985 et al。(2011)
口服 没有阿奇霉素(42) 阿奇霉素(6) 0.063/0.01 0.039/0.001 0.099/0.004 0.032/0.001 Charlsonet al。(2012)
没有阿奇霉素(34) 阿奇霉素(6) 0.065/0.005 0.038/0.001 0.019/0.089 0.033/0.001 Charlsonet al。(2012)
皮肤 离开retroauricular (186) 对retroauricular (187) 0.000/0.828 0.0001/0.327 0.000/0.986 0.000/1.000 HMP联盟(2012 b)
人类 前鼻孔(161) 凳(187) 0.567/0.001 0.201/0.001 0.230/0.001 0.117/0.001 HMP联盟(2012 b)

观察到的效应大小的范围根据不同指标的两两距离选择进行分析。HMP数据来演示一个大效应(人类微生物组之间的差异程度,两个不同采样地点)和一个微不足道的影响(之间的差异程度,皮肤取样的左和右retroauricular折痕)

的比较 ω 2 值在不同的研究证明了尺度效应观察的范围。对于加权UniFrac, ω 2 值范围从0到0.646;对于未加权的UniFrac,从0.0001到0.201。对于加权Jaccard, ω 2 值范围从0到0.230;对于未加权的Jaccard,从0到0.117。(按照惯例,负面的 ω 2 值被视为0。)的规模效应是不同的距离度量,但观察到的效应大小的排序不同的干预措施在很大程度上是一致的。

上面描述的高熔点数据提供了一个有用的比较,我们认为或大或小的影响。大的效果观察与克林霉素治疗甚至超过人类anatomy-i.e的效果。之间的差异观察到两个不同的抽样地点(分组样本前鼻孔和凳子收益率 ω 2 0.567使用加权UniFrac距离)。虽然吸烟的观察效果的微生物群落人类口腔和鼻孔小( ω 2 从0.007到0.042),他们可能超过了左派和右派之间的随机效应观察retroauricular折痕皮肤微生物样品( ω 2 从0到0.0001)。

3应用程序和结果

在这里,我们提供两个例子的应用程序微功率包,以证明其使用。

3.1示例1:功率计算基于未加权的Jaccard距离

对于第一个示例,我们估计统计能力的影响的研究在人类粪便微生物抗生素暴露。研究包括三个抗生素暴露组,主要结果的社区组织结构差异进行分析,未加权的Jaccard距离和PERMANOVA。考虑到学习计划,我们开始通过模拟一组矩阵的两两距离类内距离匹配距离的分布在高分子聚合物粪便样本集分析未加权的Jaccard距离(见图4)。为了确定二次抽样的水平和所需的辣子鸡数量模型预期的类内距离,我们应用了hashMeanhashSD命令:模拟100个辣子鸡和二次抽样保留23%的辣子鸡生成所需的平均值0.87类内距离和类内距离标准偏差为0.05。一组OTU表,包含一系列的群体间的影响除了所需within-group-distance分布,然后生成的使用simPower命令。对于未加权的Jaccard距离,calcUJstudy函数应用到simPower输出来计算两两距离模拟OTU表内r为每个模拟OTU表计算两两距离,我们进行分析使用bootPower命令,该命令生成一个数据帧与模拟 ω 2 。我们应用bootPower三次命令,来评估PERMANOVA权力与5、10或20每组对象。我们发现每组5主题允许90%的检测 ω 2 的0.05;每组10主题允许90%功率检测 ω 2 的0.02;和20科目每组允许90%功率检测 ω 2 0.008。效果检测与目标统计力量,通常90%,黄土回归估计的力量和模拟 ω 2 变量的bootPowerdataframe。从表1,一个 ω 2 0.02小于抗生素暴露研究中观察到的影响,分析了未加权的Jaccard距离;因此,每组10受试者的样本大小(30总科目)可能提供足够的统计能力的主要结果。

3.2示例2:功率计算基于加权UniFrac距离

第二个例子,我们分析了相同与主要结果对于衡量加权UniFrac距离而不是无关紧要的Jaccard距离。为此我们使用相同的命令来执行我们的力量分析,但我们指定一个序列深度> 1。因为微功率包只包含工具计算Jaccard距离,然后导出模拟OTU表两两距离计算的应用writeOTUlist直接函数的输出simPower。这个生产一样OTU表文件兼容生物信息学分析管道的计算能力许多成对的距离度量(Caporaso艾尔。,2010年;McMurdie和福尔摩斯,2013;城堡et al。,2009年)。计算UniFrac距离还需要发展史。我们使用了simTreeList命令来生成一个系统匹配OTU表产生的simPower;的包,它加载微功率,包括一个write.tree命令导出此模拟系统在Newick树格式(- 2012)。从OTU表产生的成对的距离矩阵和系统树可以读的readDMdir命令,bootPower可以应用到结果列表。在分析加权UniFrac距离,平均模拟类内距离是0.2,类内距离的标准差为0.07(见图4)。我们发现5个科目每检测到一个集团承担90%力量 ω 2 每组一个0.17,10个科目 ω 2 0.08,每组一个和20个科目 ω 2 0.04。从表1,一个 ω 2 0.04小于抗生素暴露观察研究的影响,分析了加权UniFrac距离;因此,样本容量为20学科组(60总科目)可能提供足够的统计能力的主要结果测量如果使用加权UniFrac距离。

4讨论

统计能力的准确估计计划微生物研究的要求详细的会计数据分析所涉及的步骤。我们专注于16 s rRNA基因测序研究,分析了使用成对的距离(特别是UniFrac和Jaccard距离)和PERMANOVA。统计力量,以确保有足够的这些研究,一个人必须量化预期的类内方差和计划的效果会接触或干预。我们构建了一个PERMANOVA能力评估框架,取决于这两个重要参数的先验知识。抽样计划网站,选择两两距离度量影响两类内方差和可能的影响范围大小(如量化 ω 2 )。我们从高熔点分析数据集和其他已发表的研究提供参考的类内距离分布和预期效果可以被估计。这些工具,结合微功率R包上面所描述的那样,允许电力计划微生物研究评估。

自从UniFrac距离取决于辣子鸡的系统发育树,我们回顾了系统发育树生成的高分子聚合物项目V1-V3和V3-V5 16 s rRNA基因测序数据,我们发现系统树分支的长度大约是对数正态分布的分布。为一组模拟模拟系统树(OTU表simTreeList函数的微功率包中),我们首先提取OTU名字从模拟OTU表,每个OTU名称设置为树的小费,最后生成随机分支长度连接提示,显示指定的分支长度与对数正态分布分布。最后一步的随机树生成的利用包的rtree命令(- 2012)。我们探索其他分支长度的分布。分支长度的分布模拟系统树并影响系统的分布(例如UniFrac)距离从模拟OTU表计算。例如,模拟分支长度根据正态分布方差膨胀距离。但是我们发现所有的种系发生树分支长度的分布保持OTU的观察水平之间的关系二次抽样和平均距离,以及观察到的辣子鸡子样品数量之间的关系和距离标准差。

La Rosaet al。(2012)最近提议另一种方法检测微生物的显著差异数据基于参数测试overdispersed分类数据对Dirichlet-multinomial (DM)分布和实现他们的方法作为R包,高分子聚合物高分子聚合物允许必要的权力或估计样本容量与微生物研究结果的措施,基于假设检验的框架OTU向量本身的水平。然而,必须指定DM分布,通过参数代表overdispersion的程度,分类单元的数量和预期的组成分类频率在两组中,为了检测一个显著差异。在DM模型中,定义的大小是影响频率向量的分类单元之间的差距有多远。指定分类频率往往是困难的,尤其是当许多这样的分类单元。此外,一个指定阅读的数量,也可以比较不同样本变量。的微功率包,相比之下,使用成对的分布距离会选择距离度量和抽样计划的网站,并提供实证数据分布进行比较(例如图4表1)。通过使用PERMANOVA,我们的方法非参数;通过允许使用不同的距离度量,我们的方法可以合并计算类群之间的系统发育关系的力量。我们已经证明了距离度量的选择可能会显著影响观察效果,这类内方差取决于选择的距离度量和抽样计划的网站。

通过专注于16 s rRNA测序研究分析两两距离和PERMANOVA意义测试,我们应用有限权力估计全球社区结构的措施。在某些情况下,有优势建模OTU向量本身,而不是分析群落结构的情况下通过βdiversity-particularly直言社区类型和社区之间的转换类型匹配观察生物现象(丁和城堡,2014)。尽管如此,我们相信这个方法将被证明是有用的实用程序两两距离分析微生物ANOVA-type测试数据和直观的吸引力与分类研究曝光/干预和微生物结果的措施。我们的方法的局限性之一La Rosa艾尔(2012)是,这些方法只能执行权力为协变量分类计算。连续协变量如年龄或身体质量指数,可以使用基于回归测试与微生物组成的协会(陈和李,2013年),内核矩阵可以定义基于两两距离。我们可以执行权力分析基于分数测试使用模拟或分析计算。另外,为目的的功率计算,我们可以使离散数据分类和应用方法,它应该提供一个保守的估计。

资金

B.J.K.支持两个国家卫生研究院T32培训补助(T32 AI055435和T32 HL758627)。R.G.,R.G.C。和F。D。B。were supported by the Penn Center for AIDS Research (5P30AI045008-15). R.G.C. and F.D.B. were supported by National Institutes of Health (U01 HL098957). J.D.L. was supported by National Institutes of Health (K24-DK078228 and UH3-DK083981). H.L. was supported by National Institutes of Health (GM097505 and CA127334). The funders had no role in study design, data collection and analysis, decision to publish or preparation of the manuscript.

利益冲突:没有宣布。

引用

安德森
M.J.
(
2001年
)
非参数多变量方差分析的新方法
欧斯特。生态。
,
26
,
32
- - - - - -
46

Caporaso
j。
et al。(
2010年
)
QIIME允许社区高通量测序数据的分析
Nat方法。
,
7
,
335年
- - - - - -
336年

曹国伟
一个。
et al。(
2005年
)
新统计方法评估物种组成的相似性与发病率和丰富的数据
生态。列托人。
,
8
,
148年
- - - - - -
159年

Charlson
静电的
et al。(
2010年
)
无序微生物群落在吸烟者的上呼吸道
《公共科学图书馆•综合》
,
5
,
e15216

Charlson
静电的
et al。(
2012年
)
Lung-enriched生物和异常的肺移植后细菌和真菌呼吸道微生物群
点。j .和。暴击。保健医疗。
,
186年
,
536年
- - - - - -
545年

J。
H。
(
2013年
)
内核方法回归分析微生物的组成数据
。:
M。
Y。
J。
《经济学(季刊)》。
主题应用统计学
施普林格
,
纽约
,pp。
191年
- - - - - -
201年

T。
城堡
警察局
(
2014年
)
动力学和人体微生物群落类型的关联
自然
,
509年
,
357年
- - - - - -
360年

HMP财团
(
2012年,一个
)
人类微生物组研究的框架
自然
,
486年
,
215年
- - - - - -
221年

HMP财团
(
2012 b
)
结构、功能和人类健康的微生物多样性
自然
,
486年
,
207年
- - - - - -
214年

休斯
J。
张春
J。
(
2005年
)
稀疏技术的应用分子微生物多样性的库存
Enzymol方法。
,
397年
,
292年
- - - - - -
308年

La Rosa
P。
et al。(
2012年
)
假设检验和功率计算taxonomic-based人类微生物组的数据
《公共科学图书馆•综合》
,
7
,
e52078

勒让德
P。
勒让德
l
(
2013年
)
数字生态
爱思唯尔
,
阿姆斯特丹

Levandowsky
M。
冬天
D。
(
1971年
)
集之间的距离
自然
,
234年
,
34
- - - - - -
35

Lozupone
C。
骑士
R。
(
2005年
)
UniFrac:一个新的比较微生物群落的系统方法
达成。环绕。Microbiol。
,
71年
,
8228年
- - - - - -
8835年

Lozupone
C。
et al。(
2007年
)
定量和定性β多样性措施导致不同见解因素,微生物群落结构
达成。环绕。Microbiol。
,
73年
,
1576年
- - - - - -
1585年

Lozupone
C。
et al。(
2010年
)
Unifrac:微生物群落的有效距离度量的比较
ISME J。
,
5
,
169年
- - - - - -
172年

麦卡德尔
B.H.
安德森
M.J.
(
2001年
)
社区数据拟合多元模型:一个评论基于距离冗余分析
生态
,
82年
,
290年
- - - - - -
297年

McMurdie
P.J.
福尔摩斯
年代。
(
2013年
)
phyloseq: R包可再生的交互式分析微生物人口普查数据和图形
《公共科学图书馆•综合》
,
8
,
e61217

Olejnik
年代。
Algina
J。
(
2004年
)
广义埃塔和ω的平方统计:措施效果的一些常见的研究设计
Psychol。方法
,
8
,
434年
- - - - - -
447年

-
E。
(
2012年
)。
分析系统发生学和演化与R
施普林格
,
纽约

Peterfreund
G。
et al。(
2012年
)
接班后的肠道微生物抗生素和梭状芽胞杆菌抗体治疗
《公共科学图书馆•综合》
,
7
,
e46966

R核心团队
(
2014年
)
接待员:统计计算的语言和环境
R统计计算的基础
,
奥地利的维也纳

城堡
警察局
et al。(
2009年
)
引入mothur:开源,独立于平台的,支持的软件描述和比较微生物群落
达成。环绕。Microbiol。
,
75年
,
7537年
- - - - - -
7541年

国民生产总值
et al。(
2011年
)
长期饮食模式与肠道微生物菌群
科学(纽约,纽约)
,
334年
,
105年
- - - - - -
108年

Zar
J.H.
(
1999年
)
Biostatistical分析
普伦蒂斯霍尔
,
上台北

齐格勒
M。
Buhner
M。
(
2009年
)
Statistik毛皮Psychologen Sozialwissenschaftler
皮尔森Studium
,
慕尼黑

作者指出

副主编:约翰·汉考克