文摘
动机:微生物样品之间的社区组成的变化,称为β多样性,可以通过两两距离测量基于presence-absence或定量物种丰度数据。PERMANOVA, permutation-based扩展多元方差分析两两距离矩阵,分区类内和群体间的距离,允许评估暴露或干预的效果(分组因素)对微生物采样。类内距离和曝光/干预效果必须准确建模估算统计能力的微生物研究将分析两两距离和PERMANOVA。
结果:我们提出一个框架,用于PERMANOVA功率估算根据标志基因微生物将由两两距离分析的研究,其中包括:(i)距离矩阵模拟新方法,使建模的类内两两距离根据预先确定的人口参数;(2)方法将模拟的距离矩阵中不同尺寸的影响;(3)基于仿真的方法估计PERMANOVA权力从模拟距离矩阵;和(iv) R统计软件包,实现了以上。可以有效地模拟矩阵的两两距离满足三角不等式和合并组级别的影响,量化的调整确定系数,ω的平方( )。从模拟的距离矩阵,可用PERMANOVA力量或必要的样本量估计微生物研究计划。
1介绍
微生物的研究往往比较组的微生物群落和不同的环境因素,或应用了不同的干预措施。例如,一项研究可以评估不同人体的呼吸道微生物群落与接触不同的抗生素治疗。基本测量在这样一个研究社区成员的计数(物种或操作分类units-OTUs),通常通过测序完成标志基因16 s核糖体RNA基因等细菌。两两距离度量促进个体之间的标准化的社区成员的比较研究对象由微分会员和共同解决问题。评估学科组之间的差异(即分组的解释力的因素,如抗生素暴露),成对subject-to-subject距离必须排列在一个广场的距离矩阵。组级别差异可以分析分类方法如主坐标分析或通过显著性检验,如PERMANOVA (安德森,2001;勒让德勒让德,2013年;麦卡德尔和安德森,2001年)。
微生物研究的设计需要考虑的统计能量足够数量的受试者必须招募确保预期的暴露的影响或干预的兴趣可以被检测出来。在这里,我们专注于16 s标记的力量测序研究,分析了使用成对的距离(特别是UniFrac和Jaccard距离)和PERMANOVA。UniFrac距离度量是基于独特的分数系统树的分支长度由两套类群。比较微生物样品可以通过执行未加权的UniFrac,认为严格分类群的存在与否,或加权UniFrac还考虑相对丰度(Lozupone和骑士,2005;Lozupone等艾尔。,2007年,2010年)。Jaccard距离,non-phylogenetic测量的区别两个样本集,计算作为一个-十字路口的比率的联盟;它也可以计算未加权的(“二进制”)或abundance-weighted时尚(曹国伟et al。,2005年;Levandowsky和冬季,1971年)。
PERMANOVA的力量,就像传统的方差分析的力量,取决于暴露的数量或干预组(自由度),受试者的数量每组(剩余自由度),类内距离(类内平方和)和效应的大小(群体间的平方和的区别和类内平方和)。II型错误与多组增加和统计能力减少,更少的科目,更大的类内距离和较小的影响(金,1999)。然而,pseudo -F比并不是像费舍尔的分布F比在零假设下,所以功率估计参数方差分析的标准方法不适用于研究分析了PERMANOVA (安德森,2001)。此外,微生物群落结构和类内距离之间的关系往往是模糊的,和预期的效果预期风险敞口或计划干预的微生物往往是不确定的。
在这里,我们提出一个框架PERMANOVA权力和样本量估算根据标志基因的微生物的研究将分析两两距离。我们首先描述一个距离矩阵模拟新方法,允许根据预先确定总体参数建模类内两两距离。然后,我们演示了如何将不同大小的影响在模拟距离矩阵。基于精确模型的能力在群体间的距离,提出了一种基于仿真的方法估计PERMANOVA权力。最后,我们提出了一个R统计软件包(R统计计算的基础,www.r-project.org- - - - - -R核心团队,2014年)实现,并提供其使用的例子。
2方法
2.1 PERMANOVA和效果
在许多微生物的研究,一个是有兴趣测试不存在任何差异的零假设总体微生物组成的p细菌类群之一一个暴露组。考虑简单情况一个接触或干预组n观察每组共有N=na观察。两个主题之间的微生物组成我和j决定了他们的距离dij。我们关注UniFrac和Jaccard距离,因为他们被广泛使用,方便地实现生物信息学分析包(Caporaso等艾尔。,2010年;城堡等艾尔。,2009年)。基于距离的多元方差分析因此提供了一个非参数测试的零假设没有总体细菌成分的差异一个暴露组。
2.2模拟类内两两距离由OTU随机二次抽样数量
许多不同分布的社区成员之间可能会产生同样的距离两个微生物样品。PERMANOVA测试操作距离,不是物种或OTU计数。或许因此,多个不同物种分布模型微生物群落结构的目的PERMANOVA测试只要物种分布准确概括分布的距离。我们开发了一种技术来模拟一个预先确定的分布两两距离从一个简单的基于随机二次抽样,制服OTU向量。
我们开始于一个统一的向量的物种或OTU计数,代表一个微生物群落的主题。例如,我们生成一个向量1000辣子鸡单一序列数在每个OTU垃圾箱。然后我们取样OTU向量,随机选择一个序列保留的比例(休斯和张春,2005年)。我们发现随机二次抽样从两个主题向量在同一水平(即相同比例的序列数保留)生成一个可预测的两两距离。尽管二次抽样过程随机操作和独立在每个主题向量,其影响两两距离是一致的:序列保留越少,对象之间的距离就越大。
图1描述了二次抽样和两两距离四距离指标之间的关系。每个点代表一个副主题,每个小组描绘了10 000双。对相同主题向量的子样品随机生成的水平;每个主题在一对被分配的比例是相同的序列被保留,但保留序列是随机选择的个人主题和不同学科之间的一对。我们观察到,未加权和加权Jaccard UniFrac指标、学科之间的距离根据序列保留的比例不同。在所有序列都保留了距离是0,和更少的序列被保留,距离接近1。(加权UniFrac提出了归一化形式和所有后续分析。)这个增加的模式变化之间的距离度量。加权指标,它还根据数量的不同序列中每个OTU本前二次抽样(数据没有显示)。然而,随机二次抽样适用于均匀OTU向量用来生成一组两两距离匹配任何预先确定的平均距离; this was accomplished by choosing the proportion of retained OTUs from a distance–metric-specific hash table with the form of图1。因为所有的距离从OTU计数数据计算,模拟两两距离满足三角不等式。因此,我们可以模拟一个距离矩阵与预先确定的平均距离和任意数量的对象用于PERMANOVA力量的估计。对于未加权的Jaccard,预期的距离可以直接从辣子鸡留存的比例计算;所示图1,距离确认我们的仿真计算方法。
2.3模拟类内距离方差通过指定的辣子鸡模拟矢量
正如意味着两两距离可以指定一组模拟对象的随机序列数的二次抽样OTU垃圾箱,我们发现两两距离的方差可以指定模拟OTU垃圾箱的数量。重复随机从5000年统一OTU向量与次级样本辣子鸡产生距离的分布和方差小于重复随机次级样本从500年统一OTU向量和辣子鸡,进而产生距离的分布与均匀矢量方差小于二次抽样的50个辣子鸡。图2描述了相同的分析未加权的Jaccard生成的主题对子样品之间距离的比例是描绘在保留辣子鸡图1,但主题对生成的每个主题包括不同数量的辣子鸡。随着每个样本的辣子鸡数量的增加,减重的方差Jaccard距离减少。观察相同的关系为加权Jaccard距离,未加权和加权UniFrac距离。
我们发现之间的关系的辣子鸡子样品OTU向量和标准差的两两距离造成二次抽样是线性的重对数坐标图。图2B描述这种关系未加权和加权Jaccard UniFrac距离。成对的距离描述被二次抽样模拟保留50%的模拟辣子鸡。辣子鸡的数量之间的关系和标准偏差的两两距离被发现也取决于二次抽样的范围(图2)。因此,准确建模的一个预先确定的距离标准偏差可以通过选择完成后辣子鸡的个数的比例辣子鸡是保留在二次抽样决定(根据预先确定的平均距离参数)。这个策略允许两两距离方差以及规范的意思是在一个模拟的平方距离矩阵。
2.4组差异纳入模拟距离矩阵通过隔离OTU会员
我们下寻求组差异合并到模拟距离矩阵,一个必要步骤,允许规范权力分析的效果。在建模的类内距离的二次抽样辣子鸡和类内距离的方差通过指定数量的辣子鸡子样品,我们发现组模拟对象可以通过隔离社区会员团体之间。例如,模拟研究三个暴露组,每组10科目,我们指定了类内距离分布在所有团体通过指定数量的辣子鸡、模拟社区辣子鸡的比例每二次抽样的样本被保留。然后,我们随机选择一个对象作为受影响的群体。对于这组主题,我们重命名一个比例的辣子鸡。通过重命名辣子鸡只有一组我们保存的模型分布各个群体的类内距离,但在更大的群体间的距离(即曝光的效果)。影响大小的比例是由独特的辣子鸡影响组,相对于组织的影响。
这样,大小可能产生一系列的影响:在影响组织中并没有独特的辣子鸡,群体间的距离匹配的类内距离,和附近的效果是0;受影响的群体包括完全独特的辣子鸡(即社区成员之间完全隔离的影响和影响组),规模也很庞大。当我们开始量化这些效应大小,我们发现大小影响的定义是取决于所选的距离度量和抽样site-i.e。在类内距离的分布(见2.8节)。
2.5估计PERMANOVA权力使用模拟距离矩阵
为了估计统计力量PERMANOVA测试,我们第一次模拟一组距离矩阵。指定的类内pairwise-distance分布是相同的在整个组的距离矩阵,但每个模拟距离矩阵在其模拟效果不同大小的比例(即独特的辣子鸡,区分受试者在一个随机选择的影响小组的主题影响组)。模拟的距离矩阵编码的影响,从非常小的影响(没有指定组成员关系的差异,只有组成员的随机差异可能导致二次抽样过程)非常大的影响(没有普通会员之间的影响和影响组织)。
然后我们选择引导的主题从每个样本模拟的距离矩阵。为例,分析PERMANOVA权力的一项研究,其中包括10科目/暴露组,我们随机选择替换10从每个暴露组在每个模拟距离矩阵,我们重复100次的选择过程。引导每个选择的结果是一个小型矩阵的两两距离较大的子集模拟距离矩阵。距离100引导选择从模拟矩阵从而担任100估计矩阵编码的真正影响较大的距离。
我们下一个执行PERMANOVA测试在每个引导PERMANOVA距离矩阵和比较P第一类误差值与预先确定阈值(通常,0.05)。引导距离矩阵来自距离矩阵,结合真实效果,PERMANOVA的比例P值超过第一类误差阈值(即这将被视为没有统计学意义,尽管真正的组级别效应)是II型错误。为每个模拟效果,PERMANOVA权力可以作为引导的比例计算距离矩阵PERMANOVAP值小于预先确定的阈值的错误。图3描述了该过程的结果:沿水平轴 值与模拟相关距离矩阵(真正的影响)所示;纵轴显示了对应的PERMANOVA权力与每个模拟效果,基于PERMANOVA引导距离矩阵的测试。我们进行引导过程有五个,每组10和20个科目。正如所料,PERMANOVA受试者每组的数量增加了,力量也随之增强了。
确认我们的估算方法的准确性,PERMANOVA力量观察在虚假设条件下从零距离矩阵计算,由计算两两距离生成一组模拟样品中所有组的受试者相同(即组织没有任何区别,只是对象群体内部之间的差异)。描述引导过程应用于零距离矩阵产生PERMANOVA权力等于预先确定的阈值估计错误,应该是这样。我们因此验证的能力估计方法。
2.6的微功率包允许方便的统计估计微生物的研究
实施上述策略在一个包R统计软件,以促进微生物研究的规划所要分析两两距离和PERMANOVA。包是GPLv2许可下免费网上通过Github (http://github.com/brendankelly/micropower)。包可以安装与R命令:
库(devtools)
install_github(回购=“微功率”,用户名=“brendankelly”)
2.7人类微生物组项目数据集提供参数类内距离
建立技术来模拟pairwise-distance矩阵与预先确定距离平均值和标准偏差,我们试图定义这些参数生物数据中观察到的范围。人类微生物组计划(HMP)数据集提供广泛的16 s rRNA标志基因人类微生物组采样的数据在多个网站。因此,它是一种资源的总体参数(即意味着两两距离和距离标准差)可以指定模拟距离矩阵。我们分析了减重的分布和加权Jaccard UniFrac距离计算出16 s rRNA标志基因样本18人体网站,提供参数建模将类内距离分布(HMP财团,2012b),在距离采样点分布在高熔点数据集(2010年7月16 s数据冻结;NCBI SRA项目SRP002395 SRP002012;http://hmpdacc.org/HMQCP/),它包含2910个样本V1-V3 16 s rRNA扩增子测序和4788个样本执行V3-V5扩增子测序进行描述图4。
2.8影响大小根据微生物数据集出版
我们编目的影响大小在微生物研究,发表的几个代表各种各样的抽样地点,接触和干预(Charlson等艾尔。,2010年,2012年;Peterfreund等艾尔。,2012年;吴等艾尔。,2011年)。表1描述了这种分析的结果,观察到 值计算出未加权和加权Jaccard UniFrac距离。我们限制我们的分析比较在距离度量因为距离度量的选择是决定由先验假设关于社区成员的最重要的特征。
网站。 | 比较组 。 |
/P价值 。 |
|||||
---|---|---|---|---|---|---|---|
控制。 | 曝光。 | 加权。 | 未加权的。 | 加权。 | 未加权的。 | 参考。 | |
UniFrac。 | UniFrac。 | Jaccard。 | Jaccard。 | ||||
鼻孔 | 不吸烟(33) | 吸烟者(29) | 0.042/0.001 | 0.009/0.001 | 0.023/0.001 | 0.007/0.001 | Charlsonet al。(2010) |
口服 | 不吸烟(33) | 吸烟者(29) | 0.032/0.001 | 0.008/0.001 | 0.024/0.001 | 0.007/0.001 | Charlsonet al。(2010) |
肠道 | 之前喂养(10) | 在喂养(10) | 0.056/0.138 | 0.013/0.986 | 0/0.989 | 0.014/0.985 | 吴et al。(2011) |
口服 | 没有阿奇霉素(42) | 阿奇霉素(6) | 0.063/0.01 | 0.039/0.001 | 0.099/0.004 | 0.032/0.001 | Charlsonet al。(2012) |
肺 | 没有阿奇霉素(34) | 阿奇霉素(6) | 0.065/0.005 | 0.038/0.001 | 0.019/0.089 | 0.033/0.001 | Charlsonet al。(2012) |
皮肤 | 离开retroauricular (186) | 对retroauricular (187) | 0.000/0.828 | 0.0001/0.327 | 0.000/0.986 | 0.000/1.000 | HMP联盟(2012 b) |
人类 | 前鼻孔(161) | 凳(187) | 0.567/0.001 | 0.201/0.001 | 0.230/0.001 | 0.117/0.001 | HMP联盟(2012 b) |
网站。 | 比较组 。 |
/P价值 。 |
|||||
---|---|---|---|---|---|---|---|
控制。 | 曝光。 | 加权。 | 未加权的。 | 加权。 | 未加权的。 | 参考。 | |
UniFrac。 | UniFrac。 | Jaccard。 | Jaccard。 | ||||
鼻孔 | 不吸烟(33) | 吸烟者(29) | 0.042/0.001 | 0.009/0.001 | 0.023/0.001 | 0.007/0.001 | Charlsonet al。(2010) |
口服 | 不吸烟(33) | 吸烟者(29) | 0.032/0.001 | 0.008/0.001 | 0.024/0.001 | 0.007/0.001 | Charlsonet al。(2010) |
肠道 | 之前喂养(10) | 在喂养(10) | 0.056/0.138 | 0.013/0.986 | 0/0.989 | 0.014/0.985 | 吴et al。(2011) |
口服 | 没有阿奇霉素(42) | 阿奇霉素(6) | 0.063/0.01 | 0.039/0.001 | 0.099/0.004 | 0.032/0.001 | Charlsonet al。(2012) |
肺 | 没有阿奇霉素(34) | 阿奇霉素(6) | 0.065/0.005 | 0.038/0.001 | 0.019/0.089 | 0.033/0.001 | Charlsonet al。(2012) |
皮肤 | 离开retroauricular (186) | 对retroauricular (187) | 0.000/0.828 | 0.0001/0.327 | 0.000/0.986 | 0.000/1.000 | HMP联盟(2012 b) |
人类 | 前鼻孔(161) | 凳(187) | 0.567/0.001 | 0.201/0.001 | 0.230/0.001 | 0.117/0.001 | HMP联盟(2012 b) |
观察到的效应大小的范围根据不同指标的两两距离选择进行分析。HMP数据来演示一个大效应(人类微生物组之间的差异程度,两个不同采样地点)和一个微不足道的影响(之间的差异程度,皮肤取样的左和右retroauricular折痕)
网站。 | 比较组 。 |
/P价值 。 |
|||||
---|---|---|---|---|---|---|---|
控制。 | 曝光。 | 加权。 | 未加权的。 | 加权。 | 未加权的。 | 参考。 | |
UniFrac。 | UniFrac。 | Jaccard。 | Jaccard。 | ||||
鼻孔 | 不吸烟(33) | 吸烟者(29) | 0.042/0.001 | 0.009/0.001 | 0.023/0.001 | 0.007/0.001 | Charlsonet al。(2010) |
口服 | 不吸烟(33) | 吸烟者(29) | 0.032/0.001 | 0.008/0.001 | 0.024/0.001 | 0.007/0.001 | Charlsonet al。(2010) |
肠道 | 之前喂养(10) | 在喂养(10) | 0.056/0.138 | 0.013/0.986 | 0/0.989 | 0.014/0.985 | 吴et al。(2011) |
口服 | 没有阿奇霉素(42) | 阿奇霉素(6) | 0.063/0.01 | 0.039/0.001 | 0.099/0.004 | 0.032/0.001 | Charlsonet al。(2012) |
肺 | 没有阿奇霉素(34) | 阿奇霉素(6) | 0.065/0.005 | 0.038/0.001 | 0.019/0.089 | 0.033/0.001 | Charlsonet al。(2012) |
皮肤 | 离开retroauricular (186) | 对retroauricular (187) | 0.000/0.828 | 0.0001/0.327 | 0.000/0.986 | 0.000/1.000 | HMP联盟(2012 b) |
人类 | 前鼻孔(161) | 凳(187) | 0.567/0.001 | 0.201/0.001 | 0.230/0.001 | 0.117/0.001 | HMP联盟(2012 b) |
网站。 | 比较组 。 |
/P价值 。 |
|||||
---|---|---|---|---|---|---|---|
控制。 | 曝光。 | 加权。 | 未加权的。 | 加权。 | 未加权的。 | 参考。 | |
UniFrac。 | UniFrac。 | Jaccard。 | Jaccard。 | ||||
鼻孔 | 不吸烟(33) | 吸烟者(29) | 0.042/0.001 | 0.009/0.001 | 0.023/0.001 | 0.007/0.001 | Charlsonet al。(2010) |
口服 | 不吸烟(33) | 吸烟者(29) | 0.032/0.001 | 0.008/0.001 | 0.024/0.001 | 0.007/0.001 | Charlsonet al。(2010) |
肠道 | 之前喂养(10) | 在喂养(10) | 0.056/0.138 | 0.013/0.986 | 0/0.989 | 0.014/0.985 | 吴et al。(2011) |
口服 | 没有阿奇霉素(42) | 阿奇霉素(6) | 0.063/0.01 | 0.039/0.001 | 0.099/0.004 | 0.032/0.001 | Charlsonet al。(2012) |
肺 | 没有阿奇霉素(34) | 阿奇霉素(6) | 0.065/0.005 | 0.038/0.001 | 0.019/0.089 | 0.033/0.001 | Charlsonet al。(2012) |
皮肤 | 离开retroauricular (186) | 对retroauricular (187) | 0.000/0.828 | 0.0001/0.327 | 0.000/0.986 | 0.000/1.000 | HMP联盟(2012 b) |
人类 | 前鼻孔(161) | 凳(187) | 0.567/0.001 | 0.201/0.001 | 0.230/0.001 | 0.117/0.001 | HMP联盟(2012 b) |
观察到的效应大小的范围根据不同指标的两两距离选择进行分析。HMP数据来演示一个大效应(人类微生物组之间的差异程度,两个不同采样地点)和一个微不足道的影响(之间的差异程度,皮肤取样的左和右retroauricular折痕)
的比较 值在不同的研究证明了尺度效应观察的范围。对于加权UniFrac, 值范围从0到0.646;对于未加权的UniFrac,从0.0001到0.201。对于加权Jaccard, 值范围从0到0.230;对于未加权的Jaccard,从0到0.117。(按照惯例,负面的 值被视为0。)的规模效应是不同的距离度量,但观察到的效应大小的排序不同的干预措施在很大程度上是一致的。
上面描述的高熔点数据提供了一个有用的比较,我们认为或大或小的影响。大的效果观察与克林霉素治疗甚至超过人类anatomy-i.e的效果。之间的差异观察到两个不同的抽样地点(分组样本前鼻孔和凳子收益率 0.567使用加权UniFrac距离)。虽然吸烟的观察效果的微生物群落人类口腔和鼻孔小( 从0.007到0.042),他们可能超过了左派和右派之间的随机效应观察retroauricular折痕皮肤微生物样品( 从0到0.0001)。
3应用程序和结果
在这里,我们提供两个例子的应用程序微功率包,以证明其使用。
3.1示例1:功率计算基于未加权的Jaccard距离
对于第一个示例,我们估计统计能力的影响的研究在人类粪便微生物抗生素暴露。研究包括三个抗生素暴露组,主要结果的社区组织结构差异进行分析,未加权的Jaccard距离和PERMANOVA。考虑到学习计划,我们开始通过模拟一组矩阵的两两距离类内距离匹配距离的分布在高分子聚合物粪便样本集分析未加权的Jaccard距离(见图4)。为了确定二次抽样的水平和所需的辣子鸡数量模型预期的类内距离,我们应用了hashMean和hashSD命令:模拟100个辣子鸡和二次抽样保留23%的辣子鸡生成所需的平均值0.87类内距离和类内距离标准偏差为0.05。一组OTU表,包含一系列的群体间的影响除了所需within-group-distance分布,然后生成的使用simPower命令。对于未加权的Jaccard距离,calcUJstudy函数应用到simPower输出来计算两两距离模拟OTU表内r为每个模拟OTU表计算两两距离,我们进行分析使用bootPower命令,该命令生成一个数据帧与模拟 。我们应用bootPower三次命令,来评估PERMANOVA权力与5、10或20每组对象。我们发现每组5主题允许90%的检测 的0.05;每组10主题允许90%功率检测 的0.02;和20科目每组允许90%功率检测 0.008。效果检测与目标统计力量,通常90%,黄土回归估计的力量和模拟 变量的bootPowerdataframe。从表1,一个 0.02小于抗生素暴露研究中观察到的影响,分析了未加权的Jaccard距离;因此,每组10受试者的样本大小(30总科目)可能提供足够的统计能力的主要结果。
3.2示例2:功率计算基于加权UniFrac距离
第二个例子,我们分析了相同与主要结果对于衡量加权UniFrac距离而不是无关紧要的Jaccard距离。为此我们使用相同的命令来执行我们的力量分析,但我们指定一个序列深度> 1。因为微功率包只包含工具计算Jaccard距离,然后导出模拟OTU表两两距离计算的应用writeOTUlist直接函数的输出simPower。这个生产一样OTU表文件兼容生物信息学分析管道的计算能力许多成对的距离度量(Caporaso等艾尔。,2010年;McMurdie和福尔摩斯,2013;城堡et al。,2009年)。计算UniFrac距离还需要发展史。我们使用了simTreeList命令来生成一个系统匹配OTU表产生的simPower;的猿包,它加载微功率,包括一个write.tree命令导出此模拟系统在Newick树格式(- 2012)。从OTU表产生的成对的距离矩阵和系统树可以读的readDMdir命令,bootPower可以应用到结果列表。在分析加权UniFrac距离,平均模拟类内距离是0.2,类内距离的标准差为0.07(见图4)。我们发现5个科目每检测到一个集团承担90%力量 每组一个0.17,10个科目 0.08,每组一个和20个科目 0.04。从表1,一个 0.04小于抗生素暴露观察研究的影响,分析了加权UniFrac距离;因此,样本容量为20学科组(60总科目)可能提供足够的统计能力的主要结果测量如果使用加权UniFrac距离。
4讨论
统计能力的准确估计计划微生物研究的要求详细的会计数据分析所涉及的步骤。我们专注于16 s rRNA基因测序研究,分析了使用成对的距离(特别是UniFrac和Jaccard距离)和PERMANOVA。统计力量,以确保有足够的这些研究,一个人必须量化预期的类内方差和计划的效果会接触或干预。我们构建了一个PERMANOVA能力评估框架,取决于这两个重要参数的先验知识。抽样计划网站,选择两两距离度量影响两类内方差和可能的影响范围大小(如量化 )。我们从高熔点分析数据集和其他已发表的研究提供参考的类内距离分布和预期效果可以被估计。这些工具,结合微功率R包上面所描述的那样,允许电力计划微生物研究评估。
自从UniFrac距离取决于辣子鸡的系统发育树,我们回顾了系统发育树生成的高分子聚合物项目V1-V3和V3-V5 16 s rRNA基因测序数据,我们发现系统树分支的长度大约是对数正态分布的分布。为一组模拟模拟系统树(OTU表simTreeList函数的微功率包中),我们首先提取OTU名字从模拟OTU表,每个OTU名称设置为树的小费,最后生成随机分支长度连接提示,显示指定的分支长度与对数正态分布分布。最后一步的随机树生成的利用猿包的rtree命令(- 2012)。我们探索其他分支长度的分布。分支长度的分布模拟系统树并影响系统的分布(例如UniFrac)距离从模拟OTU表计算。例如,模拟分支长度根据正态分布方差膨胀距离。但是我们发现所有的种系发生树分支长度的分布保持OTU的观察水平之间的关系二次抽样和平均距离,以及观察到的辣子鸡子样品数量之间的关系和距离标准差。
La Rosaet al。(2012)最近提议另一种方法检测微生物的显著差异数据基于参数测试overdispersed分类数据对Dirichlet-multinomial (DM)分布和实现他们的方法作为R包,高分子聚合物。高分子聚合物允许必要的权力或估计样本容量与微生物研究结果的措施,基于假设检验的框架OTU向量本身的水平。然而,必须指定DM分布,通过参数代表overdispersion的程度,分类单元的数量和预期的组成分类频率在两组中,为了检测一个显著差异。在DM模型中,定义的大小是影响频率向量的分类单元之间的差距有多远。指定分类频率往往是困难的,尤其是当许多这样的分类单元。此外,一个指定阅读的数量,也可以比较不同样本变量。的微功率包,相比之下,使用成对的分布距离会选择距离度量和抽样计划的网站,并提供实证数据分布进行比较(例如图4和表1)。通过使用PERMANOVA,我们的方法非参数;通过允许使用不同的距离度量,我们的方法可以合并计算类群之间的系统发育关系的力量。我们已经证明了距离度量的选择可能会显著影响观察效果,这类内方差取决于选择的距离度量和抽样计划的网站。
通过专注于16 s rRNA测序研究分析两两距离和PERMANOVA意义测试,我们应用有限权力估计全球社区结构的措施。在某些情况下,有优势建模OTU向量本身,而不是分析群落结构的情况下通过βdiversity-particularly直言社区类型和社区之间的转换类型匹配观察生物现象(丁和城堡,2014)。尽管如此,我们相信这个方法将被证明是有用的实用程序两两距离分析微生物ANOVA-type测试数据和直观的吸引力与分类研究曝光/干预和微生物结果的措施。我们的方法的局限性之一La Rosa等艾尔。(2012)是,这些方法只能执行权力为协变量分类计算。连续协变量如年龄或身体质量指数,可以使用基于回归测试与微生物组成的协会(陈和李,2013年),内核矩阵可以定义基于两两距离。我们可以执行权力分析基于分数测试使用模拟或分析计算。另外,为目的的功率计算,我们可以使离散数据分类和应用方法,它应该提供一个保守的估计。
资金
B.J.K.支持两个国家卫生研究院T32培训补助(T32 AI055435和T32 HL758627)。R.G.,R.G.C。和F。D。B。were supported by the Penn Center for AIDS Research (5P30AI045008-15). R.G.C. and F.D.B. were supported by National Institutes of Health (U01 HL098957). J.D.L. was supported by National Institutes of Health (K24-DK078228 and UH3-DK083981). H.L. was supported by National Institutes of Health (GM097505 and CA127334). The funders had no role in study design, data collection and analysis, decision to publish or preparation of the manuscript.
利益冲突:没有宣布。
引用
作者指出
副主编:约翰·汉考克