跳转到主页内容
访问键 NCBI主页 MyNCBI主页 主要内容 主导航
2013年4月22日,8 (4):e61217。
doi: 10.1371 / journal.pone.0061217。 打印2013。

phyloseq:一个R包,用于微生物组普查数据的可重复交互分析和图形

从属关系
免费的PMC的文章

phyloseq:一个R包,用于微生物组普查数据的可重复交互分析和图形

保罗J McMurdieet al。 《公共科学图书馆•综合》
免费的PMC的文章

摘要

背景:通过DNA测序对微生物群落进行分析带来了许多挑战:将不同类型的数据与生态学、遗传学、系统发育学、多元统计学、可视化和测试方法相结合。随着实验设计的不断扩大,通常需要针对特定项目的统计分析,而这些分析往往很难(或不可能)让同行的研究人员独立再现。用于重复执行这些分析的绝大多数必要工具已经在R及其扩展(包)中实现,但对高通量微生物组普查数据的支持有限。

结果:在这里,我们描述了一个软件项目,phyloseq,致力于r中微生物群落普查数据的面向对象表示和分析。它支持从各种常见格式导入数据,以及许多分析技术。这些包括校准、过滤、分组、聚集、多表比较、多样性分析、并行Fast UniFrac、排序方法和出版质量图形的生产;所有这些都以易于记录、共享和修改的方式进行。我们展示了如何将来自其他R包的函数应用到phyloseq表示的数据,说明了大量开源分析技术的可用性。我们讨论了用可重复研究的工具使用系统序列,这是在其他领域常见的做法,但在高度平行的微生物组普查数据分析中仍然罕见。我们已经提供了所有必要的材料,以完全再现分析和数字包括在这篇文章,一个可再现研究的最佳实践的例子。

结论:R的phyloseq项目是一个新的开源软件包,可以从GitHub和Bioconductor网站上免费获得。

利益冲突陈述书

利益冲突:作者宣称不存在竞争利益。

数据

图1
图1。系统发育测序工作流程的例子。
扩增子或鸟枪系统发育测序的实验和分析工作流程示意图。指明了phyloseq的预期作用。
图2
图2。使用phyloseq分析工作流程。
工作流从OTU聚类结果和独立测量的样本数据(Input,左上)开始,结束于R中可用的各种分析程序,用于推断和验证。介于两者之间的是用于预处理和图形的关键功能。圆角矩形和菱形分别表示函数和数据对象,如图3所示。
图3
图3。“phyloseq”类。
phyloseq类是一个实验级数据存储类,由phyloseq包定义,用于表示系统发育测序数据。phyloseq包中的大多数函数都期望这个类的一个实例作为它们的主参数。有关完整的函数列表,请参阅phyloseq手册。
图4
图4。phyloseq包的图形功能。
phyloseq类是一个实验级数据存储类,由phyloseq包定义,用于表示系统发育测序数据。phyloseq包中的大多数函数都期望这个类的一个实例作为它们的主参数。全局模式和肠型数据集包含在phyloseq包中。对全局模式数据进行预处理,使每个样本转换为相同的总读取深度,并对20%的样本中未被观察到至少3次或所有样本的变异系数≤3.0的otu进行修剪。在plot_tree和plot_bar子图中,只显示拟杆菌门。每个副图标题表示产生它的plot函数。在文件S2中提供了复制这个图的完整细节。所有这些函数都返回一个ggplot对象,可以通过ggplot2包中的工具进一步定制/修改该对象。在正文文本和phyloseq主页中可以看到对每个函数的其他描述。
图5
图5。phyloseq中包含的Plot_ordination显示方法。
每个面板使用预处理的“全局模式”数据集的“拟杆菌类”子集,图4中也使用了该数据集。坐标是由无约束对应分析得到的。不同的面板使用plot_ordination函数的类型参数说明排序结果的不同显示。(左上)仅样本显示的示例,“SampleType”映射到颜色美学,填充多边形层强调样本类型共同出现的plot区域。(左上插入)与每个轴相关的特征值的“碎石”图,表示每个轴所代表的总变率的比例。(右上)样本和OTUs排序结果重叠的双线图表示。OTUs团簇出现在不同的样品类型中,并且与分类门也有一定的相关性。(中)OTUs-only地块,按类别划分为多面(分为面板),二维密度估算覆盖在蓝色区域。这一观点清楚地表明,鞘菌纲和黄杆菌纲与粪便样本之间缺乏关联,而粪便样本似乎在拟杆菌纲的一个子集中富集(相对于该拟杆菌纲数据集中的其他OTUs)。同时,拟杆菌亚群似乎在多个样本类型中富集。 (Bottom) The “split” type for this graphic, in which both samples-only and OTUs-only plots are created, and shown side-by-side with one legend and shared vertical axis. Both the “biplot” and “split” options allow dual projections of both OTU- and sample-space.

类似的文章

引用的

参考文献

    1. Metzker ML(2010)测序技术-下一代。自然评论遗传学11:31-46。-PubMed
    1. Hamady M, Walker JJ, Harris JK, Gold NJ, Knight R(2008)用于数百个样品多重焦磷酸测序的纠错条形码引物。自然方法5:235-237。-PMC-PubMed
    1. 佩斯NR(1997)微生物多样性和生物圈的分子观点。科学276:734 - 740。-PubMed
    1. 刘铮,DeSantis TZ, Andersen GL, Knight R(2008)高度平行焦焦测序器产生的16S rRNA序列的精确分类分配。核酸研究36:e120。-PMC-PubMed
    1. DeSantis TZ, Hugenholtz P, Keller K, Brodie EL, Larsen N, et al. (2006) NAST:用于比较分析16S rRNA基因的多序列比对服务器。核酸研究34:W394-9。-PMC-PubMed

发布类型