跳转到主要内容
广告
浏览主题领域
吗?

点击公共科学图书馆分类找到你所在领域的文章。

关于公共科学图书馆主题领域的更多信息,请点击在这里

  • 加载指标

metaSNV:宏基因组分析应变水平的工具

  • 保罗Igor Costea,

    的贡献同样处理:保罗•伊戈尔Costea罗宾咀嚼

    角色概念化、数据管理、调查方法,软件,验证、写草稿,写——审查和编辑

    联系结构和计算生物学的单位,欧洲分子生物学实验室,德国海德堡

  • 罗宾·蒙克,

    的贡献同样处理:保罗•伊戈尔Costea罗宾咀嚼

    角色概念化、数据管理、形式分析,方法,软件,写评论和编辑

    联系结构和计算生物学的单位,欧洲分子生物学实验室,德国海德堡

  • 路易斯·佩德罗•科埃略

    角色软件,验证、可视化、写作——审查和编辑

    联系结构和计算生物学的单位,欧洲分子生物学实验室,德国海德堡

  • 卢卡斯Paoli

    角色方法、软件编写,审查和编辑

    从属关系生物学系,微生物学研究所,苏黎世联邦理工学院,苏黎世瑞士生物学系,高等师范学院,巴黎,法国

  • Shinichi Sunagawa

    角色形式分析、方法、写作——审查和编辑

    联系生物学系,微生物学研究所,苏黎世联邦理工学院,苏黎世瑞士

  • 博克同行

    角色概念化、融资并购、项目管理、监督、写草稿,写——审查和编辑

    bork@embl.de

    从属关系结构和计算生物学的单位,欧洲分子生物学实验室,德国海德堡Max-Delbruck-Centre分子医学,柏林,德国、生物信息学、Biocenter,维尔茨堡,德国维尔茨堡大学分子医学合作单位,德国海德堡

文摘

我们现在metaSNV,单核苷酸变异的工具(SNV)在宏基因组样本分析,能够比较的数量成千上万的细菌和古细菌物种。工具使用作为输入核苷酸序列比对到参考基因组标准山姆/ BAM格式,执行SNV呼吁个人样本和整个数据集,并生成各种统计数据个别物种包括等位基因频率和核苷酸多样性/样本距离以及固定在样本指标。使用数据从676年出版的宏基因组样本不同的网站在口腔中,我们的结果表明,metaSNV相媲美的大富翁,另一种实现宏基因组SNV分析,数据处理速度更快,更小的存储空间。此外,我们实现的一组距离措施允许基因变异在宏基因组的比较样品和描绘sample-specific变异使跟踪特定的菌株数量随着时间的推移。metaSNV可用的实现:http://metasnv.embl.de/

介绍

最近,strain-level分析基因组已被证明是可行等复杂的社区甚至人类肠道(1)和一些工具已经因此发达使研究人员研究微生物群落在这个级别的分辨率。这些工具在不同类型的方法和假设以及提供的信息作为输出。因此,同种的菌株可以是分是基于基因的内容(2,3使用特定SNVs[]或1,4]。后一种方法是当前的工作属于的类别,尽管这里也细节各有不同,一些工具试图重建mini-haplotypes,基于核心的物种基因(5)或种特异的标记基因(6),而其他人则试图描述景观,全基因组变异(没有尽力构建单体型1,4]。所有这些方法都依赖参考基因组的可用性,因此可能只适用于环境特征。互补的方法正在开发应对挑战的描述样本很少或根本没有参考基因组,通过结合宏基因组组装与单细胞测序(7]。

有两个主要挑战的使用这些引用依赖工具,感兴趣的:可用性和可解释性。对于前者,作为比较样本数量的增加,考虑运行时和存储等足迹变得越来越重要。在后者的情况下,当前可用的工具输出主要分析需要额外的工作来解释结果。

在这里,我们提出一个快速、可伸缩的工具,metaSNV,基于原始概念和过程的量化基因组变异Schloissnig et al。1),附加功能和包装成一个易于使用的管道。我们比较其性能和输出MIDAS作为替代实现(4),旨在描述基于全基因组变异映射到一个代表每个物种的基因组。我们不执行比较的输出工具,使用只有一个子集的基因组来确定菌株单,是一组常见的标记基因(5)或一种特异的组(6]。

metaSNV使用微生物参考基因组的集合,每个物种都表示为一个代表基因组,以避免冗余(8,9]。或者,用户可以指定自己的参考基因或基因集合。我们表明,我们的方法识别微生物物种内广泛的变化,这变化是量化宏基因组样本之间的差异信息。为此,metaSNV还实现了一组距离的措施可以用来比较样本之间的变化资料,以确定菌株的遗传距离人口和识别感兴趣的关系解释变量(采样地点、环境条件、健康,等等)。

作为一个示范,使用数据从人类微生物组项目(HMP) [10),我们表明,大多数细菌的基因组变异在人类口腔与特定sub-habitat高度相关,他们已经收集到的(如舌背比supra-gingival斑块)和个人SNV档案随时间是稳定的。

材料和方法

管道输入是山姆的校准文件列表/ BAM格式,其中包含的结果宏基因组样本映射到参考基因组数据库。结果是计算使用bwa作为调整器(11];但是可以使用其他工具。特别是,我们描述的参数用于质量控制宏基因组序列教程网页(http://metasnv.embl.de/),以及如何使用bwa和Ngless (http://ngless.embl.de/)生产BAM文件(12可以用作metaSNV输入。如前所述,参考基因组数据库可能是一个自定义一个由用户或创建一个部署了当前软件(9]。metaSNV结构序列的三个处理步骤(图1),前两个包装在一个命令和一个单独的脚本进行后处理。首先,我们确定每个样本的平均覆盖每一个参考基因组。为此,我们从qaTools运行qaCompute /样本(一种工具套件https://github.com/CosteaPaul/qaTools,部署metaSNV)和总覆盖率信息。这个步骤可以并行为每个样本覆盖评估独立于所有其他。在下一步我们计算基因组变异和输出的所有变体位置满足质量标准。这里我们利用samtools mpileup工具(13),为了获得per-position变体信息。这些变体调用然后过滤基于给定的标准,如果一个基因位置文件,得到带注释的同义和非同义相对于参考等位基因改变。对于这个也处理步骤,metaSNV支持使用多核多线程。最后,我们提供了后处理分析SNV景观和允许用户来计算每个物种成对距离矩阵的样本,以及进化等措施核苷酸多样性和固定指数(14,15]。

缩略图
图1所示。分析管道和例子结果的概述。

(A)展示了SNV调用和分析工作流,组成的一个可选的预处理步骤,它将计算负荷分为基于基因组覆盖率大小相似的子集,主要SNV原始输出调用步骤和进一步的后处理,可以定制根据分析的目的。(B)显示了一个成对的主坐标分析投影距离口腔样本,基于人口SNVs,它清晰地分离株种群舌背的样本supra-gingival菌斑样本。(C)显示了个人的追踪SNV频率在一个个人的384天。每一行代表一个变异位置和相应的颜色编码的数量位置改变随着时间的推移的等位基因频率;红色代表稳定的变异,维持他们的频率在蓝色的位置在人口极大地改变它们的频率。只有少数的职位变化在测量期间,大部分剩余人口大约在同一频率,表明大应变种群内个体的稳定。

https://doi.org/10.1371/journal.pone.0182392.g001

如果需要,metaSNV可以自动估计均衡分裂的输入数据和整个工作划分成多个作业,然后可以并行执行许多机器在高性能计算集群。

基因组覆盖率估计

给定一个对齐文件(标准格式的BAM [13]),我们估计垂直覆盖,这是基地覆盖每个基因组的数量除以它的长度。我们也计算水平覆盖,即基因组的比例由至少一个阅读。基于覆盖率信息,参考可以分成部分,估计需要类似的执行时间。

人口和个人SNV调用

我们确定候选人变体的存在在per-nucleotide的基础上,建立在mpileup工具samtools包(13]。所有读取所有样本对齐到一个给定的位置被认为是在一起。如果至少有四个变量包含读取位置(在所有样本),它被认为是一个潜在的SNV [1]。变异分为两类:人口和个体的变异。前者非引用核苷酸中观察到超过1%的读取所有样品相结合。个体变异是那些人口频率阈值低于1%,但自信地观察到至少一个样品(至少四个读取包含变种)。如果观察到多个不同的非引用核苷酸,都是独立报道。我们观察到的这种multi-allelic位置是罕见的在我们的实验中:变异3.7%的人口和1.6%的个人的。四读标准过滤随机分布在整个基因组测序错误,1%则消除了随机测序错误积累在同一个位置当覆盖深度达到非常高的数字;保守估计错误率为这些碎屑在[0.35 - -0.7%的范围1]。描述的阈值是默认的设置,但如果需要可以由用户自定义。

后处理和分析

分类,样本和位置过滤器应用SNV调用。在每个示例中,我们考虑一个分类单元被观察到如果各自的基因组有垂直的报道至少5 x和一个水平的报道至少40%。我们实施5 x垂直覆盖截止防止确定偏差由于虚假报道。此外,高垂直保险可以达到乱真的映射数量足够高的短读高度保守的基因或基因组区域,我们另外施加水平覆盖过滤器。我们基本默认切断(40%)之前估计的上下界的基因组不同比例共享E杆菌压力(16]。我们注意到这个下界是相当保守,我们通常发现超过80%水平覆盖在人类粪便样本的5倍。然而,这确保给定物种的存在感兴趣的样品。这两个可以由用户定制的否决,尽管我们建议使用提出的,以确保后续的距离估计的准确性。结果SNVs进一步过滤只考虑那些覆盖在5 x的位置至少有50%的样本,确保在普遍观察到的位置被认为是唯一的变化。对于下游处理,我们实现了一个per-taxon计算两两之间的距离矩阵的所有样本,基于这些过滤SNVs。这些距离是基于非引用等位基因频率在所有成对变异。即,曼哈顿距离,增加了每个站点绝对频率差异和规范比较的总数。也就是网站的数量的比较是可能的;如果一个位置没有被观察到在一个示例中,它在计算被忽略。 Additionally, we offer a “major allele” distance, which only considers differences in the major allele per site; that is, frequency differences greater of equal to 60%. We note that if a position has multiple variants, these are considered independently. Finally, nucleotide diversity (π) [14,17)在样本内和固定指数(F)[15)可以适应宏基因组数据(18每个物种如前所述[]和计算1]:(1)(2)G是基因组的大小,和x年代,我,N核苷酸的频率N,在基因组的位置我,在上述样本美国所有测量结果值从0到1,1表示两个种群之间的最大不同。

结果与讨论

SNV管道应用于676从口腔猎枪基因组,收集作为人类微生物组计划的一部分(HMP) [10]。的结果Capnocytophaga sputigena表明样本个体的口腔集群的舌背那些来自supra-gingival斑块(分开图1 b)。这个结果提供了强有力的证据表明,应变人口居住两个栖息地不同,让人想起先前描述的指标(19,20.]。此外,metaSNVs使菌株在个人随着时间的推移,使用个人的追踪特定变异的位置(图1 c)。因此,我们可以跟踪的进化路径SNVs并展示,他们可以在一个单独的非常稳定,即使测量~ 400天后。具体地说,我们注意到,绝大多数的变异的频率在人群中保持相对稳定,只有几个位置固定或清除的人口。

比较我们的结果与大富翁4),我们选择了两个网站在口腔,舌头背supra-gingival斑块,并分析80随机选择HMP这些身体的样本网站,supra-gingival斑块(N = 40)和舌背(N = 40)。差异称为职位本身并不丰富,我们计算等位基因频率上的曼哈顿距离使用的输出工具,用类似的参数(使用merge_midas在运行。0.5 0.4 5.0 py snp with-min_samples 10-sample_depth -fract_cov -site_depth 5-site_prev -site_maf 0.01和metaSNV_post。py - m 10)。距离计算比较,平均R20.81常见的物种和样本相交,说明两种方法捕获相同的基因变异。常见的物种重叠的Jaccard-index 0.86和0.89的样品每个物种平均Jaccard-index相交。(图2)。因此,这两种方法能够评估基因组变异在相同样本和由此产生的特征主要是相同的。

缩略图
图2所示。比较metaSNV和MIDAS的结果。

相关系数(R2,曼特尔)两两距离矩阵由大富翁和metaSNV(上)。相比只是物种的样本交叉检查两种方法。每个物种Jaccard示例重叠指数为计算(底部)。平均样本数量和平均Jaccard指数对所有样本相交的传说所示。

https://doi.org/10.1371/journal.pone.0182392.g002

运行基准测试

为了比较运行时间和存储空间占用我们使用这两种方法与匹配参数和32 cpu /工作。平均每个处理步骤运行时(对齐、物种丰度估计,SNV召唤,过滤和后处理)计算了平均每个个体的实时工作(每个处理步骤多达80个工作岗位,一个用于每个样本或分裂)。管道的绝对运行时的总和所有必要的任务,因此平均实时运行工作流从fastq文件距离矩阵(表1)。

metaSNV处理所有的样品在226分钟(如果样品已经对齐132分钟)和生产18 GB输出(241 GB包括对齐文件)。这个处理时间包括对齐(BWA)、物种丰度估计(qaCompute) SNV调用(samtools + metaSNV称为并行计算方法)和后期处理(过滤)。相比之下,大富翁跑3455分钟,生产了537 GB的输出。

存储占用的差异来解释这一事实metaSNV只输出位置的至少一个变量在所有样本被观察到,虽然MIDAS输出所有的位置。总的来说,metaSNV 15.3倍速度比大富翁在cpu使用减少48%(2677),不到一半的存储空间。

可用性的参考基因组:限制和视角

metaSNV可以广泛应用于研究细菌种群在不同的栖息地,主机或临床条件。然而,一个重要的考虑是,参考基因组的可用性。目前,我们提供的集合包含超过5000个细菌物种的基因组代表(9),尽管他们代表一个带有偏见的例子不同的环境。例如,当前数据库只抓住了一小部分(6%)的收集的读取塔拉海洋探险。尽管如此,最近发布的新测序原核生物基于系统覆盖可以显著改善之前采样栖息地的物种数量(21]。此外,改善文化无关测序技术,如单细胞测序或reference-independent方法(7)可以进一步减少这样的偏见。

综上所述,我们发现metaSNV提供了一个快速、可伸缩的、可靠的方式量化原核单核苷酸变异在数以百计的样本。此外,我们提供易于使用的脚本分析这种变化在不同的设置比较人口跨样本和跟踪它们。

确认

感谢博克的成员组测试软件和提供反馈,严萍元,伊Letunic帮助建立网站和雷纳托阿尔维斯代码审查和额外的输入。

引用

  1. 1。Schloissnig年代,Arumugam M, Sunagawa年代,Mitreva M,利用J,朱,等。基因变异人类肠道微生物组的景观。大自然。自然出版集团;2013;493:45 - 50。pmid: 23222524
  2. 2。博克博士曼德,朱,Sunagawa年代,p . Inter-individual差异基因人类肠道细菌种类的内容。基因组医学杂志。2015;16:82。pmid: 25896518
  3. 3所示。朔尔茨M,病房D V, Pasolli E, Tolio T,佐弗M公司Asnicar F, et al . Strain-level微生物流行病学和人口基因组学从猎枪宏基因组。Nat方法。性质研究;2016;13:435 - 438。pmid: 26999001
  4. 4所示。Nayfach年代,Rodriguez-Mueller B, Garud N,波拉德KS。一个集成的宏基因组管道应变分析揭示了小说的细菌传播模式和生物地理学。基因组研究》冷泉港实验室出版社;2016;pmid: 27803195
  5. 5。C罗,骑士R, Siljander H, Knip M,泽维尔RJ, Gevers d约束识别微生物菌株在宏基因组数据集。生物科技Nat》。2015; 33: 1045 - 52。pmid: 26344404
  6. 6。Truong DT,邰蒂,Pasolli E, Huttenhower C, Segata n .微生物strain-level人口结构从基因组和遗传多样性。基因组研究》冷泉港实验室出版社;2017;27:626 - 638。pmid: 28167665
  7. 7所示。王张霁P, Y, J,赵f . MetaSort metagenome束缚中解放大会通过减少微生物群落的复杂性。Nat Commun。2017; 8: 14306。pmid: 28112173
  8. 8。泽勒曼德博士,Sunagawa S, G,博克p .准确和原核物种的通用描述。Nat方法。自然出版集团、麦克米伦出版社有限公司的一个部门。保留所有权利。2013;10:881 - 4。pmid: 23892899
  9. 9。曼德博士,Letunic我Huerta-Cepas J,李党卫军,Forslund K, Sunagawa年代,等人proGenomes:资源一致的功能和分类原核基因组的注释。核酸研究》牛津大学出版社;2016;gkw989。pmid: 28053165
  10. 10。Gevers Huttenhower C, D,骑士R, Abubucker年代,獾JH, Chinwalla, et al .结构、功能和人类健康的微生物多样性。大自然。自然出版集团、麦克米伦出版社有限公司的一个部门。保留所有权利。2012;486:207 - 214。pmid: 22699609
  11. 11。李H,杜宾r .快速和准确的短阅读符合burrows - wheeler变换。生物信息学。2009;25:1754 - 1760。pmid: 19451168
  12. 12。李余李R, C, Y,林TW,姚SM, Kristiansen K, et al。SOAP2:一种改进的超快短读一致性的工具。生物信息学。2009;25:1966 - 1967。pmid: 19497933
  13. 13。李H, Handsaker B, Wysoker,芬内尔T,阮J,荷马N, et al .序列比对/地图格式和SAMtools。生物信息学。牛津大学出版社;2009;25:2078 - 9。pmid: 19505943
  14. 14。Nei M,李WH。数学模型研究遗传变异的限制内切酶。《科学。国家科学院;1979;76:5269 - 5273。
  15. 15。赖特美国自然种群的遗传的结构。安尤金。1951;15:323 - 354。pmid: 24540312
  16. 16。Touchon M, Hoede C, Tenaillon O, V, " Baeriswyl年代,浴盆P, et al .大肠杆菌物种的基因组组织动力学结果高度多样化的自适应路径。中科院学部吗?年代J,编辑器。公共科学图书馆麝猫。2009;5:e1000344。pmid: 19165319
  17. 17所示。Nei M,遗传学p分析细分人群的基因多样性。Nat。国家科学1973;70:3321 - 3323。pmid: 4519626
  18. 18岁。开始DJ,霍洛韦AK,史蒂文斯K, Hillier LW, Poh y p,哈恩MW, et al。人口基因组学:全基因组多态性分析,在果蝇simulans散度。努尔加器、编辑器。公共科学图书馆杂志。查普曼&大厅;2007;5:e310。pmid: 17988176
  19. 19所示。约翰逊子,Zinser呃,Coe, McNulty NP,伍德沃德EMS, Chisholm西南。利基分区在原生态型球藻ocean-scale环境梯度。科学。美国科学促进协会;2006;311:1737 - 40。pmid: 16556835
  20. 20.Koeppel房颤时,吴邦国m .惊人的广泛的混合细菌的操作和系统生物学和生态信号分类单位。核酸研究》2013;41:5175 - 88。pmid: 23571758
  21. 21。慕克吉年代,Stamatis D,伯奇J, Ovchinnikova G, Verezemska O,尹浩然,Isbandi。基因组在线数据库(黄金)v。6:数据更新和功能增强。核酸研究》2017;45:D446-D456。pmid: 27794040