摘要
微生物基因组的可用性为微生物学研究开辟了许多新的途径。这主要是由比较基因组学方法驱动的,这种方法依赖于对基因组序列的准确和一致的描述。然而,对于已定义的原核进化支,很难获得一致的分类学和综合功能注释。因此,我们开发了proGenomes,该资源提供了对当前25038个高质量基因组的用户友好访问,这些基因组的序列和一致的注释可以单独检索或按分类分支检索。根据先前建立的方法,这些基因组被分配到5306个一致和准确的分类物种簇。proGenomes还包含近8000万个蛋白质编码基因的功能信息,包括一套全面的通用注释和碳水化合物活性酶和抗生素抗性基因的更集中的注释。此外,还为许多基因组提供了广泛的栖息地信息。所有基因组和相关信息可以通过用户选择的分支或多个栖息地特定的代表性基因组集下载。我们期望具有全面功能注释的高质量基因组的可用性将促进临床微生物基因组学、功能进化和微生物学其他子领域的进展。原基因组可在http://progenomes.embl.de.
介绍
微生物在塑造地球方面发挥着重要作用,并对人类健康和福祉产生巨大影响。然而,直到最近,人们对它们的多样性、遗传学和功能潜力知之甚少。在过去的二十年里,随着测序基因组的可用性,这种情况发生了变化,这彻底改变了我们对微生物的理解(1- - - - - -3.).基因组测序在微生物学中的广泛应用,导致测序细菌和古生菌的数量呈指数级增长(4)(图1).然而,如果没有注释来揭示可解释的信息,单独的基因组序列,即使完全组装,其价值也是有限的。最基本的注释级别应该提供基因组的分类学命名及其编码的基因序列。后者的功能注释可以揭示,例如,在特定微生物的表型特征的基础上的生化过程。
比较基因组学领域,通过对基因组特征的不断努力,使我们对细菌和古菌生命的理解有了新的进展(5).虽然这样的研究需要使用持续注释的基因组,但目前的最先进技术还没有提供一个容易的入口点来获得这些。许多可公开访问的数据库为基因组提供了基本的和更详细的注释。NCBI RefSeq数据库(6)提供了一套全面的基因组,包括一致预测的基因模型。其他数据库,如美国能源部联合基因组研究所综合微生物基因组和微生物组(JGI IMG/M)数据库(7)、PATRIC(病理系统资源整合中心)数据库(8)和菌群(9)通过整合其他数据源,为沉积的基因组提供额外的信息层。然而,分类学注释通常由基因组序列的提交者提供。这导致了生命树不同分支之间的不一致,特别是在物种层面,因为细菌和古生菌的物种定义在微生物学家中仍然是一个高度争论的话题(10).此外,原核生物的分类学分类不断更新,这阻碍了为一个理想的项目下载物种子集的努力。由于存在许多功能数据库,为许多基因组获得一致的功能本体也具有挑战性,每个数据库涵盖功能多样性的不同方面(例如抗生素耐药性(11)或代谢途径(12)),而目前的基因组资源要么不完整,要么缺乏交叉引用信息。
为了解决这些问题,我们开发了原基因组(http://progenomes.embl.de),这是一种原核基因组资源,可以直接访问任何分类分支的基因组,并结合每个基因组的许多一致和分层注释的基因功能。此外,我们以最新物种集群的形式提供了一个健壮的可操作物种分类,与NCBI参考分类法(13).为了尽量减少冗余,从每个特定的物种簇中选择一个具有代表性的基因组,反映其在文献和其他标准中的作用(图2).由此产生的非冗余基因组集非常适合于宏基因组或大规模的系统发育研究。
来自每个基因组的基因组被翻译成蛋白质组,并使用最全面的直系同源基因及其功能注释数据库之一eggNOG进行持续注释,有190万个直系同源基团(14).使用eggNOG-mapper工具,我们能够注释近7900万个蛋白质编码基因(15),包括对KEGG通路和预测基因家族名称的间接注释。
我们还提供了更具体的碳水化合物活性酶注释,以及抗生素耐药性决定因素,这些是其他数据库目前没有提供的附加特征。这种注释的范围将在未来的更新中扩展。我们认为,高质量基因组的全面功能注释将促进微生物基因组学的临床应用研究,以及功能进化的研究。
数据库建设及特点
proGenomes的目标是以易于下载和用户友好的方式提供可用的微生物基因组和可定制的子集。用户可以通过提供基因组或分类学分支的名称来查找感兴趣的基因组。该网站还允许用户交互式地探索所有提供的信息,并且可以轻松下载单个基因组或整个分类分支的基因组序列和注释。预先包装的代表性基因组集也可批量下载。图中总结了生成网站上显示的数据的计算管道2.我们的目标是每年最多更新数据库两次。此外,我们计划执行主要的两年一次的更新,这将涉及到附加注释源的集成或工作流现有部分的主要改进。
基因集合
基因组收集基于2014年12月14日NCBI核苷酸数据库提供的所有细菌和古细菌基因组。基因预测是从沉积的基因组中获得的。如果没有提供这些信息,则使用geneMarkS (16).我们过滤了N50评分<10k bp和/或由超过300个contigs组成的低质量集合。40个通用单拷贝标记基因中小于30个的不完全组装基因组也被移除(17,18).在基因组中检测足够数量的这些标记基因提供了一个普遍适用的基因组完整性测量方法。总共产生了25038个高质量基因组。
使用特定方法定义物种集群
如上所述,物种的基因组分配是有争议的(12).随着测序基因组的数量呈指数级增长,需要开发和使用自动、无偏倚和系统的方法来解决这一问题。特定物种聚类提供了一个准确和一致的解决方案,因为它们仅基于基因组序列(但也在很大程度上与形态学和表型评价的共识一致),并且可以应用于任何一组测序基因组。我们使用在(13),结果显示,目前在原基因组的25038个基因组中有5306个特异物种簇。与以前的工作相比,这代表了一个重大的进步,例如MetaRef数据库(19),这为2818个基于演化支特定基因的基因组提供了类似的分类。
特异性方法利用一组40个通用的单拷贝标记基因家族(mg) (17,18),作为每个基因组资源的一部分。镁离子被用来重建生命树(17),并研究特定进化支的系统发育关系(13,20.).fetchMG工具(21)用于从所有高质量基因组中提取mg。为了生成更新的specii种簇,使用vsearch (Rogneset al。,https://github.com/torognes/vsearch)和基因组到基因组的距离计算为基因长度加权平均。然后将基因组到基因组的距离作为平均连锁聚类的输入。用平均标记基因核苷酸同源截断值96.5%来生成特定种簇。共鉴定出5306个种簇,其中1485个种簇包含多个基因组,3821个种簇为单子。非单例簇平均包含14.3个基因组。最大的簇(specI_v2_Cluster67:金黄色葡萄球菌)包含4172个基因组。更新的特定物种簇可以通过直接搜索或从任何组成基因组链接轻松地在原基因组中访问。由于它们的一致性,这些聚类代表了泛基因组研究的一个无偏倚的起点,也可以作为宏基因组分类方法的基准集。
代表性基因组的选择
微生物基因组学中的许多应用需要非冗余数据集。这可能是由于冗余本身的有害影响(例如,当试图唯一地将宏基因组读数分配给参考基因组时,如在(22))或因为在相当精确度下的效率显著提高(例如(14))。NCBI RefSeq目前提供了一组来自4287个物种的代表性基因组(8),但许多物种在该集合中没有出现。因此,我们提供了一组5510个具有代表性的基因组,可供批量下载(图3.).此外,代表性基因组的栖息地特异性子集也可用。
在选择具有代表性的基因组之前,我们建立了一个特别感兴趣的基因组的小“白名单”。这主要是为了确保标志性的模式生物菌株被保证显示出来,即使自动化测量可能已经表明其他菌株是潜在的代表。用户可以在网站上投票选择更多的基因组,在未来版本的资源中应该包括在这个白名单中。
为了编译这些具有代表性的基因组集,每个特定物种簇至少选择一个基因组。如果一个特定的物种集群包含白名单上的一个或多个基因组,这些基因组就会被选中。另外,我们使用引用统计(反映菌株用于实验或其他模型系统工作)以及基因组质量统计(N50)从每个非单例聚类中选择一个具有代表性的基因组,从而优先选择完全组装的基因组。此外,所有基因组都包括在单例特定种簇中。
功能注释
微生物基因组的功能库决定了其表型、生活方式和生态作用。因此,对一种微生物的基因进行一致、准确、全面的功能注释,对于我们理解一种微生物至关重要。我们专注于蛋白质编码基因的功能注释,因为它们编码大多数功能库。这是通过使用eggNOG (14)资源,因为它提供了一个通用的注释框架,广泛覆盖不同的蛋白质功能类别。如上所述,proGenomes目前还提供了抗生素耐药性和碳水化合物活性酶的重点注释,并计划在未来的更新中进一步注释。抗生素耐药性注释是根据综合抗生素耐药性数据库(CARD)的综合结果提供的(23)及ResFams (24)资源。对于CARD,其相关的耐药性基因标识符工具在原基因组中的所有蛋白质上运行,通过使用策划的CARD截断序列的相似性识别基因家族分配,并使用隐马尔可夫模型(hmm)对齐识别抗生素靶基因的序列(SNP)变异。对于每个原基因组蛋白,在抗性基因家族注释的情况下,保留了在截止点以上的最佳命中。类似地,在截止点以上的最佳得分模型的snp集被保留用于序列变体。对于没有CARD抗性基因注释的蛋白质,ResFams HMM达到阈值以上的最佳值被保留。由于两个数据库都映射到抗生素耐药性本体(ARO), ARO层次结构(根据CARD版本1.7)被用于评估每个耐药基因决定因素保护哪些抗生素。添加了“未指定的β -内酰胺”和“多药物外排泵”的代理术语,以调和一些注释中的歧义。对于ARO中列出的复合物,例如具有不同亚基的成分,在每个基因组中计算命中之间的协同作用,反映了几个相互作用的抗生素耐药基因如何提供进一步的耐药性。由CAZy定义的碳水化合物活性酶注释(25)由dbCAN HMM模型(26).
总的来说,近8000万个蛋白质编码基因被注释(eggNOG: 78 921 163;CAZy: 2 704 372;卡+ ResFams: 745 070)。这些信息可以在proGenomes网站上进行交互式检查。
栖息地的信息
原基因组数据库中提供了大多数基因组的栖息地信息。这些信息可用于对选定环境的深入研究或不同生境之间的比较,例如(27).生境资料由PATRIC人工资料库(10)(2015年3月15日访问)。具体来说,使用了“主机名”、“主体样本站点”和“栖息地”字段。例如,在存在同一生物的不同程序集的情况下,将为每个NCBI Taxonomy ID整理数据。在25038种生物中,有17632种可获得信息。这使我们能够将每个特定物种集群大致划分为四种不同的栖息地类型之一:宿主相关(835),水生(566),陆地(234)或多种(376)(图1而且3.).这些簇子集的代表性基因组可从网站批量下载。
网站
原基因组网站(http://progenomes.embl.de)可用于浏览资源,并可直接访问整个数据库。它有一个可搜索的界面,可用于从任何分类组或特定物种集群中查找数据4).所有提供的信息都可以在分类组或个体基因组的水平上进行交互式探索。对于较大的分类组,显示该组内所有基因组的信息,可以直接访问基因组、基因和蛋白质序列以及注释。对于单个基因组,我们在交互环境中提供所有注释,使用户能够通过直接链接到相关的外部数据库条目来访问其他信息。
讨论
proGenomes为大量高质量筛选的基因组提供了一致的分类学和功能注释,以及非冗余的、栖息地特定的代表性基因组集。易于使用的网站为对微生物基因组学感兴趣的研究人员提供了广泛的相关信息,并允许定制基因组子集以供下载,从而促进了从进化、群体遗传学、功能基因组学和许多其他研究领域解决问题的比较研究。我们希望原基因组能够成为一种有价值的资源,用于从专注于一个或几个生物体到分析大规模进化模式或复杂微生物群落的研究。
确认
作者要感谢Bork小组,特别是Yuan Yan-Ping的技术支持,以及Lars Juhl Jensen提供的初始白名单。D.R.M.还要感谢塞巴斯蒂安·施密特和弗兰克·艾尔沃德进行了有益的讨论。
资金
欧盟委员会MetaCardis项目[FP7-HEALTH-305312];国际人类微生物组标准联盟[HEALTH-FP7-2010-261376];欧洲研究理事会CancerBiome项目[268985];GALAXY项目[项目编号:668031];诺和诺德基金会[NNF14CC0001];欧盟地平线2020研究和创新计划[686070];欧洲分子生物学实验室;澳大利亚研究生奖(s.s.l);EMBL澳大利亚国际博士奖学金(到S.S.L.);欧洲分子生物学组织[ALTF 721-2015 to D.R.M]; LTFCOFUND2013 [PCOFUND-GA-2013-609409 to D.R.M]. Funding for open access charge: EMBL.
利益冲突声明.没有宣布。
参考文献
评论