摘要

微生物基因组的可用性为微生物学研究开辟了许多新的途径。这主要是由比较基因组学方法驱动的,这种方法依赖于对基因组序列的准确和一致的描述。然而,对于已定义的原核进化支,很难获得一致的分类学和综合功能注释。因此,我们开发了proGenomes,该资源提供了对当前25038个高质量基因组的用户友好访问,这些基因组的序列和一致的注释可以单独检索或按分类分支检索。根据先前建立的方法,这些基因组被分配到5306个一致和准确的分类物种簇。proGenomes还包含近8000万个蛋白质编码基因的功能信息,包括一套全面的通用注释和碳水化合物活性酶和抗生素抗性基因的更集中的注释。此外,还为许多基因组提供了广泛的栖息地信息。所有基因组和相关信息可以通过用户选择的分支或多个栖息地特定的代表性基因组集下载。我们期望具有全面功能注释的高质量基因组的可用性将促进临床微生物基因组学、功能进化和微生物学其他子领域的进展。原基因组可在http://progenomes.embl.de

介绍

微生物在塑造地球方面发挥着重要作用,并对人类健康和福祉产生巨大影响。然而,直到最近,人们对它们的多样性、遗传学和功能潜力知之甚少。在过去的二十年里,随着测序基因组的可用性,这种情况发生了变化,这彻底改变了我们对微生物的理解(1- - - - - -3.).基因组测序在微生物学中的广泛应用,导致测序细菌和古生菌的数量呈指数级增长(4)(图1).然而,如果没有注释来揭示可解释的信息,单独的基因组序列,即使完全组装,其价值也是有限的。最基本的注释级别应该提供基因组的分类学命名及其编码的基因序列。后者的功能注释可以揭示,例如,在特定微生物的表型特征的基础上的生化过程。

图1所示。

随着时间的推移,测序基因组和物种簇的可用性。颜色代表基因组/物种簇的栖息地注释。

比较基因组学领域,通过对基因组特征的不断努力,使我们对细菌和古菌生命的理解有了新的进展(5).虽然这样的研究需要使用持续注释的基因组,但目前的最先进技术还没有提供一个容易的入口点来获得这些。许多可公开访问的数据库为基因组提供了基本的和更详细的注释。NCBI RefSeq数据库(6)提供了一套全面的基因组,包括一致预测的基因模型。其他数据库,如美国能源部联合基因组研究所综合微生物基因组和微生物组(JGI IMG/M)数据库(7)、PATRIC(病理系统资源整合中心)数据库(8)和菌群(9)通过整合其他数据源,为沉积的基因组提供额外的信息层。然而,分类学注释通常由基因组序列的提交者提供。这导致了生命树不同分支之间的不一致,特别是在物种层面,因为细菌和古生菌的物种定义在微生物学家中仍然是一个高度争论的话题(10).此外,原核生物的分类学分类不断更新,这阻碍了为一个理想的项目下载物种子集的努力。由于存在许多功能数据库,为许多基因组获得一致的功能本体也具有挑战性,每个数据库涵盖功能多样性的不同方面(例如抗生素耐药性(11)或代谢途径(12)),而目前的基因组资源要么不完整,要么缺乏交叉引用信息。

为了解决这些问题,我们开发了原基因组(http://progenomes.embl.de),这是一种原核基因组资源,可以直接访问任何分类分支的基因组,并结合每个基因组的许多一致和分层注释的基因功能。此外,我们以最新物种集群的形式提供了一个健壮的可操作物种分类,与NCBI参考分类法(13).为了尽量减少冗余,从每个特定的物种簇中选择一个具有代表性的基因组,反映其在文献和其他标准中的作用(图2).由此产生的非冗余基因组集非常适合于宏基因组或大规模的系统发育研究。

图2。

工作流来生成数据库的底层数据。

来自每个基因组的基因组被翻译成蛋白质组,并使用最全面的直系同源基因及其功能注释数据库之一eggNOG进行持续注释,有190万个直系同源基团(14).使用eggNOG-mapper工具,我们能够注释近7900万个蛋白质编码基因(15),包括对KEGG通路和预测基因家族名称的间接注释。

我们还提供了更具体的碳水化合物活性酶注释,以及抗生素耐药性决定因素,这些是其他数据库目前没有提供的附加特征。这种注释的范围将在未来的更新中扩展。我们认为,高质量基因组的全面功能注释将促进微生物基因组学的临床应用研究,以及功能进化的研究。

数据库建设及特点

proGenomes的目标是以易于下载和用户友好的方式提供可用的微生物基因组和可定制的子集。用户可以通过提供基因组或分类学分支的名称来查找感兴趣的基因组。该网站还允许用户交互式地探索所有提供的信息,并且可以轻松下载单个基因组或整个分类分支的基因组序列和注释。预先包装的代表性基因组集也可批量下载。图中总结了生成网站上显示的数据的计算管道2.我们的目标是每年最多更新数据库两次。此外,我们计划执行主要的两年一次的更新,这将涉及到附加注释源的集成或工作流现有部分的主要改进。

基因集合

基因组收集基于2014年12月14日NCBI核苷酸数据库提供的所有细菌和古细菌基因组。基因预测是从沉积的基因组中获得的。如果没有提供这些信息,则使用geneMarkS (16).我们过滤了N50评分<10k bp和/或由超过300个contigs组成的低质量集合。40个通用单拷贝标记基因中小于30个的不完全组装基因组也被移除(1718).在基因组中检测足够数量的这些标记基因提供了一个普遍适用的基因组完整性测量方法。总共产生了25038个高质量基因组。

使用特定方法定义物种集群

如上所述,物种的基因组分配是有争议的(12).随着测序基因组的数量呈指数级增长,需要开发和使用自动、无偏倚和系统的方法来解决这一问题。特定物种聚类提供了一个准确和一致的解决方案,因为它们仅基于基因组序列(但也在很大程度上与形态学和表型评价的共识一致),并且可以应用于任何一组测序基因组。我们使用在(13),结果显示,目前在原基因组的25038个基因组中有5306个特异物种簇。与以前的工作相比,这代表了一个重大的进步,例如MetaRef数据库(19),这为2818个基于演化支特定基因的基因组提供了类似的分类。

特异性方法利用一组40个通用的单拷贝标记基因家族(mg) (1718),作为每个基因组资源的一部分。镁离子被用来重建生命树(17),并研究特定进化支的系统发育关系(1320.).fetchMG工具(21)用于从所有高质量基因组中提取mg。为了生成更新的specii种簇,使用vsearch (Rogneset al。https://github.com/torognes/vsearch)和基因组到基因组的距离计算为基因长度加权平均。然后将基因组到基因组的距离作为平均连锁聚类的输入。用平均标记基因核苷酸同源截断值96.5%来生成特定种簇。共鉴定出5306个种簇,其中1485个种簇包含多个基因组,3821个种簇为单子。非单例簇平均包含14.3个基因组。最大的簇(specI_v2_Cluster67:金黄色葡萄球菌)包含4172个基因组。更新的特定物种簇可以通过直接搜索或从任何组成基因组链接轻松地在原基因组中访问。由于它们的一致性,这些聚类代表了泛基因组研究的一个无偏倚的起点,也可以作为宏基因组分类方法的基准集。

代表性基因组的选择

微生物基因组学中的许多应用需要非冗余数据集。这可能是由于冗余本身的有害影响(例如,当试图唯一地将宏基因组读数分配给参考基因组时,如在(22))或因为在相当精确度下的效率显著提高(例如(14))。NCBI RefSeq目前提供了一组来自4287个物种的代表性基因组(8),但许多物种在该集合中没有出现。因此,我们提供了一组5510个具有代表性的基因组,可供批量下载(图3.).此外,代表性基因组的栖息地特异性子集也可用。

图3。

根据NCBI分类学的代表性基因组集概述。GC含量、栖息地信息、基因组大小和抗生素耐药性基因携带作为附加数据集显示。不同的门在树内显示为交替的浅灰色和深灰色分支(28).

在选择具有代表性的基因组之前,我们建立了一个特别感兴趣的基因组的小“白名单”。这主要是为了确保标志性的模式生物菌株被保证显示出来,即使自动化测量可能已经表明其他菌株是潜在的代表。用户可以在网站上投票选择更多的基因组,在未来版本的资源中应该包括在这个白名单中。

为了编译这些具有代表性的基因组集,每个特定物种簇至少选择一个基因组。如果一个特定的物种集群包含白名单上的一个或多个基因组,这些基因组就会被选中。另外,我们使用引用统计(反映菌株用于实验或其他模型系统工作)以及基因组质量统计(N50)从每个非单例聚类中选择一个具有代表性的基因组,从而优先选择完全组装的基因组。此外,所有基因组都包括在单例特定种簇中。

功能注释

微生物基因组的功能库决定了其表型、生活方式和生态作用。因此,对一种微生物的基因进行一致、准确、全面的功能注释,对于我们理解一种微生物至关重要。我们专注于蛋白质编码基因的功能注释,因为它们编码大多数功能库。这是通过使用eggNOG (14)资源,因为它提供了一个通用的注释框架,广泛覆盖不同的蛋白质功能类别。如上所述,proGenomes目前还提供了抗生素耐药性和碳水化合物活性酶的重点注释,并计划在未来的更新中进一步注释。抗生素耐药性注释是根据综合抗生素耐药性数据库(CARD)的综合结果提供的(23)及ResFams (24)资源。对于CARD,其相关的耐药性基因标识符工具在原基因组中的所有蛋白质上运行,通过使用策划的CARD截断序列的相似性识别基因家族分配,并使用隐马尔可夫模型(hmm)对齐识别抗生素靶基因的序列(SNP)变异。对于每个原基因组蛋白,在抗性基因家族注释的情况下,保留了在截止点以上的最佳命中。类似地,在截止点以上的最佳得分模型的snp集被保留用于序列变体。对于没有CARD抗性基因注释的蛋白质,ResFams HMM达到阈值以上的最佳值被保留。由于两个数据库都映射到抗生素耐药性本体(ARO), ARO层次结构(根据CARD版本1.7)被用于评估每个耐药基因决定因素保护哪些抗生素。添加了“未指定的β -内酰胺”和“多药物外排泵”的代理术语,以调和一些注释中的歧义。对于ARO中列出的复合物,例如具有不同亚基的成分,在每个基因组中计算命中之间的协同作用,反映了几个相互作用的抗生素耐药基因如何提供进一步的耐药性。由CAZy定义的碳水化合物活性酶注释(25)由dbCAN HMM模型(26).

总的来说,近8000万个蛋白质编码基因被注释(eggNOG: 78 921 163;CAZy: 2 704 372;卡+ ResFams: 745 070)。这些信息可以在proGenomes网站上进行交互式检查。

栖息地的信息

原基因组数据库中提供了大多数基因组的栖息地信息。这些信息可用于对选定环境的深入研究或不同生境之间的比较,例如(27).生境资料由PATRIC人工资料库(10)(2015年3月15日访问)。具体来说,使用了“主机名”、“主体样本站点”和“栖息地”字段。例如,在存在同一生物的不同程序集的情况下,将为每个NCBI Taxonomy ID整理数据。在25038种生物中,有17632种可获得信息。这使我们能够将每个特定物种集群大致划分为四种不同的栖息地类型之一:宿主相关(835),水生(566),陆地(234)或多种(376)(图1而且3.).这些簇子集的代表性基因组可从网站批量下载。

网站

原基因组网站(http://progenomes.embl.de)可用于浏览资源,并可直接访问整个数据库。它有一个可搜索的界面,可用于从任何分类组或特定物种集群中查找数据4).所有提供的信息都可以在分类组或个体基因组的水平上进行交互式探索。对于较大的分类组,显示该组内所有基因组的信息,可以直接访问基因组、基因和蛋白质序列以及注释。对于单个基因组,我们在交互环境中提供所有注释,使用户能够通过直接链接到相关的外部数据库条目来访问其他信息。

图4。

原基因组网站上的分支/特定物种聚类视图。一个分支/特定物种簇内的基因组的所有序列和注释都可以直接下载。每个成员的基因组可以在页面底部访问。

讨论

proGenomes为大量高质量筛选的基因组提供了一致的分类学和功能注释,以及非冗余的、栖息地特定的代表性基因组集。易于使用的网站为对微生物基因组学感兴趣的研究人员提供了广泛的相关信息,并允许定制基因组子集以供下载,从而促进了从进化、群体遗传学、功能基因组学和许多其他研究领域解决问题的比较研究。我们希望原基因组能够成为一种有价值的资源,用于从专注于一个或几个生物体到分析大规模进化模式或复杂微生物群落的研究。

确认

作者要感谢Bork小组,特别是Yuan Yan-Ping的技术支持,以及Lars Juhl Jensen提供的初始白名单。D.R.M.还要感谢塞巴斯蒂安·施密特和弗兰克·艾尔沃德进行了有益的讨论。

资金

欧盟委员会MetaCardis项目[FP7-HEALTH-305312];国际人类微生物组标准联盟[HEALTH-FP7-2010-261376];欧洲研究理事会CancerBiome项目[268985];GALAXY项目[项目编号:668031];诺和诺德基金会[NNF14CC0001];欧盟地平线2020研究和创新计划[686070];欧洲分子生物学实验室;澳大利亚研究生奖(s.s.l);EMBL澳大利亚国际博士奖学金(到S.S.L.);欧洲分子生物学组织[ALTF 721-2015 to D.R.M]; LTFCOFUND2013 [PCOFUND-GA-2013-609409 to D.R.M]. Funding for open access charge: EMBL.

利益冲突声明.没有宣布。

参考文献

1.

大厅
N。
先进的测序技术及其在微生物学中的广泛影响
J.实验生物学。
2007
210
1518
- - - - - -
1525

2.

进食
亚当斯
医学博士
白色
O。
克莱顿
R.A.
Kirkness
E.F.
Kerlavage
布尔特
C.J.
参考书籍
多尔蒂
文学士学位
梅里克
J.M.
流感嗜血杆菌Rd全基因组随机测序与组装
科学
1995
269
496
- - - - - -
512

3.

弗雷泽
:
Gocayne
法学博士
白色
O。
亚当斯
医学博士
克莱顿
R.A.
进食
布尔特
C.J.
Kerlavage
萨顿
G。
凯利
J.M.
et al。.
生殖支原体最小基因补体
科学
1995
270
397
- - - - - -
403

4.

Overbeek
R。
奥尔森
R。
Pusch
国民生产总值
奥尔森
G.J.
戴维斯
J.J.
Disz
T。
爱德华兹
R.A.
格迪斯
年代。
Parrello
B。
舒克拉
M。
et al。.
基于子系统技术(RAST)的SEED和微生物基因组快速注释
核酸测定。
2014
42
D206
- - - - - -
D214

5.

Medini
D。
Duccio
M。
大卫。
年代。
朱利安
P。
Relman
D.A.
克劳迪奥。
D。
理查德。
M。
斯坦利
F。
绿诺科技
R。
后基因组时代的微生物学
Nat. Rev.微生物。
2008
6
419
- - - - - -
430

6.

Tatusova
T。
Ciufo
年代。
Federhen
年代。
Fedorov
B。
麦克维
R。
奥尼尔
K。
托尔斯泰
我。
Zaslavsky
l
RefSeq微生物基因组资源更新
核酸测定。
2014
43
审查
- - - - - -
D605

7.

马科维茨
V.M.
I.-M.A。
印度
K。
K。
Szeto
E。
皮莱
M。
拉特纳
一个。
J。
Woyke
T。
Huntemann
M。
et al。.
img4版集成微生物基因组比较分析系统
核酸测定。
2014
42
D560
- - - - - -
D567

8.

Wattam
亚伯拉罕
D。
延迟
O。
Disz
T.L.
德里斯科尔
T。
盖博
评论
Gillespie
J.J.
高夫
R。
Hix
D。
凯尼恩
R。
et al。.
PATRIC,细菌生物信息学数据库和分析资源
核酸测定。
2014
42
D581
- - - - - -
D591

9.

一种粗绒布
P.J.
艾伦
J.E.
Armean
我。
Boddu
年代。
螺栓
B.J.
Carvalho-Silva
D。
克里斯坦森
M。
戴维斯
P。
王卫东
剩下
Grabmueller
C。
et al。.
整体基因组2016:更多基因组,更复杂
核酸测定。
2016
44
D574
- - - - - -
D580

10.

Rossello-Mora
R。
阿曼
R。
原核生物的物种概念
《。牧师。
2001
25
39
- - - - - -
67

11.

戴维斯
J.J.
布瓦维尔说
年代。
Brettin
T。
凯尼恩
前作空。
C。
奥尔森
R。
Overbeek
R。
Santerre
J。
舒克拉
M。
Wattam
et al。.
PATRIC和RAST抗微生物药物耐药性预测
科学。代表。
2016
6
27930

12.

Kanehisa
M。
明纳路
K。
洋子
年代。
小松
K。
Miho
F。
T。
KEGG作为基因和蛋白质注释的参考资源
核酸测定。
2015
44
D457
- - - - - -
D462

13.

门迪人
是由
Sunagawa
年代。
西
G。
博克
P。
原核生物物种的准确和普遍的描述
Nat方法。
2013
10
881
- - - - - -
884

14.

Huerta-Cepas
J。
Jaime
H.-C。
Damian
年代。
克里斯汀
F。
海伦
C。
大卫。
H。
沃尔特
贝拉
托马斯。
R。
门迪人
是由
Shinichi
年代。
et al。.
eggNOG 4.5:一个具有改进的真核、原核和病毒序列功能注释的分层矫形学框架
核酸测定。
2015
44
D286
- - - - - -
D293

15.

Huerta-Cepas
J。
Forslund
K。
Szklarczyk
D。
詹森
剩下
冯仅仅
C。
博克
P。
通过eggNOG-mapper的orthology赋值快速全基因组功能注释
bioRxiv
2016
76331
1
- - - - - -
11

16.

Borodovsky
M。
马克
B。
亚历克斯
l
用GeneMarkS套件进行原核基因组、噬菌体、宏基因组和EST序列的基因鉴定
咕咕叫。Protoc。Microbiol。
2014
32
bi0405s35 doi: 10.1002/0471250953.

17.

Ciccarelli
Doerks
T。
冯仅仅
C。
克里维
C.J.
Snel
B。
博克
P。
实现高分辨率生命树的自动重建
科学
2006
311
1283
- - - - - -
1287

18.

4
R。
Y。
克里维
C.J.
Francino
议员
博克
P。
鲁宾
E.M.
水平基因转移障碍的全基因组实验测定
科学
2007
318
1449
- - - - - -
1452

19.

K。
布雷迪
一个。
补充
一个。
白色
O。
Gevers
D。
Huttenhower
C。
Segata
N。
MetaRef:用于比较和群落微生物基因组学的泛基因组数据库
核酸测定。
2014
42
D617
- - - - - -
D624

20.

Minguez
P。
Letunic
我。
Parca
l
Garcia-Alonso
l
Dopazo
J。
Huerta-Cepas
J。
博克
P。
PTMcode v2:蛋白质内部和之间翻译后修饰的功能关联的资源
核酸测定。
2015
43
D494
- - - - - -
D502

21.

Sunagawa
年代。
门迪人
是由
西
G。
Izquierdo-Carrasco
F。
伯杰
S.A.
Kultima
jr
科埃略
石油醚
Arumugam
M。
利用
J。
尼尔森
到了
et al。.
利用通用系统发育标记基因进行宏基因组物种分析
Nat方法。
2013
10
1196
- - - - - -
1199

22.

Schloissnig
年代。
Arumugam
M。
Sunagawa
年代。
Mitreva
M。
利用
J。
一个。
沃勒
一个。
门迪人
是由
Kultima
jr
马丁
J。
et al。.
人类肠道微生物组的基因组变异景观
自然
2013
493
45
- - - - - -
50

23.

麦克阿瑟
A.G.
Waglechner
N。
尼扎姆
F。
杨ydF4y2Ba
一个。
自由
硕士
Baylay
抗干扰
Bhullar
K。
Canova
M.J.
德帕斯卡尔
G。
Ejim
l
et al。.
综合抗生素耐药性数据库
Antimicrob。代理Chemother。
2013
57
3348
- - - - - -
3357

24.

吉布森
抗议;
Forsberg
kj
Dantas本人交出密码
G。
抗生素耐药决定因素的改进注释揭示了微生物耐药体的生态学聚集
ISME J。
2015
9
207
- - - - - -
216

25.

伦巴第
V。
文森特
l
Ramulu
H.G.
Elodie
D。
Coutinho
伯纳德
H。
碳水化合物活性酶数据库(CAZy) 2013年
核酸测定。
2013
42
D490
- - - - - -
D495

26.

Y。
X。
J。
X。
F。
Y。
dbCAN:自动碳水化合物活性酶注释的网络资源
核酸测定。
2012
40
W445
- - - - - -
W451

27.

Smillie
C.S.
史密斯
M.B.
弗里德曼
J。
Cordero
O.X.
大卫
洛杉矶
Alm
E.J.
生态学驱动着连接人类微生物群的全球基因交换网络
自然
2011
480
241
- - - - - -
244

28.

Letunic
我。
博克
P。
交互式生命树(iTOL) v3:用于显示和注释系统发育和其他树的在线工具
核酸测定。
2016
44
W242
- - - - - -
W245

这是一篇开放获取文章,根据创作共用属性许可协议(http://creativecommons.org/licenses/by/4.0/),允许在任何媒介上不受限制地重复使用、分发和复制,前提是正确地引用原始作品。

评论

0评论
提交评论
您输入的代码无效
感谢您对本文的评论。您的评论将由杂志自行审查和发表。请通过电子邮件查看进一步通知。