条文本

原始研究
中国南方人群含有非核梭杆菌,具有与结直肠癌相关的FadA毒力因子同源物
  1. 杨允杰12
  2. Zigui陈12
  3. 黄志生13.
  4. 玛米回族12
  5. 6月于14
  6. 萧昌武14
  7. 宋振英4
  8. 陈启良14
  9. 陈家胜12
  1. 1肠道菌群研究中心香港中文大学沙田,香港
  2. 2微生物学系香港中文大学沙田,香港
  3. 3.赛马会公共卫生及初级护理学院香港中文大学沙田,香港
  4. 4医学与治疗系“,香港中文大学沙田,香港
  1. 对应到陈国生教授,香港中文大学微生物学系,香港沙田;paulkschan在{}cuhk.edu.hk

摘要

客观的梭杆菌在非结直肠癌(CRC)人群中并不常见,也相对较少,但我们发现了多种梭杆菌梭菌属在西部和农村种群中几乎不存在的分类群在中国南方种群中相对更普遍和相对丰富。我们调查这些是否代表已知或新颖的血统梭菌属并评估了他们的基因组中与癌症发展有关的特征。

方法从来自不同生物地理的16个种群的3157个CRC和非CRC肠道宏基因组中计算梭杆菌种的流行率和相对丰度。将微生物基因组组装并与现有的参考基因组进行比较,以评估新的梭杆菌多样性。研究了与CRC相关的毒力基因的系统发育分布。

结果无论CRC疾病状况如何,中国南方人群的患病率(最高39% vs 7%)和相对丰度(肠道群落平均0.4% vs 0.04%)均有所增加梭菌属nucleatum.从中国南方肠道宏基因组组装的基因组增加了现有梭杆菌的多样性14.3%。与CRC连接的FadA粘连蛋白的同源物在几个单系系中被一致检测到f . varium而且f . ulcerans,但不是f . mortiferum.我们还发现了流行率和相对丰度的增加f . varium与非CRC队列相比,这与FadA同系物的分布一起支持了与肠道疾病的可能关联。

结论中国南方人群肠道中梭杆菌的比例高于一些西方和农村人群,这符合环境/生物地理驱动人类肠道微生物组组成的概念。一些非核虫类群具有FadA同源物,并在CRC类群中富集;这是否会导致结直肠癌和其他肠道疾病,值得进一步研究。

  • 结肠细菌
  • 结肠直肠癌
  • 肠道微生物
http://creativecommons.org/licenses/by-nc/4.0/

这是一篇开放获取的文章,根据创作共用署名非商业(CC BY-NC 4.0)许可证发布,该许可证允许其他人以非商业方式分发、混音、改编、在此基础上进行构建,并以不同的条款许可其衍生作品,前提是正确引用原始作品,给予适当的荣誉,任何更改都已注明,并且使用是非商业性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/

数据来自Altmetric.com

请求的权限

如果您希望重用本文的任何或全部内容,请使用下面的链接,该链接将带您到版权清除中心的RightsLink服务。您将能够快速获得价格和即时许可,以多种不同的方式重用内容。

本研究的意义

关于这个主题我们已经知道了什么?

  • 梭菌属nucleatum在结直肠癌(CRC)患者的肠道微生物群中富集。

  • FadA粘连素和Fap2凝集素参与了两者之间的联系f . nucleatum和CRC。

新的发现是什么?

  • 非crc中国南方种群携带多个已知的和新的梭杆菌类群,系统发育不同于f . nucleatum在他们的内脏里;这些类群在其他被调查的种群中几乎不存在。

  • 以外的几个梭杆菌类群f . nucleatum在CRC队列中相对于非CRC对照组丰富。

  • 在几种植物中检测到FadA粘连蛋白的同源物梭菌属包括f . varium而且f . ulcerans提示与结直肠癌和/或疾病的潜在关联。

在可预见的未来,它会对临床实践产生怎样的影响?

  • 这些结果表明,中国南方人群的CRC可能与f . varium以及其他梭杆菌种之外f . nucleatum。

  • 使用微生物作为疾病生物标志物或治疗干预的靶点需要根据人群肠道微生物组组成的差异进行调整。

简介

梭菌属nucleatum是一种细菌病原体,最广为人知的是它与人类大肠癌(CRC)的关联。不考虑生物地理学,多项研究一致报告了富集f . nucleatum在内脏里1 - 7肿瘤组织8 - 10CRC受试者与非CRC队列的比较。此外,之间的联系f . nucleatumCRC已通过细胞模型研究证明,涉及两种蛋白质FadA11日12和Fap213日14促进结直肠癌细胞的粘附、侵袭和诱导致癌和炎症反应f . nucleatum

相比之下,相对较少的是已知的生物学梭杆菌种除了f . nucleatum以及它们在人类健康中的作用。根据《原核生物命名法(LPSN)名单》,目前已知的原核生物共有21种梭菌属在写作时属。除了f . nucleatum,其他一些物种如f . necrophorum15f . gonidiaformans16f . periodonticum17f . mortiferumf . ulcerans而且f . varium18已在人类相关样本中报道。例如,f . necrophorum常与颈内静脉血栓性静脉炎(称为Lemierre综合征)有关,f . gonidiaformans在泌尿生殖道和肠道中发现,16f . periodonticum在与鳞状细胞癌相关的口腔中,19f . ulcerans在皮肤溃疡中20.而且f . varium与溃疡性结肠炎(UC)有关。21日22除疾病病例外,它们在健康个体肠道中的患病率和相对丰度相对较低,通常低于检测阈值23-28与存在的概念相一致梭菌属与结直肠癌有特殊关系26

我们最初使用从556名自我报告的健康个体中收集的粪便来制作散弹枪宏基因组,这些人被招募来建立香港肠道菌群数据库(HKGutMicMap项目)。这些数据与来自香港的其他健康受试者的公开粪便宏基因组一起分析,2 29奥地利,4中国30 31丹麦,32法国、德国、5以色列,33西班牙,32瑞典34 35和美国,3 27以及来自秘鲁萨尔瓦多的农村人口,36斐济、37蒙古38和坦桑尼亚39 40评估不同生物地理环境下肠道微生物群落组成的差异。我们偶然地观察到,在香港、中国和西班牙,多种梭杆菌物种的患病率和相对丰度持续增加,但在美国、欧洲和其他农村群体中却没有,这与人类肠道微生物群的变化主要由环境/地理驱动的观点一致。41在这里,我们从香港肠道宏基因组重建了梭杆菌基因组,并证明了这一点f . variumf . ulceransf . mortiferum其他尚未鉴定的梭杆菌类群在该种群中普遍存在。然后,我们调查了这些基因组是否包含可以表明与癌症和/或疾病潜在关联的特征。本文报道的结果表明,中国人肠道中普遍存在的梭杆菌谱系具有促进结直肠癌和其他疾病发展的基因组潜力。

材料与方法

HKGutMicMap队列样本采集及DNA测序

研究对象从香港公众中招募,作为HKGutMicMap研究的一部分,以生成具有代表性的本地非疾病人群的肠道微生物组图谱。研究助理测量了体重、腰围、身高和血压等参数,并为受试者提供了粪便收集包,供他们自行收集。他们被要求在排便后2小时内将新鲜粪便送到实验室。粪便标本保存在−80°C,直到进一步处理。按照制造商的说明,使用DNeasy PowerSoil Kit (QIAGEN, Hilden, Germany)从0.1 g均质粪便中提取DNA。使用Qubit dsDNA BR检测试剂盒(Thermo Fisher Scientific, Waltham, Massachusetts)测定提取的DNA浓度,并用10 mM Tris-HCl归一化至20 ng/µL。归一化的DNA样本被送往测序服务提供商(Novogene HK Company Limited,湾仔,香港)进行文库制备和配对散弹枪宏基因组测序(Illumina NovaSeq 6000)。包括模拟群落测序对照(ZymoBIOMICS微生物群落DNA标准,目录号D6305, zyymo Research, Irvine, California)。

基于肠道宏基因组的梭杆菌种类的流行率和相对丰度

为了研究来自不同地理背景的人群肠道中梭杆菌种类的患病率和相对丰度,我们纳入了以前在香港研究产生的非crc肠道宏基因组序列数据,2 29中国30 31美国、3 27奥地利,4丹麦,32法国、德国、5西班牙,32以色列,33瑞典,34 35萨尔瓦多,秘鲁,36斐济、37蒙古38和坦桑尼亚37个40在线补充表S1).香港、奥地利、法国、德国和一个美国团队3.由CRC和非CRC科目组成。之所以选择这些肠道宏基因组数据集,是因为它们已被用于微生物基因组。42-44结合HKGutMicMap队列(本研究)生成的数据,使用Trimmomatic V.0.38对原始序列进行质量过滤,以去除适配器和低质量区域。接下来,使用MetaPhlAn2从质量过滤序列(正读)推断微生物群落组成谱45带有v20数据库的V.2.6版本。对于由MetaPhlAn2鉴定的每个梭杆菌种,其流行率是根据每个物种检测到的样本数量(即相对丰度>0%)除以各自队列中的样本总数来计算的。

从宏基因组中分离梭杆菌种群基因组

为了探索香港人群中梭杆菌物种的基因组多样性,我们从香港队列中收集了宏基因组,并从每个从头组装的群体中收集了分组基因组(称为宏基因组组装基因组(MAGs))。经过质量过滤的数据中的重叠序列对首先合并以产生更长的序列,然后使用MEGAHIT将未合并的序列对组合在一起46V.1.1.1。然后通过使用BWA-MEM将经过质量筛选的读取映射到它们各自的程序集来获得序列覆盖概要文件47V.0.7.17。有了这些覆盖信息,使用MetaBAT从每个宏基因组中提取mag48V.2.10.2, MetaBAT V.2.12.1和MaxBin49V.2.2.5。通过使用DASTool合并三组箱子的输出,计算出一组非冗余的mag50V.1.1.0。使用CheckM中的沿袭工作流对产生的非冗余mag进行质量检查51V.1.0.13。保留>完整性90%、污染<5%的mag,利用Genome taxonomy Database进行分类推断52(GTDB) toolkit (GTDB- tk) V.0.2.2数据库版本86_2。

梭杆菌系统发育树的构建

我们从国家生物技术信息中心(NCBI)的RefSeq数据库(第89版)下载了梭杆菌参考基因组,并从最近的出版物中下载了mag,这些出版物从上面使用的人类宏基因组数据集中组装了微生物基因组。42-44使用CheckM检查这些基因组的完整性和污染,只有>完整性90%和污染<5%的基因组被保留。我们构建了两个系统发育树梭菌属一种是使用一组去复制的梭杆菌参考基因组和mag来突出现有的基因组多样性,另一种是使用所有基因组来探索该属中假定的毒力蛋白同源物的分布(在下一节中描述)。我们包含了Cetobacterium的成员Fusobacteriaceae科为两种树的外群分类单元。对于第一棵树,基于基因组距离和平均核苷酸特征(ANI),使用dRep V.1.4.3去复制基因组,53使用GTDB-Tk生成了120个系统发育信息单拷贝细菌标记基因的级联氨基酸比对。基于这种对齐,使用RAxML构建了极大似然树54V.8.2.11,节点支持估计从100个引导。对于第二棵没有基因组重复的树,生成了由所有基因组组成的级联氨基酸比对,并根据第一棵树推断自举系统发育。

梭杆菌基因组中的注释基因

首先,使用Prodigal将所有mas和参考基因组中的蛋白质编码序列翻译成氨基酸序列55V.2.6.3。使用DIAMOND对氨基酸序列与UniRef100数据库(2018年3月)进行比对56V.0.9.24(序列一致性≥30%,查询与参考之间的对齐长度≥70%)来识别基因家族,并根据京都基因与基因组百科全书orthology对对齐计数进行排序,以推断基因家族是否存在。ANI比较使用FastANI进行57V.1.1。

为了探索两种已知的crc相关梭杆菌基因FadA和Fap2的存在/不存在,我们使用eggNOG-mapper对梭杆菌基因组进行了注释58V.2.0.1,参考eggNOG数据库V.5.0。FadA和Fap2同源物的存在/缺失在由所有663个梭杆菌基因组组成的系统发育树上可见。利用MAFFT对FadA和Fap2的同源基因进行比对,构建了FadA和Fap2的氨基酸基因树59V.7.407和使用RAxML推断最大似然树。使用GenomeTreeTk V.0.0.53 (https://github.com/dparks1134/GenomeTreeTk)。

从粪便中分离梭杆菌

将冰冻大便解冻,用脑心灌注培养基稀释。稀释剂接种到血琼脂板上,37℃厌氧培养2天。使用MALDI生物分析仪(Bruker, Billerica, Massachusetts)鉴定菌落。殖民地被确定为梭菌属传代到新鲜血液琼脂板上。基因组DNA从纯培养物中提取,使用Gentra Puregene酵母/Bact。DNA分离试剂盒(QIAGEN, Hilden, Germany),并送往Novogene HK进行文库制备和配对端散弹枪宏基因组测序(Illumina NovaSeq 6000)。Trimmomatic质量过滤读取使用MEGAHIT V.1.1.1组装,并使用eggNOG-mapper V.2.0.1引用eggNOG数据库V.5.0进行注释。

数据可用性

本研究生成的原始序列数据可在BioProject的序列读取档案中获得,编号为PRJNA557323。

结果

HKGutMicMap队列

在分析时,代表香港一般人群的HKGutMicMap队列由556名具有鸟枪宏基因组数据的受试者组成。这些受试者自我报告为健康,没有慢性疾病。女性294例,男性262例,样本收集时年龄中位数为51岁(标准差16.3岁)。体重指数中位数为22.7 kg m-23.4 (SD)。这些和其他参数,如体重,血压和腰围都列在联机补充表S2

f . mortiferumf . ulcerans而且f . varium在中国人群中普遍存在,与CRC疾病状况无关

本研究共纳入3157个粪便宏基因组,包括非CRC和CRC受试者。这些宏基因组代表了来自中国(香港、深圳和浙江)、美国、奥地利、丹麦、法国、德国、西班牙、瑞典、以色列、萨尔瓦多、秘鲁、斐济、蒙古和坦桑尼亚的人群。为了评估这些种群的梭杆菌物种在生物地理上的分布,从每个宏基因组中筛选的高质量序列被映射到谱系特异性标记基因,使用MetaPhlAn2来产生患病率和相对丰度估计。

在非crc受试者中(n=2515),总体肠道微生物群落组成在队列中存在显著差异(p<0.05,置换多变量方差分析;图1一个在线补充图S1).在门水平上,中国和美国组群的相对丰度较高拟杆菌门相比之下,厚壁菌门(63% vs 30%),而厚壁菌门在其他队列中相对更丰富拟杆菌门(55% vs 29%)。秘鲁是个例外放线菌是最主要的门(60%)(联机补充表S3).此外,螺旋体属仅在萨尔瓦多、斐济和坦桑尼亚队列中检测到> %的相对丰度,而在西方和中国队列中平均为0.004%。梭菌属在中文和西班牙语中也相对较多(平均0.47%),而其他队列(0.01%)。我们感兴趣的是相对较高的丰度梭菌属f . nucleatum已广泛涉及CRC。在梭杆菌属中,f . mortiferumf . nucleatumf . ulcerans而且f . varium在中国队列中相对于包括西班牙在内的其他队列更为普遍和相对丰富(p<0.001, Kruskal-Wallis检验对错误发现率进行了调整)(表1图1 b).

图1

典型人体肠道的微生物群落组成。(A)从HKGutMicMap队列(本研究)和先前描述的来自不同地理背景的非结直肠癌(CRC)个体的人类粪便宏基因组中检测到的微生物门的平均相对丰度。(B)梭杆菌种的平均相对丰度。堆叠的条形图代表来自以下地区的人群:香港(HKGutMicMap和其他两个地区),2 29奥地利,4中国30 31丹麦,32法国、德国、5以色列,33西班牙,32瑞典34 35和美国,3 27以及来自秘鲁萨尔瓦多的农村人口,36斐济、37蒙古38和坦桑尼亚。39 40利用高质量筛选的宏基因组序列上的MetaPhlAn2计算相对丰度。(B)中显示的梭杆菌种的值是占整个群落的百分比。对于CRC队列的病例对照研究,2 - 5 29计算相对丰度时只包括非crc个体。

表1

非crc受试者中梭杆菌种类的流行率和平均相对丰度

在CRC受试者(n=642)中,来自香港受试者的平均梭杆菌相对丰度高于美国、德国和奥地利受试者,但高于法国队列(在线补充图S2).f . nucleatum与预期的CRC一样,在所有6个队列中均检测到。F. varium, F. ulcerans而且f . mortiferum在香港较为普遍(在线补充表S4).此外,法国人在f . gonidiaformans而且f . necrophorum相对于其他的。f . ulcerans在奥地利群体中也存在,但在香港,其患病率仍高出六倍。这些发现表明f . mortiferumf . ulcerans而且f . varium与一些北美和欧洲人相比,与结直肠癌疾病状况无关,在香港人群的肠道中通常更常见,检测到的相对丰度也更高。

几种梭杆菌种以外的f . nucleatum在CRC中富集

f . nucleatum更广泛地说梭菌属与非CRC对照组相比,CRC患者的肠道中已被证明丰富,6 7尽管CRC和其他梭杆菌种之间的联系还没有特别提到。自f . mortiferumf . ulcerans而且f . varium在中国人群的肠道中更为普遍和相对丰富,我们想知道它们的分布和丰度是否与类似于f . nucleatum.在病例对照队列研究中,我们比较了结直肠癌患者和非结直肠癌患者之间梭杆菌种类的患病率和相对丰度,并发现f . gonidiaformans而且f . nucleatum在所有6个CRC队列中均增加,并且f . periodonticum而且f . varium与非CRC队列相比,6个CRC队列中的5个(在线补充表S4,S5).一个考虑队列的广义线性模型表明,相对丰度f . nucleatum而且f . varium(p<0.05),但f . varium还不如f . nucleatum

来自中国肠道宏基因组的种群基因组揭示了在中国肠道中扩大的多样性梭菌属

在撰写本文时,NCBI RefSeq数据库(release 89)中有157个梭杆菌基因组,其中65个(41.4%)、36个(22.9%)和17个(10.8%)属于梭杆菌基因组f . nucleatumf . necrophorum而且f . periodonticum,分别(在线补充表S6).根据LPSN和任何尚未分类的新分类群,其他18个已识别的梭杆菌种由剩余的39个基因组表示。因为MetaPhlAn2表明梭杆菌种如f . mortiferumf . ulcerans而且f . varium在中国人群的肠道中更为普遍,我们希望探索和扩展这些不太典型的梭杆菌谱系的已知基因组多样性。使用来自香港队列(包括非CRC和CRC受试者)的宏基因组,我们将171个高质量的fusobacterial MAGs(根据CheckM的谱系工作流程,>90%完整,<5%污染)(在线补充表S7).我们之前从临床患者的肠道宏基因组中收集的另外四种高质量梭杆菌mag也包括在本研究中在线补充表S7).此外,最近在表征人类微生物组的基因组多样性方面的努力42-44产生了336个高质量的梭杆菌mas (在线补充表S7).与来自RefSeq R89的152个高质量梭杆菌基因组一起,我们首先对这663个基因组进行去复制,并推断出一个基因组树,以建立它们之间的系统发育关系。进行重复复制以突出现有的基因组多样性梭菌属属,从而形成一个由218个独特的梭杆菌基因组组成的系统发育树。根据GTDB版本86_v2推断的所有mas和参考基因组的分类学信息随后被添加到系统发育树(图2).

Phylogenetic tree showing evolutionary relationships among 218 fusobacterial genomes. Seven Cetobacterium genomes serve as outgroup to root the tree. Genomes in this figure are from a dereplicated set of 676 fusobacterial and Cetobacterium genomes assembled from gut metagenomes from Hong Kong (HKGutMicMap, Yu et al 2 and Coker et al 29) and other regions,42–44 and reference genomes downloaded from RefSeq (release 89). Reference genomes obtained from RefSeq are labelled with their corresponding accession numbers, while metagenome-assembled genomes have branch labels showing their country of origin (those from Hong Kong are in red text). All 676 genomes were >90% complete and had <5% contamination based on the lineage workflow in CheckM,51 and were dereplicated using dRep53 to highlight existing genome diversity of the Fusobacterium genus in this figure. A concatenated amino acid alignment was produced to infer taxonomy of the genomes according to the genome taxonomy database (GTDB),52 and subsequently used to construct maximum likelihood trees using RAxML.54 Four major monophyletic clades in the Fusobacterium genus are shaded and denoted with suffixes according to the GTDB. Branch colours are intended to delineate species boundaries (indicated by labels) and do not represent any taxa in particular; genomes without species designations have black branches. Black circles at nodes represent 100% bootstrap support unless otherwise indicated (no less than 90% bootstrap). Scale bar indicates number of amino acid substitutions per site.
" data-icon-position="" data-hide-link-title="0">图2
图2

显示218个梭杆菌基因组进化关系的系统发育树。七个Cetobacterium基因组是树的外群。图中基因组来自一组去复制的676梭杆菌和Cetobacterium从香港肠道宏基因组组装的基因组(HKGutMicMap, Yu2和科克29)及其他地区,42-44以及从RefSeq下载的参考基因组(release 89)。从RefSeq获得的参考基因组标有相应的登录号,而宏基因组组装的基因组有显示其原产国的分支标签(来自香港的是红色文本)。根据CheckM的谱系工作流程,所有676个基因组都是>90%完整,污染<5%,51并使用dRep进行重复53突出现有基因组的多样性梭菌属图中的属。根据基因组分类数据库(genome taxonomy database, GTDB),建立了一个级联氨基酸比对来推断基因组的分类,52然后使用RAxML构造最大似然树。54四种主要的单系演化支梭菌属根据GTDB,属是阴影和后缀表示的。分支颜色是用来描绘物种边界的(用标签表示),并不代表任何特定的分类单元;没有物种命名的基因组有黑色分支。节点上的黑圈表示100%引导支持,除非另有说明(不低于90%引导)。标尺表示每个位点的氨基酸取代数。

四个主要的单系谱系(称为分支)被解决在梭菌属与GTDB产生的分类学推论一致的属(用后缀表示梭菌属梭菌属_A,梭菌属_B和梭菌属_C) (图2).支系记为梭菌属是由f . nucleatum包括它传统的亚种animalisvincentiinucleatum而且polymorphumf . hwasookiif . periodonticumf . massiliense而且f . russii。梭菌属_A是由f . ulceransf . variumf . mortiferum以及各种未分类的梭杆菌基因组;梭菌属_B由f . perfoetens以及其他未分类的基因组;梭菌属_C的f . gonidiaformans而且f . necrophorum.血统在梭菌属_A和梭菌属来自香港和中国宏基因组的基因组高度代表了_B支(67个基因组中有48个;来自RefSeq的许多基因组没有相应的地理信息,被认为来自非中国)(图2).相比之下,梭菌属而且梭菌属c演化支更多地来自其他地区的基因组(151个基因组中只有7个来自中国来源)。基于分支长度,来自中国群体的mag共同增加了整个树的系统发育多样性14.3%,这表明中国肠道拥有尚未被参考基因组所代表的新的梭杆菌多样性。为了证明这些新型梭杆菌在中国人群中确实更普遍,我们将所有非crc样本的序列映射到218个梭杆菌基因组的去复制集,并计算每个队列中对齐序列的比例。中国人有10 - 100倍的比例的阅读映射到Fusobacterium_A基因组与其他队列的比较(在线补充表S8图S3),与MetaPhlAn2估计的较高相对丰度相一致Fusobacterium_A中国样本的谱系。同样,在CRC样本中,香港队列通常显示出10 - 100倍的高比例的reads映射到Fusobacterium_A与奥地利、法国、德国和美国样本的基因组比较(在线补充表S9图S4).

圈定新物种梭菌属

使用218个去复制的梭杆菌基因组,我们进行了两两的ANI比较,以参考已发表的研究得出的种内和种间截断值(种内>95% ANI;种间78% - -95%)。59 60根据这些界限,我们确定了(i) 6个假定的物种Fusobacterium_B支不包括f . perfoetens, (ii)以f . mortiferum, (iii)的姐妹种之一f . ulcerans, (iv)属的姐妹种f . ulcerans而且f . varium谱系,(v)一个种的基础上的谱系f . polymorphumnucleatumvincentii而且animalis和(vi)两个与f . animalis在线补充图S5表S10).这些基因组与任何限定的梭杆菌类群共享<95%的ANI,并且可能代表LPSN中尚未具有基因组表示的18个已识别物种中的一个。除了绘制物种边界外,我们还可以通过比较初始的663个基因组数量和最终的去复制基因组簇数量来推断种内基因组相似程度。例如,我们观察到f . mortiferum是高度克隆的,尽管它在中国人群中患病率很高,然而f . periodonticum相比之下,基因组变异更大,形成了更多独特的基因组簇f . mortiferum图2及3在线补充表S11).

" data-icon-position="" data-hide-link-title="0">图3
图3

FadA和Fap2同源物的分布梭菌属属。分支尖端旁边的红色和蓝色蜱分别表示在相应的基因组中检测到FadA和Fap2同源物。同源基因用eggNOG-mapper进行鉴定58参考eggNOG数据库V.5.0。该系统发育树由663个梭杆菌和13个梭杆菌组成Cetobacterium从香港的肠道宏基因组中组装的基因组(HKGutMicMap队列来自本研究,Yu2和科克29队列)和其他地区,42-44以及从RefSeq下载的参考基因组(release 89)。从RefSeq获得的参考基因组被标记为相应的登录号,而宏基因组组装的基因组被标记为bin id。来自香港的基因组有红色的标签。根据CheckM的谱系工作流程,所有基因组>90%完整,污染<5%。51根据基因组分类数据库(genome taxonomy database, GTDB),建立了一个级联氨基酸比对来推断基因组的分类,52然后使用RAxML构造最大似然树。54四种主要的单系演化支梭菌属根据GTDB,属是阴影和后缀表示的。分支颜色是用来描绘物种边界的(用标签表示),并不代表任何特定的分类单元;没有物种命名的基因组有黑色分支。标尺表示每个位点的氨基酸取代数。

梭杆菌基因组特征可能与疾病有关

之前对CRC肠道宏基因组的功能分析揭示了一些特征,如转向氨基酸降解和通过胆碱代谢产生三甲胺(TMA)。6 7 61我们对梭杆菌的mag进行了注释,并观察到虽然它们不包含TMA产生的关键基因(TMA裂解酶(TMA-lyase)cutC, K20038),以及l -肉碱/ γ -丁基甜菜碱反转运体(caiT, K05245))、脯氨酸亚氨基肽酶(K01259)、谷氨酸甲亚氨基转移酶(K00603)和色氨酸酶(K01667)等同源酶普遍存在梭菌属进化枝(在线补充表S12).此外,梭菌属演化支基因组拥有可能参与氨基酸分解代谢和葡萄糖产生的基因(磷酸烯醇丙酮酸羧激酶K01610,果糖-二磷酸醛缩酶K01623,草酰乙酸脱羧酶K01571),以及其他一些可能与癌症有关的特征,如铁清除(K07230, K07243, K11707, K11708, K11709, K11710),62神经酰胺糖基转移酶(K00720)参与产生糖基化鞘脂63和对氨基苯甲酸合成酶(K01664, K01665)在叶酸生产中的作用。64同样,脲酶(K01428-K01430)65是在Fusobacterium_A而且Fusobacterium_B演化枝但不是梭菌属.其中一些特征与CRC肠道微生物宏基因组中发现的特征一致,但需要指出的是,这些发现并不意味着梭杆菌完全导致了CRC肠道微生物功能特征的改变6 7因为它们的相对丰度通常小于1%。此外,演化支的特征分布表明,疾病关联(如果有的话)可能在梭杆菌谱系中有所不同。

结直肠癌相关的fadA和Fap2的同源物存在于几个梭杆菌种中

以前的细胞模型研究已经确定了两种蛋白质f . nucleatum使细菌增强CRC,即FadA粘连素9日10和Fap2凝集素。11日12以鉴定是否有梭菌以外的种f . nucleatum也具有相似的基因,可能允许它们与CRC细胞相互作用,我们参考eggNOG数据库注释了所有663个梭杆菌基因组,并搜索假定的同源物。一个包含所有663个基因组的系统发育树被构建,以可视化这些同源物在基因组中的分布梭菌属属。对于FadA,共有999个同源物(在线补充表S13)在311个基因组中被鉴定出来,包括所有属于梭菌属的一个单系亚群f . necrophorum,在f . variumf . ulcerans和几个无特征的单系类群梭菌属_A支(图3).这些FadA同源物可能包括三个或更多的蛋白质家族,由氨基酸序列构建的蛋白质树所示。序列来自梭菌属a支与d支相比明显不同梭菌属演化枝,而同源自f . necrophorum被放在一起梭菌属同系物(图4).这些观察表明FadA同源物来自f . variumf . ulcerans和uncharacterised梭菌属a谱系可能有不同的作用相比,在同源发现梭菌属进化枝。对于Fap2,我们在288个基因组中鉴定出754个假定的同源体(在线补充表S14).Fap2同源物被鉴定的谱系在很大程度上与FadA重叠,包括的成员梭菌属的一个单系亚群f . necrophorum基因组,几f . varium而且f . ulcerans的子集Fusobacterium_B进化支基因组(图3在线补充图S6).FadA和Fap2同源物的总体分布梭菌属属表明与CRC的潜在联系可能存在于几个不同的梭杆菌谱系中。由于CRC中一些梭杆菌物种的相对丰度和患病率与非CRC受试者相比有所增加,FadA和Fap2同源物的检测表明,这些物种如f . varium可能会引发类似的疾病f . nucleatum

图4

梭杆菌基因组中FadA蛋白同源物的系统发育关系。图显示了根在中点的FadA同源物的对齐氨基酸序列的最大似然树。每个尖端代表一个同源物,并根据发现同源物的基因组物种着色。树尖旁边的文本标签指示了eggNOG数据库中相应的种子同源词。背景阴影是根据在基于基因组的系统发育树中确定的四个主要单系进化支图2.比例尺表示每个位点的氨基酸替换量。

为了验证从宏基因组数据中恢复的梭杆菌mag是否具有实际基因组的代表性,我们分离并测序了从五个粪便样本中获得的8个梭杆菌的基因组。这些基因组被分类为Fusobacterium_A(7个基因组)和f . ulcerans(一),从香港肠道宏基因组中提取的ANI到MAGs,得分为>99% (在线补充表S15).此外,它们含有与其系统发育相一致的FadA和Fap2同源物,这为在这里发现的mag确实代表真实的微生物基因组提供了信心。然而,我们认识到只有8个分离株的MAG验证是不够的,需要更多的工作来验证代表其他梭杆菌谱系的MAG。

讨论

虽然它已经在不同地理背景的人群中建立起来f . nucleatum与CRC有关,1 - 5我们对人类肠道内其他梭杆菌种类的分布知之甚少。在这里,我们展示了梭杆菌谱系,如f . ulceransf . variumf . mortiferum与来自多个地理区域的同类相比,多个未特征的类群在非crc的中国和西班牙队列的肠道中更为普遍。虽然这些非核虫类群可能只是反映了人类肠道微生物组组成的生物地理差异,但我们看到了两行证据,表明它们可能具有致癌和/或致病的潜力:(i)与非CRC队列相比,CRC的患病率和相对丰度增加(在线补充表S5)及(ii)在多个单系谱系中检测毒力基因同源物(图3).综合来看,这些证据表明f . periodonticum的子集f . necrophorumf . varium而且f . ulcerans加上它们没有特征的姐妹血统,f . hwasookiif . massiliense而且f . russii可能在CRC的发展中发挥作用。这些涉及的谱系与Manson McGuire及其同事基于基因组特征(如基因组大小、fada相关蛋白的存在、膜蛋白编码基因数量的增加和MORN2蛋白结构域)提出的一组“主动与被动入侵”物种相一致。18此外,独立的微生物群落数据和细胞模型研究也支持它们与疾病的联系。例如,最近的一项微生物群落组成调查表明f . periodonticum在口腔中与口腔鳞状细胞癌有关。19另一个例子是f . necrophorum,其中以血液培养为基础的梭杆菌感染调查表明,该物种是仅次于梭杆菌的第二常见分离物f . nucleatum66 67至于f . varium而且f . ulcerans在美国,人们对它们的分布以及与癌症或疾病的关系知之甚少。日本人群的肠道菌群调查表明了这一点f . varium与UC有关21日22以及基因组测序研究f . varium从一名UC患者分离出的菌株Fv113-g1报告在模拟人体肠道体内条件的单一培养中表达FadA同源物。68我们对FadA同源物的数据表明,从梭菌属_A支(f . variumf . ulcerans和其他未特征的姐妹类群)的序列不相同梭菌属分支(其中crc相关f . nucleatum位于)(图4),从而在这些同源词中暗示不同的功能或目标。虽然这些基因同源物的存在/缺失并不能直接转化为侵入性,69我们假设梭菌属a类群及其FadA同源物副本可能是CRC以外疾病的危险因素。

根据推断梭菌属a类群在中国人群中普遍存在,可能是人类疾病的潜在危险因素,本研究的一个局限性是缺乏发表的数据或培养的分离株来验证我们的观察结果。这里报告的结果表明,在这个进化支中可能存在疾病关联,我们从其中分离出8个Fusobacterium_A基因组与mag匹配的成员从宏基因组中恢复。下一步是在细胞和动物模型实验中测试这些分离物,以确定它们是否有促进CRC或其他类似疾病的潜力f . nucleatum.具体来说,毒力基因同源物如FadA和Fap2的作用可以通过敲除/敲除实验来研究,以评估它们对疾病结果的影响。在此之后,进一步分离和测试其他未鉴定的梭杆菌世系将提供一个更全面的了解生物学和疾病的联系以外f . nucleatum复杂。

综上所述,而梭杆菌种之外f . nucleatum尚未被确定为危险因素,可能是因为它们在西方人群中几乎不存在,而在中国南方非结直肠癌人群中普遍存在,我们的研究结果表明,一些流行但被忽视的梭杆菌谱系有促进结直肠癌的潜力。如果任何阳性关联被证实,个人携带相应的分类群在他们的肠道应评估疾病的易感性。这里报告的发现强调了不同人群肠道菌群组成的可变性,并支持正在进行的研究,以表征人类微生物组的微生物多样性。

致谢

我们感谢参与HKGutMicMap项目的员工和学生协调样本的收集、处理和维护,并感谢Jin Yan Lim和Geicho Nakatsu下载和组织宏基因组数据和元数据。

参考文献

补充材料

  • 补充数据

    此网页文件由BMJ出版集团从作者提供的电子文件制作而成,并没有对内容进行编辑。

脚注

  • 贡献者YKY设计研究,分析数据,撰写稿件;ZC进行实验室工作;MCSW招募受试者并编辑手稿;MH修改了手稿;JY、SCN和JJYS招募受试者并获取数据;小组委员会发起学科招募工作,并提供经费;PKSC获得经费、设计招募方案、招募受试者、监督研究、编辑稿件。

  • 资金本研究由香港中文大学医学院提供的肠道菌群研究种子基金资助。

  • 相互竞争的利益没有宣布。

  • 患者和公众参与患者和/或公众没有参与本研究的设计、实施、报告或传播计划。

  • 患者发表同意书不是必需的。

  • 伦理批准本研究已获香港中文大学-新界东集群联合临床研究伦理委员会(文献编号2016.707)批准。在收集粪便样本之前,所有参与者都获得了书面知情同意。

  • 出处和同行评审不是委托;外部同行评审。

  • 数据可用性声明数据可以在一个公共的、开放访问的存储库中获得。https://www.ncbi.nlm.nih.gov/bioproject/PRJNA557323.肠道宏基因组和梭杆菌分离基因组序列数据可在序列阅读档案(sequence Read Archive, SRA)中获得,BioProject登录号为PRJNA557323。