条文本

原文
粪便微生物组的宏基因组分析作为大肠癌靶向非侵入性生物标志物的工具
免费的
  1. 6月于1 __
  2. 羌族冯23 __
  3. 阳光明媚的黄黑1 __
  4. 亚东张2 __
  5. 乔易梁1 __
  6. 愿秦2
  7. 隆庆唐2
  8. 回族赵2
  9. Jan Stenvang4
  10. 延利提供李2
  11. Xiaokai王2
  12. 小强徐2
  13. Ning陈2
  14. 吴家基1
  15. 朱马纳Al-Aama25
  16. 汉斯·Jørgen尼尔森6
  17. Pia Kiilerich3.
  18. Benjamin Anderschou Holbech Jensen3.
  19. 东在邱1
  20. 周兰2
  21. Huijue贾2
  22. Junhua李2
  23. 梁萧2
  24. 汤元东林1
  25. 萧简Ng1
  26. 阿尔弗雷德Sze-Lok程1
  27. 文森特Wai-Sun黄1
  28. 陈家良1
  29. 荀勖2
  30. Huanming杨2
  31. 丽丝马德森23.7
  32. 基督教Datz8
  33. 赫伯特Tilg9
  34. 剑王2
  35. 尼尔斯·布鲁纳24
  36. 卡斯滕Kristiansen23.
  37. Manimozhiyan Arumugam210
  38. 约瑟夫Jao-Yiu唱1
  39. 6月王23.511
  1. 1消化疾病国家重点实验室中国中文大学深圳研究院消化疾病研究所,健康科学研究院香港、香港
  2. 2深圳华大基因研究院深圳,中国
  3. 3.生物学系哥本哈根大学哥本哈根、丹麦
  4. 4兽医疾病生物学系哥本哈根大学卫生和医学科学学院哥本哈根、丹麦
  5. 5阿卜杜勒阿齐兹国王大学遗传疾病研究卓越中心吉达沙特阿拉伯
  6. 6外科消化内科Hvidovre医院Hvidovre、丹麦
  7. 7国家营养和海鲜研究所卑尔根、挪威
  8. 8内科奥尔本多夫医院,萨尔斯堡帕拉塞尔苏斯私立大学第三季度教学医院Oberndorf、奥地利
  9. 9内科第一科因斯布鲁克医科大学因斯布鲁克、奥地利
  10. 10哥本哈根大学健康和医学科学学院诺和诺德基金会基础代谢研究中心哥本哈根、丹麦
  11. 11澳门科技大学澳门,中国
  1. 对应到王军教授,北京基因组研究所深圳研究室,广东深圳518000;wangj在}{genomics.org.cn香港中文大学宋祖尧教授;jjysung在{}cuhk.edu.hk和manmozhiyan Arumugam博士,哥本哈根大学,2200,丹麦哥本哈根;arumugam在{}sund.ku.dk

摘要

客观的目的:评价粪便宏基因组对结直肠癌(CRC)的诊断价值。

设计我们对74例结直肠癌患者和54例对照者的粪便样本进行了宏基因组全域关联研究,并对来自丹麦的16例患者和24例对照者的结果进行了验证。我们在法国和奥地利发表的两个队列中进一步验证了生物标志物。最后,我们采用靶向定量PCR (qPCR)方法对47例患者和109例对照组的中国独立队列中所选生物标志物的诊断潜力进行了评估。

结果除了确认已知的联系梭菌属nucleatum而且消化链球菌属stomatis对于CRC,我们发现与几个物种有显著的关联,包括微小微单胞菌而且Solobacterium moorei.我们鉴定了20个分化CRC和控制微生物群的微生物基因标记,并在丹麦队列中验证了4个标记。在法国和奥地利的队列中,这四个基因将CRC宏基因组与对照区区分开来,接受者-工作曲线(AUC)下的区域分别为0.72和0.77。在AUC=0.84, OR为23的中国独立队列中,qPCR测量其中两个基因准确地将CRC患者分类。这些基因在早期(I-II)患者微生物群中富集,突出了利用粪便宏基因组生物标志物早期诊断CRC的潜力。

结论我们提出了第一个CRC粪便微生物群的宏基因组分析研究,以发现和验证不同种族队列中的微生物生物标志物,并使用负担得起的临床相关技术独立验证选定的生物标志物。因此,我们的研究在从粪便样本中获得可负担的无创性CRC早期诊断生物标志物方面又向前迈进了一步。

  • 细菌的相互作用
  • 结肠微生物区系
  • 结肠直肠癌

来自Altmetric.com的统计

请求的权限

如果您希望重用这篇文章的任何部分或全部,请使用下面的链接,它将带您访问版权清除中心的RightsLink服务。您将能够快速获得价格和以多种不同方式重用内容的即时许可。

本研究的意义

关于这个问题,我们已经知道了什么?

  • 肠道微生物组成的变化与结直肠癌(CRC)有关,但因果关系尚未确定。

  • 梭菌属nucleatum通过招募浸润的免疫细胞和激活β-连环蛋白信号,增强肠道肿瘤的发生。

  • 粪便菌群为结直肠癌的早期无创诊断提供了希望。

  • 然而,从粪便样本中诊断结直肠癌的一种简单和负担得起的有针对性的方法仍然缺乏。

新的发现是什么?

  • 发现显著丰富的新物种,包括微小微单胞菌而且Solobacterium moorei在结直肠癌患者的粪便微生物群中,两者之间存在很强的共现网络。

  • 在中国队列中鉴定了显著区分crc相关和对照微生物群的20个基因标记,并在丹麦队列中跨大陆验证了其中4个。

  • 进一步验证来自法国和奥地利的已发表队列中的4个基因标记,接受者工作曲线(AUC)下的面积分别为0.72和0.77。

  • 两种基因标记(丁基辅酶a脱氢酶)的定量PCR丰度f . nucleatum, RNA聚合酶亚基β,rpoB,从p .微米)在由47例病例和109名健康对照组成的独立中国队列中,清楚地将CRC微生物群与对照组区分开,AUC=0.84,比值比为23。

在可预见的未来,它会对临床实践产生怎样的影响?

  • 中国、丹麦、奥地利和法国队列中共有的4个微生物基因标记表明,尽管不同人群可能有不同的肠道微生物群落结构,但crc相关微生物失调的特征可能具有普遍特征。

  • 我们的研究通过对粪便样本中宏基因组生物标记物的靶向分析,在可负担的CRC早期诊断方面又向前迈进了一步。

简介

结直肠癌是世界上第三大常见癌症,每年影响136万人,1由于遗传、生活方式和环境因素之间复杂的相互作用而产生。尽管在全基因组测序和全基因组关联研究方面做出了大量努力,但遗传因素只能解释一小部分疾病差异2-遗传性可能占所有CRCs的35%,3.但只有约5%的癌症发生在已知遗传易感性综合征的背景下。4这些发现支持生活方式和环境是另外的主要疾病决定因素。

新出现的证据表明,人类肠道微生物失调可能是CRC的一个重要环境因素。肠道微生物对CRC发病机制的早期证据来自于Apc分钟/ +小鼠,CRC的遗传小鼠模型,在无菌条件下的小鼠与在特定无病原体条件下的小鼠相比,显示了小肠肿瘤形成的减少。5进一步的研究表明,一些细菌,包括脆弱拟杆菌还有一种大肠杆菌,可能促进结直肠癌的发生。6尺11寸在人类中,基于细菌培养的研究报告了CRC与特定细菌的临床感染之间的联系,如链球菌宝12而且梭状芽胞杆菌坏疽抗毒素。13此外,无培养的16S核糖体RNA测序研究已将粪便微生物组成与CRC联系起来。14 - 16独立研究发现梭菌属nucleatum在人类CRC组织中更加丰富,1718后续研究也证明了这一点f . nucleatum通过招募浸润的免疫细胞增强肠道肿瘤的发生19通过调节β-连环蛋白信号。20.最近的两项研究调查了结直肠癌患者的肠道微生物失调2122并报道了宏基因组测序的诊断潜力。这些有希望的结果还远远不能直接转化为结直肠癌的诊断测试,因为从粪便样本中诊断结直肠癌的简单和负担得起的有针对性的方法仍然缺乏。

在这里,我们提出了第一项研究:(i)使用CRC粪便微生物群的深度宏基因组分析,在不同种族的队列中发现和验证微生物基因生物标记物,(ii)使用可转化为临床实践的负担得起的技术独立验证它们。

材料和方法

样品采集和DNA制备

C1和C2队列来自中国香港。C1(参见在线补充表S1)包含128个个体:74例CRC患者(15例I期,21例II期,34例III期,4例IV期;中位年龄67岁;26例为女性),54例为对照组(中位年龄62岁;21岁是女性)。C2(参见在线补充表S16)由156人组成:47例CRC患者(4例I期,24例II期,15例III期,4例IV期;中位年龄69岁;22例为女性),109例为对照组(中位年龄58岁;69是女性)。队列D来自丹麦哥本哈根(见在线补充表S18),包括40个个体:CRC患者(n=16; 1 stage I, 9 stage II, 5 stage III and 1 stage IV; median age 67.5 years; 6 were females) and controls (n=24; median age 65.5 years; 17 were females). Cancer staging in all three cohorts was performed using the tumour, node, metastasis staging system23由美国癌症联合委员会和国际癌症控制联盟维护。个人在家中收集粪便样本,然后在- 20°C下立即冷冻。根据制造商说明,使用Qiagen QIAamp DNA Stool Mini Kit (Qiagen)提取中国样品的DNA。使用之前发表的方法提取丹麦样本的DNA。24关于样品采集和DNA提取以及伦理委员会批准编号的详细说明,请参见在线补充方法。

宏基因组测序和注释

使用Illumina HiSeq 2000平台进行宏基因组测序,使用基因目录生成基因图谱,构建宏基因组连锁组(MLGs),生成京都基因与基因组百科(KEGG)的同源图、模块和通路图谱。25利用mOTU分析软件获得了种级分子操作分类学单位(mOTU)。26Reads被映射到综合微生物基因组(IMG)参考数据库27(v400)生成IMG种和IMG属的概况。将mlg的基因映射到IMG数据库中,当mlg的基因图谱达到>50%时,将mlg注释到IMG基因组中。利用该注释对MLG进行分组,构建了MLG物种。有关这些过程的详细说明,请参阅联机补充方法。

数据分析

采用置换多变量方差分析(PERMANOVA)评估不同表型对基因谱的影响。采用Wilcoxon秩和检验计算基因富集度、KEGG特征、motu、IMG种和MLG种。在适当的情况下,我们对结肠镜检查前后样本收集的混杂效应进行了调整:使用COIN包在R中使用“结肠镜采样前后”作为分层因素进行Wilcoxon秩和检验,在“结肠镜采样前后”进行分层后使用Mantel-Haenszel检验估计ORs。我们用Benjamini-Hochberg错误发现率(FDR)控制多次测试。最小冗余最大相关性(mRMR)特征选择方法28选择最优的基因标记,然后用于构建CRC指数。使用Spearman相关系数(>0.5或<−0.5)构建共现网络,并在Cytoscape V.3.0.2中可视化。来自法国(F)和奥地利(A)队列的宏基因组序列分别使用研究标识号ERP005534和ERP008729从NCBI Short Read Archive下载。生物多样性分析、稀疏性分析、CRC相关基因/物种鉴定、FDR估计、mRMR特征选择框架、CRC指标定义与验证、接受者算子特征(ROC)分析的综合描述见在线补充方法。

基因标记的qPCR验证

采用TaqMan探针定量PCR (qPCR)方法对粪便样本中所选基因标记的丰度进行估计。人工设计引物和探针序列,然后使用Primer Express V.3.0 (Applied Biosystems, Foster City, California, USA)检测Tm、鸟嘌呤胞嘧啶(GC)含量和可能的二级结构。每个探针携带5 '报告染料6-羧基荧光素或4,7,2 ' -三氯-7 ' -苯基-6-羧基荧光素和3 '淬灭染料6-羧基四甲基罗丹明。引物和水解探针由Invitrogen公司(Carlsbad, California, USA)合成。引物和探针的核苷酸序列列于在线补充表S27。qPCR在ABI7500实时PCR系统上进行,使用TaqMan通用PCR混合试剂(Applied Biosystems)。通用16S rDNA作为内对照,基因标记的丰度以与16S rDNA的相对水平表示。

结果

CRC肠道菌群失调

我们从中国招募了128人(74例CRC患者和54例对照组受试者)(队列C1;参见在线补充表S1),对他们的粪便样本进行宏基因组测序,产生7.51亿个宏基因组reads(平均每人586万个reads;参见在线补充表S2)使用Illumina HiSeq 2000平台。在记录的代谢参数中,空腹血糖升高和高密度脂蛋白降低与CRC状态显著相关(Wilcoxon秩和检验,q=0.0014),与之前的研究结果一致,它们是危险因素。2930.我们还观察到结肠镜检查后收集的CRC患者样本数量明显高于结肠镜检查前(Fisher确切检验,q=0.0165;见在线补充表S1)。在适当的时候,我们将其作为后续分析的混杂因素进行了调整(见“材料和方法”部分)。利用先前发表的由4 267 985个基因组成的肠道微生物基因目录进行稀疏分析25显示曲线达到平台期,表明该目录涵盖了在队列C1中存在的最普遍的微生物基因(见在线补充图s1A)。因此,我们将后续的分析建立在将宏基因组reads映射到该目录的基础上。CRC患者的微生物群显示基因丰富度降低(见在线补充图1A, B;基因α多样性(Shannon指数和Simpson指数的Wilcoxon秩和检验:p=0.075和0.028);参见在线补充图S1C,D和表S3)。然而,在结肠镜检查校正后,这些差异表现为p>0.5。

为了确保来自C1队列的128个宏基因组之间的基因含量的稳健比较,我们创建了一组至少存在于6个受试者的2 110 489个基因,并使用这210万个基因生成128个基因丰度谱。当我们使用PERMANOVA对17个不同的协变量进行多因素分析时,只有CRC状态和CRC分期与这些基因谱显著相关(q<0.06,所有其他因素:q>0.27;见网上补充表S4)。因此,这些数据表明CRC患者微生物群的基因组成发生了改变,这不能用其他记录的因素来解释。当我们基于基因谱进行主成分分析(PCA)时,第一和第五主成分分别解释了6.6%和3.2%的总方差,与CRC状态相关(Wilcoxon秩和检验,PC1: p=0.029;PC5: p = 1×10−6;见网上补充图S2及表S5)。总之,这些结果提示结直肠癌患者肠道微生物群存在失调状态。

与CRC相关的肠道微生物基因

我们进行了一项宏基因组全关联研究(MGWAS),以确定导致CRC基因组成改变的基因。从210万个基因中,我们鉴定出140455个与疾病状态相关的基因(Wilcoxon秩和检验p<0.01, FDR 11.03%;参见在线补充图S3)。有趣的是,与对照基因相比,CRC富集基因出现的频率更低,丰度也更低(参见在线补充图S4),这表明与CRC相关的微生物失调可能不涉及优势种。这种频率和发生模式已经在两项早期的2型糖尿病宏基因组病例对照研究中观察到25和奥地利人的CRC,31这表明这可能是疾病相关肠道微生物失调的一个共同趋势。

我们用KEGG对140455个基因进行了注释32功能数据库(V.59),以调查某些微生物功能是否与CRC相关。没有一条KEGG途径通过我们的严格标准(Wilcoxon秩和检验,q<0.05;参见在线补充表S6),这表明在KEGG数据库中存在的细菌代谢途径可能与CRC的发病机制无关。然而,在CRC微生物群中富集了两个KEGG模块:亮氨酸降解(q=0.0148)和鸟嘌呤核苷酸生物合成(q=0.0241;见在线补充表S6)。亮氨酸刺激蛋白质合成和降解,3334这表明亮氨酸代谢和癌症之间可能存在联系。在基因水平上,多个KEGG同源组与疾病状态显著相关(Wilcoxon秩和检验,q<0.05;见在线补充表S7)。

CRC肠道微生物群的分类改变

我们检查了crc相关微生物群和对照微生物群之间的分类学差异,以确定导致生物失调的微生物分类。为此,我们使用了来自三种不同方法的物种概况——img物种、物种级motu和MLG物种(见“材料和方法”一节)——因为来自多种方法的支持证据将加强关联。我们的分析发现28种IMG、21种mOTUs和85种MLG与结肠镜检查后的CRC状态显著相关(Wilcoxon秩和检验,q<0.05;见在线补充表S8)。真细菌ventriosum在所有三种方法的对照菌群中均持续富集(IMG: q=0.002;莫土语:q = 0.0049;MLG: q = 3.33×10−4).另一方面,微小微单胞菌(q < 7.73×10−6),Solobacterium moorei(q < 0.011)f . nucleatum(q<0.00279)在所有三种方法的CRC患者微生物群中持续富集(图1A和在线补充图S5),而消化链球菌属stomatis(q < 7.73×10−6)按两种方法进行富集。PERMANOVA分析显示,只有CRC状态(三种方法均p≤0.013)和结肠镜检查(两种方法均p=0.079)解释了三种CRC富集物种的定量变化。其他非crc特异性因素均不能解释差异,差异有统计学意义(p>0.18;见在线补充表S9)。p . stomatis最近被证明与CRC有显著关联,22而且美国moorei以前与菌血症有关。35然而,高度显著的富集p .微米-一种专性厌氧菌,可引起口腔感染,如f . nucleatum36- crc相关微生物群是一个新发现。

图1

与结直肠癌相关的肠道微生物失调的相关物种。(A)通过宏基因组连锁组(MLG)、分子操作分类单元(mOTU)和综合微生物基因组(IMG)数据库三种不同的方法一致识别出两种crc富集和一种对照富集的微生物物种的相对丰度差异。(B)从与CRC显著相关的21个motu的相对丰度推导出的共现网络。物种根据其在CRC或对照菌群中的富集程度在两侧重新排列。斯皮尔曼相关系数小于−0.5(负相关)的用红边表示,大于0.5(正相关)的用绿边表示。节点大小表示每个物种的平均相对丰度,节点颜色表示它们的分类注释。

由物种丰度的成对相关性衍生的物种共现网络显示,三种口腔病原体之间存在很强的正相关:p .微米f . nucleatum而且美国moorei图1B和在线补充图S6)。之前的报告表明p .微米通常与f . nucleatum在受感染的根管中,它们可能占到根管微生物群的90%。36因此,我们的结果可能表明这两种物种在crc相关的肠道环境中存在合作。

尽管一些细菌属与早期发现的crc相关物种相对应(包括Parvimonas梭菌属Solobacterium而且消化链球菌属)与CRC状态显著相关(见在线补充表S10),我们也观察到一些例外。虽然我们发现了明显的过度代表b . fragilis结直肠癌患者(mOTU: q=0.0158;MLG: q = 3.02×10−4;见在线补充表S8),与拟杆菌属。在门水平上,只有梭菌门和担子菌门显著富集crc相关微生物群(q<0.0002;见在线补充表S11)。

为了评估这些分类关联的预测能力,我们使用随机森林集成学习方法37识别出对CRC状态具有高度预测能力的17种IMG种、7种种级motu和27种MLG种(见在线补充表S12),在ROC分析中预测能力分别为0.86、0.89和0.96(见在线补充图S7)。p .微米均被确定为关键物种,而f . nucleatump . stomatis而且美国moorei从三种方法中的两种中识别出来,为它们与CRC状态的关联提供了进一步的统计支持。

CRC生物标志物的发现

我们使用了mRMR特征选择方法28从MGWAS鉴定的140455个基因中鉴定潜在的CRC生物标志物。首先,为了消除结肠镜检查的混杂效应,我们以结肠镜检查为分层因素,对这些基因进行阻塞独立Wilcoxon秩和检验。结果有102 514个基因(FDR≤13%)和24 960个基因(FDR≤5.23%)存在显著性水平p<0.01。然后,从后者中,我们识别出彼此高度相关的基因组(Kendall’s τ >0.9),并在每组中选择最长的基因,生成一个统计上非冗余的11 128个显著基因集。最后,我们使用mRMR方法,确定了一个与CRC状态密切相关的20个基因的最佳集合(参见在线补充图S8和表S13)。使用这20个基因的PCA显示出CRC患者与对照组的良好分离(图2A). PERMANOVA分析显示,仅CRC状态、分期和空腹血糖可以解释20个标记基因丰度的变化,差异有统计学意义(p≤0.01;见在线补充表S14)。我们基于这20个标记的未加权对数相对丰度计算了一个简单的CRC指数,该指数清楚地将CRC患者微生物群与对照微生物群区分开来,并从此前两项关于中国2型糖尿病个体的研究中提取490个粪便微生物群25和欧洲个体的IBD38图2B;在我们的研究中,患者和对照组的中位CRC指数分别为7.31和−5.56;Wilcoxon秩和检验,q<6×10−11对于所有五次比较;见在线补充表S15)。

图2

发现与结直肠癌相关的肠道微生物基因标记。(A)基于20个基因标记丰度的主成分分析,在C1队列中分离CRC病例和对照个体。第一和第二主成分与CRC状态相关(PC1和PC2分别解释31.9%和13.3%的方差)。与基于210万个基因的在线补充图S2相比,没有观察到分离。(B) CRC指数使用本研究中CRC患者(红色)和对照组(绿色)的20个基因标记的对数丰度的简单无加权线性组合计算,与早期2型糖尿病研究中的患者和对照组(棕色)一起显示25和炎症性肠病。38CRC患者微生物群的CRC指标与其他指标有显著差异(p<0.001),提示这20个基因标记是CRC特异性的。方框描述了第一和第三四分位数之间的iqr,里面的线表示中位数。

使用靶向qPCR评价CRC生物标志物

将我们的基因标记转化为诊断性生物标记需要通过简单、负担得起和有针对性的方法进行可靠的测量,如qPCR。为了验证宏基因组测序和qPCR测定的基因丰度是否具有可比性,我们随机选择了两个病例富集和两个对照富集的基因标记,并在C1队列的一个子集(51例和45例对照)中用qPCR测定了它们的丰度。宏基因组测序和qPCR平台的定量结果显示出很强的相关性(Spearman r= 0.81-0.95;见在线补充图S9),表明两个测量结果都是可靠的。接下来,我们在一个独立的中国队列C2(156份粪便样本;47例,对照组109例;见在线补充表S16)。两个对照组富集基因在C2中无显著相关性(p>0.31;见在线补充表S17)。另一方面,crc富集的基因标记(m1704941,丁基辅酶a脱氢酶从f . nucleatum;m482585,来自未知微生物的rna定向DNA聚合酶)在经过结肠镜调整后,在C2的CRC样本中也显著富集(p分别为0.0015和0.045,参见在线补充表S17)。其中,只有基因来自f . nucleatumMantel-Haenszel试验经结肠镜检查调整后显示显著OR (OR 18.5, p=0.0051;见在线补充表S17)。基于4个基因丰度的CRC指数仅将C2的CRC微生物群与对照微生物群适度分类(接受者-工作曲线(AUC)下的面积=0.73;参见在线补充图S10),这表明从20个生物标志物列表中随机选择并不是一种有效的策略。然而,基因来自f . nucleatum109个对照菌群中只有4个存在,这表明有可能利用粪便样本开发出针对结直肠癌的特异性诊断测试。

独立宏基因组组的基因标记验证

为了识别具有更广泛适用性的生物标记,我们使用来自不同遗传背景和生活方式的队列的粪便宏基因组评估了所有20个基因标记:来自丹麦的16名CRC患者和24名对照组(队列D;见在线补充表S18)。当映射到430万个肠道微生物基因时,丹麦宏基因组显示出显著更高的基因丰富度和基因多样性,这两种情况都是如此(Wilcoxon秩和检验,基因计数:p=1.94×10−5;香农指数:p = 5.85×10−5)和对照组(基因计数:p=0.0017;香农指数:p = 9.34×10−4;参见在线补充图S11和表S19),这与最近的一项研究一致,并表明中国和丹麦人群的肠道微生物群落结构存在差异。39在队列C1中与CRC状态相关的102 514个基因中,在队列d中只有1498个基因可以被验证。然而,两个群体中CRC富集基因的共享显著多于对照富集基因(CRC富集的35 735个基因中有1452个,对照富集的66 779个基因中有46个;双尾χ2测试,χ2= 2576.57, p < 0.0001)。在1452个crc富集基因中,超过一半(53.6%)仅来自三个物种:p .微米(389个基因),美国moorei(204个基因)和symbiosum梭状芽胞杆菌(177个基因)(见在线补充表S20)。在物种层面上,p .微米在CRC菌群中富集,而p . stomatisGemella morbillorum而且美国moorei按两种方法进行富集(Wilcoxon秩和检验,q<0.05;见网上补充表S21)。值得注意的是,所有被至少一种方法验证的物种都是crc富集的。这些结果表明,结直肠癌发生和进展过程中结肠直肠环境的变化可能促进了两种人群中相似物种的生长,可能导致在结直肠癌患者中观察到的微生物多样性减少(参见在线补充图S1C),与其他人早期的观察结果一致。40CRC指数使用在队列C1中发现的20个基因标记,将丹麦患者的微生物群与对照组微分化(Wilcoxon秩和检验,p=0.029),并表现出中等的分类潜力(ROC曲线下面积,AUC=0.71;见在线补充图S12).20个基因中只有4个(两个来自消化链球菌属anaerobius每人一张p .微米而且f . nucleatum)与D队列CRC状态相关(Wilcoxon秩和检验,q≤0.05;所有CRC-enriched;见网上补充表S22)。在我们记录的因素中,只有CRC状态可以解释这四个基因的变异(PERMANOVA p≤0.0001;见在线补充表S23)。

为了对这四个基因标记进行额外的无偏验证,我们使用了两个最近发表的宏基因组数据集——一个奥地利人群(队列A),包括55名对照组和41名CRC患者31法国人群(队列F)包括61例对照组和53例CRC患者。22由于我们的发现队列C1只包括癌样本,我们排除了所有腺瘤患者,并将癌患者与非腺瘤/非癌对照组进行了比较,这与后一项研究使用的策略相反22其中包括对照组中的小腺瘤,排除了大腺瘤。这四种基因在两组的癌粪便样本中均显著富集(Wilcoxon秩和检验q<0.0035;见在线补充表S24)。使用这4个基因的CRC指数将A组和F组的AUC分别为0.77和0.72的CRC患者分类。当我们检查所有20个标记的相关性时,队列A和F都可以验证与CRC相关的额外基因(参见在线补充表S25)。有趣的是,在队列C1的对照样本中富集的一个标记物在队列A的CRC样本中富集。

利用qPCR对CRC进行精确分类

四个跨种族验证的基因标记中有两个是转座酶p . anaerobius.第三个基因(m1704941,丁基辅酶a脱氢酶来自f . nucleatum)是在队列C2中使用qPCR成功验证的两个基因之一。第四个基因来自p .微米它是高度保守的吗rpoB编码RNA聚合酶β亚基的基因,常被用作系统发育标记。41我们进行了额外的qPCR检测rpoBp .微米在C2队列中,显示CRC患者微生物群显著富集(Wilcoxon秩和检验调整了结肠镜,p=8.97×10−8).Mantel-Haenszel校正后的结肠镜OR为20.17 (95% CI 4.59 ~ 88.6, p=3.36×10)−7).两种基因的联合qPCR测量结果清楚地将CRC与C2队列对照样本区分开(Wilcoxon秩和检验对结肠镜进行了调整,p=1.384×10−8图3A)和精确分类的CRC样本,改进的AUC为0.84(真阳性率(TPR)=0.723;假阳性率(玻璃钢)= 0.073;图3B).准确性略好于最近的一项研究(报告AUC=0.836, TPR=0.58, FPR=0.08),尽管他们使用了22种物种的丰度组合宏基因组测序。22Mantel-Haenszel OR(经结肠镜检查调整后)在CRC患者中通过qPCR至少检测两种标记物中的一种的比率为22.99 (95% CI 5.83 ~ 90.8, p=5.79×10)−8).当将C2队列分层为癌症早期(I-II期)和晚期(III-IV期)患者时,分类潜力和or仍然显著(参见在线补充表S26)。这两个基因的丰度明显高于从CRC II期开始的对照样本(图3C, D),与我们从物种丰度得出的结果一致,并提供了原则证明,即粪便宏基因组可能包含用于识别早期结直肠癌的非侵入性生物标志物。

图3

验证与结直肠癌(CRC)相关的稳健基因标记。两个基因标记(m1704941:丁基辅酶a脱氢酶)的定量PCR (qPCR)丰度分析梭菌属nucleatum, m1696299: RNA聚合酶β亚基,rpoB,从微小微单胞菌)在C2队列中测量,C2队列包括47例病例和109名健康对照组。结合两种基因的对数丰度,可以清楚地将CRC微生物群落与对照(A)区分出来,并以接受者工作特征曲线以下的面积(B)对CRC微生物群落进行分类。与对照和I期微生物群落(C和D)相比,这两种标记基因在CRC II期和III期的发生率和丰度都相对较高。丰度以log10刻度绘制,零丰度以−8表示。AUC,接收器工作曲线下的面积;玻璃钢,假阳性率;TPR,真阳性。

讨论

我们已经报道了CRC的宏基因组基因标记首次成功的跨种族验证,特别是包括了来自四个国家的数据。最近的两项研究报道了利用粪便微生物群的宏基因组测序对CRC的潜在诊断。第一项基于16S核糖体RNA基因的研究使用5个操作分类单元对来自美国队列的健康样本进行CRC分类。21由于他们没有执行任何独立的验证,我们无法将我们的验证准确性与他们的进行比较。第二项基于鸟枪宏基因组测序的研究使用了在法国队列中发现的21个物种,以准确地对德国队列中的CRC患者进行分类。22他们外部验证的准确性更高(AUC=0.85,而我们的AUC为0.77和0.72)可能是因为验证队列来自同一种族。事实上,当我们在中国队列C1中发现的两个基因标记用qPCR在中国独立队列C2中进行验证时,即使我们转移到不同的平台,我们也获得了较高的准确性(AUC=0.84)。通过这样做,我们还首次证明了通过负担得起的粪便样本微生物生物标志物靶向检测方法诊断结直肠癌的潜力。通过使用一个基因,可以显著提高qPCR分类潜力(从AUC=0.73到AUC=0.84)rpoB基因p .微米)在D、F和A队列中验证,重申了在具有不同遗传和环境背景的独立队列中验证新发现的生物标志物的重要性。在高多样性队列中进行生物标志物发现的进一步工作或对已发表队列的元分析可以揭示它是否导致预测能力的提高。将元基因组标记与当前的临床标准试验(粪便潜血试验(FOBT))结合已被证明可将TPR从49%提高到72%。22在没有使用FOBT的情况下,这两个标记已经达到了相当的TPR。FOBT与这些标记的结合是否会进一步提高精度还有待观察。

来自中国、丹麦、奥地利和法国的队列之间共享的基因标记表明,尽管不同人群可能具有不同的微生物群落结构,但crc相关微生物失调的特征可能具有普遍的特征。需要注意的几个重要观察结果:(i)在队列C1中,与对照基因(r=0.81和0.85)相比,crc富集基因标记在宏基因组和qPCR丰度之间具有更高的相关性(r=0.93和r=0.95);(ii)在队列C2中使用qPCR随机检测的4个基因标记中,只有crc -富集基因得到验证;(iii)在队列D中验证的所有4个基因标记,在队列A中验证的所有5个标记,以及在队列F中验证的5个标记中的4个都是crc -富集的(见在线补充表S25),尽管有12个对照标记富集,而只有8个crc -富集标记;(iv)在不同队列验证期间切换富集的唯一标记物为对照富集;(v)队列D与队列C1共享的crc富集基因明显多于对照组;(vi)在队列D中验证的队列C1中的所有crc相关物种都是crc富集的。这些特征表明,crc富集的生物标志物在人群中共享的几率更高,且比对照富集的生物标志物具有更好的诊断潜力。一种解释可能是,健康的生物标记物比特定疾病的生物标记物更难找到,这违背了应用于肠道微生物组的安娜·卡列尼娜原则,该原则预测了更多的疾病特异性紊乱状态比未紊乱状态。42尽管在不同人群的更大队列中对所有生物标志物进行进一步验证是强制性的,但我们的结果提供了一个原则证明,开发一种使用粪便微生物基因标记来识别CRC患者的负担得起的诊断测试确实是可能的。

只有两个与结直肠癌状态相关的微生物代谢模块的发现表明,在疾病发展中,微生物病原体的作用可能比肠道微生物组的功能异常更重要。或者,微生物基因的表达水平可能比功能潜力更重要。利用微生物基因表达水平的转转录组学研究的进一步研究将澄清这一点。

只有crc富集的基因和物种可以在队列中得到验证,这一事实限制了我们对crc相关微生物群中缺失物种的结论。我们观察到几种口腔病原体的显著过度表现p .微米p . stomatis美国moorei而且f . nucleatum在结直肠癌患者的粪便中,提示与结直肠癌相关的口腔-肠道易位路线。尽管没有进一步的实验我们无法证明这一途径,但最近一项基于300名健康个体的研究报告称,口腔和肠道微生物群是相互预测的,支持了这一观点。43虽然在早期的研究中,其中一些物种在统计上与口腔癌有关,212240只有f . nucleatum已被证明能促进促炎环境导致肿瘤的发生。19我们的研究现在介绍p .微米作为一种参与CRC相关生物异常的新候选细菌,在我们调查的所有五个队列中显示出与CRC更强的相关性。两者之间强烈的共现模式p .微米与革兰氏阴性f . nucleatum44前者通过与革兰氏阴性菌的脂多糖结合,增加其诱导炎症反应的能力,45这可能意味着两者之间的合作,在定植策略和促进促炎致瘤微环境方面。这些物种的富集早在结直肠癌的第二期就开始了,这表明它们可能在结直肠癌的进展过程中发挥作用。进一步的工作描述p .微米可以阐明其在CRC中的作用。

我们在四个队列中证明了CRC的粪便微生物的一致变化,确定了可能参与CRC的发展和进展的新型候选细菌,验证了来自三个不同国家的三个队列的基因标记,并报道了两个可作为CRC有效诊断生物标记的细菌基因。系统调查关键物种和基因标记可能会发现更多的候选物种。更多的工作是必要的(i)将这些观察结果与当前使用的诊断方法进行基准测试,(ii)识别具有改进预测价值的其他标记,(iii)最终在更大的队列中验证它们。最终的目标将是识别具有强大预测能力的粪便宏基因组标记来检测CRC的早期阶段,这将显著降低CRC相关的死亡率。

参考文献

视图抽象

补充材料

  • 补充数据

    这个网络仅文件已由BMJ出版集团从作者提供的电子文件生产(s),并没有编辑的内容。

脚注

  • JuY、QF、SHW、DZ、QL贡献相当。

  • 调整通知这篇文章在Online First发布后进行了修改。数据共享声明已被更正。

  • 贡献者7月、QF、SHW、DZ和QL贡献相当。该项目由JuW, JoJS, JuY, NB和MA设计。JuY, QF, JoJS和JuW管理项目。JuY、TOY、JS、HJN、TYTL、SCN、QL、ASLC、VW-SW、WKKW和FKLC为临床样本采集、患者信息和临床数据分析做出了贡献。QL、SHW、JuY、ZL、PK、BAHJ进行DNA实验。JuW, JuY, SHW, MA, KK, QF和DYZ设计了分析。对DYZ、MA、QF、YWQ、LQT、YLL、YL、NC、HJJ、JHL、LX和ZL进行数据分析。DYZ、MA、QF、YWQ、LQT、YLL、YL、NC、HJJ、JHL、LX和ZL参与了宏基因组全关联研究。QL、JuY和toy进行了实验验证。论文作者为MA、JuY、SH W、QF、DY Z和LQT。 JuW, KK, LM, JoJS, JuY, NB, JiW, HMY, HJJ, JA-A and XX revised the paper.

  • 资金基金资助:国家基础研究发展计划项目(973计划,2011CB809203, 2013CB531401),香港SHHO基金,香港研究资助局主题研究计划(T12-403-11),广东省创新研发团队引进计划(编号:丹麦癌症协会(R72-A4659-13-S2)和中国深圳市政府(CXB201108250098A)。

  • 相互竞争的利益没有宣布。

  • 病人的同意获得的。

  • 伦理批准香港中文大学-新界东集群临床研究伦理委员会(中大- ntec CREC)、丹麦首都地区伦理委员会和丹麦数据保护机构联合组成。

  • 来源和同行评审不是委托;外部同行评议。

  • 数据共享声明宏基因组序列数据集已存入欧洲核苷酸档案,登录号为PRJEB10878。