跳转到主页内容
访问键 NCBI主页 MyNCBI主页 主要内容 主导航
荟萃分析
2019年4月,25(4):679 - 689。
doi: 10.1038 / s41591 - 019 - 0406 - 6。 2019年4月1日。

粪便宏基因组的meta分析揭示了结肠直肠癌特异性的全球微生物特征

从属关系
免费的PMC的文章
荟萃分析

粪便宏基因组的meta分析揭示了结肠直肠癌特异性的全球微生物特征

Jakob Wirbelet al。 Nat地中海 2019年4月
免费的PMC的文章

摘要

相关研究已将微生物组的改变与许多人类疾病联系起来。然而,他们报告的结果并不总是一致的,因此需要进行交叉研究比较。本研究对8个地理位置和技术上差异较大的结肠直肠癌粪便鸟枪宏基因组研究(CRC, n = 768)进行了荟萃分析,并对几个混杂因素进行了控制,确定了CRC宏基因组显著富集的29种核心物种(错误发现率(FDR) < 1 × 10)5).来自单一研究的CRC签名在其他研究中保持了其准确性。通过多项研究的训练,我们提高了CRC的检测准确性和疾病特异性。CRC宏基因组的功能分析显示了丰富的蛋白质和粘蛋白分解基因和贫乏的碳水化合物降解基因。此外,我们推断从CRC宏基因组中二级胆汁酸的产生增加,这表明癌症相关肠道微生物与富含脂肪和肉类的饮食之间存在代谢联系。通过广泛的验证,该meta分析牢固地建立了全球通用的、可预测的分类和功能微生物组CRC特征,作为未来诊断的基础。

利益冲突陈述书

相互竞争的利益

P. Bork, G. Zeller, A.Y. Voigt和S. Sunagawa是一项专利(EP2955232A1:基于分析肠道微生物群的结直肠癌诊断方法)的发明者。

数据

图1:
图1:。个体微生物种类与患者人口统计和技术因素相关的潜在混杂因素
疾病状态解释的方差(CRC与对照)与单个微生物物种的不同假定混杂因素解释的方差进行对比。每个物种都用一个与其丰富程度成比例的点表示(见图例和方法);在meta分析中确定的核心微生物标记物(采用双侧阻塞Wilcoxon检验,n=574个独立观察值)以红色突出显示。在混杂因素分析中,连续值的因素被离散成四分位数,BMI根据传统的截断分为瘦/超重/肥胖。对所有数据计算疾病状态解释的方差;因此,在所有面板和图1d中,x值都是相同的。由不同混杂因素解释的方差使用可用数据的所有样本计算(用插图表示)。
图2:
图2:。研究表明对alpha和beta多样性有很强的影响
(一)分别计算了所有肠道微生物种(n=849)、参考motu (n=246)和meta motu (n=603)的Shannon指数测定的Alpha多样性。p值使用双面Wilcoxon检验计算,而总体p值(顶部)使用双面阻塞Wilcoxon检验计算(n=575个独立观测值,见方法)。面板以下的方差F统计量使用R函数计算自动阀(b)所有五个样本的主坐标分析均包括基于布雷-柯蒂斯距离的研究;研究用颜色标记,疾病状态(CRC与对照)用填充/未填充的圆圈表示。侧边和下方的箱形图显示了投影到前两个主要坐标上的样本,分别按研究和疾病状况划分。p值的计算采用疾病状态的双侧Wilcoxon检验和研究的Kruskal-Wallis检验(n=575个独立观察值)。对于所有箱线图,框表示四分位区间(IQR),中位数为粗黑线,须一直延伸到1.5倍IQR内的最极端点。
图3:
图3:。广义折叠变化扩展了已有的(基于中位数的)折叠变化,从而在稀疏的微生物组数据中提供更高的分辨率
(一)在最上面一行,对数相对丰度拟杆菌dorei / vulgatus微小微单胞菌而且梭菌属nucleatum无性系种群。animalis-一个高流行种和两个低流行种的例子-显示为对照组(CTR)和结直肠癌(CRC)组的群图。粗竖线表示不同组的中位数,黑色水平线表示两个中位数的差异,对应经典的(基于中位数的)褶皱变化。自梭菌属nucleatum无性系种群。animalis在超过50%的癌症病例中未检测到,CTR和CRC中位数之间没有差异,因此折叠变化为0。下面的行显示了相同的数据,但不是只有中位数(或第50个百分位),而是用更细的竖线显示了从10%到90%的9个分位数。广义折叠变化再次用水平黑线表示,计算为两组对应分位数之间的差异的平均值。在稀疏数据的情况下(例如。梭菌属), 70%、80%和90%分位数的差异导致广义折叠变化大于0。(b)中位数折叠变化与所有微生物物种的新开发的广义折叠变化(gFC)绘制(以橙色突出显示的微生物CRC标记物种的核心集)。边缘直方图可视化了FC和gFC的分布。(c)散点图显示FC和gFC之间的关系以及接受者工作特征(AUROC)下的面积或CRC和CTR之间的患病率转移,并在左上角添加了斯皮尔曼相关性;gFC提供了更高的分辨率(在0附近更宽的分布),并与非参数AUROC效应量测量以及流行度偏移有更好的相关性,它捕捉了CRC宏基因组中一个物种相对于对照宏基因组的流行度差异。
图4:
图4:。荟萃分析中发现的微生物属与CRC相关
(一)通过单变量双侧Wilcoxon检验进行研究和结肠镜检查(n=574个独立观察)计算的微生物属的meta分析显著性以柱高(FDR 0.005)给出。在下面,个体研究中的显著性(通过双侧Wilcoxon检验计算的fdr校正p值)和广义折叠变化(见方法)分别以灰色和彩色的热图显示(见键)。属按meta分析显著性和变化方向排序。(b)对于高度显著属(FDR 1E-05元分析),关联强度通过单个研究的接收者工作特征(AUROC)下的面积进行量化(颜色编码菱形),95%置信区间用灰色线表示。
图5:
图5:。基于CRC宏基因组的共出现,可以将CRC富集微生物的核心种类分为四个簇
(一)热图显示了核心微生物标记物种集的Jaccard指数(通过比较标记阳性样本计算,见方法),仅计算CRC病例。使用R函数中实现的Ward算法进行聚类hclust.插图显示了每个簇内和背景的Jaccard相似性的分布(所有不在同一簇内的物种之间的相似性,n=841)。方框表示四分位范围(IQR),中位数为粗黑线,须向1.5倍IQR内的最极端点延伸。(b)Barplots显示CRC样本中标记物种簇(定义为阳性标记物种的联合)阳性的百分率,根据BMI和(c)年龄(其他亚组见图2bcd)。采用Cochran-Mantel-Haenszel检验验证CRC亚群与标记种簇间相关性的显著性(但未检测到显著相关性)。(d)对于具有基因组参考的核心微生物物种集,超氧化物歧化酶、过氧化物酶和过氧化氢酶的存在(红色)或不存在(白色)如热图所示(见方法)。
图6:
图6:。剔除一项研究的LASSO逻辑回归模型与单独研究训练的模型的系数比较
(一)在单一研究(颜色编码)上训练的LASSO交叉验证模型的平均系数(特征权重)与每个物种特征的单一特征AUROC绘制。横线强调的微生物物种——至少有一项研究——在交叉验证中超过50%的模型中被选择,并且在至少10%的交叉验证模型中占绝对模型权重的10%以上。同样的,(b)结果显示,在“留校一次”(leave-one study-out, LOSO)环境下训练的模型也是如此(参见方法)。颜色表示哪些研究被排除在训练集之外(并用于验证)。由于LOSO模型的权重分布在更多的物种中,因此通常较低,如果在至少10%的交叉验证模型中,物种的权重解释绝对模型的2.5%以上,并且在交叉验证中超过50%的模型中选择了它们,则用水平线突出显示物种。(c)插图显示了所有交叉验证模型的非零系数的数量分布。(d)柱形高度分别表示每个研究或遗漏研究的平均值模型之间共享的非零系数的数量。(e)交叉验证(CV)单研究模型的研究与研究之间的差异(计算为跨平均值模型的单个物种的模型权重之间所有两两差异的中值)与LOSO模型的相同度量相对照。交叉验证模型中研究与研究之间差异超过0.02的物种被突出显示和注释,表明与LOSO模型相比,单个研究训练的模型之间有更大的可变性。
图7:
图7:。遗漏一项研究模型的预测偏差分析
(一)为了检验物种和基因家族级别的分类模型是否混杂,即是否倾向于特定的患者亚群,将剔除一项研究模型的预测得分按每个临床参数(例如性别为女性和男性)划分为分层。通过双面Wilcoxon(性别和BMI)或Kruskal-Wallis(所有其他)检验检验每个变量的预测偏倚,同时阻断作为混杂因素进行研究(n=575个独立观察值)。方框表示四分位区间(IQR),中位数为水平黑线,晶须延伸到1.5倍IQR内的最极端点。预测评分仅在CRC期存在显著差异。这种阶段偏差在基因家族模型中比在物种模型中更为明显。(b)为了进一步检验CRC阶段偏差,bar图表显示了不同CRC阶段的真阳性率(TPR)对应于总体10%的假阳性率(参见图3c),对物种和基因家族模型的晚期CRC分类灵敏度都略高。
图8:
图8:。基于KEGG KO丰度、宏基因组基因目录(IGC)的单基因丰度以及分类学和蛋gnog丰度图谱的组合的统计模型的交叉研究性能
CRC分类精度来自于每个研究内的交叉验证(沿对角线的灰色框)和研究-研究模型转移(非对角线的外部验证),由AUROC测量在KEGG KO上训练的分类模型(一),基于基因目录的模型(b)以及基于分类学和蛋gnog丰度剖面组合的模型(c)(有关统计建模工作流程的详细信息,请参阅方法)。最后一列描述了外部验证的平均AUROC。右边的柱状图表明,如果将来自所有其他研究的数据结合起来进行训练(剔除一个研究,LOSO验证),那么相对于在不同类型的输入数据中一致使用来自单个研究(研究到研究转移,n=4,误差柱显示标准差)的数据进行训练的模型的平均值,一个搁置研究的分类准确性会提高。
图9:
图9:。的识别基因在基因组
假定的在宏基因组基因目录(IGC)中识别的基因通过宏基因组的共丰度聚类,以推断基因组连锁(参见方法),从而能够推断操纵子完整性和起源物种。(一)对于每个假定的胆汁酸转化基因簇,平均相对丰度与已知胆汁酸转化基因的全球比对得到的蛋白质一致性的平均百分比进行对比c . scindens而且c . hylemonae(见方法)。完整性,即11个不同的有多少基因功能在每个聚类中表示,每个聚类中对数相对丰度的平均基因-基因Pearson相关性分别用点的大小和颜色编码(见图例)。4个簇平均蛋白鉴别度在75%以上包含操纵子的基因组被包含在后续的分析中,并用相关度最高的mOTU标记(见(b))。(b)基因簇丰度与相关度最高的物种相对丰度(在对数空间中)之间的Pearson相关性由(a)中确定的四个基因簇的柱状高度给出。相关度最高的物种用深灰色突出显示(见(a)中基因簇的标记)。(c)对数变换后的丰度基因和(b)中识别的4个物种的箱线图显示为对照组(灰色)和CRC例(红色)。评估CRC和对照之间差异的显著性(通过用于研究和结肠镜检查的双侧Wilcoxon检验,n=574个独立观察)表明聚集宏基因组的CRC富集更为显著基因的丰度高于这些梭状芽胞杆菌所属的个体。方框表示四分位范围(IQR),中位数为粗黑线,须向1.5倍IQR内的最极端点延伸。(d)受试者工作特征(ROC)曲线用于qPCR定量baiFDE研究中样本子集(n=47,见方法和图4e)基因组DNA中的基因为黑线。灰色阴影区表示95%置信区间。
图10:
图10:。3个独立队列中单物种关联的元分析验证
(一)热图显示了crc相关物种的核心集合(见图1),每个研究的关联中各自物种的排名(通过双边Wilcoxon检验检验),包括三个独立验证队列(见表1),与左侧的meta分析(meta,通过双边阻塞Wilcoxon检验检验)中的排名进行比较。(b)使用FDR 0.005 (n=94,上)和1E-05 (n=29,下)的相关物种的元分析集作为“真实”集(通过双侧阻塞Wilcoxon检验检验,见方法),使用naïve(未校正)队列内显著性(通过双侧Wilcoxon检验检验)作为预测因子(见方法)补充图X).
图1所示。
图1 . .尽管研究存在差异,但荟萃分析确定了一组与CRC密切相关的核心肠道微生物。
(一)阻塞Wilcoxon检验(n=574个独立观察值)得出的肠道微生物种类的元分析显著性以条高给出(错误发现率,FDR, 0.05)。(b)下面是个体研究中通过双边Wilcoxon检验(fdr校正p值)和广义折叠变化(方法)计算的物种水平显著性,分别以灰色和彩色的热图形式显示(关于所包含研究的详细信息见色条和表1)。物种按元分析显著性和变化方向排序。(c)对于高度显著性物种的核心(FDR 1E-5元分析),关联强度通过单个研究(彩色编码菱形)的接收者工作特征曲线(AUROC)下的面积来量化,95%置信区间用灰色线表示。科级分类学信息在物种名称上面用颜色编码(括号中的数字是mOTU物种标识符,参见方法)。(d)由疾病状态解释的方差(CRC vs对照)与由个体微生物物种的研究结果解释的方差进行对比,网点大小与丰度成正比(方法);核心微生物标记用红色突出显示。f . nucleatum- - - - - -梭菌属nucleatum
图2。
图2 . .crc相关肠道微生物物种的共发生分析显示,有四个簇优先与特定的患者亚群相关。
(一)热图显示了所有CRC患者(n=285个独立样本),如果各自的样本对每一组核心微生物标记物种都呈阳性(参见阳性阈值调整方法)。根据阳性标记的总和对样本进行排序,并根据阳性样本的Jaccard相似度对标记物种进行聚类,得到四类聚类(方法)。Barplots在(b)(c),(d)显示标记物种簇(定义为阳性标记物种的联合)阳性的CRC样本的比例,根据肿瘤位置、性别或CRC分期的差异,分别被患者亚组分解。使用Cochran-Mantel-Haenszel检验块研究效果,发现CRC亚组与标记物种簇之间存在显著的统计学相关性,并在柱状图上显示(P < 0.1)。
图3。
图3 . .分类学和功能宏基因组分类模型都可以在多个研究的数据上进行训练。
CRC分类精度来自于每个研究内的交叉验证(沿对角线的灰框)和研究-研究模型转移(非对角线的外部验证),由AUROC对训练的分类器进行测量(一)物种和(d)eggNOG基因家族丰度谱。最后一列描述了外部验证的平均AUROC。AUROC在一项保留区研究中评估的分类准确性在分类学上有所提高(b)或功能(e)来自所有其他研究的数据被结合起来进行训练(剔除一项研究,LOSO验证),相对于基于单一研究数据训练的模型(所示为研究间转移、平均值和标准差)。研究对研究转移的条形高度对应于四个分类器的平均值(误差条形表示标准差,n=4)。(c)与单一研究(用条形颜色表示,如(c)和(d))的数据训练的模型相比,结合跨研究的训练数据大大提高了(LOSO)分类模型的CRC特异性,这是通过对患有其他疾病的患者的粪便样本的假阳性率(FPR)进行评估得出的。研究-研究转移的条形高度对应于跨分类器的平均FPR (n=5),误差条形表示观察到的FPR值的标准差。
图4。
图4 . .meta分析发现CRC宏基因组一致的功能变化。
(一)来自阻塞Wilcoxon检验(n=574个独立样本)的肠道代谢模块的meta分析显著性由条高表示(顶部面板,FDR为0.01)。下面,单个研究中肠道代谢模块[31]的广义折叠变化(方法)显示为热图(见下面(b)的颜色键)。代谢模块按变化的意义和方向排序。模块的高级分类在热图下面用颜色标注了四个最常见的类别(如(b)所示的颜色,白色表示其他类别)。(b)比较对照(CTR)和结直肠癌病例(CRC)对这些选定功能类别的归一化对数丰度。丰度汇总为各自类别中所有模块的几何平均值,统计显著性由阻塞Wilcoxon检验确定(n=574个独立样本,见方法)。(c)比较对照组宏基因组(CTR)与结直肠癌病例宏基因组(CRC)的毒力因子和毒素归一化对数丰度(阻塞Wilcoxon检验,n=574个独立样本,差异有统计学意义P < 0.05,见宏基因组基因鉴定和定量方法;fadA:基因编码梭菌属nucleatum粘附蛋白,bft:基因编码脆弱拟杆菌肠毒素,繁荣正义党:基因组岛大肠杆菌编码酶的生产基因毒性大肠杆菌素,和:编码胆汁酸转化酶的梭状芽胞杆菌中存在胆汁酸诱导操纵子)。(d)由阻塞Wilcoxon检验(n=574个独立样本)确定的meta分析显著性(未校正p值)和个体研究中的广义折叠变化分别以条形图和热图的形式显示操纵子。由于序列相似性高baiFbaiK用我们的方法无法独立检测到。(e)宏基因组的量化baiF(metag。ab. -归一化相对丰度)与从DE样本子集(n=47)中提取的基因组DNA (gDNA)的qPCR定量进行对比,表明Pearson相关性(r)(见方法)。(f)的表达baiF与基因组DNA相反,通过qPCR对来自相同样本的反转录RNA进行测定(如e)。(e)和(f)一侧的箱线图显示了癌症(CRC)和对照(CTR)样本在各自qPCR定量分析中的差异(顶部的p值使用单侧Wilcoxon检验计算)。所有箱线图都显示四分位区间(IQR)为方框,中位数为黑色水平线,须状图延伸至1.5倍IQR内的最极端点。
图5。
图5 . .meta分析结果在三个独立的研究人群中得到验证
对于两个来自意大利和一个来自日本的独立数据集(见补充表S2), CRC分类精度由单个研究(白色)和剔除一个研究(灰色)模型的条高表示(一)物种或(b)eggNOG基因家族丰度谱(参见图3)。单个研究模型的柱高度对应于五个分类器的平均值(误差柱表示标准差,n=5)。(c)毒力因子和毒素的归一化对数丰度(参见图4c)在对照组(CTR)和结直肠癌病例(CRC)之间的比较。p值由阻塞、单侧Wilcoxon检验确定(n=193个独立样本)。方框表示四分位区间(IQR),中位数为一条黑色水平线,须状图延伸至1.5倍IQR内的最极端点。

评论

  • 结直肠癌的微生物特征。
    科赫L。 科赫L。 Nat Rev Genet 2019 6月;20(6):318-319。doi: 10.1038 / s41576 - 019 - 0126 - 2。 Nat Rev Genet, 2019。 PMID:30971807 没有可用的抽象。

类似的文章

引用的

发布类型

网格计算

物质