跳到主要内容
广告
浏览主题范围

点击公共科学图书馆分类法找到你所在领域的文章。

有关公共科学图书馆学科领域的更多信息,请单击在这里

  • 加载指标

狄利克雷多项式混合物:微生物宏基因组学的生成模型

摘要

我们引入狄利克雷多项式混合物(DMM)用于微生物宏基因组数据的概率建模。该数据可以表示为一个频率矩阵,给出在每个样本中观察到每个类群的次数。样本大小不同,矩阵稀疏,因为群落是多样化的,并向稀有类群倾斜。以前大多数用于分类或聚类样本的方法都忽略了这些特征。我们用一个分类群概率向量来描述每个群落。这些向量是由有限数量的狄利克雷混合分量中的一个产生的,每个分量都有不同的超参数。观察样本通过多项抽样产生。混合成分将群落聚集成不同的“元群落”,因此,决定了具有相似组成的群落的环境型或肠道型。该模型还可以推断处理的影响,并用于分类。我们编写了使用“证据框架”拟合DMM模型的软件(http://code.google.com/p/microbedmm/)。这包括模型证据的拉普拉斯近似。我们将DMM模型应用于肥胖和瘦弱双胞胎的人类肠道微生物属频率。从模型证据来看,有四个聚类最适合这一数据。2个类群以拟杆菌类为优势,且均质;其中两个社区的组成更加多变。我们没有发现体重对社区结构的显著影响。然而,肥胖双胞胎更可能来自高方差的集群。我们认为,肥胖与独特的菌群无关,但增加了一个人来自紊乱的肠型的机会。这是应用于微生物群落的“安娜·卡列尼娜原理(AKP)”的一个例子:受干扰的状态比未受干扰的状态有更多的构型。 We verify this by showing that in a study of inflammatory bowel disease (IBD) phenotypes, ileal Crohn's disease (ICD) is associated with a more variable community.

简介

应用于微生物宏基因组学的下一代测序已经改变了微生物多样性的研究。微生物宏基因组学,或对从微生物群落中提取的DNA进行测序,提供了一种不需要分离和培养就能确定存在什么生物的方法,这种方法在典型环境中只能访问不到1%的物种[1].在进行下一代测序之前,先克隆样本中的单个DNA片段,然后进行桑格测序[2]—如果按每次读取操作,该过程既缓慢又昂贵。直接下一代测序,例如454焦磷酸测序[3]或Illumina公司[4]它可以对微生物多样性进行更大规模的研究,总读数更多,取样的群落也更多。然而,从这些数据集中提取有生态意义的信息的统计学的发展没有实验方法发展得那么快。特别是,缺乏能够解释这些数据集的离散性、稀疏性和可变大小的工具。我们提出狄利克雷多项式混合物作为生成建模框架,以解决这一需求。

广义上讲,微生物宏基因组学数据可分为两种类型:扩增子宏基因组学或鸟枪宏基因组学。扩增子是在测序之前通过PCR对特定标记基因区域(通常是16S rRNA基因的可变区域)进行扩增产生的,因此数据由来自不同生物体的同源基因的reads组成。在鸟枪宏基因组学中,DNA以某种方式被碎片化,这些碎片被测序,从不同群体成员的整个基因组中产生解读。对于扩音器和霰弹枪读取器,都可以根据已知的类群对序列读取进行分类,并确定存在的生物体的列表和与之相关的读取频率[5].在大多数环境中,许多生物以前没有进行过分类学分类和测序,在这种情况下,可能必须在低分辨率的系统发育水平上生成分类群列表,例如门,以达到分类阅读的合理比例。另外,一种无监督策略可以通过聚类序列来识别传统分类单元的代理,称为操作分类单元(Operational taxonomic unit, OTUs)。[6].这通常在扩增子同源标记基因的情况下执行,但也可以应用于鸟枪宏基因组数据[7].无论使用有监督的方法还是无监督的方法,最终结果都是相同的:一个社区由一组类型(类群或otu)及其频率表示。对于鸟枪宏基因组数据,利用测序基因功能的信息可以进行更多的分析,但这里我们将重点分析微生物宏基因组产生的群落结构。通常,这将产生扩增子,这通常将是454焦焦测序,但我们要强调的是,该方法可以应用于任何具有离散丰度的类群或otu列表。

对微生物群落的早期研究集中在对个体样本的多样性进行分类,询问有多少不同的类群或otu存在[8][9]?一个显著的结果是,观察到的物种多样性非常高,而大多数物种的丰度都很低;这种现象被称为“稀有生物圈”[8].这些早期的研究忽略了测序和PCR误差的影响,这可能会增加OTU的多样性[10]但即使是在应用了能够消除这些错误的算法之后[11]在大多数环境中,观察到的多样性仍然很高,而在几乎所有环境中,丰度仍然向低丰度倾斜[10][12].这样做的后果是,即使有非常大的读取数,我们也只能采样到真正多样性的一小部分[13]

检验个体样本多样性的自然延伸是观察来自相似环境的样本之间的模式。条形码允许在一次运行中对多个样本进行测序,但量化DNA浓度的困难意味着从每个样本读取的数量通常会有很大的差异[14].子抽样可以用来将所有样本减少到相同的大小,但这不可避免地丢弃大量有意义的数据。大多数研究都是使用探索性统计在数据中寻找自然模式,又是无监督学习。一种常用的策略是使用多元排序技术,将样本定位在降维空间中,以保持它们在原来高维空间中的距离;通常使用二维或三维排序,然后可以用眼睛寻找模式。排序方法的一个经典例子是主成分分析(PCA),它生成的新维度是原始维度的线性组合,选择这些新维度是为了保持样本之间的欧氏距离[15].欧几里得距离不太适合用于微生物群落分析,更好的方法是使用包含不同类型之间的系统发育差异的测量方法,如Unifrac[16].排序可以使用使用多维缩放方法的任意距离度量来执行,这些度量可以是度量的,因为它们保留了距离,也可以是非度量的,因为它们保留了距离的排序。度量多维尺度的一个例子是主坐标分析,当与Unifrac相结合进行探索性数据分析时,主坐标分析已被证明是一个有用且流行的工具[17]

聚类是另一种探索性数据分析方法,它在样本中寻找自然组或分区。在微生物群落分析中,除非选择任意的截止点,否则不需要明确地对样本进行分组,就可以生成关系树,这种分层聚类是相当常用的,而将样本分组的分区聚类传统上不太受欢迎。这可能是因为需要做决定先天的有多少个集群。一般来说-means算法与启发式算法结合使用来判断聚类的好坏。到目前为止,还没有基于微生物群落数据聚类的模型。群落类型自然数量的问题最近在人类肠道中得到了特别的关注,有人建议找到三种微生物群落类型,称为环境型(或,在肠道中,肠道型)[18].分类或监督学习与聚类密切相关,只是这里的问题不是在数据中找到自然组,而是在给定训练数据集中的样本标签的情况下预测新样本的组。最近出现了两项将分类方法应用于微生物群落的研究[19][20].对于无监督方法,使用的大多数算法都是针对连续数据开发的,但值得注意的是,Knights等人(2001)的多项朴素贝叶斯(MNB)模型除外。[20]

然而,使用标准的多变量技术分析微生物宏基因组数据存在固有的问题。数据,即使归一化成相对丰度,基本上是离散的,只能用连续变量近似建模。此外,高多样性(相对于采样努力)导致非常稀疏的数据集;大多数类群只出现在少数样本中,丰度较低。最后,样本的读取数不同:小样本天生比大样本更嘈杂。所有这些问题都可以使用显式抽样方案来解决。我们不认为样本代表社区,而是认为它是通过从社区中抽样生成的。最自然的假设是用替换进行抽样,因此观察到的样本的可能性是一个带有参数向量的多项分布,其中给定的条目表示读取来自给定类群的概率。在非常大的群落规模的限制下,这些概率将成为类群的相对频率。这提供了一个离散模型,可以考虑不同的样本大小,并可以建模稀疏数据。

我们将展示如何使用这个多项抽样作为生成建模框架的起点,该框架显式地描述了生成观察数据的模型[21].这为微生物群落的聚类和分类提供了基于模型的替代方法。多项式分布参数的自然先验是狄利克雷。这是概率分布除以概率向量。在微生物群落的背景下,我们可以把它看作是描述一个元群落,从中可以提取群落的样本。然后,它的参数描述了期望共同体的平均值和共同体的方差。正如我们将要展示的,狄利克雷先验的一个主要优点是,未被观察到的群落参数向量可以被积分出来或边缘化,从而给出一个解析解证据:该数据由模型生成的概率。通过在混合狄利克雷之前扩展狄利克雷[22]- - - - - -[24],使数据集不是由单个元社区生成的,而是由多个元社区的混合生成的,我们既获得了数据更灵活的模型,又获得了集群社区的方法。为了进行聚类,我们只需为每个样本输入最有可能生成该样本的组件。这种方法根据样本产生概率最高的元群落将样本分组。这种方法比简单方法的优点-means型策略具有双重意义:(1)簇可以根据元群落的可变性而具有不同的大小,更重要的是(2)由于我们现在有了一个适合于数据的显式概率模型,那么我们可以使用证据和惩罚模型复杂性的方法来提供确定最佳簇数的严格手段。

多项抽样以前曾用于微生物群落的研究[20],它已经与狄利克雷先验耦合[25],但是在这种情况下,在混合狄利克雷分量之前的扩展是完全新颖的,每个狄利克雷分量与不同元群落的显式关联也是如此。我们的框架面临的主要挑战是,在微生物宏基因组数据集维度非常大的情况下,如何拟合狄利克雷混合物。这将使吉布斯抽样获得Dirichlet参数的后验分布具有挑战性,至少对于基于OTU的数据集而言。相反,我们利用证据的解析形式,并通过最大化来拟合狄利克雷参数,给定这些参数的超先验分布,这是“证据框架”的一个例子。[26].在实践中,这是通过耦合Dirichlet混合参数的期望-最大化(EM)算法和每个组件参数的多维优化来实现的。为了回答模型拟合的关键问题,我们使用拉普拉斯近似积分出超参数,并估计完整模型的证据。相比之下,对分类器的扩展相对简单。我们简单地将模型拟合到不同的类上,将先验估计为训练数据中类的频率,然后使用贝叶斯定理计算每个类生成待分类样本的概率。我们现在更详细地解释模型框架,并通过应用于人类肠道菌群的两个示例数据集来说明其效用[27][28]

材料与方法

多项抽样

我们的出发点是一个入住率矩阵与元素这给了我们观察到的丰富的类群在社区样本中在哪里从1到类群总数,从1到社区总数.我们将表示这个矩阵中的行,这些行给出了每个社区样本的入住情况向量.我们假设每个社区样本都是由一个带参数向量的多项分布生成的.的元素,是个体从社区读取的概率属于物种.多项式分布对应于从群落中进行置换的抽样。这就提供了观察每个社区样本的可能性:(1)在哪里是来自每个社区的总阅读数吗.总似然是社区样本似然的乘积:

狄利克雷混合先验

在贝叶斯方法中,我们现在需要定义多项式参数概率向量的先验分布.我们将这些称为“社区”,因为它们反映了社区的底层结构这是采样。基于狄利克雷分布的先验是自然的,因为它是共轭多项式,并且(我们将讨论)有许多方便的性质。狄利克雷函数是分布上的概率分布:(2)这个分布有我们可以用向量来表示参数这是一种测量方法,即所有元素都是严格正的,.我们可以表达,在那里而且是标准化的措施吗.的元素然后给出平均值价值观和价值观就像一个精度,决定了值与这个平均值有多接近:一个大给出的平均值方差很小,而一个小导致广泛分布的样本。从概念上讲,我们将这些参数视为描述一个“元社区”,从其中可以采样不同的社区。狄拉克函数确保规范化,即。

为了提供一个更灵活的建模框架并允许聚类,我们在混合之前扩展了这个单一的狄利克雷狄利克雷,索引,每个都有参数和重量[22][23].每个社区载体假设从单个元社区派生。对于每个样本,我们用a表示-维指示向量它由0组成,除了对应于该样本的元群落的项从它得到等于1。向量的先验概率就是混合权重,所以:(3)完整的混合先验是:(4)其中狄利克雷分布由方程2给出,混合先验超参数为

通过在狄利克雷参数上放置独立和同分布的超先验,可以改善模型的数值行为,也就是说,.因此,(5)因为我们稍后将使用以下重新参数化:,利用概率密度函数的变变量公式进行先验的转换变成一个,得到的结果是:(6)

多项式参数的后验分布

群落参数的后验分布是通过将狄利克雷混合先验乘以多项似然(公式1)并适当归一化得到的(7)狄利克雷是多项式的共轭先验对于单个狄利克雷,后验本身就是一个狄利克雷,其参数是通过将观察到的计数和狄利克雷参数相加得到的,.对于狄利克雷混合,这种共轭性保持不变,式7也可以写成狄利克雷混合:(8)我们将讨论后验概率的计算,,对于来自下面元群落的样本。

多项式参数的边缘化

式7的分母等于,证据为社区样本.这是通过对分子,即混合先验积分得到的乘以概率高于所有可能的社区前科。它是观察到这个数据的完全概率,将看不见的概率矢量边缘化.狄利克雷先验的一个有用的性质是这个证据具有闭合形式。只关注单一的混合物成分这里的函数为多项贝塔函数,可以用函数表示为:到目前为止,我们只考虑了单个社区样本的后验和证据.所有样本的证据只是每个样本的证据的乘积:(9)

混合dirichlet先验拟合的EM算法

我们拟合混合狄利克雷函数的策略是最大化给定超先验的证据。严格的贝叶斯方法是从未观测到的超参数中采样,,和潜变量,在给定超先验条件下,采用马尔可夫链蒙特卡洛(MCMC)算法,然后进行边缘化。这对于高维空间来说是具有计算挑战性的在微生物学数据中遇到的载体。最大化证据允许我们获得一个参数向量,它将对应于给定超先验的最可能的参数集。这项技术已经很成熟,被称为“证据框架”。[21][26].超参数的后验分布由证据(公式9)和超先验的乘积给出如式5所示。严格地说,为了将它与多项式参数的后验区分开,我们应该将其称为边际后验分布,但我们的意思应该从所使用的上下文清楚。我们也隐式地假设了其他分量的一致上先验,混合系数.最大化超参数的后验值等价于最大化超参数的后验对数,.因此:在哪里(10)

我们现在使用二元潜变量矩阵与元素等于1,如果社区样本属于元群落为Th,其他为0。这个矩阵的行是上面介绍的向量。这允许我们使用流行的期望最大化(EM)算法最大化对数后验分布[21].用这些潜变量对数据进行增强,证据和对数后验分布分别为:利用Jensen不等式,我们得到了期望对数后验分布的下界:(11)我们可以计算如下:(12)我们用了贝叶斯定理

后Sjolander(1996)[22],我们现在重新参数化和优化关于这些新参数的期望对数后验分布:以保持结果是肯定的,我们确定了,并保持正常化,我们设定.优化关于等价于解以下方程:重新排列这个方程,我们得到:因此:(13)

我们的EM算法这样就可以交替更新职责,混合系数和狄利克雷参数

  • 计算用式12。
  • 更新通过找到最小化方程11的负数的参数。在实践中,我们使用了Gnu科学库中实现的Broyden-Fletcher-Goldfarb-Shanno (BFGS)算法[29]
  • 计算用式13表示。
  • 重复,直到,可由式11计算。

我们将这种方法得到的超参数值称为最大后验估计(MPE)。

通过拉普拉斯近似进行模型比较。

我们需要确定组分的数量在狄利克雷混合物中。我们不能简单地选择后对数最大的那个,,因为这没有考虑模型的复杂性:随着组件数量的增加,必须增加。我们可以使用像Aikaike信息准则(AIC)或贝叶斯信息准则(BIC)这样的启发式方法来惩罚模型参数,但这可能会产生误导的结果[21].更好的方法是采用完全贝叶斯方法进行模型比较,其中概率用来表示模型选择中的不确定性。应用贝叶斯定理,后验概率组件模型给定数据矩阵是:在哪里先验概率是多少组件模型,它允许我们表达对不同模型的偏好,以及是模型证据,它表示数据对不同模型的偏好。在我们的案例中,模型证据由:这个积分不能用解析法计算,但可以用拉普拉斯近似来估计:(14)在哪里参数的数量在吗参数是否最大化后验分布负对数后验的二阶导数的黑森矩阵在(15)因此,

Hessian矩阵的非零元素如下:而且在哪里而且.在结果中,我们将给公式14的负数,以便更好的拟合对应较小的值。的参数估计中的不确定性也允许我们计算,通过求逆,然后对角元素给出相应参数的方差。

数据集

双胞胎。

为了说明这些想法在真实数据集中的应用,我们重新分析了一项关于双胞胎及其母亲肠道微生物群的研究[27].这些粪便样本来自154个不同的个体,他们的家庭和身体质量指数分别为“瘦”、“胖”和“超重”。每个人分别在两个时间点采样,间隔约两个月。用PCR扩增16S rRNA基因V2高变区,用454测序。我们重新分析了该数据集过滤读取,去噪和删除嵌合体使用AmpliconNoise管道[10][11].然后,使用RDP独立分类器将去噪的读数分类到属级别[5].这总共提供了570,851个读取拆分到278个样本中,因为在308个可能的样本中,有些样本在过滤后未能拥有任何读取。单个样本的大小从53到10585不等,中位数为1599。共观察到129个不同属,每个样本的属多样性从12到50不等,中位数为28。一个额外的类别“未知”用于那些未能以大于50%的引导确定性进行分类的读数。我们将其称为“双胞胎”数据集。

炎症性肠病。

我们还包括来自炎症性肠病(IBDs)研究的微生物组数据的简要分析。[28].这包括78个人的粪便样本,其中16S rRNA基因的V5-6区用454进行焦磷酸测序。35个样本来自健康个体,12个样本来自结肠克罗恩病(CCD)个体,15个样本来自回肠克罗恩病(ICD)个体,16个样本来自溃疡性结肠炎(UC)个体。我们对数据进行了如上处理。这总共提供了134,276次读取,每个样本的大小从394到3258不等,中位数为1,710次读取。在这些样品中观察到93个独立属,每个样品的属多样性为8 ~ 33个,中位数为22个。

结果

聚类元社区级别的双胞胎数据

dirichlet先验的混合可用于元群落水平的样本聚类。假设每个样本代表一个独特的社区,我们可以尝试推断该社区最有可能起源于哪个元社区。这是每个成员的后验概率最高的分量,即的值最大化对于一个特定的样本.我们将把这个值表示为.这些后验概率就是用EM拟合算法计算。

为了在元群落级别上使用混合狄利克雷先验聚类,我们首先需要确定聚类或混合成分的数量应该是。为了做到这一点,我们拟合狄利克雷混合物通过最小化负对数后验如上所述。为了计算模型拟合考虑到复杂性,我们然后使用拉普拉斯近似模型证据。我们这样做是为了增加的值从单一的组件开始.结果显示在图1我们在哪里看到最小值首先,对于这个数据集,混合的狄利克雷比单一的狄利克雷先验更合适,其次,混合有四个分量。

缩略图
图1所示。模型适合混合dirichlet在Twins数据集之前。

评估模型对狄利克雷混合组分数量增加的拟合性使用拉普拉斯近似对负对数模型证据。

https://doi.org/10.1371/journal.pone.0030126.g001

这四个分量都有权重.他们的不同之处在于他们的社区是如何变化的.因此我们有两个丰度较低的高可变聚类1和4和两个丰度较高的均匀聚类2和3。图形化地说明了这种最优聚类图2我们使用非度量多维尺度(NMDS)为每个社区样本生成二维位置,以及与四个狄利克雷分量相关的平均向量,用R的isoMDS函数反映它们的Bray-Curtis距离[30].由此可见,第一和第四个类群的变异性较高。另一个惊人的观察结果是,群落不一定与最接近的聚类平均值相关。这在一定程度上反映了二维空间的不完美映射,但它也可能反映了通过多项狄利克雷结构对抽样的适当解释。

缩略图
图2。具有分层簇标记的Twins数据集的NMDS图。

分别用红、绿、蓝、品红色表示四种成分的样品。黑色叉表示每个分量的狄利克雷均值。

https://doi.org/10.1371/journal.pone.0030126.g002

为了探索组分组成,我们使用狄利克雷参数向量,通过拟合单一混合物的数据集作为参考,我们将表示.对感兴趣介于四个分量之间的值。我们可以通过计算它们与参考点的后验平均绝对差的总和来了解这些分量之间的差异有多大.对于与参考相同和完全不同的元社区,这个量将在0到200%之间变化。计算得出四个组成部分分别为34%、26%、51%和47%,共158%,说明参考文献中每个组成部分的群落结构存在很大差异。不同的OTUs是如何导致这些差异的表1.比较这四个成分的后验分布的均值,我们发现131个属中的30个占了这个差异的90%以上。单是拟杆菌门就占了这种差异的29%。该属在第三类群中占近39%,接近第二类群中23%的参考值,在第一和第四类群中分别约7%和8%的比例要低得多。第二个最显著不同的类别实际上是“未知”,在第四个成分中没有被分类的序列比参考成分多了近15%,在第三个成分中少了8%。粪便杆菌在第四个成分中明显不足,而普雷沃氏菌主要在第一个成分中发现。其他属表现出不同的模式,但我们经常看到在第一个和第四个簇中的一个或两个簇中有过多的代表,而在第二个和第三个簇中很少有代表,例如科林赛菌属、真杆菌属、链球菌属等。

这些模式也图解在相对频率的“热图”中显示图3.所有样本的簇间差异最大的30个属的相对频率均显示出来。如前所述,样本被分组到生成它们的概率最高的群集中。聚类均值在映射到该聚类的样本的右侧绘制。粗略地说,我们知道两个低方差的类群是由拟杆菌和粪杆菌主导的,尽管在第三个类群中占了更大的比例。变异较大的第一和第四个类群包含了更多种类的属,但第一类群中普雷沃氏菌属和粪卵形杆菌属要比第四类群多,而第四类群中没有真正占主导地位的属。

缩略图
图3。双胞胎数据的热图和分层聚类。

热图显示双胞胎的数据和样本根据最有可能产生的集群分组。131个属中只有30个被显示出来,这些属在簇间变异最大,见表1.在每个簇的右边显示了该混合物的狄利克雷分量的平均值。数据经过平方根转换,因此要将尺度转换为相对丰度,值必须平方。

https://doi.org/10.1371/journal.pone.0030126.g003

双胞胎数据的生成分类器

dirichlet -多项式框架也可用于分类。这是一种监督学习方法,与上一节中使用的无监督学习方法相反。这里,我们将考虑二进制类的情况,但任何数量的类都是一个简单的扩展。给定一个训练数据集样品对象表示类成员维向量与元素不是0就是1。分类问题是推导类一个新的样品.为此,我们将每个类关联一个单独的狄利克雷多项式混合模型。我们将这些混合物的超参数表示为而且,分别。然后我们可以对待分类样本的多项参数进行边缘化,从而:(16)样本的概率属于第二类和吗.先验类概率被估计为观测到的类频率,因此而且.类混合本身的确定与以前一样,但数据点仅限于这些类成员。我们还可以通过比较类的模型拟合和忽略类变量的模型拟合来确定拟合是否显著。这是我们的生成分类方案。

我们将把这个应用到双胞胎的数据,表明个人的“瘦”BMI通过和“肥胖”作为.我们将忽略“超重”类别,以避免歧义。在图4我们重新绘制的NMDS图图2使用这些类标签。没有根据类标签对点进行戏剧性的分离。我们发现精益是这样的单组分狄利克雷混合物组为最佳,肥胖组为最佳三类分量使模型证据的拉普拉斯近似最小化。三个肥胖成分的每一个的平均值是相当不同的,但整个先验抽样的后验平均值从所有三个根据他们的权重(黑圈在图4)接近于来自Lean类的单个组件(黑色星号)图4)。事实上,考虑到狄利克雷先验和这些样本的不确定性,那么只有一个低频属Megasphaera在不同的类之间有显著的差异表达,有97%的概率在肥胖人群中更丰富。此外,分别拟合两个类并没有比拟合整个数据集(35640 vs. 35385)提供明显更好的拟合。这一点从比较中也很明显图2而且图4每个类组件映射到整个数据集聚类中的一个组件,这是通过比较两组均值向量之间的Bray-Curtis距离来确认的,来自精益类的组件映射到整个数据集中的四个组件中的第二个,以及来自肥胖类的三个组件映射到第三、第一和第四。总之,瘦类和肥胖类之间的差异似乎不在于平均群体组成水平,而在于肥胖个体包含更多样化的群体结构,包括在完整数据集中发现的四个组成部分中的三个。

缩略图
图4。带有类标签的Twins数据集的NMDS图。

来自Lean的样本()和肥胖()是青色的。超重的是灰色的。黑色的叉表示肥胖类的三个分量中每个分量的狄利克雷均值,黑色的星号表示瘦类的单个分量。我们还显示整个肥胖类的后验均值为一个黑圈。

https://doi.org/10.1371/journal.pone.0030126.g004

在最近对应用于微生物群落数据的分类算法的评估中,随机森林算法被发现表现最好[20],大大优于弹性网、支持向量机和多项朴素贝叶斯(MNB)。随机森林算法是集成学习的一个例子,其中生成了许多分类器并聚合了它们的预测。特别是,它是被称为bootstrap aggreging或bagging的机器学习技术的扩展。套袋法从数据的自举样本中构造决策树,通过多数投票进行类预测。随机森林通过改变决策树的构造方式,为套袋增加了额外的随机性。不是使用在所有变量中使用最佳分割来分割每个节点,而是使用在随机选择的预测器子集中使用最佳分割。此外,随机森林算法还通过计算当该变量的数据被打乱时预测误差增加的多少来衡量该变量的重要性。因此,随机森林似乎是比较生成分类器性能的合适基准。紧随Knights等人(2011)[20],我们使用R中的randomForest包实现了随机森林算法,尽管我们根据lilaw和Wiener(2002)建议的启发式方法调整了算法的参数(每个节点随机子集中的变量的数量和森林中的树的数量)。[31]

为了比较两种分类方法,我们进行了留一种验证。我们依次从数据集中删除每个样本,训练分类器,并对缺失的数据点进行分类。如果预测概率大于或等于0.5,则将数据点指定为肥胖。与狄利克雷多项式生成分类器相比,随机森林算法的错误率(18.5%)略低,即样本错误分类的比例(22.4%)。检查每个分类器的“混淆矩阵”,表2,即每个真正的类中被划分为两个类的个体数量,这表明生成分类器在类之间确实有更好的错误分布。然后我们为每个分类器生成接收器工作特征(ROC)曲线。这些在图5.它们是通过降低肥胖的可能性对样本进行排序而生成的:对于生成分类器来说,这只是肥胖的概率,即。;对于随机森林,这是加权投票。然后我们将阈值从1.0降低到0.0,其间隔由样本概率定义。所有概率大于或等于给定阈值的样本被归为肥胖,其他所有样本被归为瘦。在这些分类的基础上,计算假阳性率(即瘦子被划分为肥胖)和真阳性率(肥胖被划分为肥胖),并相互绘图。对所有阈值重复此操作。它是一种在所有决策阈值上总结分类器性能的方法。这两种分类器的性能都明显优于随机分类器,但在较低的阈值下,随机森林的性能优于生成分类器,且假阳性较少。一个汇总的统计数据是ROC曲线下的面积,对于随机森林,这是85%;狄里克莱多项式的回收率为79%。

缩略图
图5。双狄利克雷多项式和随机森林分类器的接收机工作特征曲线。

给出y轴上的真阳性百分比,即正确识别的肥胖个体与假阳性百分比,即标记为肥胖的瘦个体。

https://doi.org/10.1371/journal.pone.0030126.g005

IBD表型分析

最后,我们简要分析了炎症性肠病(IBD)的表型。在图6我们展示了一个NMDS图,根据表型对上述生成的数据集进行着色。由此可见,健康(H)个体,以及结肠克罗恩病(CCD)和溃疡性结肠炎(UC)的个体,具有相似的、相当同质的社区结构,而回肠克罗恩病(ICD)的个体在社区结构上有更大的变化。我们可以使用DMM模型来量化这一点,我们将单组分模型拟合到所有样本上,然后分别对每个表型进行拟合。的整个数据集的值为15.7,表型(H) 22.2, (CCD) 39.4, (ICD) 5.1, (UC) 38.5。记住,与方差的倒数相关,那么这证实了ICD表型与元群落变异性的增加相关。我们还展示了元社区的含义图6作为交叉:H, CCD和UC有相似的位置,而ICD的平均值是位移的。不同的otu是如何导致ICD样本的差异的表3在图片上图7.未知菌属、拟杆菌属和粪杆菌属的比例减少,而许多其他属如埃希氏菌/志贺氏菌属、萨特氏菌属和普雷沃氏菌属的比例增加。

缩略图
图6。带有类标签的IBD数据集的NMDS图。

样本来自健康个体(黑色)和三种IBD表型,(红色)结肠克罗恩病(CCD),(绿色)回肠克罗恩病(ICD)和(蓝色)溃疡性结肠炎(UC)。单组元拟合的狄利克雷均值由相应的彩色交叉表示。

https://doi.org/10.1371/journal.pone.0030126.g006

缩略图
图7。IBD数据按表型划分的热图以及表型均值。

热图显示IBD数据和根据IBD表型分组的样本。四个单分量Dirichlet模型的均值,拟合健康(),结肠克罗恩病(CCD -))、回肠克罗恩病(ICD -溃疡性结肠炎(UC -)表型也显示出来。在95个属中只有25个被显示出来,这些属具有最大的表现型变异性,见表3.数据经过平方根转换,因此要将尺度转换为相对丰度,值必须平方。

https://doi.org/10.1371/journal.pone.0030126.g007

讨论

我们已经证明,狄利克雷多项式混合物是微生物群落数据生成建模的一个强大框架。它可以在多个层次上工作,它允许读取数字,因此可以自然地解释采样噪声,并且狄利克雷参数很容易根据每个组件生成的群落的均值和方差来解释。用于“无监督学习”或聚类,它提供了一种方法来确定群落或环境类型的聚类,这是微生物群落数据分析中一个非常热门的问题。由于这是一个概率模型,我们可以利用严格的统计理论来确定给定的聚类数如何很好地解释数据。

我们用Twins数据集说明了这种方法。使用我们的模型,该样本中存在的环境型(或肠道菌群样本中所称的“肠道型”)的数量最可能的估计是4种。我们对模型拟合的度量,即近似模型证据的负对数,比次优聚类数(3)少41。因此,在我们的模型中,有四个而不是三个或五个集群的概率实际上是100%。然而,贝叶斯方法的一个直接含义是,对环境类型数量的任何点估计都代表了集群数量上的后验分布的总结(在我们的例子中,是模式)。对于其他数据集,预测的簇数可能更不确定。这种不确定性可以自然地纳入我们的方法。

我们的分析及其统计意义可能与之前对相同双胞胎数据集的分析形成对比,后者使用围绕中位数(PAM)聚类的分区,并结合启发式的Calinski-Harabasz (CH)索引[18].CH方法没有承认集群数量存在固有的不确定性这一事实,因此可能被误解为提供了对集群数量的明确和确定的评估。此外,PAM聚类算法不允许簇的扩散是可变的。这可能就是为什么他们发现了三个而不是四个星系团的原因。DMM模型的额外灵活性可以更好地表示数据中的真实模式。对我们来说,这支持了一个概率模型的承诺,它具有对不同大小的集群建模的灵活性和确定集群数量的贝叶斯方法。

用于“监督学习”的狄利克雷多项式混合提供了一个有效的分类器。ROC曲线下的面积总结出的绝对分类能力小于之前测试过的表现最好的算法——随机森林。然而,使用0.5的标准分类阈值,它在类之间有更好的错误分布,优于较小的“精益”类上的随机森林。一般来说,我们期望鉴别分类器(它只对给定数据的类标签的条件概率进行建模)的性能优于生成模型(它符合实际的类分布)。另一方面,生成方法允许更容易地解释拟合模型,这往往比准确性更重要本身.拟合的狄利克雷参数描述了群落的组成,以及与类相关的组成的临界方差。我们提出的概率框架还允许严格检验两个类是否在群落组成上存在差异的假设。或者等效地,一个离散的实验处理是否显著地影响社区结构。

生成模型为聚类和分类提供了一个框架,但它们的全部功能来自于将两者结合起来的能力。我们将为Twins的数据说明这一点。在表4我们给出了来自每个BMI类别的样本的比例,即瘦、胖和超重,它们属于我们的四种肠道型。对于这个数据集,我们没有看到瘦和肥胖个体之间的平均群体组成有显著差异。然而,很明显,这两个类在从每个集群派生的概率上确实存在显著差异。与肥胖个体相比,瘦人更不可能从第一和第四个群体中衍生出来。它们更有可能来自第二种,而不太可能来自第三种。这为先前从该数据中报道的瘦人和肥胖者在类群频率上的差异提供了一种新的解释。BMI本身与群落结构的变化无关,但它影响从四种肠道型衍生的可能性。

这就提出了一种有趣的可能性,即第一和第四种肠道型可能与紊乱的可能不健康的肠道菌群有关——“菌群失调”。这意味着肥胖并不能保证菌群紊乱,而是增加了紊乱的可能性。最后,我们回到观察,第一和第四肠型在群落结构上比第二和第三肠型有更高的方差。我们认为这是“安娜·卡列尼娜原则”应用于微生物群落的一个例子。这个原则是由Jared Diamond推广的[32]出自托尔斯泰小说的第一句:“幸福的家庭都是相似的;不幸的家庭各有各的不幸。”[33].我们提出,同样的事情可能适用于人类健康中的微生物群落,与生物失调相关的配置比健康群落可能存在的更多,健康群落相对可预测和同质性,因为它需要某些关键成分。这并不是说第一和第四肠型在个体样本中与较高的属水平多样性相关,中位多样性在肠型之间没有显著差异,而是群落组成的多样性增加了。因此,我们的观察结果也与原始研究的结论一致,即肥胖的主要影响是OTU多样性的减少[27]

对双胞胎数据的这种解释显然是推测性的,需要更多关于宿主健康的元数据进行进一步的研究来证实。IBD表型数据的分析是朝着这个方向迈出的第一步。在那里,我们确实发现了与一种疾病表型——回肠克罗恩病——相关的更加多变的微生物群,但与结肠克罗恩病或溃疡性结肠炎无关。因此,这是对AKP的部分支持。然而,后两种疾病可能与肠道菌群失调关系不大。当然,在属水平上,我们无法将它们的群落组成与健康个体区分开来。每种疾病表型的样本数量也相当少。我们希望未来的大规模测序项目能让我们进一步研究这个问题。“人类微生物组项目”仅限于健康的个体,但这将使我们能够验证我们提出的与健康菌群相关的两种肠道型的存在[34]

拟合狄利克雷多项式混合物的软件可从谷歌程式码计划MicrobeDMM (http://code.google.com/p/microbedmm/)。

致谢

我们要感谢Jose Carlos Clemente、Alan Walker和三位匿名审稿人对这篇手稿早期草稿的评论,感谢Peter Turnbaugh提供双胞胎数据,感谢Ben Willing、Johan Dicksved和Anders Andersson提供IBD数据集。

作者的贡献

构思并设计了IH KH CQ实验。进行了实验:IH KH CQ。分析数据:IH KH CQ。贡献的试剂/材料/分析工具:IH KH CQ。论文作者:IH KH CQ。

参考文献

  1. 1.Streit W, Schmitz R(2004)宏基因组学——未培养微生物的关键。微生物学评论7:492-498。
  2. 2.Dorigo U, volatile L, Humbert JF(2005)水生微生物群落生物多样性评估的分子方法。水Res 39: 2207-2218。
  3. 3.Margulies M, Egholm M, Altman W, Attiya S, Bader J,等。(2005)微合成高密度皮升反应器的基因组测序。自然437:376-380。
  4. 4.Caporaso JG, Lauber CL, Walters WA, Berg-Lyons D, Lozupone CA, et al.(2011)每个样本数百万序列深度下16S rRNA多样性的全球模式。美国国家科学研究院。打印前的E-pub doi: 10.1073/pnas.1000080107。
  5. 5.王强,Garrity GM, Tiedje JM, Cole JR(2007)用于将rRNA序列快速分配到新的细菌分类中的朴素贝叶斯分类器。应用环境微生物学73:5261-5267。
  6. 6.Schloss P, Handelsman J(2005)介绍DOTUR,一种定义操作分类单位和估计物种丰富度的计算机程序。应用环境微生物监测71:1501-1506。
  7. 7.Schloss PD, Handelsman J(2008)宏基因组学的统计工具箱:评估微生物群落的功能多样性。BMC Bioinf 9:
  8. 8.Sogin ML, Morrison HG, Huber JA, Mark Welch D, house SM,等(2006)深海微生物多样性与未开发的“稀有生物圈”。美国科学院学报103:12115-12120。
  9. 9.Huber JA, Mark Welch D, Morrison HG, house SM, Neal PR,等(2007)深海生物圈微生物种群结构。科学版318:97-100。
  10. 10.Quince C, Lanzen A, Curtis TP, Davenport RJ, Hall N,等(2009)从454份焦磷酸测序数据中准确测定微生物多样性。Nat Methods 6: 639-641。
  11. 11.Quince C, Lanzen A, Davenport RJ, Turnbaugh PJ(2011)去除焦焦序列放大器的噪声。BMC Bioinf 12:
  12. 12.Turnbaugh PJ, Quince C, Faith JJ, McHardy AC, Yatsunenko T,等。(2010)同卵双胞胎肠道微生物深度测序的有机体、遗传和转录变异。美国科学院学报107:7503-7508。
  13. 13.昆斯·C,柯蒂斯·TP,斯隆·WT(2008)微生物多样性的理性探索。Isme j 2: 997-1006。
  14. 14.Hamady M, Walker JJ, Harris JK, Gold NJ, Knight R(2008)用于多路焦磷酸测序数百个样品的纠错条形码引物。Nat方法5:235-237。
  15. 15.Ramette A(2007)微生物生态学的多元分析。FEMS微生物学Ecol 62: 142-160。
  16. 16.Lozupone C, Knight R (2005) UniFrac:比较微生物群落的一种新的系统发育方法。应用环境微生物71:8228-8235。
  17. 17.Caporaso JG, Kuczynski J, Stombaugh J, Bittinger K, Bushman FD,等(2010)QIIME允许分析高通量群落测序数据。Nat Methods 7: 335-336。
  18. 18.Arumugam M, Raes J, Pelletier E, Le Paslier D, Yamada T,等(2011)人肠道微生物群的肠型。自然473:174-180。
  19. 19.孙燕,蔡勇,麦V, Farmerie W, Yu F等。(2010)利用大量16S rRNA序列数据进行微生物群落分析的先进计算算法。核酸Res 38:
  20. 20.Knight D, Costello E, Knight R(2011)人类微生物区系的监督分类。FEMS微生物学版35:343-359。
  21. 21.Bishop CM(2006)模式识别和机器学习。耶鲁大学出版社。
  22. 22.Sjolander K, Karplus K, Brown M, huhey R, Krogh A, et al. (1996) Dirichlet混合物:一种改进的检测微弱但显著蛋白质序列同源性的方法。计算应用生物科学12:327-345。
  23. 23.薛燕,于玉凯,Altschul SF (2010) Dirichlet混合先验的成分调整。《计算生物学》杂志17:1607-1620。
  24. 24.Bouguila N(2011)使用有限混合分布的计数数据建模和分类。IEEE跨神经网络22:186-198。
  25. 25.D K, Kuczynski J, Charlson ES, Zaneveld J, Mozer MC,等(2011)贝叶斯社区范围内培养无关的微生物源跟踪。Nat Methods 8: 761-763。
  26. 26.Mackay DJ(1992)贝叶斯插值。神经计算4:415-417。
  27. 27.Turnbaugh PJ, Hamady M, Yatsunenko T, Cantarel BL, Duncan A,等(2009)肥胖和瘦弱双胞胎的核心肠道微生物群。自然457:480-484。
  28. 28.Willing BP, Dicksved J, Halfvarson J, Andersson AF, Lucio M,等(2010)双胞胎的焦硫测序研究表明胃肠道微生物图谱随炎症性肠病表型的变化而变化。消化病学139:1844-U105。
  29. 29.Galassi M (2009) GNU科学图书馆参考手册。URLhttp://www.gnu.org/software/gsl/.ISBN 0-954612-07-8。
  30. 30.R开发核心团队(2010):统计计算语言和环境。R统计计算基金会,维也纳,奥地利。URLhttp://www.R-project.org.ISBN 3-900051-07-0。
  31. 31.李国强,李国强(2002)。R新闻2:18 - 22。
  32. 32.戴蒙德J(1997)《枪炮、细菌与钢铁》。纽约,纽约:w·w·诺顿。
  33. 33.托尔斯泰L(1877)安娜·卡列尼娜。莫斯科,俄罗斯:俄罗斯信使。
  34. 34.Peterson J, Garges S, Giovanni M, McInnes P, Wang L,等(2009)美国国立卫生研究院人体微生物组项目。基因组Res 19: 2317-2323。