跳转到主页内容
访问键 NCBI主页 MyNCBI主页 主要内容 主导航
2011年8月4日;12:323。
doi: 10.1186 / 1471-2105-12-323。

RSEM:从RNA-Seq数据中精确的转录物定量,有或没有参考基因组

从属关系
免费PMC文章

RSEM:从RNA-Seq数据中精确的转录物定量,有或没有参考基因组

Bo李et al。 BMC生物信息学
免费PMC文章

摘要

背景:RNA-Seq正在彻底改变转录物丰度的测量方法。从RNA-Seq数据进行转录物量化的一个关键挑战是如何处理映射到多个基因或异构体的读取。在没有测序基因组的情况下,这个问题对于用从头转录组组装进行量化特别重要,因为很难确定哪些转录本是同一基因的同型。第二个重要问题是RNA-Seq实验的设计,包括读取次数、读取长度以及读取是来自cDNA片段的一端还是两端。

结果:我们提出了RSEM,一个用户友好的软件包,用于量化单端或配对端RNA-Seq数据中的基因和异构体丰度。RSEM输出丰度估计、95%可信区间和可视化文件,还可以模拟RNA-Seq数据。与其他现有工具相比,该软件不需要参考基因组。因此,结合从头转录组组装,RSEM可以对没有测序基因组的物种进行精确的转录定量。在模拟和真实数据集上,RSEM比依赖参考基因组的量化方法具有更好或相当的性能。利用RSEM的能力,有效地使用模糊映射读取,我们表明,准确的基因水平丰度估计是最好的获得大量短单端读取。另一方面,根据每个基因可能的剪接形式的数量,可以通过使用配对末端读取来提高对单个基因中异构体相对频率的估计。

结论:RSEM是一种精确且用户友好的软件工具,用于量化RNA-Seq数据中的转录丰度。由于它不依赖于参考基因组的存在,因此对于从头转录组组装的量化特别有用。此外,RSEM为目前相对昂贵的RNA-Seq量化实验的成本效益设计提供了有价值的指导。

数据

图1
图1
RSEM软件工作流程.标准的RSEM工作流(由实线箭头指示)由运行的两个程序组成( rsem-prepare-reference而且 rsem-calculate-expression),自动使用Bowtie进行读取对齐。带有替代对齐程序的工作流还使用由虚线箭头连接的步骤。另外两个项目, rsem-bam2wig而且 rsem-plot-model,允许可视化RSEM的输出。RNA-Seq数据也可以用RSEM通过虚线箭头所示的工作流程进行模拟。
图2
图2
UCSC基因组浏览器中的RSEM可视化.UCSC基因组浏览器中小鼠RNA-Seq数据集SRR065546中RSEM输出的可视化示例。(A)摆动输出的同时可视化,它给出了基因组中每个位置的预期读取深度,以及BAM输出,它给出了概率加权读取对齐。在BAM轨迹中,配对的读取由一条细黑线连接,读取的黑暗表示其对齐的后验概率(黑色表示高概率)。(B)一个基因示例,其预期的读取深度(顶部轨道)与从唯一映射只读(底部轨道)计算的读取深度有很大差异。
图3
图3
四种RNA-Seq定量方法的准确性.RSEM, IsoEM, Cufflinks和rQuant在模拟RNA-Seq数据上估计的百分比误差分布。PE数据的全局异构体和基因估计的误差分布分别如(A)和(B)所示。SE数据的全局异构体和基因估计误差分布分别见(C)和(D)。
图4
图4
RSEM使用的有向图形模型.该模型包括N一组随机变量,每一个测序RNA-Seq片段。的片段n时,父转录本、长度、起始位置和方向用潜变量表示GnFn年代n而且On分别。对于PE数据,观察到的变量(阴影圈)为读取长度(公式的形象而且公式的形象)、品质分数(公式的形象而且公式的形象)和序列(公式的形象而且公式的形象)。对于SE数据,公式的形象公式的形象,公式的形象未被注意的。模型的主要参数由矢量给出θ,表示从每个转录本中得到一个片段的先验概率。

类似的文章

参考文献

    1. 王志强,王志强,王志强。RNA-Seq:转录组学的革命性工具。自然评论遗传学。2009;10:57-63。doi: 10.1038 / nrg2484。-DOI-PMC-PubMed
    1. 伯纳特,Rätsch G. rQuant。web:基于rna - seq的转录定量工具。《核酸研究》,2010。W348-51页。-PMC-PubMed
    1. Katz Y, Wang ET, Airoldi EM, Burge CB。分析和设计鉴定异构体调控的RNA测序实验。自然科学进展。2010;7(12):1009-15。doi: 10.1038 / nmeth.1528。-DOI-PMC-PubMed
    1. 孙文杰,刘志刚,刘志刚。生物信息学中的算法,计算机科学。莫尔顿V,辛格M,编辑。英国利物浦:施普林格柏林/海德堡;2010.从RNA-Seq数据估计可选剪接异构体频率202 - 214页。
    1. 蒋浩,王文辉。RNA-Seq中异构体表达的统计学推论。生物信息学。2009;25(8):1026 - 1032。doi: 10.1093 /生物信息学/ btp113。-DOI-PMC-PubMed

发布类型

LinkOut -更多的资源