摘要
简介:Infernal构建了一个RNA家族的序列和二级结构的概率轮廓,称为协方差模型(CMs),从结构上注释的多个序列比对作为输入。Infernal使用CMs在序列数据库中搜索新的家族成员,并创建潜在的大型多序列比对。Infernal 1.1版本引入了一种新的基于加速轮廓隐马尔可夫模型(HMM)方法和HMM-带状CM对齐方法的RNA同源搜索过滤管道。这使得在以前版本的基础上可以加速~ 100倍,在完全无过滤的CM搜索基础上可以加速~ 10000倍。
可用性:源代码、文档和基准测试都可以从这里下载http://infernal.janelia.org.Infernal是根据GNU GPLv3自由授权的,应该可以移植到任何posix兼容的操作系统,包括Linux和Mac OS/X。文档包括带有教程的用户指南、文件格式和用户选项的讨论以及软件中实现的方法的附加细节。
1介绍
许多结构RNA保存其序列和二级结构,最有效的RNA同源性搜索和比对工具将这两种类型的保存纳入其评分系统。协方差模型(CMs)是剖面随机上下文无关语法(德宾et al。, 1998), RNA家族保守序列和二级结构的概率模型,类似于蛋白质序列分析常用的基于序列的剖面隐马尔可夫模型(hmm),但建模RNA二级结构需要额外的复杂性。Infernal实现了从输入的带有结构注释的RNA比对或单序列构建CMs的方法,并使用这些模型来搜索和比对同源RNA。
与之前的版本1.0.2相比,Infernal 1.1使用基于加速轮廓HMM方法的过滤器管道加速典型的RNA同源性搜索~ 100倍[HMMER3项目(艾迪,2008,2011)]和约束CM对齐算法(布朗,2000;Nawrocki 2009).速度的提高是以灵敏度的降低为代价的(图1).此外,版本1.1实现了截断RNA序列结构比对的专门算法(科尔贝和埃迪,2009年)通常在测序reads中发现,在以前的版本中,这很容易出现错位。
2方法
穷尽动态规划(DP) CM算法慢得难以置信(图1).已经为加速开发了几种基于序列的过滤器,包括Rfam自创建以来使用的基于blast的过滤方案(Griffiths-Joneset al。, 2003年)和若干基于profile hmm的方法(温伯格和鲁佐,2004年,2006).Infernal版本1.0.2和版本1.1都使用概要HMM过滤器:版本1.0.2的过滤器来自HMMER2包(艾迪,2003),而1.1版本采用了HMMER3的显著加速搜索算法,该算法利用单指令多数据向量指令来并行化HMM DP算法的核心步骤(艾迪,2011).版本1.1使用四个独立的基于hmm的配置文件过滤阶段,每个阶段都比前一个阶段更慢、更严格。新的滤波阶段足够快,使得之前版本(1.0.2)中实现的后hmm滤波CM DP算法成为明显的计算瓶颈。为了加速这些,在DP矩阵上施加了从序列HMM对齐派生的约束或带,以显著减少所需的计算数量(布朗,2000;Nawrocki 2009).新的滤波器和带状CM方法对于提高搜索速度都是至关重要的。在本文后面描述的基准测试中,对于默认的Infernal搜索,概要文件HMM阶段大约占用总运行时间的三分之一,其余时间用于后续CM DP计算。
3使用
Infernal有两个主要应用:在序列数据集中搜索结构RNA(例如,对RNA进行基因组注释)和创建多个基于序列和结构的RNA同源物比对[例如,用于环境调查研究的16S小亚单位核糖体RNA比对(科尔et al。, 2009年)]。这两个应用程序都以一个CM文件开始,该文件可以从>2000 RNA家族的Rfam数据库下载(伯吉斯et al。, 2013年)或由Infernal的用户创建cmbuild从结构上注释的单个序列或多个序列对齐的程序。在使用CM搜索序列数据库之前,必须先由cmcalibrate程序,该程序对随机序列执行模拟搜索,以确定为数据库命中值分配e值的特定模型参数。(Rfam CM文件是预先校准的。)的cmsearch程序获取校准的CM文件,在序列数据库中搜索它,并输出得分最高的命中和命中对齐的排名列表。的cmalign程序接受一个CM文件(校准与否),将所有序列对齐到模型,并输出一个斯德哥尔摩格式的结构注释MSA。版本1.1引入了cmscan用于确定给定序列是否包含与CM库(如Rfam)中任何已知RNA家族的同源性的程序。在运行之前cmscan时,必须将CM数据库转换为特殊格式使用cmpress,使扫描速度更快。
4性能
RNA同源性搜索的独立基准(Freyhultet al。, 2007年)发现基于协方差模型的程序,包括之前版本的Infernal,是测试工具中最具体、最敏感的。我们在这里展示了我们之前发布的内部RMARK基准测试的更新版本(Nawrockiet al。, 2009年),主要是为了说明Infernal 1.1和之前版本1.0.2的相对性能。
RMARK3基准测试是根据前面描述的Rfam 10.0数据库的种子对齐构建的(Nawrockiet al。, 2009年).它由106个族的集合组成,每个族由≥5个序列的训练比对和≥1个序列的测试集合表示。没有两个测试序列>70%相同,也没有训练/测试序列对>60%相同。780个测试序列被嵌入到10个1 Mb的基因组样序列中,以创建10.16 Mb的基准“伪基因组”。对于每个包含的家族,使用Rfam比对从训练集建立模型,校准并用于搜索伪基因组。然后根据e值对所有搜索的结果进行排序,并根据结果生成灵敏度与假阳性率的ROC-like曲线(图1).
图1显示默认Infernal 1.1执行基准搜索在0.44小时,比之前的版本1.0.2(49.31小时)快100倍,比穷举无过滤1.1搜索(4359小时)快10000倍;然而,这三种搜索方法在大数据库搜索所需的低假阳性率下具有相似的灵敏度。我们还测试了两种仅序列的方法:在HMMER3中实现的profile hmm (艾迪,2008,2011)及家庭配对(心胸狭窄的人,1998)单序列BLASTN查询(Altschulet al。, 1997年),它们的反应速度更快(分别为0.02和0.01 h),但敏感性明显低于CMs,表明二级结构建模的好处。
在真实的基因组序列上保持了基准测试中默认版本1.1的相对较快的速度。在基准上的平均速度为1.5秒/Mb/查询,在几个gb数据库上的平均速度为0.6秒/Mb/查询,该数据库使用基准中的相同查询模型对15个基因组进行采样(古生菌、细菌和真核生物各5个)。随着数据库大小的增加,Infernal增加了过滤器的严格性,从而获得更快的搜索速度,而不会牺牲基于进一步RMARK基准测试的低假阳性率的显著敏感性(结果未显示)。
Infernal现在是一个更实用的RNA同源性搜索工具。提高的速度应该能够将其合并到自动化序列注释管道中,并消除了对大规模CM搜索的额外过滤方案的需求,例如Rfam (Griffiths-Joneset al。, 2003年).基于Rfam的一个典型细菌或古细菌基因组注释(即根据2-5 Mb的目标搜索所有2208个Rfam 11.0模型)现在在一台四核台式计算机上需要约1小时。然而,对更大数据集的分析,如脊椎动物基因组或高通量测序运行的所有读取,仍然需要一个计算集群。例如,在100个cpu的计算集群上,针对1gb的鸡基因组搜索所有Rfam模型需要约3小时。最昂贵的程序(cmalign,cmcalibrate,cmscan而且cmsearch)用于多核机器上的多线程和用于集群的粗粒度MPI版本。
确认
特拉维斯·惠勒将HMMER3的过滤器用于染色体长度序列,他的代码是Infernal管道的组成部分。我们感谢Goran Ceric和他的团队管理Janelia Farm的高性能计算资源。
资金:地狱的发展是由霍华德休斯医学研究所支持。
利益冲突:未声明。
参考文献
作者指出
副主编:Ivo Hofacker