文摘

动机:尽管许多下一代测序(上天)读预处理工具已经存在,我们找不到任何工具或工具的组合,满足我们的需求的灵活性,正确处理paired-end数据和高性能。我们已经开发出Trimmomatic作为一个更加灵活和高效的预处理工具,可以正确处理paired-end数据。

结果:门店读预处理的价值证明reference-based和reference-free任务。Trimmomatic显示生成的输出至少是竞争,在很多情况下优于,由其他工具,在所有场景测试。

可用性和实现:Trimmomatic许可在GPL下V3。它是跨平台(需要Java 1.5 +)和可用http://www.usadellab.org/cms/index.php?page=trimmomatic

联系人:usadel@bio1.rwth-aachen.de

补充信息:补充数据可用在生物信息学网上。

1介绍

质量差的存在或技术适配器等下一代测序序列(上天)数据可以很容易地导致次优的下游分析。

尽管如此,并不是微不足道的准确识别这样的序列,包括部分适配器序列,而有效的序列数据完好无损(et al。,2013年)。此外,鉴于挥动的速度序列数据目前正在生产(狂欢节,2008),序列预处理的额外负担必须保持相对温和,以免增加不必要的开销生物信息学管道。

预处理的方法也必须不会干扰下游的分析数据。例如,门店数据通常paired-end读取的形式,通常,正向和反向读取存储在两个单独的FASTQ文件,其中包含相同的顺序读取从每个DNA片段。对许多下游工具使用这个位置关系,所以它必须维护当预处理序列数据。

广泛可用的总会在图书馆准备结合下游应用程序需求灵活方法的范围。可以选择一系列处理步骤应用于用户定义的顺序,甚至理想情况下允许一些措施包括不止一次。在其他领域,这可以通过使用一个shell管道根据需要结合多种工具,例如Newick (Junier Zdobnov, 2010)。然而,需要“一对意识”使得这种方法很难适用,作为配对相应的读取之间的连接文件通常会被丢失。纠正这将需要一个额外步骤来调和读双和存储的单例分别读取。此外,处理步骤将无法评估阅读作为一个单元,它在某些情况下是必要的或至少是有利的。

执行一系列工具的替代方法纷纷将涉及每一步中间文件的创建,一个非平凡的开销所涉及的数据大小,仍需要内置pair-awareness每个工具使用。这些问题表明,典型的方法实现灵活性结合多个专用工具都不是最优。

因此,尽管许多门店读预处理工具存在,没有一个人,单独或结合,可以提供所需的灵活性和性能,大多数没有设计工作paired-end数据。因此,我们开发了Trimmomatic更灵活,pair-aware和高效预处理工具,优化Illumina公司门店数据。

2算法

Trimmomatic包括各种阅读整理和过滤处理步骤,但主要算法创新适配器序列的识别和质量相关过滤,和下面详细描述。其他的列表处理步骤提出了补充材料

2.1删除技术序列

Trimmomatic使用两种方法来检测技术在读取序列。第一,被称为“简单模式”,通过找到一个近似匹配之间的阅读和用户提供的技术序列。这种模式的优点是为所有技术工作序列,包括适配器和聚合酶链反应(PCR)引物,或碎片。这样的序列可以发现在任何位置或方向内读取但需要大量阅读和技术序列之间的最小重叠防止假阳性结果。然而,短部分适配器序列,这常常发生在读取的结束,本质上是无法满足这个最低重叠需求,因此没有检测到。

第二模式,被称为“回文模式”,是专门针对检测这个通用适配器通读的场景,即DNA片段测序比读取长度较短,在适配器污染和结果的读取。尤其如此长时间阅读Miseq支持的长度。尽管这样的短片段通常应该被移除在图书馆准备,在实践中这一过程不是完全有效的,因此许多图书馆遭受这个问题在某种程度上。“回文模式”只能用于paired-end数据,但有相当大的优势在敏感性和特异性“简单”模式。

注意当前技术序列识别方法在Trimmomatic不过滤或分类数据的基础上而设计的“条形码”。

2.1.1简单模式

在简单模式下,每个读扫描从5′末端的3′末端,以确定是否有任何用户提供的适配器。标准的种子和扩展的方法(李和荷马,2010)是用于查找初始匹配技术序列和读取。种子不需要搭配得很好,和一个用户定义的数量不匹配是容忍。基于这个种子匹配,执行局部比对。如果比对的得分超过用户定义的阈值,结合地区+对齐后的剩余部分被删除。

图1说明了每个技术序列的比对测试。部分重叠的过程开始的3′端技术序列的5′末端阅读,如(一)所示。测试所得通过移动的假定的污染物向3′末端阅读。部分重叠(A)和完全重叠的5′末端(B)场景,整个阅读将剪。如果发现污染物在阅读(C),基地的5′端读取对齐保留的开始。测试过程一直持续到只有部分对齐的3′末端阅读仍然是(D)。

图1所示。

假定的序列比对测试简单的模式。部分重叠的对齐过程开始的5′端读取(一个),增加一个完整长度的5′重叠(B),其次是完全重叠位置(C)和结束部分重叠的3′末端读(D)。注意,上游“适配器”序列仅供说明,不是读或一致的一部分地区

简单模式的优点是它可以在任何位置检测任何技术序列阅读,提供一致性是足够长的阅读是足够精确的。然而,当只有一小部分匹配是可能的,比如在场景(a)和(D),污染物可能不可靠地检测到。

2.1.2回文模式

如上所述,“回文模式”是专门为检测优化适配器通读。“通读”发生时,读入一对将包括同等数量的有效的基础,其次是污染序列从相反的适配器。此外,有效的在两个读取反向互补序列。通过检测这三种症状,适配器通读可以确定具有高敏感性和特异性。

由于性能原因,实际的算法结合这三个测试。适配器序列返回各自的读取,然后从两人结合read-with-adapter序列相互对齐。高一致性表明每个阅读的第一个部分是反向互补,而其余部分读取匹配相应的适配器。

一致性实现使用的种子和扩展的方法,类似于简单的模式。全局比对得分用于确保端到端匹配整个重叠。

图2说明了比对测试回文模式。适配器和之间的过程始于一个重叠的相反的读取,如(一)所示。这种一致性检测一对读不含有用的序列信息,可以直接结扎引起的适配器。检测这种情况会导致读的下降。测试然后收益通过移动的相对定位读取“向后”,测试越来越不再有效的DNA片段,见(B)。这种情况下会导致削减如图所示的读取。即使只有一个小片段的适配器是重叠,如(C)所示,整个对齐很容易足以保证可靠的检测。这个过程是完成当重叠区域不再把手伸进适配器(D)。

图2所示。

假定的序列比对回文的测试模式。适配器完全重叠的对齐过程开始读取(一个收益)测试立即“通读”,然后通过检查后重叠(B),包括部分适配器通读(C),完成当重叠表示没有通读到适配器(D)

回文模式的主要优势是对齐的长度越长,确保适配器可以可靠地检测到,甚至在阅读的存在错误或只有少量的适配器基地。如果需要,回文模式可以用来删除甚至一个适配器基地,同时保持较低的假阳性率。我们意识到另一个工具,AdapterRemoval (Lindgreen 2012),独立开发的类似的方法。

注意,然而,因为回文是有限的检测适配器通读,一个全面的策略需要简单和回文的组合模式。

2.1.3一致性检测和得分

序列比对算法用于技术是有点不寻常,避免预先计算的指标通常用于门店联盟(李和荷马,2010)。

初始序列比较是通过使用一个16-base从每个序列片段。16个碱基转换为64位整数,称为种子,使用4比特代码为每个基地:a = 0001 T = 0010, C = 0100和T = 1000。这些种子然后使用位xor相比,这决定了哪个部分两个种子之间的不同。这将导致一个0000代码对于每一个匹配的基础,和一个代码为每个不匹配两个,1,s,如0011 t的不匹配,XOR (0001、0010) = 0011。1的在这个结果然后计算使用' popcount”操作,这个数将完全不同基地16-base碎片的数量的两倍。

如果指定距离内的种子,完整的对齐评分算法。得分为匹配的基地forumla0.602∼,虽然不匹配是处罚根据其质量分数,forumla从0到4,因此不同。这将导致更高的点球被认为是高度准确的基地。

“简单”模式将每个读对每个技术序列,使用局部比对。这是实现通过寻找最高的得分区域内对齐,从而可能忽略不同区域结束。

“回文”模式将正向和反向读取,加上他们的适配器序列。它使用全局比对,总比对的得分的重叠区域。

2.2质量过滤

Trimmomatic提供了两个主要质量过滤方案。两种方法利用每个基地的Illumina公司质量得分位置确定阅读应该削减,导致5′的保留部分,而序列的3′减少点就会被丢弃。这与典型的Illumina公司数据,通常质量差3′末端。这两种方法将在以下小节中描述。

2.2.1滑动窗口过滤质量

滑动窗口使用一个相对标准的方法。这是通过扫描5′末端的阅读,并移除的3′端读当一群基地的平均质量低于指定的阈值。这可以防止单个弱碱导致随后的高质量数据的删除,同时确保一系列连续的劣质基地将触发修剪。

2.2.2最大信息质量过滤

一种新的替代方法是出于意识到,对于许多应用程序,保留额外的增量价值基地读阅读长度有关。直观地说,很明显,短期读取几乎一文不值,因为他们多次发生在目标序列,因此他们只提供模棱两可的信息。即使在引入错误的风险,值得保留额外的低质量的基地在一读,以便减少阅读足够长的是有益的。

然而,超过一定长度,读保留额外的基地不太有利的,甚至可能是有害的。读取温和的长度可能已经信息,根据手头的任务,可以一样有价值的完整的读取。因此,较小的潜在好处保留额外基地必须平衡增加保留错误的风险,这可能导致现有的读值丢失。

这样,值得修剪过程通过阅读过程中变得越来越严格,而不是使用一个固定的质量标准。我们所知,这种方法还没有被应用于任何现有的工具。

的最大信息质量过滤方法实现这个自适应方法。它使用三个因素的组合来确定每个读应该保留多少。

第一个因子模型长度阈值的概念,即读必须至少一个最小长度为下游应用程序非常有用。如上所述,短读没有价值,因为它们太模棱两可的信息。另一方面,大多数长读可以映射到几个地点在目标序列。如果他们不能唯一地映射,因为它们源自一个重复区域,少量的额外基地不太可能会解决这个问题。读取这些极端之间,少量的额外基地的边际效益是相当大的,因为这些额外的基地可能使一个模棱两可的和一个信息读取之间的区别。

选择对数曲线来实现这个得分的行为,因为它给出了一个相对平坦的极端值的分数,在用户指定的阈值,同时提供一个陡峭的过渡点。给定一个目标长度t,假定的修剪长度l将长度阈值分数:
第二个因素“覆盖”模型,并提供了一个线性分数基于保留序列长度:

这反映出,由于合理的高精度基地,较长的阅读包含更多的信息,对于大多数应用程序非常有用。

最后一个因素模型的出错率,并使用阅读质量分数的错误概率来确定阅读积累错误的可能性。计算分数,我们只是概率的乘积,每个基本是正确的,给:

正确的概率P相关系数序列的每个基本计算质量得分。错误的分数通常开始于一个高分的阅读,和根据阅读质量,通常在读取迅速下降。

最大信息算法决定了三个因素的综合得分为每个可能的调整位置,最好的的综合分数决定了阅读削减。用户指定的严格设置年代可以设置在0和1之间,控制“覆盖”的因素之间的平衡(最大s = 0)和错误率的因素(最大s = 1)。这使得整体公式如下:

图3说明这三个因素结合成一个单一的分数。然后用来确定最高得分的阅读是修剪。

图3所示。

最大信息模式的独特性,结合覆盖和出错率来确定最优削减点

3实现

Trimmomatic使用pipeline-based架构,允许个人“步骤”(适配器、过滤、质量等)应用到每个读/读对,由用户指定的顺序。每一步可以选择在读取隔离工作,或工作在两相结合,适当的。该工具跟踪阅读配对和商店“配对”和“单一”分别读取。

额外的削减和过滤步骤的完整列表中给出补充材料和在线手册。

3.1方便的特性

输入和输出文件可以单独在命令行上指定,但对于paired-end模式中,两个同样命名输入和四个同样命名输出文件经常使用,可以给一个“模板”的名字而不是输入和/或输出文件。这个模板会自动扩大给所需的完整的一套文件。看到补充材料为更多的细节。

支持压缩输入和输出使用gzip、bzip2格式。压缩/解压时自动应用适当的文件扩展名,如广州或bz2。获取

性能可以提高使用多个线程如果多个CPU核是可用的。线程的数量可以指定要使用的用户或将自动确定如果未指定的。

Trimmomatic支持序列质量数据标准(phr + 33)和Illumina公司“遗留”格式(phr + 64),如果需要,还可以在这些格式之间进行转换。格式的质量决定自动如果用户未指定的。

每次读取的修剪状态可以被写入一个日志文件中。这是旨在帮助优化工艺参数的选择,而是因为它有一个显著的性能影响,不建议,除非必要。

4的结果

为了说明数据预处理的价值,我们评估两种不同的场景:reference-based对齐使用领结2 (Langmead扎尔茨贝格,2012)和BWA (李和杜宾,2009年)对大肠杆菌k - 12 / MG1655参考(NCBI序列NC_000913.2),和新创装配使用天鹅绒(Zerbino伯尼,2008),在公共大肠杆菌k - 12 / MG1655数据集(SRA数据集SRX131047 SRR519926)中所描述的补充的方法

4.1 Reference-based对齐

数据集1 (SRX131047)代表一个典型的Illumina公司库,测序2000年HiSeq使用2×100个基点。质量检查FastQC显示显著的质量下降很多读周期75后,但没有报告高水平的适配器污染。

在reference-based场景中,从数据集预处理增加独特的数量一致读1,见的第一部分表1。过滤适配器和质量达到最好的结果,和质量调整对齐设置严格时尤为重要。最大信息方法优于滑动窗口方法在这两种情况下,与更广泛的边缘对齐模式时严格。

表1。

结果的原始数据和数据对齐的Trimmomatic来自两个数据集

数据集/调整器 读取 宽容一个 严格的b
数据集1 Bowtie2对准器
未经过滤的 11 008 190 9 018 810 6 401 927
Trimmomatic-adapters只 11 008 150 9 117 952 6 510 253
Trimmomatic-SW 9 456 826 9 079 434 8 086 905
Trimmomatic-MI 9 456 826 9 116 627 8 748 376
Trimmomatic-adapters和西南 9 456 819 9 150 361 8 111 470
Trimmomatic-adapters和MI 9 456 126 9 153 375 8 748 401
数据集1 BWA对准器
未经过滤的 11 008 190 8 750 851 7 834 544
Trimmomatic-adapters只 11 008 150 8 864 884 7 942 198
Trimmomatic-adapters和西南 9 456 819 9 110 831 8 810 063
Trimmomatic-adapters和MI 9 456 126 9 145 423 9 056 403
数据集2 BWA对准器
未经过滤的 801 192 60 010 592年11
Trimmomatic-adapters只 801 164 121 926 68 177
Trimmomatic-adapters和西南 655 075 628 867 590 729
Trimmomatic-adapters和MI 658 796 639 740 634 779
数据集/调整器 读取 宽容一个 严格的b
数据集1 Bowtie2对准器
未经过滤的 11 008 190 9 018 810 6 401 927
Trimmomatic-adapters只 11 008 150 9 117 952 6 510 253
Trimmomatic-SW 9 456 826 9 079 434 8 086 905
Trimmomatic-MI 9 456 826 9 116 627 8 748 376
Trimmomatic-adapters和西南 9 456 819 9 150 361 8 111 470
Trimmomatic-adapters和MI 9 456 126 9 153 375 8 748 401
数据集1 BWA对准器
未经过滤的 11 008 190 8 750 851 7 834 544
Trimmomatic-adapters只 11 008 150 8 864 884 7 942 198
Trimmomatic-adapters和西南 9 456 819 9 110 831 8 810 063
Trimmomatic-adapters和MI 9 456 126 9 145 423 9 056 403
数据集2 BWA对准器
未经过滤的 801 192 60 010 592年11
Trimmomatic-adapters只 801 164 121 926 68 177
Trimmomatic-adapters和西南 655 075 628 867 590 729
Trimmomatic-adapters和MI 658 796 639 740 634 779

请注意:适配器修剪,完成,使用回文模式。最佳值/数据集和对准器以粗体表示。MI表明最大信息模式,SW表明滑动窗口模式。

一个允许一些不匹配和/或INDELs一致性。看到补充的方法为更多的细节。

b没有不匹配或INDELs允许时保持一致。

表1。

结果的原始数据和数据对齐的Trimmomatic来自两个数据集

数据集/调整器 读取 宽容一个 严格的b
数据集1 Bowtie2对准器
未经过滤的 11 008 190 9 018 810 6 401 927
Trimmomatic-adapters只 11 008 150 9 117 952 6 510 253
Trimmomatic-SW 9 456 826 9 079 434 8 086 905
Trimmomatic-MI 9 456 826 9 116 627 8 748 376
Trimmomatic-adapters和西南 9 456 819 9 150 361 8 111 470
Trimmomatic-adapters和MI 9 456 126 9 153 375 8 748 401
数据集1 BWA对准器
未经过滤的 11 008 190 8 750 851 7 834 544
Trimmomatic-adapters只 11 008 150 8 864 884 7 942 198
Trimmomatic-adapters和西南 9 456 819 9 110 831 8 810 063
Trimmomatic-adapters和MI 9 456 126 9 145 423 9 056 403
数据集2 BWA对准器
未经过滤的 801 192 60 010 592年11
Trimmomatic-adapters只 801 164 121 926 68 177
Trimmomatic-adapters和西南 655 075 628 867 590 729
Trimmomatic-adapters和MI 658 796 639 740 634 779
数据集/调整器 读取 宽容一个 严格的b
数据集1 Bowtie2对准器
未经过滤的 11 008 190 9 018 810 6 401 927
Trimmomatic-adapters只 11 008 150 9 117 952 6 510 253
Trimmomatic-SW 9 456 826 9 079 434 8 086 905
Trimmomatic-MI 9 456 826 9 116 627 8 748 376
Trimmomatic-adapters和西南 9 456 819 9 150 361 8 111 470
Trimmomatic-adapters和MI 9 456 126 9 153 375 8 748 401
数据集1 BWA对准器
未经过滤的 11 008 190 8 750 851 7 834 544
Trimmomatic-adapters只 11 008 150 8 864 884 7 942 198
Trimmomatic-adapters和西南 9 456 819 9 110 831 8 810 063
Trimmomatic-adapters和MI 9 456 126 9 145 423 9 056 403
数据集2 BWA对准器
未经过滤的 801 192 60 010 592年11
Trimmomatic-adapters只 801 164 121 926 68 177
Trimmomatic-adapters和西南 655 075 628 867 590 729
Trimmomatic-adapters和MI 658 796 639 740 634 779

请注意:适配器修剪,完成,使用回文模式。最佳值/数据集和对准器以粗体表示。MI表明最大信息模式,SW表明滑动窗口模式。

一个允许一些不匹配和/或INDELs一致性。看到补充的方法为更多的细节。

b没有不匹配或INDELs允许时保持一致。

值得注意的是,最优结果严格对齐校准和宽容被发现使用广泛不同的质量严格设置。(见补充结果更多细节)。

与另一个调整器来验证这些结果,我们使用BWA重复了这个实验。虽然对齐的数据不同,因为轻微的差异的工具设置或算法,总体趋势是相似的。最好的结果是实现当过滤适配器和质量,如第二部分所示表1

数据集2 (SRR519926)是一个2×250个基点,MiSeq测序。虽然阅读质量高的每个读,读的时间越长长度允许的错误积累更多的机会低质量的最后60 - 70基地每读。此外,逆向阅读尤其是贫穷的质量,以质量下降明显,大约在120年基地。这些质量问题可以清楚的看到FastQC情节,所示补充图S1的更高的平均质量,而post-filtered数据,如图所示补充图S2

不足为奇的是,削减更关键的实现可接受的一致性比率与这些数据。最后的一部分表1显示< 1.5%的读取对齐在严格模式下,这需要一个完美的匹配,而只有7%的读取可以对齐时,允许一个不匹配。即使自由默认设置,允许九不匹配,< 25%(197 933读)可以保持一致。然而,在修剪后,几乎78%的读取完全一致。

4.2新创组装

两个数据集还显示在一个相当大的改进新创大会场景。第一数据集,叠连群将军大小增加了58%(95 389和60 370 bp)预处理后,而最大重叠群大小提高了∼28%。同时,大会从包含34个基点完美匹配过滤数据适配器序列,而没有发现适配器过滤组件。

第二个数据集显示更大的好处在修剪后,∼77%改善将军重叠群大小(177 880和100 662个基点)和增加∼55%最大重叠群大小。也许令人惊讶的是,没有发现适配器序列组装的修剪版本的这个数据集。

4.3与现有工具进行比较

我们也比较的性能与各种现有适配器Trimmomatic和质量过滤工具类似referenced-based场景,如所描述的补充的方法。选择的工具是AdapterRemoval (Lindgreen 2012),和镰刀/镰状(https://github.com/najoshi/),它完全支持paired-end数据和EA-Utils (Aronesty 2013),保持阅读配对但失去单件(读取其配偶已过滤)。此外,单头工具Cutadapt (马丁,2011),Fastx-Toolkit (http://hannonlab.cshl.edu/fastx_toolkit)和“收割者”(http://www.ebi.ac.uk/∼stijn /收割者)是包括在内。

我们使用的过滤和对齐paired-end模式对于那些支持它的工具,但我们在必要时使用单头模式作为后备。在实践中,忽略结对会导致次优的阵营,但在完成的利益使所有工具的输出具有可比性。

表2显示各种工具的输出一致使用领结2宽容和严格的校准设置。此表的上半部分,显示了使用宽容对齐,结果表明,最好的工具执行几乎相同的输出质量,与< 000读取分离前三,大多数在∼1%的最佳工具。然而,鉴于过滤数据显示的差异只有1.5%,狭窄的结果可能是由于相对较低的适配器污染在这个数据集,高平均阅读质量和宽容的对齐方式设置使用。

表2。

Bowtie2对齐的结果数据集1显示原始数据和将数据由每个工具

数据集/对齐 读取 对齐(配对)一个 运行时b(年代)
宽容的对齐
未经过滤的 11 008 190 9 018 810 (8323786) N /一个
Fastx-Toolkit 9 631 977 8 073 757 (N / A) 670.1/356.3
收割者 9 428 331 9 057 448 (N / A) 324.8/166.8
Cutadapt 9 456 172 9 127 667 (N / A) 342.5/176.7
EA-Utils 8 995 134 8 662 596 (8 578 790) 9.3 /8.0
长柄大镰刀/镰状 9 453 459 9 133 464 (8 636 984) 529.3/279.7
AdapterRemoval 9 456 350 9 147 915 (8 689 668) 960.2
Trimmomatic西南 9 456 819 9 150 361 (8 693 000) 33.7/9.6
Trimmomatic MI 9 456 819 9 153 375(8 697 690) 34.3/9.7
严格对齐
未经过滤的 11 008 190 6 401 927 (4 857 606) N /一个
Fastx-Toolkit 8 263 345 7 187 257 (N / A) - - - - - -
收割者 9 355 765 8 010 326 (N / A) - - - - - -
Cutadapt 9 390 371 8 086 428 (N / A) - - - - - -
EA-Utils 8 910 356 7 757 108 (7 056 242) - - - - - -
长柄大镰刀/镰状 9 339 668 8 060 612 (6 993 076) - - - - - -
AdapterRemoval 9 454 189 8 103 596 (7 050 788) - - - - - -
Trimmomatic西南 9 355 985 8 111 470 (7 068 406) - - - - - -
Trimmomatic MI 9 456 124 8 748 401(8 053 230) - - - - - -
数据集/对齐 读取 对齐(配对)一个 运行时b(年代)
宽容的对齐
未经过滤的 11 008 190 9 018 810 (8323786) N /一个
Fastx-Toolkit 9 631 977 8 073 757 (N / A) 670.1/356.3
收割者 9 428 331 9 057 448 (N / A) 324.8/166.8
Cutadapt 9 456 172 9 127 667 (N / A) 342.5/176.7
EA-Utils 8 995 134 8 662 596 (8 578 790) 9.3 /8.0
长柄大镰刀/镰状 9 453 459 9 133 464 (8 636 984) 529.3/279.7
AdapterRemoval 9 456 350 9 147 915 (8 689 668) 960.2
Trimmomatic西南 9 456 819 9 150 361 (8 693 000) 33.7/9.6
Trimmomatic MI 9 456 819 9 153 375(8 697 690) 34.3/9.7
严格对齐
未经过滤的 11 008 190 6 401 927 (4 857 606) N /一个
Fastx-Toolkit 8 263 345 7 187 257 (N / A) - - - - - -
收割者 9 355 765 8 010 326 (N / A) - - - - - -
Cutadapt 9 390 371 8 086 428 (N / A) - - - - - -
EA-Utils 8 910 356 7 757 108 (7 056 242) - - - - - -
长柄大镰刀/镰状 9 339 668 8 060 612 (6 993 076) - - - - - -
AdapterRemoval 9 454 189 8 103 596 (7 050 788) - - - - - -
Trimmomatic西南 9 355 985 8 111 470 (7 068 406) - - - - - -
Trimmomatic MI 9 456 124 8 748 401(8 053 230) - - - - - -

请注意:Trimmomatic质量模式显示。最佳值以粗体显示。MI表明最大信息模式,SW表明滑动窗口模式。

一个总读对齐,对齐的子集。

b显示墙,对串行和并行执行。看到补充的方法为更多的细节。

表2。

Bowtie2对齐的结果数据集1显示原始数据和将数据由每个工具

数据集/对齐 读取 对齐(配对)一个 运行时b(年代)
宽容的对齐
未经过滤的 11 008 190 9 018 810 (8323786) N /一个
Fastx-Toolkit 9 631 977 8 073 757 (N / A) 670.1/356.3
收割者 9 428 331 9 057 448 (N / A) 324.8/166.8
Cutadapt 9 456 172 9 127 667 (N / A) 342.5/176.7
EA-Utils 8 995 134 8 662 596 (8 578 790) 9.3 /8.0
长柄大镰刀/镰状 9 453 459 9 133 464 (8 636 984) 529.3/279.7
AdapterRemoval 9 456 350 9 147 915 (8 689 668) 960.2
Trimmomatic西南 9 456 819 9 150 361 (8 693 000) 33.7/9.6
Trimmomatic MI 9 456 819 9 153 375(8 697 690) 34.3/9.7
严格对齐
未经过滤的 11 008 190 6 401 927 (4 857 606) N /一个
Fastx-Toolkit 8 263 345 7 187 257 (N / A) - - - - - -
收割者 9 355 765 8 010 326 (N / A) - - - - - -
Cutadapt 9 390 371 8 086 428 (N / A) - - - - - -
EA-Utils 8 910 356 7 757 108 (7 056 242) - - - - - -
长柄大镰刀/镰状 9 339 668 8 060 612 (6 993 076) - - - - - -
AdapterRemoval 9 454 189 8 103 596 (7 050 788) - - - - - -
Trimmomatic西南 9 355 985 8 111 470 (7 068 406) - - - - - -
Trimmomatic MI 9 456 124 8 748 401(8 053 230) - - - - - -
数据集/对齐 读取 对齐(配对)一个 运行时b(年代)
宽容的对齐
未经过滤的 11 008 190 9 018 810 (8323786) N /一个
Fastx-Toolkit 9 631 977 8 073 757 (N / A) 670.1/356.3
收割者 9 428 331 9 057 448 (N / A) 324.8/166.8
Cutadapt 9 456 172 9 127 667 (N / A) 342.5/176.7
EA-Utils 8 995 134 8 662 596 (8 578 790) 9.3 /8.0
长柄大镰刀/镰状 9 453 459 9 133 464 (8 636 984) 529.3/279.7
AdapterRemoval 9 456 350 9 147 915 (8 689 668) 960.2
Trimmomatic西南 9 456 819 9 150 361 (8 693 000) 33.7/9.6
Trimmomatic MI 9 456 819 9 153 375(8 697 690) 34.3/9.7
严格对齐
未经过滤的 11 008 190 6 401 927 (4 857 606) N /一个
Fastx-Toolkit 8 263 345 7 187 257 (N / A) - - - - - -
收割者 9 355 765 8 010 326 (N / A) - - - - - -
Cutadapt 9 390 371 8 086 428 (N / A) - - - - - -
EA-Utils 8 910 356 7 757 108 (7 056 242) - - - - - -
长柄大镰刀/镰状 9 339 668 8 060 612 (6 993 076) - - - - - -
AdapterRemoval 9 454 189 8 103 596 (7 050 788) - - - - - -
Trimmomatic西南 9 355 985 8 111 470 (7 068 406) - - - - - -
Trimmomatic MI 9 456 124 8 748 401(8 053 230) - - - - - -

请注意:Trimmomatic质量模式显示。最佳值以粗体显示。MI表明最大信息模式,SW表明滑动窗口模式。

一个总读对齐,对齐的子集。

b显示墙,对串行和并行执行。看到补充的方法为更多的细节。

执行时间变化很大,EA-Utils领导、Trimmomatic密切关注,而剩下的工具需要相当长的时间。然而,测试方法,使用中值3运行在一个相对较小的数据集,可以让整个数据集被缓存。在实践中,很可能至少IO性能的更快的工具将是有限的。个人执行时间为每个运行所示补充表S4

使用严格模式相当于对齐,底部所示表的一部分,更清晰地划分工具,Trimmomatic之间的差距最大的信息模式和选择大幅扩大。

比对相同的数据集使用BWA画大致相似的图片,如的上半部分所示表3,尽管严格的区别和宽容的模式不是如此强大。最大的信息模式似乎比一个更大的余地更严格的校准。

表3。

结果严格的和宽容BWA校准数据的原始数据和每个工具(使用质量模式Trimmomatic)数据集

数据集 严格的校准一个 宽容的比对b
数据集1
未经过滤的 7 834 544 8 750 851
Fastx-Toolkit 7 187 257 7 894 580
收割者 8 010 326 8 894 757
Cutadapt 8 086 428 8 968 519
EA-Utils 8 059 850 8 896 724
长柄大镰刀/镰状 8 755 676 9 076 936
AdapterRemoval 8 810 051 9 108 691
Trimmomatic西南 8 810 063 9 110 831
Trimmomatic MI 9 056 403 9 145 423
数据集2
未经过滤的 592年11 60 010
AdapterRemoval 513 133 574 973
Fastx-Toolkit 525 519 550 695
EA-Utils 538 472 588 046
长柄大镰刀/镰状 567 976 588 135
Cutadapt 568 044 613 089
Trimmomatic西南 590 729 628 867
Trimmomatic MI 634 779 639 740
数据集 严格的校准一个 宽容的比对b
数据集1
未经过滤的 7 834 544 8 750 851
Fastx-Toolkit 7 187 257 7 894 580
收割者 8 010 326 8 894 757
Cutadapt 8 086 428 8 968 519
EA-Utils 8 059 850 8 896 724
长柄大镰刀/镰状 8 755 676 9 076 936
AdapterRemoval 8 810 051 9 108 691
Trimmomatic西南 8 810 063 9 110 831
Trimmomatic MI 9 056 403 9 145 423
数据集2
未经过滤的 592年11 60 010
AdapterRemoval 513 133 574 973
Fastx-Toolkit 525 519 550 695
EA-Utils 538 472 588 046
长柄大镰刀/镰状 567 976 588 135
Cutadapt 568 044 613 089
Trimmomatic西南 590 729 628 867
Trimmomatic MI 634 779 639 740

请注意:最佳值以粗体显示。MI表明最大信息模式,SW表明滑动窗口模式。

一个读取对齐,零不匹配允许的。

b读取一致,不允许的。

表3。

结果严格的和宽容BWA校准数据的原始数据和每个工具(使用质量模式Trimmomatic)数据集

数据集 严格的校准一个 宽容的比对b
数据集1
未经过滤的 7 834 544 8 750 851
Fastx-Toolkit 7 187 257 7 894 580
收割者 8 010 326 8 894 757
Cutadapt 8 086 428 8 968 519
EA-Utils 8 059 850 8 896 724
长柄大镰刀/镰状 8 755 676 9 076 936
AdapterRemoval 8 810 051 9 108 691
Trimmomatic西南 8 810 063 9 110 831
Trimmomatic MI 9 056 403 9 145 423
数据集2
未经过滤的 592年11 60 010
AdapterRemoval 513 133 574 973
Fastx-Toolkit 525 519 550 695
EA-Utils 538 472 588 046
长柄大镰刀/镰状 567 976 588 135
Cutadapt 568 044 613 089
Trimmomatic西南 590 729 628 867
Trimmomatic MI 634 779 639 740
数据集 严格的校准一个 宽容的比对b
数据集1
未经过滤的 7 834 544 8 750 851
Fastx-Toolkit 7 187 257 7 894 580
收割者 8 010 326 8 894 757
Cutadapt 8 086 428 8 968 519
EA-Utils 8 059 850 8 896 724
长柄大镰刀/镰状 8 755 676 9 076 936
AdapterRemoval 8 810 051 9 108 691
Trimmomatic西南 8 810 063 9 110 831
Trimmomatic MI 9 056 403 9 145 423
数据集2
未经过滤的 592年11 60 010
AdapterRemoval 513 133 574 973
Fastx-Toolkit 525 519 550 695
EA-Utils 538 472 588 046
长柄大镰刀/镰状 567 976 588 135
Cutadapt 568 044 613 089
Trimmomatic西南 590 729 628 867
Trimmomatic MI 634 779 639 740

请注意:最佳值以粗体显示。MI表明最大信息模式,SW表明滑动窗口模式。

一个读取对齐,零不匹配允许的。

b读取一致,不允许的。

数据集2的结果,下半部分所示表3不同等级的许多工具,AdapterRemoval排名大幅下降。Trimmomatic仍然是表现最好的,特别是在最大信息模式,但Cutadapt成为最接近的挑战者。收割者是无法处理这个数据集,也许是因为长期阅读的长度。

5讨论

5.1阅读预处理的必要性

我们有插图的优势在reference-based和门店数据预处理新创装配应用程序。高质量的数据集,在reference-based应用程序中,预处理的好处似乎有点有限。我们显示∼1.5%获得独特的阵营中如果使用了宽容对准器设置不匹配,虽然更实质性的差异可以看到当完美匹配。然而在实践中,由于这样的高质量的数据集,好处一个变体等下游应用程序调用可能会小。

第二个数据集,阅读质量大大降低,说明,即使reference-based任务可以大大受益于阅读预处理。不到25%的读取可以对齐BWA没有预处理。这可能是由预处理提高到近80%,近78%调整甚至有严格的设置。

新创装配场景中,需要修剪,以确保适配器序列不会被纳入新组装的基因组。这个好处是伴随着显著提高58% / 77%的将军,分别提高28% / 55%,分别在最大重叠群大小两个数据集。大幅改善大会统计数据进一步证明读取的预处理新创组装。

也许是不足为奇的预处理有利于新创装配,装配工具,包括丝绒、不利用质量分数和因此平等对待所有数据,无论已知的质量差异。适配器序列的影响也更为严重,考虑到的风险将适配器序列合并到最后的装配序列,而仅仅减少校准率通常出现在reference-based方法。

5.2对现有工具的比较

Trimmomatic优于对所有其他工具在测试执行。

当使用高质量的原始数据和自由校准标准,工具之间的差异相对较小。在这个场景中,AdapterRemoval表现特别好,反映其相对强度在去除技术序列。这并不令人吃惊,因为作者的知识,AdapterRemoval是唯一其他工具来实现pair-aware适配器删除策略。

尽管如此,使用严格的校准标准,尤其是当结合低质量的输入数据,允许工具之间的差异变得越来越清晰。在这些场景中,适当削减基于质量似乎更加重要,而技术序列识别似乎不那么重要了。这有助于解释的变化这两个数据集之间的相对排名工具。Trimmomatic最大信息模式似乎在这些具有挑战性的场景中表现得非常好。

资金:我们要感谢BMBF通过拨款资助0315702 f, 0315961和0315049,/ BMELV Verbundprojekt: G如果127/10。

的利益冲突:没有宣布。

引用

Aronesty
E
比较排序实用程序
,
Bioinform开放。J。
,
2013年
,卷。
7
(pg。
1
- - - - - -
8
)
Junier
T
,
Zdobnov
新兴市场
Newick实用程序:高通量的种系发生树处理Unix shell
,
生物信息学
,
2010年
,卷。
26
(pg。
1669年
- - - - - -
1670年
)
Langmead
B
,
扎尔茨贝格
SL
快gapped-read符合领结2
,
Nat方法。
,
2012年
,卷。
9
(pg。
357年
- - - - - -
359年
)
H
,
德宾
R
快速和准确的短阅读符合burrows - wheeler变换
,
生物信息学
,
2009年
,卷。
25
(pg。
1754年
- - - - - -
1760年
)
H
,
荷马
N
一项调查的下一代测序序列比对算法
,
简短。Bioinform。
,
2010年
,卷。
11
(pg。
473年
- - - - - -
483年
)
JW
,等。
捷维基教科书:具有长期可持续性的动态协作在线培训工作
,
简短。Bioinform。
,
2013年
,卷。
14
(pg。
548年
- - - - - -
555年
)
Lindgreen
年代
AdapterRemoval:简单清洁的下一代测序读
,
BMC笔记》
,
2012年
,卷。
5
pg。
337年
狂欢节
下一代DNA测序方法
,
为基础。启基因组学的嗡嗡声。麝猫。
,
2008年
,卷。
9
(pg。
387年
- - - - - -
402年
)
马丁
Cutadapt删除适配器从高通量测序序列读取
,
EMBnet。J。
,
2011年
,卷。
17
(pg。
10
- - - - - -
12
)
Zerbino
博士
,
伯尼
E
天鹅绒:算法新创短阅读使用de Bruijn图组装
,
基因组Res。
,
2008年
,卷。
18
(pg。
821年
- - - - - -
829年
)

作者指出

副主编:Inanc比罗尔

这是一个开放的分布式根据条知识共享归属许可(http://creativecommons.org/licenses/by/3.0/),它允许无限制的重用、分布和繁殖在任何媒介,提供最初的工作是正确引用。

补充数据