跳转到主页内容
访问键 NCBI主页 MyNCBI主页 主要内容 主导航
2014 1月15日;30(2):287-8。
doi: 10.1093 /生物信息学/ btt657。 Epub 2013年11月9日

HPC-CLUST:针对大组核苷酸序列的分布式分级聚类

从属关系
免费PMC文章

HPC-CLUST:针对大组核苷酸序列的分布式分级聚类

João F Matias Rodrigueset al。 生物信息学
免费PMC文章

摘要

动机:核苷酸序列数据正以不断增长的速度产生。通过相似度将这些序列聚类通常是基因分析中必不可少的第一步,目的是减少冗余,定义基因家族或建议分类单位。精确聚类算法,比如分级聚类,在运行时间和内存使用方面的扩展性相对较差,但是它们是可取的,因为在聚类期间采取的启发式捷径可能会在后面的分析步骤中产生意想不到的结果。

结果:在这里,我们提出了hppc - clust,一个高度优化的软件管道,可以通过运行在分布式计算硬件上聚集大量预对齐的DNA序列。它可以有效地分配内存和计算资源,在一个小型集群上可以在几小时内处理超过100万个序列。

可用性和实现:源代码和二进制文件可在http://meringlab.org/software/hpc-clust/免费获得;该管道在þþ中实现,并使用分布式计算的消息传递接口(MPI)标准。

数据

图1所示。
图1所示。
运行时比较。对于hppc - clust和mother,运行时包括和不包括序列对齐运行时。当使用多线程时,UCLUST和CD-HIT在运行时只显示出微不足道的下降。聚类的身份阈值为98%的身份

类似的文章

引用的

  • 对胰腺癌具有高特异性的粪便菌群特征。
    卡尔塔尔E,施密特TSB,莫利纳-蒙特斯E, Rodríguez-Perales S, Wirbel J, Maistrenko OM, Akanni WA, Alashkar Alhamwe B, Alves RJ, Carrato A, Erasmus HP, Estudillo L, Finkelmeier F, Fullam A, Glazek AM, Gómez-Rubio P, Hercog R, Jung F, Kandels S, Kersting S, Langheinrich M, Márquez M, Molero X, Orakov A, Van Rossum T, Torres-Ruiz R, Telzerow A, Zych K;MAGIC研究人员;PanGenEU研究人员Benes V, Zeller G, Trebicka J, Real FX, Malats N, Bork P。 Kartal E,等。 肠。2022年7月;71(7):1359-1372。doi: 10.1136 / gutjnl - 2021 - 324755。Epub 2022 3月8日。 肠道》2022。 PMID:35260444 免费的PMC文章。
  • 生态多样性的演化Acidobacteria
    西科尔斯基J、鲍姆加特纳V、伯克霍夫K、博丁豪斯RS、邦克B、菲舍尔M、Fösel BU、弗里德里希MW、Göker M、Hölzel N、黄S、胡贝尔KJ、坎德勒E、克劳斯VH、克莱因贝克尔T、马尔汉S、冯梅林C、欧尔曼Y、普拉蒂D、里根KM、里希特-海特曼T、罗德里格斯JFM、施米特B、Schöning I、Schrumpf M、Schurig E、索利EF、沃尔特斯V、奥弗曼J。 Sikorski J,等。 《微生物学前缘》2022年2月2日;13:715637。doi: 10.3389 / fmicb.2022.715637。eCollection 2022。 微生物学前缘,2022年。 PMID:35185839 免费的PMC文章。
  • 揭示抗生素对肠道细菌的附带损害。
    迈尔L,戈埃曼斯CV,维尔贝尔J,库恩M,埃伯尔C,普鲁提亚努M, Müller P,加西亚-桑塔马里纳S,卡切斯E,张B,盖克勒C,班纳吉T,安德森EE,米兰尼斯A, Löber U, Forslund SK,帕蒂尔KR,齐默尔曼M,施特切尔B,泽勒G,博克P,泰帕斯A。 Maier L,等。 自然。2021年11月;599(7883):120-124。doi: 10.1038 / s41586 - 021 - 03986 - 2。Epub 2021 10月13日。 自然》2021。 PMID:34646011 免费的PMC文章。
  • 从扩增子序列中提取运算分类单元方法的比较。
    魏志刚,张晓东,曹明,刘芳,钱燕,张文伟。 魏志刚,等。 2021年3月24日;12:644012。doi: 10.3389 / fmicb.2021.644012。eCollection 2021。 微生物学前缘,2021年。 PMID:33841367 免费的PMC文章。
  • 健康与疾病中人类牙龈组织的蛋白质组和微生物组定位。
    包K,李X, Poveda L, Qi W, Selevsek N, Gumus P, Emingil G, Grossmann J, Diaz PI, Hajishengallis G, Bostanci N, Belibasakis GN。 鲍K,等。 2020年10月2日;10:588155。doi: 10.3389 / fcimb.2020.588155。eCollection 2020。 前端细胞感染微生物,2020。 PMID:33117738 免费的PMC文章。

参考文献

    1. 小科尔等人。核糖体数据库项目:改进的校准和rRNA分析的新工具。核酸学报,2009;37:D141-D145。-PMC-PubMed
    1. 聚类分层聚类方法的高效算法。J. Classif. 1984; 1:7-24。
    1. 埃德加钢筋混凝土。搜索和聚类的数量级比BLAST快。生物信息学。2010;26:2460 - 2461。-PubMed
    1. CD-HIT:一个用于聚类和比较大量蛋白质或核苷酸序列的快速程序。生物信息学。2006;22:1658 - 1659。-PubMed
    1. Nawrocki EP等人。Infernal 1.0: RNA比对的推断。生物信息学。2009;25:1335 - 1337。-PMC-PubMed

发布类型

物质