doi: 10.1093 /生物信息学/ btt657。
Epub 2013年11月9日
HPC-CLUST:针对大组核苷酸序列的分布式分级聚类
从属关系
- PMID:24215029
- PMCID:PMC3892691
- DOI:10.1093 /生物信息学/ btt657
剪贴板中的项
HPC-CLUST:针对大组核苷酸序列的分布式分级聚类
生物信息学.
.
免费PMC文章
摘要
动机:核苷酸序列数据正以不断增长的速度产生。通过相似度将这些序列聚类通常是基因分析中必不可少的第一步,目的是减少冗余,定义基因家族或建议分类单位。精确聚类算法,比如分级聚类,在运行时间和内存使用方面的扩展性相对较差,但是它们是可取的,因为在聚类期间采取的启发式捷径可能会在后面的分析步骤中产生意想不到的结果。
结果:在这里,我们提出了hppc - clust,一个高度优化的软件管道,可以通过运行在分布式计算硬件上聚集大量预对齐的DNA序列。它可以有效地分配内存和计算资源,在一个小型集群上可以在几小时内处理超过100万个序列。
可用性和实现:源代码和二进制文件可在http://meringlab.org/software/hpc-clust/免费获得;该管道在þþ中实现,并使用分布式计算的消息传递接口(MPI)标准。
数据
类似的文章
-
大规模蛋白质序列的分布式ICSA聚类方法与癌症诊断。亚洲太平洋癌症预防杂志2018年11月29日;19(11):3105-3109。doi: 10.31557 / APJCP.2018.19.11.3105。 2018年亚洲太平洋癌症预防。 PMID:30486549 免费的PMC文章。
-
基于内存数据网格的云环境下16S rRNA序列数据聚类软件。PLoS One. 2016 3月8日;11(3):e0151064。doi: 10.1371 / journal.pone.0151064。eCollection 2016。 PLoS One, 2016。 PMID:26954507 免费的PMC文章。
-
Phoenix 2:具有Web界面的本地可安装的大规模16S rRNA基因序列分析管道。生物技术学报,2013 9月20日;167(4):393-403。doi: 10.1016 / j.jbiotec.2013.07.004。Epub 2013年7月16日。 生物技术杂志。2013。 PMID:23871656
-
DBH:一种基于de Bruijn图的启发式方法,用于将大规模16S rRNA序列聚类为OTUs。J Theor Biol. 2017 7月21日;425:80-87。doi: 10.1016 / j.jtbi.2017.04.019。Epub 2017 4月26日。 中华理论生物学杂志,2017。 PMID:28454900
-
wcd EST集群工具的概述。生物信息学。2008年7月1日;24(13):1542-6。doi: 10.1093 /生物信息学/ btn203。Epub 2008年5月14日 生物信息学》2008。 PMID:18480101 免费的PMC文章。 审查。
引用的
-
对胰腺癌具有高特异性的粪便菌群特征。肠。2022年7月;71(7):1359-1372。doi: 10.1136 / gutjnl - 2021 - 324755。Epub 2022 3月8日。 肠道》2022。 PMID:35260444 免费的PMC文章。
-
生态多样性的演化Acidobacteria.《微生物学前缘》2022年2月2日;13:715637。doi: 10.3389 / fmicb.2022.715637。eCollection 2022。 微生物学前缘,2022年。 PMID:35185839 免费的PMC文章。
-
揭示抗生素对肠道细菌的附带损害。自然。2021年11月;599(7883):120-124。doi: 10.1038 / s41586 - 021 - 03986 - 2。Epub 2021 10月13日。 自然》2021。 PMID:34646011 免费的PMC文章。
-
从扩增子序列中提取运算分类单元方法的比较。2021年3月24日;12:644012。doi: 10.3389 / fmicb.2021.644012。eCollection 2021。 微生物学前缘,2021年。 PMID:33841367 免费的PMC文章。
-
健康与疾病中人类牙龈组织的蛋白质组和微生物组定位。2020年10月2日;10:588155。doi: 10.3389 / fcimb.2020.588155。eCollection 2020。 前端细胞感染微生物,2020。 PMID:33117738 免费的PMC文章。