B2系统组大肠杆菌包含重要的病原体如extraintestinal致病性,adherent-invasive, uropathogenic菌株。在这项研究中,我们使用比较基因组学和统计学方法定义的一个子集来识别基因变异致病菌株属于B2系统组。一个初始概念验证分析表明五的62大肠杆菌菌株在京都百科全书的基因和基因组数据库显示与B2 adherent-invasive密切关联大肠杆菌内,形成一个小组B2系统组。kSNP它使用k-mer方法,工具和统计表型预测工具PPFS2被用来确认29高分辨率单核苷酸多态性,重申这个分组。PPFS2分析也提供了迹象表明这群的聚类是高度一致的,因此,只能有一个强大的表型为基础而不是进化。蛋白质同源性分析确定三种蛋白质在这个群是守恒的,假设两个CRISPR-Cas蛋白质和蛋白质。这些基因的功能分析和蛋白质变化可以提供洞察这些菌株的表型。
介绍
的致病潜力大肠杆菌的范围可以从一种无害的同桌的一个致命的病原体与肠道和extraintestinal疾病相关。根据他们的血清学和毒性特征,肠大肠杆菌菌株分为不同pathovars包括产肠毒素的大肠杆菌(ETEC),致肠病的大肠杆菌(EPEC) enteroinvasive大肠杆菌(EIEC),肠出血性大肠杆菌(肠出血性大肠杆菌),enteroaggregative大肠杆菌(EAEC) adherent-invasive大肠杆菌(AIEC)和弥漫性附着大肠杆菌(DAEC) (Kalita,胡锦涛和托雷斯2014年)。Extraintestinal株通常称为Extraintestinal致病性大肠杆菌(ExPEC)。系统发育分析分类大肠杆菌分成七大组:A、B1、B2、C、D、E和f .这是使用茎测序类型执行(MLST)基因dinB,icdA,pabB,polB,putP,trpA,trpB和uidA(巴斯德计划)(Jaureguy等。2008年;Moissenet等。2010年;克莱蒙特等。2013年)。
B2系统集团是多元化的致病潜力;它包含了同桌的大肠杆菌但还可以包括致病性AIEC和ExPEC[包括uropathogenic等隔离大肠杆菌(UPEC)] (Moissenet等。2010年;克莱蒙特等。2013年)。AIEC一直与回肠克罗恩氏病(Darfeuille-Michaud的发展等。2004年),而ExPEC可能导致感染胃肠道外,与尿道UPEC被本地化。MLST分析使用标记等aspC,clpX,fadD,icdA,lysP,mdh和uidA四个AIEC菌株(HM605、LF82 NRG857c和UM146)属于B2系统组透露,AIEC集群菌株B2 ExPEC菌株包括UPEC菌株(纳斯等。2010年;纳什等。2010年;克拉克等。2011年;克劳斯等。2011年)。这些发现说明共享遗传特性和祖先在某些AIEC和ExPEC(包括UPEC)菌株属于B2系统组。
鉴于B2系统组包含共生体和致病性菌株,有必要区分基于B2菌株致病潜力。因此,在这个分析中,我们调查了小说的存在遗传标记可以区分群内B2包含AIEC和其他致病菌株的系统发育组大肠杆菌(包括UPEC ExPEC)。四个AIEC属于B2系统组被用作代表致病性菌株,鉴于这些菌株的致病潜力已经通过实验测试(Miquel等。2010年;纳什等。2010年;克拉克等。2011年;克劳斯等。2011年)。作为一个概念验证步骤中,我们使用一个单一对一直接同源序列的有限的数据集大肠杆菌株在基因和基因组的京都百科全书(KEGG)数据库来识别对B2系统组内小组成员B2 AIEC压力密切相关。第二步涉及到完整的识别和验证的整个KEGG snp大肠杆菌菌株。
材料和方法
识别特定的氨基酸变化的一个子集菌株属于B2系统组
系统的方法是定义一组氨基酸变化(aac),可遗传型的区分B2 AIEC菌株,并尽可能最小的一组额外的大肠杆菌菌株的测序菌株(图S1,支持信息)。从个人所有蛋白质序列大肠杆菌菌株是从KEGG和NCBI ftp站点下载(2015年4月)。
第一步是定义一套核心蛋白质中发现所有62个特征明显大肠杆菌从KEGG菌株(完整的基因组)。蛋白质从单个菌株被映射到已知的同源组从OrthoMCL数据库使用公司算法OrthoMCL (Li Stoeckert和鲁斯2003年)。1420蛋白质与单直接同源菌株被确定为核心蛋白质为62年大肠杆菌菌株在KEGG可用。核心与相应的直接同源蛋白质对齐使用多重序列比对工具ClustalW(拉金等。2007年)。定制的python脚本开发识别套aac格式,该分组的AIEC最少数量的关联大肠杆菌菌株(第一层:aac分组与AIEC最多五个菌株;第二层:aac分组与AIEC最多6株)。这些aac中标识的概念分析被用于调查所有测序的全套1311大肠杆菌完整和基因组在NCBI草案(四个B2 AIEC和其他1307株)。
在一个单独的分析,知道B2 AIEC蛋白独特的列表和最小的一组相关的菌株测定(图S1,支持信息)。直接同源蛋白质识别使用OrthoMCL检查特定的保护在62 KEGG菌株,然后对成套1311测序大肠杆菌菌株。62年KEGG列表大肠杆菌菌株和1311的完整列表大肠杆菌可以在文件中找到S1菌株(支持信息)。
发展史和领域分析
MLST使用连接和对齐七管家基因的蛋白质序列aspC,clpX,fadD,icdA,lysP,mdh和uidA(纳什等。2010年)内使用neighbor-joining方法执行MEGA6工具(田村等。2013年)。进化距离计算使用泊松校正方法。为rapid-core基因组对齐(Treangen收获套件等。2014年)是用于生成核心基因组系统采用最大似然法(平均核心基因组:60.1%)。简单的模块化体系结构研究工具(智能)(Letunic, Doerks和博克2012年)是用于预测蛋白质域包含aac的蛋白质的功能分析。
Pan-genome SNP识别使用使用PPFS2 kSNP和表型预测
在这里,我们使用统计工具kSNP(加德纳和大厅2013年)和PPFS2(大厅2014年)来确定任何snp显示诊断能力的菌株子群发现在前面的分析。此外,我们还研究了如果可能强烈集群基于高分辨诊断单核苷酸多态性可能会增加可信度可能phenotype-based协会在这个群。
k-mer方法使用的工具kSNP占的高变异菌株DNA序列的存在/缺失。k-mer大小,定义的奇数长度的寡核苷酸kSNP确定在所有的序列。根据输入的基因组,kchooser模块kSNP计算优化k-mer kSNP运行长度值。kSNP工具产生多个文件包括注释的核心和pan-SNP PPFS2下游定义分析工具。
工具PPFS2确定等位基因的单核苷酸多态性分布随机对表型。它入围最低组这样的单核苷酸多态性,定义为诊断,卡方概率较低,因此,更多的分辨能力预测kSNP所有菌株的表型数据。PPFS2作为输入参数,我们指定"正面"的B2 AIEC菌株表型和紧张AIEC密切相关(一级AAC分析)与一个未知的表型。为了避免任何可能的选择性偏差,我们重复的过程定义诊断snp使用PPFS2多个迭代。在第一个迭代,只有B2菌株密切相关AIEC被指定为“未知”的表型。在随后的迭代中,一组10株附加随机选择从列表中剩余的KEGG菌株(non-associated)也指定的“未知”表型其余菌株标有“负面”表型。
PPFS2算法本身是基于一个引导的方法。在每一个周期中,它指定一个用户定义的“已知”的随机菌株表型为“未知”。然后比较这些菌株的表型预测,使用一组确定诊断单核苷酸多态性与实际已知表型来确定表型预测的准确性。因此,实际上,PPFS2只使用中的信息子集的菌株表型仍然标记为“已知”的预测。snp的数量,为一组特定的诊断单核苷酸多态性和表型定义是由特定的终止条件,包括统计参数的阳性预测值(PPV)”。严格的PPV截止97%是用于我们的分析。PPFS2等参数也用“意味着积极的概率”和“平均概率负”定义snp的分数预测积极或消极的表型。
结果与讨论
aac格式的识别特定于群内B2系统组
鉴于B2系统组大肠杆菌包括一系列共生体和致病性菌株,我们试图确定生物标志物可能区分基于B2菌株致病潜力。为此,我们利用四AIEC属于B2系统组代表致病性菌株。我们的分析的第一步是识别差异化的一个子集的aac菌株显示最近协会内四个AIEC B2系统集团(图S1,支持信息)。1420核心蛋白,这表明单一直接同源在62株,进行了识别和分析。
最初,附加压力的最大数量是有限的;然而,这没有确定任何aac。一系列的后续分析,每次增加了额外的压力,确定六aac(第一层),也始终分组与B2 AIEC(表5株1)。其中包括应变UTI89 (UPEC;KEGG: eci;患者急性膀胱感染)、应变ECOK1(禽流感;KEGG: ecv;肺的临床诊断为鸡colisepticemia),应变ECO45 (ExPEC;KEGG: ecz;脑脊液的新出生的新生儿脑膜炎),应变IHE3034 (ExPEC KEGG: eih;新生儿脑膜炎)和应变PMV-1 (ExPEC KEGG: ecoi:加入号码:NC_022371)(陈等。2006年;约翰逊等。2007年;Touchon等。2009年;Moriel等。2010年;Peris-Bondia Muraille和Van Melderen2013年)。三个ExPEC菌株鉴定似乎临床相关,鉴于ECO45和IHE3034隔绝脑膜炎病例,而PMV-1已被证明是高度致命的动物模型(van Westerloo等。2005年)。指出重要的是,相比其他细菌和无菌原核生物,这些aac专营被发现是守恒的大肠杆菌,这表明物种形成后发生的变化大肠杆菌。
。 | orthoMCL id。 | 蛋白质(基因名称)。 | 氨基酸的位置。 | 氨基酸在AIEC。 | 规范的氨基酸。 | KEGG菌株包含AIEC氨基酸(eci, ecv eih, ecz, ecoi)。 | 函数。 |
---|---|---|---|---|---|---|---|
1 | OG5_166299 | 膜蛋白(yfbV) | 44 | C | R | 染色体组织 | |
2 | OG5_182205 | 氢化酶2亚基(hybE) | 13 | V | 一个 | 能量代谢 | |
3 | OG5_127707 | Argininosuccinate合成酶(argG) | 260年 | l | 米 | 合成精氨酸 | |
4 | OG5_160453 | 内在膜蛋白(ybhN) | 236年 | V | l | 潜在的对抗生素的耐药性和宿主防御抗菌肽 | |
5 | OG5_164870 | 功能生物合成的跨膜succinyltransferase (opgC) | 248年 | l | F | Succinylation osmoregulated周质葡聚糖 | |
6 | OG5_141789 | Exodeoxyribonuclease V (recC) | 620年 | 年代 | 一个 | DNA修复 |
。 | orthoMCL id。 | 蛋白质(基因名称)。 | 氨基酸的位置。 | 氨基酸在AIEC。 | 规范的氨基酸。 | KEGG菌株包含AIEC氨基酸(eci, ecv eih, ecz, ecoi)。 | 函数。 |
---|---|---|---|---|---|---|---|
1 | OG5_166299 | 膜蛋白(yfbV) | 44 | C | R | 染色体组织 | |
2 | OG5_182205 | 氢化酶2亚基(hybE) | 13 | V | 一个 | 能量代谢 | |
3 | OG5_127707 | Argininosuccinate合成酶(argG) | 260年 | l | 米 | 合成精氨酸 | |
4 | OG5_160453 | 内在膜蛋白(ybhN) | 236年 | V | l | 潜在的对抗生素的耐药性和宿主防御抗菌肽 | |
5 | OG5_164870 | 功能生物合成的跨膜succinyltransferase (opgC) | 248年 | l | F | Succinylation osmoregulated周质葡聚糖 | |
6 | OG5_141789 | Exodeoxyribonuclease V (recC) | 620年 | 年代 | 一个 | DNA修复 |
。 | orthoMCL id。 | 蛋白质(基因名称)。 | 氨基酸的位置。 | 氨基酸在AIEC。 | 规范的氨基酸。 | KEGG菌株包含AIEC氨基酸(eci, ecv eih, ecz, ecoi)。 | 函数。 |
---|---|---|---|---|---|---|---|
1 | OG5_166299 | 膜蛋白(yfbV) | 44 | C | R | 染色体组织 | |
2 | OG5_182205 | 氢化酶2亚基(hybE) | 13 | V | 一个 | 能量代谢 | |
3 | OG5_127707 | Argininosuccinate合成酶(argG) | 260年 | l | 米 | 合成精氨酸 | |
4 | OG5_160453 | 内在膜蛋白(ybhN) | 236年 | V | l | 潜在的对抗生素的耐药性和宿主防御抗菌肽 | |
5 | OG5_164870 | 功能生物合成的跨膜succinyltransferase (opgC) | 248年 | l | F | Succinylation osmoregulated周质葡聚糖 | |
6 | OG5_141789 | Exodeoxyribonuclease V (recC) | 620年 | 年代 | 一个 | DNA修复 |
。 | orthoMCL id。 | 蛋白质(基因名称)。 | 氨基酸的位置。 | 氨基酸在AIEC。 | 规范的氨基酸。 | KEGG菌株包含AIEC氨基酸(eci, ecv eih, ecz, ecoi)。 | 函数。 |
---|---|---|---|---|---|---|---|
1 | OG5_166299 | 膜蛋白(yfbV) | 44 | C | R | 染色体组织 | |
2 | OG5_182205 | 氢化酶2亚基(hybE) | 13 | V | 一个 | 能量代谢 | |
3 | OG5_127707 | Argininosuccinate合成酶(argG) | 260年 | l | 米 | 合成精氨酸 | |
4 | OG5_160453 | 内在膜蛋白(ybhN) | 236年 | V | l | 潜在的对抗生素的耐药性和宿主防御抗菌肽 | |
5 | OG5_164870 | 功能生物合成的跨膜succinyltransferase (opgC) | 248年 | l | F | Succinylation osmoregulated周质葡聚糖 | |
6 | OG5_141789 | Exodeoxyribonuclease V (recC) | 620年 | 年代 | 一个 | DNA修复 |
AAC识别管道重新运行,但与其他菌株的数量增加到6个(表S1,支持信息)。这个确定总共16 aac格式,其中10 aac格式定义为第二层aac (aac 1 - 10)分化相关的四个B2 AIEC和六个菌株(ecv KEGG代码:eci, eih, ecz, ecoi和ecq)从剩下的52 KEGG大肠杆菌菌株。此外,其他四个aac (11 - 14 aac)被确定差异化B2 AIEC和一组类似的六个额外的菌株(ecv KEGG代码:eci, eih, ecz, ecoi和ecp)。进一步两aac (aac 15,16)被确定差异化菌株eci, ecv, eih ecz ecoi和心电图。的三组在一起,aac (aac 1 - 10, 11 - 14和15 - 16岁)有相同的一组五株(eci, ecv eih, ecz和ecoi)分组与B2 AIEC层我aac和额外的应变(ecq, ecp或心电图)为每个组aac。这三个额外的菌株与O81 ED1a(同桌的;KEGG: ecq;健康的人的粪便),O6: K15: H31 (UPEC;KEGG:项目;急性肾盂肾炎患者)和O127:代替E2348/69 (EPEC;KEGG:心电图; outbreak of infantile diarrhea). While strains ecq, ecp and ecg appear to share some similarity with the B2 AIEC, given that ecq is a commensal strain, we concluded that tier II AACs may not be sufficiently stringent.
六层我aac(表1)被用来扫描完整的1311测序大肠杆菌菌株在NCBI可用。每个分组的AAC B2 AIEC限制设置大肠杆菌菌株(数量从89年到149年),只有73株包含所有一级aac。这些73株UPEC和ExPEC菌株和潜在AIEC应变女士110 - 3(孤立研究克罗恩病病人)。MLST分析和core-genome发展史四B2 AIEC菌株,进行了73株以上,以前记录的代表菌株(纳什等。2010年)大肠杆菌子组,B1, B2, E和D / F(无花果。1无花果,S2,支持信息)。关联的所有73株分组与B2 AIEC和其他B2大肠杆菌(图。1无花果,S2,支持信息),这表明这些一级aac区分B2 AIEC和特定子集的致病性菌株属于B2系统组。
表型分析PPFS2使用kSNP证实发现的snp的子群致病性B2菌株
B2系统中的识别子群集团进一步验证进行更全面的分析,其中包括使用全套核心和非核心snp。在这里,我们使用了工具kSNP KEGG识别308 619个snp大肠杆菌菌株,带注释的使用大肠杆菌应变LF82 (AIEC)作为参考。然后,我们使用的snp kSNP和应变协会强调一级AAC分析来验证B2系统内的子群。工具PPFS2(无花果。S1,支持信息)是用来识别一组统计上显著的诊断单核苷酸多态性,是高度相关的可能的表现型总池单核苷酸多态性;在这种情况下,表型与B2 AIEC协会。我们使用了引导方法由PPFS2实现识别一组29共识诊断单核苷酸多态性(表2),单核苷酸多态性显示随机分布的概率最低。
。 | 蛋白质的消化系统。 | 位置。 | 位置。 | 基因。 | 基因。 | 密码子。 | 氨基酸的变化。 | 上游(SNP。 |
---|---|---|---|---|---|---|---|---|
SNP ID。 | (LF82)。 | 基因组。 | 蛋白质。 | 象征。 | 描述。 | 改变。 | (AIEC_canonical)。 | 等位基因)下游。 |
3041年 | LF82_2090 | 420452年 | 22 | sbcD | 核酸酶D sbcCD亚基 | GCC_GCT | - - - - - - | AAAAGCCTGATGTTC.GCTTCGCGGCTTTTA |
7521年 | LF82_0539 | 3274893 | 494年 | ebgA | 进化苷酶亚基α | CCG_CCT | - - - - - - | AAACTCATTCATCAG.GGCACGCGGGTGTAC |
7899年 | LF82_1615 | 949628年 | 65年 | pepN | 氨肽酶N | CAT_TAT | H_Y | AAACTGGTTTCTGTT.ATATTAATGATGAGC |
8516年 | LF82_3178 | 3032573 | 67年 | ygfU | 嘌呤通透酶ygfU | ATC_ATT | - - - - - - | AAAGAGATCCGAGCT.ATGAGCATCGCAATA |
11298年 | LF82_2909 | 1841135 | 408年 | yeaI | 内在膜蛋白yeaI | GTA_GTG | - - - - - - | AAATAGCAAGCCAAA.ACCTCACCCTCCAGT |
11921年 | LF82_1905 | 616068年 | 42 | 核糖核酸 | 核糖核酸酶我 | TCA_TCC | - - - - - - | AAATCCGGTTTGCCA.GAGAGGGCCAGGACA |
13793年 | LF82_1818 | 3979722 | 115年 | rbsD | 高亲和力核糖rbsD运输蛋白质 | GAA_GGA | E_G | AACAACAAACCGCAG.AAGTCAGGCGGTAAT |
19209年 | LF82_1943 | 3376915 | 70年 | rplU | 50年代L21核糖体蛋白质 | GAA_GAG | - - - - - - | AACGATTTTAACTTT.TCGCCACGACCGTGA |
20240年 | LF82_3057 | 2421610 | 45 | yfbV | UPF0208膜蛋白yfbV | CGT_TGT | C_R | AACGGATCGCATAAC.CGTCATCTTGATAAC |
23899年 | LF82_0619 | 2467177 | 343年 | fadJ | 脂肪酸氧化复杂的α亚基 | CAG_CGG | Q_R | AAGATATCAACCCGC.GGGCATAAATCATGC |
26793年 | LF82_1783 | 2594140 | 38 | purN | Phosphoribosylglycinamide formyltransferase | GCC_GCT | - - - - - - | AAGGCCGAACGCGTC.GCCTTATTGCTGAAA |
27732年 | LF82_0930 | 2799047 | 107年 | gshA | glutamate-cysteine连接酶 | TAC_TAT | - - - - - - | AAGTATGCCATGCTA.ATCGCAGAAGGTCAG |
28707年 | LF82_2747 | 1278005 | 86年 | ychQ | 蛋白质sirB2 | ATC_ATT | - - - - - - | AATAAAACCCAAAAC.ATATAAATGATAACT |
28778年 | LF82_3594 | 1863337 | 315年 | yoad | 但一个个蛋白质yoad | TCA_TCG | - - - - - - | AATAAACACATCCGG.GAAATCCAGCCCTGA |
33613年 | LF82_1161 | 2703166 | 64年 | kgtP | alpha-ketoglutarate透性酶 | ATC_GTC | I_V | AATCGAACCACTCGA.CAGATTACCTGAAGA |
34319年 | LF82_1458 | 2314155 | 109年 | napH | Ferredoxin-type蛋白质napH | TGC_TGT | - - - - - - | AATCGGGTTCAGCGG.CAGACCCAGCTGCAA |
38227年 | LF82_0292 | 1791658 | 98年 | chbC | N, N′-diacetylchitobiose通透酶IIC组件 | GCA_GCC | - - - - - - | AATGTCTTTAATGGC.CCGTTCTTTATTGGC |
41394年 | LF82_0568 | 590179年 | 1065年 | entF | F enterobactin合成酶组件 | GGC_GGT | - - - - - - | ACAAAACAGCGTCGG.CCATTACCTTCACGC |
47355年 | LF82_0643 | 594694年 | 108年 | fepD | 铁enterobactin交通系统通透酶蛋白质 | GGC_GGT | - - - - - - | ACCAAACAGCGCCGC.CCCAGCACAATGGCA |
50014年 | LF82_1969 | 194435年 | 175年 | rpsB | 30年代核糖体蛋白S2 | GAA_GAG | - - - - - - | ACCCAGGTTGTTTGC.TCTTTGATAGCAATG |
53374年 | LF82_1293 | 2171434 | 294年 | mdtB | 多药耐药性蛋白质mdtB | GTC_GTT | - - - - - - | ACCGGGCTGGCGCTG.ACATTCATCACAATG |
59674年 | LF82_0037 | 4433698 | 213年 | 阿布扎比投资局 | biodegradative精氨酸脱羧酶 | AAA_AGA | K_R | ACGCGTGCGGCATAT.TTTCGCTTTCGCCAA |
60894年 | LF82_3214 | 3230091 | 322年 | ygiC | 但一个个蛋白质ygiC | GAA_GCA | A_E | ACGGCAAAACCATTG.AGCAGCGGAAGGTCC |
61792年 | LF82_2234 | 3309745 | 744年 | tdcE | 酮酸甲酸乙酰转移酶 | TTC_TTT | - - - - - - | ACGGGTCAGTGCGTT.AAGCGCACGGCGTAG |
62110年 | LF82_1949 | 3853882 | 32 | rpmB | 50年代L28核糖体蛋白质 | AAC_AAT | - - - - - - | ACGGTGAGAGTGCAG.TTCGGCAGGAAACGG |
62298年 | LF82_1763 | 2424670 | 438年 | 家长会 | 磷酸乙酰转移酶 | CCA_CCG | - - - - - - | ACGGTTGATCTCTGC.GGATTACCCAGCAGT |
67807年 | LF82_2052 | 1051438 | 173年 | rutD | 蛋白质rutD | CAA_CAG | - - - - - - | ACTGGCGCATTTTCA.GGCAAAAATAATTTA |
69222年 | LF82_0282 | 2251116 | 61年 | cdd | 胞嘧啶核苷脱氨酶 | GCA_GCG | - - - - - - | ACTTCCGCTGGCGGC.GCCTGTGCGCGTACG |
77011年 | LF82_0807 | 3320150 | 36 | garR | 2-hydroxy-3-oxopropionate还原酶 | ATC_ATT | - - - - - - | AGCAATCACGTCAGC.ATAGCTTCTGGGTTA |
。 | 蛋白质的消化系统。 | 位置。 | 位置。 | 基因。 | 基因。 | 密码子。 | 氨基酸的变化。 | 上游(SNP。 |
---|---|---|---|---|---|---|---|---|
SNP ID。 | (LF82)。 | 基因组。 | 蛋白质。 | 象征。 | 描述。 | 改变。 | (AIEC_canonical)。 | 等位基因)下游。 |
3041年 | LF82_2090 | 420452年 | 22 | sbcD | 核酸酶D sbcCD亚基 | GCC_GCT | - - - - - - | AAAAGCCTGATGTTC.GCTTCGCGGCTTTTA |
7521年 | LF82_0539 | 3274893 | 494年 | ebgA | 进化苷酶亚基α | CCG_CCT | - - - - - - | AAACTCATTCATCAG.GGCACGCGGGTGTAC |
7899年 | LF82_1615 | 949628年 | 65年 | pepN | 氨肽酶N | CAT_TAT | H_Y | AAACTGGTTTCTGTT.ATATTAATGATGAGC |
8516年 | LF82_3178 | 3032573 | 67年 | ygfU | 嘌呤通透酶ygfU | ATC_ATT | - - - - - - | AAAGAGATCCGAGCT.ATGAGCATCGCAATA |
11298年 | LF82_2909 | 1841135 | 408年 | yeaI | 内在膜蛋白yeaI | GTA_GTG | - - - - - - | AAATAGCAAGCCAAA.ACCTCACCCTCCAGT |
11921年 | LF82_1905 | 616068年 | 42 | 核糖核酸 | 核糖核酸酶我 | TCA_TCC | - - - - - - | AAATCCGGTTTGCCA.GAGAGGGCCAGGACA |
13793年 | LF82_1818 | 3979722 | 115年 | rbsD | 高亲和力核糖rbsD运输蛋白质 | GAA_GGA | E_G | AACAACAAACCGCAG.AAGTCAGGCGGTAAT |
19209年 | LF82_1943 | 3376915 | 70年 | rplU | 50年代L21核糖体蛋白质 | GAA_GAG | - - - - - - | AACGATTTTAACTTT.TCGCCACGACCGTGA |
20240年 | LF82_3057 | 2421610 | 45 | yfbV | UPF0208膜蛋白yfbV | CGT_TGT | C_R | AACGGATCGCATAAC.CGTCATCTTGATAAC |
23899年 | LF82_0619 | 2467177 | 343年 | fadJ | 脂肪酸氧化复杂的α亚基 | CAG_CGG | Q_R | AAGATATCAACCCGC.GGGCATAAATCATGC |
26793年 | LF82_1783 | 2594140 | 38 | purN | Phosphoribosylglycinamide formyltransferase | GCC_GCT | - - - - - - | AAGGCCGAACGCGTC.GCCTTATTGCTGAAA |
27732年 | LF82_0930 | 2799047 | 107年 | gshA | glutamate-cysteine连接酶 | TAC_TAT | - - - - - - | AAGTATGCCATGCTA.ATCGCAGAAGGTCAG |
28707年 | LF82_2747 | 1278005 | 86年 | ychQ | 蛋白质sirB2 | ATC_ATT | - - - - - - | AATAAAACCCAAAAC.ATATAAATGATAACT |
28778年 | LF82_3594 | 1863337 | 315年 | yoad | 但一个个蛋白质yoad | TCA_TCG | - - - - - - | AATAAACACATCCGG.GAAATCCAGCCCTGA |
33613年 | LF82_1161 | 2703166 | 64年 | kgtP | alpha-ketoglutarate透性酶 | ATC_GTC | I_V | AATCGAACCACTCGA.CAGATTACCTGAAGA |
34319年 | LF82_1458 | 2314155 | 109年 | napH | Ferredoxin-type蛋白质napH | TGC_TGT | - - - - - - | AATCGGGTTCAGCGG.CAGACCCAGCTGCAA |
38227年 | LF82_0292 | 1791658 | 98年 | chbC | N, N′-diacetylchitobiose通透酶IIC组件 | GCA_GCC | - - - - - - | AATGTCTTTAATGGC.CCGTTCTTTATTGGC |
41394年 | LF82_0568 | 590179年 | 1065年 | entF | F enterobactin合成酶组件 | GGC_GGT | - - - - - - | ACAAAACAGCGTCGG.CCATTACCTTCACGC |
47355年 | LF82_0643 | 594694年 | 108年 | fepD | 铁enterobactin交通系统通透酶蛋白质 | GGC_GGT | - - - - - - | ACCAAACAGCGCCGC.CCCAGCACAATGGCA |
50014年 | LF82_1969 | 194435年 | 175年 | rpsB | 30年代核糖体蛋白S2 | GAA_GAG | - - - - - - | ACCCAGGTTGTTTGC.TCTTTGATAGCAATG |
53374年 | LF82_1293 | 2171434 | 294年 | mdtB | 多药耐药性蛋白质mdtB | GTC_GTT | - - - - - - | ACCGGGCTGGCGCTG.ACATTCATCACAATG |
59674年 | LF82_0037 | 4433698 | 213年 | 阿布扎比投资局 | biodegradative精氨酸脱羧酶 | AAA_AGA | K_R | ACGCGTGCGGCATAT.TTTCGCTTTCGCCAA |
60894年 | LF82_3214 | 3230091 | 322年 | ygiC | 但一个个蛋白质ygiC | GAA_GCA | A_E | ACGGCAAAACCATTG.AGCAGCGGAAGGTCC |
61792年 | LF82_2234 | 3309745 | 744年 | tdcE | 酮酸甲酸乙酰转移酶 | TTC_TTT | - - - - - - | ACGGGTCAGTGCGTT.AAGCGCACGGCGTAG |
62110年 | LF82_1949 | 3853882 | 32 | rpmB | 50年代L28核糖体蛋白质 | AAC_AAT | - - - - - - | ACGGTGAGAGTGCAG.TTCGGCAGGAAACGG |
62298年 | LF82_1763 | 2424670 | 438年 | 家长会 | 磷酸乙酰转移酶 | CCA_CCG | - - - - - - | ACGGTTGATCTCTGC.GGATTACCCAGCAGT |
67807年 | LF82_2052 | 1051438 | 173年 | rutD | 蛋白质rutD | CAA_CAG | - - - - - - | ACTGGCGCATTTTCA.GGCAAAAATAATTTA |
69222年 | LF82_0282 | 2251116 | 61年 | cdd | 胞嘧啶核苷脱氨酶 | GCA_GCG | - - - - - - | ACTTCCGCTGGCGGC.GCCTGTGCGCGTACG |
77011年 | LF82_0807 | 3320150 | 36 | garR | 2-hydroxy-3-oxopropionate还原酶 | ATC_ATT | - - - - - - | AGCAATCACGTCAGC.ATAGCTTCTGGGTTA |
。 | 蛋白质的消化系统。 | 位置。 | 位置。 | 基因。 | 基因。 | 密码子。 | 氨基酸的变化。 | 上游(SNP。 |
---|---|---|---|---|---|---|---|---|
SNP ID。 | (LF82)。 | 基因组。 | 蛋白质。 | 象征。 | 描述。 | 改变。 | (AIEC_canonical)。 | 等位基因)下游。 |
3041年 | LF82_2090 | 420452年 | 22 | sbcD | 核酸酶D sbcCD亚基 | GCC_GCT | - - - - - - | AAAAGCCTGATGTTC.GCTTCGCGGCTTTTA |
7521年 | LF82_0539 | 3274893 | 494年 | ebgA | 进化苷酶亚基α | CCG_CCT | - - - - - - | AAACTCATTCATCAG.GGCACGCGGGTGTAC |
7899年 | LF82_1615 | 949628年 | 65年 | pepN | 氨肽酶N | CAT_TAT | H_Y | AAACTGGTTTCTGTT.ATATTAATGATGAGC |
8516年 | LF82_3178 | 3032573 | 67年 | ygfU | 嘌呤通透酶ygfU | ATC_ATT | - - - - - - | AAAGAGATCCGAGCT.ATGAGCATCGCAATA |
11298年 | LF82_2909 | 1841135 | 408年 | yeaI | 内在膜蛋白yeaI | GTA_GTG | - - - - - - | AAATAGCAAGCCAAA.ACCTCACCCTCCAGT |
11921年 | LF82_1905 | 616068年 | 42 | 核糖核酸 | 核糖核酸酶我 | TCA_TCC | - - - - - - | AAATCCGGTTTGCCA.GAGAGGGCCAGGACA |
13793年 | LF82_1818 | 3979722 | 115年 | rbsD | 高亲和力核糖rbsD运输蛋白质 | GAA_GGA | E_G | AACAACAAACCGCAG.AAGTCAGGCGGTAAT |
19209年 | LF82_1943 | 3376915 | 70年 | rplU | 50年代L21核糖体蛋白质 | GAA_GAG | - - - - - - | AACGATTTTAACTTT.TCGCCACGACCGTGA |
20240年 | LF82_3057 | 2421610 | 45 | yfbV | UPF0208膜蛋白yfbV | CGT_TGT | C_R | AACGGATCGCATAAC.CGTCATCTTGATAAC |
23899年 | LF82_0619 | 2467177 | 343年 | fadJ | 脂肪酸氧化复杂的α亚基 | CAG_CGG | Q_R | AAGATATCAACCCGC.GGGCATAAATCATGC |
26793年 | LF82_1783 | 2594140 | 38 | purN | Phosphoribosylglycinamide formyltransferase | GCC_GCT | - - - - - - | AAGGCCGAACGCGTC.GCCTTATTGCTGAAA |
27732年 | LF82_0930 | 2799047 | 107年 | gshA | glutamate-cysteine连接酶 | TAC_TAT | - - - - - - | AAGTATGCCATGCTA.ATCGCAGAAGGTCAG |
28707年 | LF82_2747 | 1278005 | 86年 | ychQ | 蛋白质sirB2 | ATC_ATT | - - - - - - | AATAAAACCCAAAAC.ATATAAATGATAACT |
28778年 | LF82_3594 | 1863337 | 315年 | yoad | 但一个个蛋白质yoad | TCA_TCG | - - - - - - | AATAAACACATCCGG.GAAATCCAGCCCTGA |
33613年 | LF82_1161 | 2703166 | 64年 | kgtP | alpha-ketoglutarate透性酶 | ATC_GTC | I_V | AATCGAACCACTCGA.CAGATTACCTGAAGA |
34319年 | LF82_1458 | 2314155 | 109年 | napH | Ferredoxin-type蛋白质napH | TGC_TGT | - - - - - - | AATCGGGTTCAGCGG.CAGACCCAGCTGCAA |
38227年 | LF82_0292 | 1791658 | 98年 | chbC | N, N′-diacetylchitobiose通透酶IIC组件 | GCA_GCC | - - - - - - | AATGTCTTTAATGGC.CCGTTCTTTATTGGC |
41394年 | LF82_0568 | 590179年 | 1065年 | entF | F enterobactin合成酶组件 | GGC_GGT | - - - - - - | ACAAAACAGCGTCGG.CCATTACCTTCACGC |
47355年 | LF82_0643 | 594694年 | 108年 | fepD | 铁enterobactin交通系统通透酶蛋白质 | GGC_GGT | - - - - - - | ACCAAACAGCGCCGC.CCCAGCACAATGGCA |
50014年 | LF82_1969 | 194435年 | 175年 | rpsB | 30年代核糖体蛋白S2 | GAA_GAG | - - - - - - | ACCCAGGTTGTTTGC.TCTTTGATAGCAATG |
53374年 | LF82_1293 | 2171434 | 294年 | mdtB | 多药耐药性蛋白质mdtB | GTC_GTT | - - - - - - | ACCGGGCTGGCGCTG.ACATTCATCACAATG |
59674年 | LF82_0037 | 4433698 | 213年 | 阿布扎比投资局 | biodegradative精氨酸脱羧酶 | AAA_AGA | K_R | ACGCGTGCGGCATAT.TTTCGCTTTCGCCAA |
60894年 | LF82_3214 | 3230091 | 322年 | ygiC | 但一个个蛋白质ygiC | GAA_GCA | A_E | ACGGCAAAACCATTG.AGCAGCGGAAGGTCC |
61792年 | LF82_2234 | 3309745 | 744年 | tdcE | 酮酸甲酸乙酰转移酶 | TTC_TTT | - - - - - - | ACGGGTCAGTGCGTT.AAGCGCACGGCGTAG |
62110年 | LF82_1949 | 3853882 | 32 | rpmB | 50年代L28核糖体蛋白质 | AAC_AAT | - - - - - - | ACGGTGAGAGTGCAG.TTCGGCAGGAAACGG |
62298年 | LF82_1763 | 2424670 | 438年 | 家长会 | 磷酸乙酰转移酶 | CCA_CCG | - - - - - - | ACGGTTGATCTCTGC.GGATTACCCAGCAGT |
67807年 | LF82_2052 | 1051438 | 173年 | rutD | 蛋白质rutD | CAA_CAG | - - - - - - | ACTGGCGCATTTTCA.GGCAAAAATAATTTA |
69222年 | LF82_0282 | 2251116 | 61年 | cdd | 胞嘧啶核苷脱氨酶 | GCA_GCG | - - - - - - | ACTTCCGCTGGCGGC.GCCTGTGCGCGTACG |
77011年 | LF82_0807 | 3320150 | 36 | garR | 2-hydroxy-3-oxopropionate还原酶 | ATC_ATT | - - - - - - | AGCAATCACGTCAGC.ATAGCTTCTGGGTTA |
。 | 蛋白质的消化系统。 | 位置。 | 位置。 | 基因。 | 基因。 | 密码子。 | 氨基酸的变化。 | 上游(SNP。 |
---|---|---|---|---|---|---|---|---|
SNP ID。 | (LF82)。 | 基因组。 | 蛋白质。 | 象征。 | 描述。 | 改变。 | (AIEC_canonical)。 | 等位基因)下游。 |
3041年 | LF82_2090 | 420452年 | 22 | sbcD | 核酸酶D sbcCD亚基 | GCC_GCT | - - - - - - | AAAAGCCTGATGTTC.GCTTCGCGGCTTTTA |
7521年 | LF82_0539 | 3274893 | 494年 | ebgA | 进化苷酶亚基α | CCG_CCT | - - - - - - | AAACTCATTCATCAG.GGCACGCGGGTGTAC |
7899年 | LF82_1615 | 949628年 | 65年 | pepN | 氨肽酶N | CAT_TAT | H_Y | AAACTGGTTTCTGTT.ATATTAATGATGAGC |
8516年 | LF82_3178 | 3032573 | 67年 | ygfU | 嘌呤通透酶ygfU | ATC_ATT | - - - - - - | AAAGAGATCCGAGCT.ATGAGCATCGCAATA |
11298年 | LF82_2909 | 1841135 | 408年 | yeaI | 内在膜蛋白yeaI | GTA_GTG | - - - - - - | AAATAGCAAGCCAAA.ACCTCACCCTCCAGT |
11921年 | LF82_1905 | 616068年 | 42 | 核糖核酸 | 核糖核酸酶我 | TCA_TCC | - - - - - - | AAATCCGGTTTGCCA.GAGAGGGCCAGGACA |
13793年 | LF82_1818 | 3979722 | 115年 | rbsD | 高亲和力核糖rbsD运输蛋白质 | GAA_GGA | E_G | AACAACAAACCGCAG.AAGTCAGGCGGTAAT |
19209年 | LF82_1943 | 3376915 | 70年 | rplU | 50年代L21核糖体蛋白质 | GAA_GAG | - - - - - - | AACGATTTTAACTTT.TCGCCACGACCGTGA |
20240年 | LF82_3057 | 2421610 | 45 | yfbV | UPF0208膜蛋白yfbV | CGT_TGT | C_R | AACGGATCGCATAAC.CGTCATCTTGATAAC |
23899年 | LF82_0619 | 2467177 | 343年 | fadJ | 脂肪酸氧化复杂的α亚基 | CAG_CGG | Q_R | AAGATATCAACCCGC.GGGCATAAATCATGC |
26793年 | LF82_1783 | 2594140 | 38 | purN | Phosphoribosylglycinamide formyltransferase | GCC_GCT | - - - - - - | AAGGCCGAACGCGTC.GCCTTATTGCTGAAA |
27732年 | LF82_0930 | 2799047 | 107年 | gshA | glutamate-cysteine连接酶 | TAC_TAT | - - - - - - | AAGTATGCCATGCTA.ATCGCAGAAGGTCAG |
28707年 | LF82_2747 | 1278005 | 86年 | ychQ | 蛋白质sirB2 | ATC_ATT | - - - - - - | AATAAAACCCAAAAC.ATATAAATGATAACT |
28778年 | LF82_3594 | 1863337 | 315年 | yoad | 但一个个蛋白质yoad | TCA_TCG | - - - - - - | AATAAACACATCCGG.GAAATCCAGCCCTGA |
33613年 | LF82_1161 | 2703166 | 64年 | kgtP | alpha-ketoglutarate透性酶 | ATC_GTC | I_V | AATCGAACCACTCGA.CAGATTACCTGAAGA |
34319年 | LF82_1458 | 2314155 | 109年 | napH | Ferredoxin-type蛋白质napH | TGC_TGT | - - - - - - | AATCGGGTTCAGCGG.CAGACCCAGCTGCAA |
38227年 | LF82_0292 | 1791658 | 98年 | chbC | N, N′-diacetylchitobiose通透酶IIC组件 | GCA_GCC | - - - - - - | AATGTCTTTAATGGC.CCGTTCTTTATTGGC |
41394年 | LF82_0568 | 590179年 | 1065年 | entF | F enterobactin合成酶组件 | GGC_GGT | - - - - - - | ACAAAACAGCGTCGG.CCATTACCTTCACGC |
47355年 | LF82_0643 | 594694年 | 108年 | fepD | 铁enterobactin交通系统通透酶蛋白质 | GGC_GGT | - - - - - - | ACCAAACAGCGCCGC.CCCAGCACAATGGCA |
50014年 | LF82_1969 | 194435年 | 175年 | rpsB | 30年代核糖体蛋白S2 | GAA_GAG | - - - - - - | ACCCAGGTTGTTTGC.TCTTTGATAGCAATG |
53374年 | LF82_1293 | 2171434 | 294年 | mdtB | 多药耐药性蛋白质mdtB | GTC_GTT | - - - - - - | ACCGGGCTGGCGCTG.ACATTCATCACAATG |
59674年 | LF82_0037 | 4433698 | 213年 | 阿布扎比投资局 | biodegradative精氨酸脱羧酶 | AAA_AGA | K_R | ACGCGTGCGGCATAT.TTTCGCTTTCGCCAA |
60894年 | LF82_3214 | 3230091 | 322年 | ygiC | 但一个个蛋白质ygiC | GAA_GCA | A_E | ACGGCAAAACCATTG.AGCAGCGGAAGGTCC |
61792年 | LF82_2234 | 3309745 | 744年 | tdcE | 酮酸甲酸乙酰转移酶 | TTC_TTT | - - - - - - | ACGGGTCAGTGCGTT.AAGCGCACGGCGTAG |
62110年 | LF82_1949 | 3853882 | 32 | rpmB | 50年代L28核糖体蛋白质 | AAC_AAT | - - - - - - | ACGGTGAGAGTGCAG.TTCGGCAGGAAACGG |
62298年 | LF82_1763 | 2424670 | 438年 | 家长会 | 磷酸乙酰转移酶 | CCA_CCG | - - - - - - | ACGGTTGATCTCTGC.GGATTACCCAGCAGT |
67807年 | LF82_2052 | 1051438 | 173年 | rutD | 蛋白质rutD | CAA_CAG | - - - - - - | ACTGGCGCATTTTCA.GGCAAAAATAATTTA |
69222年 | LF82_0282 | 2251116 | 61年 | cdd | 胞嘧啶核苷脱氨酶 | GCA_GCG | - - - - - - | ACTTCCGCTGGCGGC.GCCTGTGCGCGTACG |
77011年 | LF82_0807 | 3320150 | 36 | garR | 2-hydroxy-3-oxopropionate还原酶 | ATC_ATT | - - - - - - | AGCAATCACGTCAGC.ATAGCTTCTGGGTTA |
然后用PPFS2菌株为积极或消极的表型分类基于这些29个snp。每个PPFS2独立运行在迭代分配B2 AIEC和同一组5株(启德集团、eioc eih, ecz, ecv)一个“积极的”KEGG菌株的表型,其余的则被分配的“负面”表型(表S2,支持信息)。重要的是,当上述五个菌株(启德集团、eioc eih, ecz, ecv)被分配一个负表型,AIEC分配一个积极的表型和所有其他未知菌株表型,没有被PPFS2诊断单核苷酸多态性。这三个菌株ecq、心电图和ecp显示混合表型比例约等于snp的定义相反的表型(文件S1,支持信息)。值得注意的是,这些菌株是相同的三个额外的菌株中确定第二层AAC格式分析,表明我们的分析是一致的。
大多数29诊断snp基因中发现了可以分成四个特定功能:(1)糖代谢和运输,(2)核糖体相关,(3)氧化还原相关和(4)enterobactin相关。鉴于ribosomal-related基因已经被用于系统发育分析在过去的几十年中,基因识别我们的分析,分为这个函数可能在未来存在有趣的系统发育标记。
然后我们使用29诊断snp扫描完整的1311测序大肠杆菌在NCBI菌株。一个非常具体的组51大肠杆菌菌株(47 UPEC 3 ExPEC和1 APEC)被确认含有所有这些snp。这些51株显示完整的重叠与73年B2-related菌株在AAC分析识别。然而,潜在AIEC女士110 - 3并不是其中51株,表明110 - 3不是一个AIEC女士或利用所有29个snp过于严苛的组合确定致病性B2菌株。
有趣的是,诊断的snp kSNP / PPFS2分析包括第一层aac格式之一。这是一个变化从精氨酸、半胱氨酸位置44膜蛋白YfbV(表内1),直接开始前两个跨膜域(拉普等。2004年;戴利等。2005年)。YfbV已被证明是需要的绝缘性能(染色体相互作用的中介)TidR和TidL染色体组织,可能通过这些蛋白质膜(泰尔拘束等。2012年)。可以推测,添加半胱氨酸,有可能直接创建YfbV内二硫键在该地区前跨膜域,可能影响其锚定到膜的能力。剩下的五个snp对应的aac概念验证分析没有达到统计阈值被认为是诊断。
蛋白质保护分析确定三种蛋白质的鉴定致病性子群
在互补的方法,我们运用类似的方法来识别独特的蛋白质,集群B2 AIEC尽可能最小的一组压力密切相关。使用62株在KEGG数据库中,我们确定了三种蛋白质,CRISPR / Cas系统蛋白质Cas5 Cas6和假想蛋白(LF82_034;YP_002555197),独特的守恒的B2 AIEC和一个额外的5株(eci, eih ecv, ecz和ecoi) B2的系统发育。有趣的是,相关的5株菌株在这个分析识别匹配AAC分析(表的兴趣1)。的两个三种蛋白质(Cas5和Cas6)也显示在应变ecq保护,而假想蛋白也在应变ecp发现是守恒的。鉴于CRISPR蛋白质的存在共生的应变O81 ED1a (ecq)和他们的已知函数,我们进一步分析了假想蛋白序列。这个假设的蛋白质股票序列相似性与已知的五肽repeat-containing从其他细菌蛋白质;但是,它缺乏五肽重复。当排除大肠杆菌观察,最高的序列相似性枸橼酸杆菌属youngae然而,这是只在55%的身份,确认某些程度的特异性大肠杆菌菌株。
有趣的是,只有80株除了四B2 AIEC菌株被发现包含所有三个蛋白质Cas5 Cas6(133株)和假设的蛋白质(144株)。比较这些80株,73株确定使用AAC分析显示高水平的相似性分析,与71株鉴定常见[ExPEC(包括UPEC)和AIEC女士(包括110 - 3)]。因此,引人注目的重叠之间的相关菌株列表观察分析和AAC格式分析,确认这个群的亲缘进化和建议功能意义这三个蛋白质表型的子群。
结论
总之,我们执行一个分析来识别可能的遗传变异常见的子群致病性菌株属于B2系统组使用多个序列比对方法。我们确定了六个aac格式,定义了一个包含AIEC B2系统集团的子群,UPEC和ExPEC菌株显示进化协会。这种关联的强度和性质进行了测试在后续综合分析步骤使用k-mer-based SNP识别工具kSNP和表型预测工具,PPFS2。29个高分辨率单核苷酸多态性被确定诊断。这些诊断snp强烈聚集在一起提出了B2系统集团的子群,表示一个可能的表型。未来的工作应该检查这些基因变异的功能相关性,以确定其与特定的毒力表型。
补充数据
补充数据。
资金
这项工作是由澳大利亚联邦政府支持EIF超级科学计划,新南威尔士州政府科学利用基金(SLF)和新南威尔士大学(股价和NPD)。
利益冲突。没有宣布。