文摘gydF4y2Ba
当前财富基因组变异数据的识别在核苷酸水平提出了挑战的理解机制氨基酸变异影响细胞过程。这些影响可能表现为不同的个体之间的表型差异或导致疾病的发展。物理之间的相互作用分子的连接步骤潜在的大多数,如果不是全部,细胞过程。理解序列变异的影响在一个分子的相互作用是一个关键的一步连接的机械特性产生的表型变异。我们提出一个开放存取资源创造了超过14年的IMEx数据库管理员,以28000注释描述小序列变化对身体的影响蛋白质相互作用。我们描述这个资源,如何的格式提供数据,并提供一个描述性的数据集,数据集的分析是通过完整的网站公开,增强每个月释放。gydF4y2Ba
介绍gydF4y2Ba
细胞处理信息和应对环境通过分子相互作用的动态网络,节点的生物分子(如蛋白质、基因、代谢产物,microrna)和边代表功能关系,包括物理蛋白质-蛋白质之间的关系、转录调控、遗传相互作用和基因/蛋白的修改。全面、系统的描述这些网络是必不可少的全面理解复杂的生物过程,细胞如何应对特定的线索,和网络的个别组件如何导致表型,在生理、病理或合成条件。gydF4y2Ba
分子之间的相互作用可以被固有的稳定和本质上是不可逆转的,导致稳定的大分子复合物的形成,或弱瞬态交互特征的离解常数(KD)微摩尔的范围和一生的秒。改变单一的氨基酸在蛋白质链就足以破坏蛋白质结合位点和可能会改变瞬态绑定的子网络结构或蛋白质复合体的形成。变异导致的失活蛋白激酶分子可能导致大面积中断翻译后磷酸化的事件和相关的信号网络的重新布线。许多疾病是由特定的基因突变引起的,治疗和预后或响应通常是突变特异的。变异如何影响分子相互作用的研究是这样的极端感兴趣,因为它可以帮助确定特定的蛋白质的作用残留在分子的通用功能绑定。几项研究gydF4y2Ba1gydF4y2Ba,gydF4y2Ba2gydF4y2Ba,gydF4y2Ba3gydF4y2Ba,gydF4y2Ba4gydF4y2Ba有疾病相关变异分子相互作用网络的影响进行了探讨,利用结构研究和计算预测试图识别variation-affected接口和预测特定变量交互作用的影响。这些研究表明,交互接口包含一个与疾病相关的变异率显著高于其余的分子变异的位置在这些接口可以确定疾病特异性。gydF4y2Ba
尽管可用的高通量筛选平台交互,这些变异效应预测的实验验证系统扩展仍然是一个重大的挑战。然而,这些数据可以发现在文献中报道,但很难搜索和连接。研究人员多年来一直在研究单一的影响,或多个感应点突变对二进制和n - ary交互在小规模实验。目标改变蛋白质的氨基酸序列设计,主要由定点诱变,目标是模仿的变体gydF4y2Ba5gydF4y2Ba,gydF4y2Ba6gydF4y2Ba、消除已知或预测,转录后修饰gydF4y2Ba7gydF4y2Ba,gydF4y2Ba8gydF4y2Ba,扰乱地区所需蛋白质的稳定性或改变蛋白结合域的属性gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba,他们感兴趣的互动效果监控。IMEx财团的工作gydF4y2Ba11gydF4y2Ba捕捉这些信息到一个单独的数据集,从而使重用和re-analyse可供研究人员。IMEx财团注释器详细内容管理模型,不仅捕获实验的全部细节(包括交互检测方法,参与者识别方法和宿主生物体)也使用的结构的描述。这可能包括缺失突变体用于获得最低的坐标也绑定域和点突变的影响。财团执行详细的数据库,出版文献和档案管理也接收前置数据通过直接提交。这密切合作与数据生产者通常需要访问数据未发表的细节,比如实验报告基因突变没有影响交互,使捕获科学界的附加值。gydF4y2Ba
在这里,我们描述了最大literature-derived数据集,据我们所知,捕获序列变化的影响相互作用的结果。我们将讨论如何生成的数据集,以及它是如何维护的EMBL-EBI完整的团队。我们还提供一个初始数据集的分析,突出其重叠基因变异数据,讨论可能的偏见和探索其潜在的基准测试工具变量影响预测工具。gydF4y2Ba
结果gydF4y2Ba
数据管理和质量控制gydF4y2Ba
IMEx财团数据库收集点突变数据已经超过14年,这导致了一个相当大的数据集的近28000完全注释事件(gydF4y2Bawww.ebi.ac.uk完整/资源/数据集# mutationDsgydF4y2Ba)。牧师的IMEx资源交互数据到结构化数据库字段,和从那里进入社区标准交换格式,每一个观测使用受控词汇表术语描述。突变在UniProtKB映射到底层的蛋白质序列和更新与变化序列,以确保它们保持映射到正确的氨基酸残基与每一个蛋白质组。gydF4y2Ba
为了使突变更易于访问数据集生物医学科学家,该财团已经发布了的格式(表一样gydF4y2Ba1、补充表1gydF4y2Ba),其中包括位置的细节和氨基酸突变的变化,分子相互作用和交互上的突变的影响,以及额外的字段包含上下文信息。gydF4y2Ba
此外,数据更新管道已专门开发,确保准确性的突变事件交互参与者的注释功能(补充图gydF4y2Ba1gydF4y2Ba)。这个管道的建设已经成为可能,通过创造特定字段获取序列的变化我们最近开发的标准格式PSI-MI XML3.0gydF4y2Ba12gydF4y2Ba。它运行在协调完整的蛋白质数据库每月更新程序,确保与UniProtKB同步gydF4y2Ba13gydF4y2Ba并自动转换功能位置是否有引用的蛋白质序列的变化。管道应用于整个完整的数据库中的数据(gydF4y2Bawww.ebi.ac.uk完好无损gydF4y2Ba),所有的IMEx数据,也遗留数据生成的完整,薄荷、倾斜和UniProt屏模组(见gydF4y2Ba补充信息gydF4y2Ba,部分的初始re-curation IMEx突变数据的细节re-annotation和突变的自动化质量控制管道IMEx条目的数据更新过程)。突变数据更新管道将继续在质量控制模式下运行每次发布的数据集保存完好,确保突变与UniProtKB完全更新。gydF4y2Ba
数据集的统计数据gydF4y2Ba
完整的IMEx突变数据集包含27868个完全注释事件序列的改变已经在一个互动实验。实验测试所有这些信息已经手动策划,代表超过33000工时biocurators价值的工作,并不断增长与持续的IMEx管理活动。4353蛋白质注释来自297个不同的物种,与超过60%的事件注释在人类蛋白质和大约90%的带注释的七种主要模式生物(见表gydF4y2Ba2gydF4y2Ba)。gydF4y2Ba
总共13926互动证据注释有不同影响,使用PSI-MI受控词汇表。大部分的影响报道的“有害”自然,破坏(10976注释,39.3%)或减少交互(8553注释,30.7%),但有相当数量的互动,加强(2256注释,8.1%)或(188注释,0.7%)的突变引起与野生型序列相比(图gydF4y2Ba1gydF4y2Ba)。数据集还包括这些突变实验测试,但发现没有在交互效应(3057注释,11%)和“定义”突变出现在实验中使用的结构,但比较与野生型引用缺席或不可能(2838注释,10.2%)。重要的是要注意,“导致”和“没有影响”突变效应分类最近只采用受控词汇表和biocurators占领,所以他们有一个低得多的注释和不具有直接可比性的另一个类别去了。gydF4y2Ba
蛋白质相互作用(PPI)实验报告这种类型的数据一直在稳步增加在过去的20年里,超过4100出版物中包含的数据与突变蛋白质序列IMEx财团的策划。然而,分数的质子泵抑制剂突变蛋白据报道仍相对较低(图。gydF4y2Ba1 bgydF4y2Ba)。大多数的突变蛋白的相互作用涉及到检测使用亲和力chromatography-related方法(如co-immunoprecipitations或在下拉菜单)或互补分析基于转录记者,主要是酵母二者混合方法的变化(见图。gydF4y2Ba1 cgydF4y2Ba)。我们的大多数数据集来自小规模论文的管理每个报告只有少数突变(图。gydF4y2Ba1 dgydF4y2Ba)。大约99%的出版物(4173)包含少于100变异注释和代表注释(22218)的80%。只有8出版物包含超过100个注释,描述超过4000事件,其中一个研究中,作者系统地测试大量的变异及其对相互作用的影响gydF4y2Ba5gydF4y2Ba。记录象这样的大规模数据集已经被灵活的发展使PSI-MI XML3.0上述引用的格式。gydF4y2Ba
目前,唯一的资源,代表氨基酸替换绑定事件的影响是SKEMPI 2.0数据库gydF4y2Ba14gydF4y2BaUniProtKB和IMEx财团成员通过完整(见表数据库gydF4y2Ba3gydF4y2Ba详细比较)。这些资源的IMEx是最大的,唯一一个能够提供便利,系统地描述了,最新的注释。UniProtKB诱变注释记录序列的改变是否会影响交互,但实验背景不是捕获和半自由文本字段中所描述的影响是很难解析。SKEMPI序列变化的影响提供了一个详细的概述绑定来自体外实验,记录亲和力和其他蛋白复合物动力学参数的变化与结构性数据可用蛋白质数据库(PDB)gydF4y2Ba15gydF4y2Ba。只有非常具体的交互检测方法,使用纯化蛋白质,被认为是,这限制了它的范围。gydF4y2Ba
这些资源之间存在有限的重叠,只有4出版物和44报道发现在所有三个序列变化。我们手动评估的一致性的注释4出版物和发现的不一致造成的不同的管理实践。最值得注意的是,SKEMPI 2.0报道突变坐标使用链作为注释在PDB,通常不同于实际的氨基酸位置报道UniProt条目,使用的IMEx UniProt。我们还发现情况突变与很少或没有影响交互结果没有报告的IMEx数据集,因此早期的管理方针,不需要注释的突变,除非显然表现产生影响。此外,UniProt和SKEMPI 2.0突变的实际证据最初生成报告在出版物中引用一个附加的记录。根据IMEx指南,所有变异注释必须提交原出版。最后,一些注释只是缺少一个或多个资源没有明显的原因,虽然我们可以认为某些情况下non-parseable UniProt记录。我们手册的全部细节评估可以在补充数据gydF4y2Ba1gydF4y2Ba。gydF4y2Ba
形成的IMEx财团目前11组,每一个自己感兴趣的领域,已经同意使用相同的管理标准和数据表示格式下载。联盟的所有成员gydF4y2Ba16gydF4y2Ba,gydF4y2Ba17gydF4y2Ba,gydF4y2Ba18gydF4y2Ba,gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba,gydF4y2Ba21gydF4y2Ba,gydF4y2Ba22gydF4y2Ba,gydF4y2Ba23gydF4y2Ba使用内容管理平台提供的完整团队EMBL-EBI。图gydF4y2Ba1 egydF4y2Ba显示了每个事件的数量标注数据资源。大型数据库等完好无损,倾斜和薄荷,独家关注交互数据管理,生产的大多数注释,但一个相当大的数据集的一部分进入了其他特定领域,该财团的成员。gydF4y2Ba
根据IMEx模式和管理政策,交互的证据,而不是相互作用对分子,是数据表示的焦点。这导致的管理多个不同的证据描述相同的相互作用对和体重特征如何提供了一种方法是给定一组相互作用的分子。它还使我们能够捕获分离实验,测试不同的序列变异的交互影响。大部分的蛋白质数据集有一个低数量的突变有关,大多数蛋白质有不到15注释(补充图gydF4y2Ba2gydF4y2Ba)和5或更少(补充图序列变化gydF4y2Ba2 bgydF4y2Ba)。有一个更深入的信息可供人类蛋白质,因为人类的数据与其他物种的相对数量增加的数量每蛋白质注释。gydF4y2Ba
的IMEx evidence-centric管理模型还可以检查是否同样的突变已经测试相同的分子使用不同的交互检测方法(或由不同的研究小组)和突变的结果是否在所有这些实验是一贯的。在无花果。gydF4y2Ba1 fgydF4y2Ba我们只显示大多数突变是注释(仅测试在一个实验中)。在这些情况下,有证据的多个实例测试,结果似乎是高度一致的,只有少数情况下确定的相互矛盾的结果报告。通报了7212起病例突变的影响在一个接口测试2次或更多,只有90人(1.3%)显示不同的效果,只有19例(0.3%)报告拮抗效应。我们仔细检查了敌对的情况下,发现17个19例,这些显然是矛盾的原因结果变异形式测试实验装置提供完全不同的类型的信息。最常见的例子是当一个蛋白质的突变体和野生型版本测试对酶活性和绑定在单独的化验。例如,gydF4y2Ba枯草芽孢杆菌SufUgydF4y2BaC41A变体形式的hetero-tetramer其潜在的衬底gydF4y2Ba进而gydF4y2Ba,但失去sulfotransferase活动gydF4y2Ba24gydF4y2Ba。其余2例是真正的冲突,造成不同的出版物使用类似的实验方法,但报告不同的效果。这种比较的详细概述中可以找到补充数据gydF4y2Ba2gydF4y2Ba。gydF4y2Ba
绝大多数的数据集是指氨基酸替换,有边际的插入和删除报道(83年只有65删除和插入注释)。图gydF4y2Ba2gydF4y2Ba表明,精氨酸,亮氨酸和丝氨酸是最经常更换残留,而组氨酸和甲硫氨酸残基突变较少(见附加图gydF4y2Ba3gydF4y2Ba更详细的视图在特定的替代品)。丙氨酸是迄今为止最常用的残渣替换(图。gydF4y2Ba2 bgydF4y2Ba),这可能是广泛使用的反光丙氨酸扫描gydF4y2Ba25gydF4y2Ba确定残留绑定到其他的关键分子,因为他们发现在交互界面或变构结合位点。当我们检查不同的突变影响的相对比例/替换残渣(图。gydF4y2Ba2摄氏度gydF4y2Ba,补充图gydF4y2Ba3 bgydF4y2Ba),丙氨酸替代主要对交互与有害的影响。有害效应的主导地位很可能反映了原始研究的作者使用丙氨酸扫描定位为绑定残留。gydF4y2Ba
基因组变异和IMEx突变的数据集gydF4y2Ba
在这个深度排序基因组学的时代,有大量的数据产生的基因变异。正如之前所讨论的,这些实验的设计背后的动机各不相同,只有一小部分是专门设计用于系统测试已知的变异与参考(野生型)版本的参与者的蛋白质gydF4y2Ba5gydF4y2Ba,gydF4y2Ba26gydF4y2Ba。因此,我们决定探索多少目前可用的信息可以与自然或疾病相关变异的数据集,因为强烈的人类的数据优势在IMEx突变和变异的数据集,我们决定只关注人类蛋白质。gydF4y2Ba
我们使用了EMBL-EBI蛋白质APIgydF4y2Ba27gydF4y2Ba访问两个手动标注的数据变化和映射到UniProtKB从大规模基因组测序研究如1000年gydF4y2Ba28gydF4y2Ba,ExACgydF4y2Ba29日gydF4y2Ba和宇宙gydF4y2Ba30.gydF4y2Ba项目。我们查询8820 1990年人类蛋白质序列变化,对应16765年IMEx变异注释(见表gydF4y2Ba4gydF4y2Ba和无花果。gydF4y2Ba3gydF4y2Ba)。29%(4804)的变异注释(图。gydF4y2Ba3gydF4y2Ba)和12%(1073)的序列变化(图。gydF4y2Ba3 bgydF4y2Ba)完全映射到自然变异。我们也检查的情况有一个变体中描述的一样IMEx突变报道的数据集,但氨基酸的变化是不同的两个数据集(位置匹配),还有那些跨越多个突变,只有一些残留的变化或职位匹配UniProtKB(部分匹配)。百分之十六(2671)的变异注释(图。gydF4y2Ba3gydF4y2Ba)和16%(1415)的序列变化(图。gydF4y2Ba3 bgydF4y2Ba)是位置或部分匹配。位置和局部映射的生物学意义不超出规定区域或位置问题是重要的交互和变量。然而,我们相信这些信息可能有助于研究人员感兴趣的更详细地研究特定区域。gydF4y2Ba
我们也检查了多少映射变异注释根据UniProtKB与疾病。疾病关联与DisGeNET数据库的数据补充gydF4y2Ba31日gydF4y2Ba。有疾病有关的变异为42%(840)的蛋白质,查询的中值4疾病变异映射/蛋白质。见表gydF4y2Ba4gydF4y2Ba,20%(3432)的IMEx变异注释标记相关的疾病,超过900种已知疾病变异为代表的数据集。UniProtKB疾病注释变异来自人工管理gydF4y2Ba32gydF4y2Ba从ClinVar和进口的相互参照数据gydF4y2Ba33gydF4y2Ba通过运用gydF4y2Ba34gydF4y2Ba,而DisGeNET还包括变异从GWAS目录gydF4y2Ba35gydF4y2Ba,从文本挖掘科学文献。图gydF4y2Ba3 cgydF4y2Ba显示了不同变体的分布关联疾病类使用医学主题词(网)gydF4y2Ba36gydF4y2Ba分类。这些突变的一个详细列表annotation-disease协会可以在补充数据gydF4y2Ba3gydF4y2Ba。gydF4y2Ba
然后我们检查,如果在IMEx疾病相关注释的比例根据不同报道对相互作用的影响。见图。gydF4y2Ba3 d, egydF4y2Ba,疾病相关变异往往主要有害影响相互作用的结果,但我们也可以映射相当数量的功能注释那里有增加甚至的绑定(411代表116个变异注释)。当我们观察变异在不同类型的癌症复发从cBioPortal中提取gydF4y2Ba37gydF4y2Ba突变加强互动似乎都统计高复发的价值和更高比例的突变与极高的复发癌症数据集(图。gydF4y2Ba3 f, ggydF4y2Ba)。gydF4y2Ba
计算预测和文学内容管理gydF4y2Ba
目前各种计算工具用来标注数据集变化gydF4y2Ba38gydF4y2Ba。这些工具可以在蛋白质功能报告变化的影响,折叠或绑定,通常几乎完全基于序列或结构数据,或者也可以报告genome-derived等位基因频率或保护分数等参数。我们想研究变异注释提供了这些工具结合实验效果随着交互在文献中报道。gydF4y2Ba
为了这个目的,我们使用mutfunc (gydF4y2Bawww.mutfunc.comgydF4y2Ba)gydF4y2Ba39gydF4y2Ba数据库报告的影响几乎任何可能的突变蛋白稳定性、交互界面、转录后修饰、蛋白质翻译、守恒的地区,和监管区域。主机的预先计算变异影响数据来源于建立资源筛选等gydF4y2Ba40gydF4y2Ba,Interactome3DgydF4y2Ba41gydF4y2Ba或FoldXgydF4y2Ba42gydF4y2Ba。gydF4y2Ba
我们首先研究了预测扰动突变影响蛋白质的结构模型接口,他们除以literature-reported效果。我们可以看到在无花果。gydF4y2Ba4gydF4y2Ba突变,“减少”,尤其是“扰乱”影响交互预测扰动效应明显高于那些没有效果,区别是未见的突变,将加强,甚至导致一个交互。这些有害组还包含一个更高比例的突变预测为接口(图很不稳定。gydF4y2Ba4 bgydF4y2Ba)。gydF4y2Ba
我们接下来研究genome-derived参数有用的学习变化,如残留保护或自然等位基因频率。实验观察到影响绑定稳定我们报告数据集也可以反映在这些参数。这种假设部分证实了使用三个独立测量。首先,我们使用“排序从宽容宽容”(筛选)方法gydF4y2Ba40gydF4y2Ba,观察变异容忍度较低分数的比例明显高于在所有组的影响报道与参考(图“没有影响”。gydF4y2Ba4摄氏度gydF4y2Ba)。其次,我们还检查了等位基因频率来自ExAC数据。再次,突变的报道效果似乎大大降低等位基因频率(图。gydF4y2Ba4 dgydF4y2Ba与极低)和更高比例的等位基因频率(无花果。gydF4y2Ba4 egydF4y2Ba)据报道,比没有影响交互。最后,我们使用PolyPhen2gydF4y2Ba43gydF4y2Ba错义突变效应预测算法,使用朴素贝叶斯分类器基于序列和基于结构的预测功能。在这种情况下,有害的突变预测PolyPhen2显著富集的“减少”和“破坏”效应团体对那些“没有影响”(无花果。gydF4y2Ba4 fgydF4y2Ba)。gydF4y2Ba
interaction-perturbing影响报告的IMEx整体蛋白质结构数据集可以通过修改或变更绑定的接口。我们可以确定突变报道属于序列区域与绑定使用计算预测和literature-reported实验数据。我们获得预测接口,基于可用的结构数据,从Interactome3DgydF4y2Ba41gydF4y2Ba。Literature-curated接口从IMEx推断记录包含参与者的特征“binding-associated地区”(MI: 0117)分支。这些代表实验,作者测试片段结构,试图找到序列是绑定的关键地区,尽管他们不一定代表实际约束力的表面。见图。gydF4y2Ba4 g hgydF4y2Ba,大多数的突变属于预测或策划接口。突变产生了影响的比例在绑定似乎更高的交互接口,预测和推断IMEx帘。疾病有关的变异似乎显示相同的模式(补充图gydF4y2Ba4 a、bgydF4y2Ba)。据报道,因此,大部分的变异影响蛋白质相互作用(68%)可以与扰动约束力的区域内,与一个较小的变异(32%)的比例可能代表系统或变构效应影响的交互。gydF4y2Ba
磷酸化和变异的交互gydF4y2Ba
转录后修饰(天车)可以被视为化学开关与可能影响蛋白质相互作用gydF4y2Ba44gydF4y2Ba。我们探索突变是否与报道的影响在我们的数据集是蛋白质的丰富已知网站修改,重点在人类蛋白质磷酸化最好的天车数据集特征。利用PhosphoSitePlus phosphosite注释®gydF4y2Ba45gydF4y2Ba,我们发现,减少干扰,增加突变确实是丰富的注释phosphosites(无花果。gydF4y2Ba5gydF4y2Ba)。特定氨基酸替换也常用于破坏phosphosite (phospho-disrupting突变,丝氨酸,苏氨酸和酪氨酸取代丙氨酸、甘氨酸、缬氨酸、苯丙氨酸)或模拟(phospho-mimetic突变,用同样的氨基酸谷氨酸或天冬氨酸)所取代。看着这些替换具体来说,我们可以看到,phosphosite-disrupting突变占大多数的重叠和注释phosphosites又丰富的减少,破坏和增加效果(图。gydF4y2Ba5 bgydF4y2Ba)。Phospho-mimetic突变明显丰富只有当他们越来越影响了交互(图。gydF4y2Ba5度gydF4y2Ba)。gydF4y2Ba
文学偏见的IMEx突变数据集gydF4y2Ba
IMEx数据库有一个宽范围在选择出版物上面提到的,它是合理的假设在这个数据集是代表的蛋白质交互数据探索的文学。社会驱动、文学偏见是一个众所周知的现象之前报道literature-curated数据集gydF4y2Ba26gydF4y2Ba,gydF4y2Ba46gydF4y2Ba,所以我们决定去探索它在多大程度上影响了数据集。gydF4y2Ba
首先,我们检查是否注释和变异的数量数据集和出版物的数量影响蛋白质的相关报道。见图。gydF4y2Ba6 a、bgydF4y2Ba,数据集包含的例子都大量研究蛋白质与低数量的注释和变异,反之亦然。如果我们之间符合线性模型注释的数量/变异和出版物数量的蛋白质是报告我们发现轻微的正相关,特别是在疾病相关变异的情况。这个观察是兼容社会引起偏见,与已知的疾病相关蛋白质和变异更经常在文献报道。gydF4y2Ba
然后我们开始寻找中蛋白质突变数据集是否参与独特的途径和蛋白质的IMEx交互信息。为了避免特定于数据库的偏见我们执行注释使用PathDIP富集分析(gydF4y2Bahttp://ophid.utoronto.ca/pathDIPgydF4y2Ba),一个分析工具,它集成了来自20源数据库的信息gydF4y2Ba47gydF4y2Ba。人类蛋白质分为不同取决于效果报告他们的突变和通路注释浓缩计算使用所有的人类蛋白质IMEx作为背景。途径获得这些设置有大量重叠(图。gydF4y2Ba6摄氏度gydF4y2Ba694通道)。这些结果表明,突变的蛋白质交互影响收集在这个数据集可能有偏见,可能是因为研究人员探索的特定利益变化影响分子的相互作用。具体地说,在群突变表明影响交互,通路与免疫系统有关,信号、疾病和细胞周期控制排在顶部(补充图gydF4y2Ba5gydF4y2Ba,请参阅补充数据gydF4y2Ba4gydF4y2Ba和gydF4y2Ba5gydF4y2Ba全部细节),类别之间的差异影响。似乎有癌症相关通路的优势,与代表“疾病”和“信号”类别,同意报告的观察图。gydF4y2Ba6 bgydF4y2Ba文学是偏向疾病相关变异。gydF4y2Ba
讨论gydF4y2Ba
这里我们提出一个独特的资源包含实验、公开可用信息序列变化的影响在特定蛋白质相互作用的结果。这是一个直接结果的IMEx财团详细细节的管理政策和代表的一个例子专家管理,导致结构化和标准化的表征,是必需的,为了充分利用已发表的实验结果。相似,相比已有的数据集记录变化影响交互,这个资源深度代表了一个飞跃,规模和范围(表gydF4y2Ba3gydF4y2Ba)。前一个,相对较小的研究gydF4y2Ba48gydF4y2Ba报道策划的大约100突变影响列表交互。尽管由于其大小明显限制,这是作为基准的研究调查疾病相关变异之间的联系和交互的接口gydF4y2Ba1gydF4y2Ba,显示了这种类型的数据的应用潜力。管理基础设施和实践的IMEx财团将使数据的获取越来越多的deep-mutagenesis交互研究,在成百上千的单一氨基酸的变化在整个长度的蛋白质序列研究对相互作用的影响gydF4y2Ba49gydF4y2Ba。新研究出现在基因和蛋白质的相互作用之间的复杂关系gydF4y2Ba50gydF4y2Ba。这些上位关系可以代表PSI-MI数据模型和策展人的IMEx财团正在探索如何使他们的注释。gydF4y2Ba
我们也承认任何固有的社会偏见以资源在我们的数据集,虽然很难确定它的程度。丙氨酸扫描特性显著(图作为一种常用的技术。gydF4y2Ba2 bgydF4y2Ba),可能代表氨基酸变化,永远不会出现在自然进化的约束或仅仅是因为他们需要广泛的序列DNA水平上改变,但是仍然是一个宝贵的信息来源,识别关键为绑定的位置。人类小节的数据集,疾病相关变异和蛋白质所占比例可能高于平均水平(无花果。gydF4y2Ba3 b, cgydF4y2Ba,补充图gydF4y2Ba5gydF4y2Ba)和优先选择了biocuration non-disease-related蛋白质(补充图gydF4y2Ba2gydF4y2Ba)。有趣的是,我们报告超过100疾病相关变异中所描述的文学造成或增加现有的交互(无花果。gydF4y2Ba3 d, egydF4y2Ba),其中的一些发现高度根据cBioPortal癌症复发gydF4y2Ba51gydF4y2Ba。这与研究结果报道萨尼et al。gydF4y2Ba5gydF4y2Ba,只有两例gain-of-interaction突变被发现在一个系统筛查疾病相关的基因突变,并影响使用酵母2台混合动力技术的交互。虽然互动减少/干扰效果更频繁地报道,这突显出gain-of-interaction机制发挥重要作用在疾病发病机理,尤其是癌症。gydF4y2Ba
我们也探讨了突变,模仿或扰乱磷酸化网站,发现浓缩与报道突变的影响。Phosphosite-disrupting突变主要显示蛋白质相互作用,不利影响和phosphosite-mimetic突变都不利,增加效果(图。gydF4y2Ba5gydF4y2Ba)。这些结果是一致的磷酸化影响绑定函数被认为是分子开关。gydF4y2Ba
变异分析是一个基本的工具在基础和临床研究中,直接通过转化基因组学应用在诊所。变化影响研究主要是通过统计分析人口的大型数据集,GWAS研究、定量分析的影响通过识别eQTLs表达式。然而,为了解开背后的机制检测效果,它是探索分子相互作用是如何影响的关键gydF4y2Ba52gydF4y2Ba。目前,大多数的机械的洞察变化影响是由计算注释和预测,使用工具是基于参考集相对较小,通常基于结构数据。为例,广泛使用FoldX算法生成的蛋白质复杂的结构,测试1008突变体库gydF4y2Ba42gydF4y2Ba。我们当前的数据集已经提供了交互作用超过10倍个体变异和并不局限于结构数据。实验设置的宽范围(图表示。gydF4y2Ba1 cgydF4y2Ba)允许对蛋白质和蛋白质的影响区域的捕获,本质上可能是结构化的gydF4y2Ba53gydF4y2Ba。我们目前显示的数据集提供了无与伦比的概述和代表哪些残留的关键蛋白相互作用,结果是很好的按照常用的变异注释器(图。gydF4y2Ba4gydF4y2Ba)。IMEx管理实践最初没有执行捕获序列变化,在互动的结果没有影响,但由于磋商与工具开发人员和数据用户这一政策已经修改,现在的数据集特征越来越多的突变没有影响,可以用作训练发展的负集计算注释工具。gydF4y2Ba
IMEx突变数据集表示直接引用来源,以变异特征和独特的指标,可用于进一步细化计算变异注释器的影响。我们将继续扩大的数据集和改善其用户的可访问性,确保IMEx全球使命的一部分的数据表示和重用。gydF4y2Ba
方法gydF4y2Ba
源数据gydF4y2Ba
所有的分析都使用了2017年9月版的IMEx突变的数据集,可以直接下载gydF4y2Baftp://ftp.ebi.ac.uk/pub/databases/intact/2017-09-02/various/mutations.tsvgydF4y2Ba。gydF4y2Ba
软件和包gydF4y2Ba
变异注释的质量控制管道是开发和集成在生产代码中使用完整的数据库。代码都是用Java编写的,使用Hibernate和Spring框架与核心交互SQL数据库和应用程序的实现。具体的实现细节可按照客户要求定制。统计分析、情节突变re-annotation检查和映射进行使用R编程语言gydF4y2Ba54gydF4y2Ba通过RStudio编程套件gydF4y2Ba55gydF4y2Ba。下面的R包被用于研究:数据。表、dplyr ggplot2、ggpubr gridExtra, gsubfn, httr, jsonlite, plyr, RCurl, reshape2,尺度,seqinr, splitstackshape, XML, Biostrings, biomaRt。gydF4y2Ba
管理实践gydF4y2Ba
数据已经产生后通过手工文献管理IMEx财团管理指南gydF4y2Ba11gydF4y2Ba,详细探讨了在联盟网站上:gydF4y2Bawww.imexconsortium.org/curationgydF4y2Ba。短暂,每一个出版物审查是策划的整体交互数据里面,代表每个实验证据作为一个单独的记录。详细综述了注册使用的结构和每个条目由至少两个独立策展人的质量控制。gydF4y2Ba
突变re-annotation努力gydF4y2Ba
PSI-XML3.0的发展和后产生的序列的字段IMEx模式来捕获氨基酸改变参与者的特征类型的突变(MI: 0118)和儿童,有必要从参与者填充字段与遗留数据功能短标签。这个自由文本,手动输入字段是容易包含印刷错误,很难保持更新。策展人使用一组简单的规则来描述氨基酸替换,删除和插入。作为第一步填充结果序列的领域,我们写临时解析脚本评估和提取信息存储在短的标签。几轮修正发生,直到数据集其当前状态。27868条记录的数据集,20161年必须纠正,其中约2000手动更正。仍有大约2500条记录没有修复的可能没有完全修改原始条目。这些被排除在数据集,直到被一个重新审视IMEx馆长。自动化质量控制管道已经到位处理创建的条目和未来UniProtKB(细节的变化gydF4y2Ba补充信息部分的最初re-curation IMEx突变数据的gydF4y2Ba)。最后,我们还参与者特性短标签适应人类基因组变异的社会变体(HGVS发布)建议注释gydF4y2Ba56gydF4y2Ba,它可以访问gydF4y2Bahttp://varnomen.hgvs.org/recommendations/protein/gydF4y2Ba。gydF4y2Ba
IMEx UniProt和SKEMPI 2.0变异注释比较gydF4y2Ba
最新版本的SKEMPI 2.0 2018年7月从数据库下载gydF4y2Bahttps://life.bsc.es/pid/skempi2/database/download/gydF4y2Ba。条目被解析和PDB REST API用于蛋白质在PDB记录映射到UniProt加入数字为了使比较。链信息被用来确定个人的身份蛋白质。报告的情况下,不止一个蛋白质链,以及未映射条目,从进一步分析被丢弃。最后,效应类型分类两类:“损失”和“获得”的绑定功能。为了分类注释这两类之一,亲和力值序列的变异版本与野生型形式规范化的关系。褶皱变化和低于50%的野生型被标注为“获得”或“损失”,分别。小褶皱的变化被限定为“没有影响”。UniProt诱变注释是2018年7月29日获得解析UniProt webservice XML输出使用Python脚本请由Luz Garcia-Alonso提供。由于互动合作伙伴只认同基因符号UniProt注释,他们的准确身份无法确定数量的记录,这被丢弃的进一步分析。 The effects reported in the annotations were simplified and qualified as simple ‘loss’ and ‘gain’ of binding function. IMEx mutation types were simplified accordingly to allow consistent comparison of mutation effects among data sets.
评估冲突变异注释gydF4y2Ba
突变被定义为“冲突”的序列变异时,测试相同的互动合作伙伴,是注释直接对抗的效果(例如“破坏”和“增加”)。不同proteoforms相同的参考蛋白被认为是不同的互动合作伙伴(如磷酸化蛋白被认为是不同于其non-phosphorylated形式)。当不同的效果被报道,但没有直接拮抗突变被认为是“一致”如果所有影响方向相同(例如“干扰”和“减少”)或“轻微的冲突”如果大多数走在同一个方向,其余被标注“无影响”(如“减少”和“没有影响”)。gydF4y2Ba
映射IMEx UniProtKB和基因突变gydF4y2Ba
UniProtKB到达人类蛋白质提取的IMEx突变数据集,保持同种型标识符,用于查询EMBL-EBI蛋白质APIgydF4y2Ba27gydF4y2Ba。API的“变异”的方法被用来提取大规模变化从UniProtKB注释,而不管它的来源。注释中提取通过这种方法被映射到IMEx突变数据集使用UniProtKB入世,位置和产生的氨基酸序列仅供完整的映射和UniProtKB加入位置的映射和位置。IMEx-reported突变情况下跨越多个氨基酸位置被分为个体替换,只有贴上“完整”匹配如果每个个体的位置匹配UniProtKB的注释。否则,他们被认为是“部分”的映射。疾病注释从API中提取的输出,以及rsIDs。这些rsIDs被用于DisGeNET寻找额外的注释也带来了疾病。疾病被映射到相应的网格疾病类使用统一医学语言提供的交叉引用系统(uml) Metathesaurus(版本2017 ab)。在交叉引用的情况下网格并不可用,我们手动分配一个家长,例如,零星的乳腺癌是映射到乳房癌。这允许地图98.5和93%的疾病UniProt DisGeNET,分别。 The following MeSH disease classes were discarded because they were deemed uninformative or not appropriate for the analysis in hand: ‘pathological conditions, signs and symptoms’, ‘occupational diseases’ and ‘animal diseases’.
预测影响蛋白质交互接口gydF4y2Ba
实验和同源性建模结构从Interactome3D获得了蛋白质相互作用数据库gydF4y2Ba41gydF4y2Ba。相对残留溶剂可访问性(RSA)所有原子使用NACCESS计算gydF4y2Ba57gydF4y2Ba复杂的蛋白质分别和交互。界面残留在RSA中被定义为那些有任何改变。变异的影响对界面稳定性计算使用FoldX v.4.0。所有二进制接口结构修理使用RepairPDB命令,使用默认参数。Pssm命令被用来预测G numberOfRuns∆= 5。这个执行多次突变与变量旋转异构体配置,确保算法实现收敛。所有运行计算的平均∆G和∆∆G计算是野生型和突变体之间的差异提供了一个预测估计不稳定的突变是交互界面。gydF4y2Ba
预测变量筛选和PolyPhen2功能的影响gydF4y2Ba
为了计算筛分数,所有蛋白质比对对UniRef50建成gydF4y2Ba58gydF4y2Ba,使用seqs_chosen_via_median_info。筛选5.1.1 csh脚本gydF4y2Ba59gydF4y2Ba。siftr R包(gydF4y2Bahttps://github.com/omarwagih/siftrgydF4y2Ba)是用于生成筛分数与参数ic_thresh = 3.25和residue_thresh = 2。PolyPhen2获得的分数gydF4y2Bahttp://genetics.bwh.harvard.edu/pph2/bgi.shtmlgydF4y2Ba2018年8月6日使用批处理查询工具。GRCh37 / hg19基因组大会和HumDiv分类器模型被用于考虑错义注释对规范记录。gydF4y2Ba
等位基因频率gydF4y2Ba
总共3198692个编码变异gydF4y2Ba智人gydF4y2Ba超过65000个人收集ExAC财团gydF4y2Ba29日gydF4y2Ba在ANNOVARgydF4y2Ba60gydF4y2Ba输出格式和相应的调整等位基因频率。运用记录位置映射到UniProt通过执行Needleman-Wunsch对UniProt翻译运用记录序列的全局比对序列使用pairwiseAlignment函数在Biostrings R包。运用记录id之间的映射(v81)和UniProt到达biomaRt获得R包。如果多个等位基因样本映射到单一的氨基酸替换,最高的一个等位基因频率调整留存。gydF4y2Ba
递归式gydF4y2Ba
带注释的体细胞突变复发10155肿瘤样本数据从TCGA pan-cancer图谱数据集获得下载cBioPortal v1.15.0 11/08/2018。数据集包含1866976个错义变异映射到UniProt和属于33肿瘤类型。gydF4y2Ba
变量映射到交互接口gydF4y2Ba
从Interactome3D预测界面和可访问性坐标了。策划接口提取完整的通过选择参与者特征下PSI-MI术语“binding-associated地区”(MI: 0117)。只有人类蛋白质的可访问性计算直接从结构性数据Interactome3D被选为这个分析,模拟结构被排除在外。gydF4y2Ba
映射突变和phosphositesgydF4y2Ba
Phosphosite数据下载PhosphositePlus®(gydF4y2Bawww.phosphosite.orggydF4y2Ba02/07/2018)。所有phosphosite注释为人类蛋白质被认为提供的分析和映射到我们的数据集使用UniProt坐标。只有突变丝氨酸,苏氨酸和酪氨酸残基被用于比较。gydF4y2Ba
估计文学偏见gydF4y2Ba
我们使用了NCBI geneID2pubmed表,在访问gydF4y2Baftp://ftp.ncbi.nih.gov/gene/DATA/gene2pubmed.gzgydF4y2Ba,估计有多少论文相关的个别蛋白质的IMEx突变数据集。只有人类蛋白质被认为是。Entrez GeneIDs映射到UniProtKB到达使用UniProt网站的REST API映射服务描述gydF4y2Bawww.uniprot.org/help/api_idmappinggydF4y2Ba。gydF4y2Ba
使用PathDIP通路富集分析gydF4y2Ba
途径进行浓缩使用质子泵抑制剂突变(即突变蛋白+合作伙伴)的突变类型(造成破坏,等等)和pathDIP 2.5通路(只考虑核心途径,gydF4y2Bahttp://ophid.utoronto.ca/pathDIPgydF4y2Ba47gydF4y2Ba)。我们认为整个完整的人类质子泵抑制剂作为浓缩的背景分析(2018年3月24日下载)。对路径重叠Venny 2.1.0的(gydF4y2Bahttp://bioinfogp.cnb.csic.es/tools/vennygydF4y2Ba)使用和Wordle (gydF4y2Bawww.wordle.netgydF4y2Ba)被用来准备词云从丰富通路的标题。gydF4y2Ba
代码的可用性gydF4y2Ba
代码和映射用于分析可按照客户要求定制。gydF4y2Ba
数据可用性gydF4y2Ba
IMEx突变的数据集是开放和完全可用gydF4y2Bawww.ebi.ac.uk完整/资源/数据集# mutationDsgydF4y2Ba在一个开放的知识共享署名4.0国际执照(CC-BY4.0),就像所有的IMEx数据。这份出版物中使用的所有额外的数据是开放的访问和在适当的地方引用的来源。gydF4y2Ba
改变历史gydF4y2Ba
2019年3月04gydF4y2Ba
在本文的原始HTML版本,作者在作者列表的顺序是不正确的。IMEx财团特约作者错误地列为最后作者,应该被列为第一作者。这个错误已经纠正HTML版本的文章;在刚出版的时候PDF版本是正确的。gydF4y2Ba
引用gydF4y2Ba
Wang x et al .蛋白质网络的三维重建提供了洞察人类遗传疾病。gydF4y2Ba生物科技Nat。》。gydF4y2Ba30.gydF4y2Ba,159 - 164 (2012)。gydF4y2Ba
莫斯卡,r .等人dSysMap:探索edgetic疾病突变的作用。gydF4y2BaNat方法。gydF4y2Ba12gydF4y2Ba,167 - 168 (2015)。gydF4y2Ba
Porta-Pardo E。,Garcia-Alonso, L., Hrabe, T., Dopazo, J. & Godzik, A. A pan-cancer catalogue of cancer driver protein interaction interfaces.公共科学图书馆第一版。医学杂志。gydF4y2Ba11gydF4y2Bae1004518 (2015)。gydF4y2Ba
Buljan, M。,Blattmann, P., Aebersold, R. & Boutros, M. Systematic characterization of pan-cancer mutation clusters.摩尔。系统。医学杂志。gydF4y2Ba14gydF4y2Bae7974-e7974 (2018)。gydF4y2Ba
萨尼:et al .广泛大分子相互作用在人类遗传病扰动。gydF4y2Ba细胞gydF4y2Ba161年gydF4y2Ba,647 - 660 (2015)。gydF4y2Ba
陈,s . et al . interactome扰动框架重视破坏性错义突变发育障碍。gydF4y2BaNat,麝猫。gydF4y2Ba50gydF4y2Ba,1032 - 1040 (2018)。gydF4y2Ba
Buren et al。调节油气痕迹的URI来响应葡萄糖授予c-MYC-dependent生存机制。gydF4y2Ba癌症细胞gydF4y2Ba30.gydF4y2Ba,290 - 307 (2016)。gydF4y2Ba
刘,x et al .双向调节中性粒细胞迁移增殖蛋白激酶。gydF4y2BaImmunol Nat。gydF4y2Ba13gydF4y2Ba,457 - 464 (2012)。gydF4y2Ba
Maio), N。,Kim, K. S., Singh, A. & Rouault, T. A. A single adaptable cochaperone-scaffold complex delivers nascent iron-sulfur clusters to mammalian respiratory chain complexes I–III.细胞金属底座。gydF4y2Ba25gydF4y2Ba,945 - 953。e6 (2017)。gydF4y2Ba
Rebsamen, m . et al . SLC38A9是一个组件的溶酶体氨基酸传感控制mTORC1机械。gydF4y2Ba自然gydF4y2Ba519年gydF4y2Ba,477 - 481 (2015)。gydF4y2Ba
果园,et al。蛋白质相互作用数据管理:国际分子交换(IMEx)财团。gydF4y2BaNat方法。gydF4y2Ba9gydF4y2Ba,345 - 350 (2012)。gydF4y2Ba
Sivade Dumousseau, m . et al。包括新的HUPO-PSI格式使用cases-level 3.0分子相互作用。gydF4y2BaBMC Bioinforma。gydF4y2Ba19gydF4y2Ba134 (2018)。gydF4y2Ba
UniProt财团,c .美国UniProt:通用的蛋白质知识库。gydF4y2Ba核酸Res。gydF4y2Ba45gydF4y2BaD158-D169 (2017)。gydF4y2Ba
Jankauskaite, J。,Jiménez-García, B., Dapkunas, J., Fernández-Recio, J. & Moal, I. H. SKEMPI 2.0: An updated benchmark of changes in protein-protein binding energy, kinetics and thermodynamics upon mutation.Bioinforma。Oxf。拉米夫gydF4y2Ba。gydF4y2Bahttps://doi.org/10.1093/bioinformatics/bty635gydF4y2Ba(2018)。gydF4y2Ba
年轻,j.y. et al。全球蛋白质数据银行biocuration支持开放获取高质量的三维结构生物学数据。gydF4y2Ba数据库gydF4y2Ba2018年gydF4y2Babay002 (2018)。gydF4y2Ba
果园,s . et al . MIntAct project-IntAct作为公共管理平台11的分子相互作用数据库。gydF4y2Ba核酸Res。gydF4y2Ba42gydF4y2Bad358 - 363 (2014)。gydF4y2Ba
利卡塔,l . et al .薄荷、分子间相互作用数据库:2012更新。gydF4y2Ba核酸Res。gydF4y2Ba40gydF4y2BaD857-D861 (2012)。gydF4y2Ba
UniProt财团。UniProt:蛋白质信息的中心。gydF4y2Ba核酸Res。gydF4y2Ba43gydF4y2Bad204 - 212 (2015)。gydF4y2Ba
Kotlyar, M。,Pastrello, C., Sheahan, N. & Jurisica, I. Integrated interactions database: tissue-specific view of the human and model organism interactomes.核酸Res。gydF4y2Ba44gydF4y2BaD536-41 (2016)。gydF4y2Ba
Ammari, m·G。,Gresham, C. R., McCarthy, F. M. & Nanduri, B. HPIDB 2.0: a curated database for host-pathogen interactions.数据库gydF4y2Ba2016年gydF4y2Babaw103 (2016)。gydF4y2Ba
林恩,d . j . et al .策划interactome先天免疫力。gydF4y2BaBMC系统。医学杂志。gydF4y2Ba4gydF4y2Ba117 (2010)。gydF4y2Ba
Salwinski l . et al。相互作用的蛋白质的数据库:2004更新。gydF4y2Ba核酸Res。gydF4y2Ba32gydF4y2BaD449-D451 (2004)。gydF4y2Ba
Launay G。,Salza, R., Multedo, D., Thierry-Mieg, N. & Ricard-Blum, S. MatrixDB, the extracellular matrix interaction database: updated content, a new navigator and expanded functionalities.核酸Res。gydF4y2Ba43gydF4y2Bad321 - 327 (2015)。gydF4y2Ba
阿尔布雷特,a . g . et al .机械特性的硫转移半胱氨酸desulfurase进而iron-sulfur支架SufU的枯草芽孢杆菌。gydF4y2Ba2月。gydF4y2Ba585年gydF4y2Ba,465 - 470 (2011)。gydF4y2Ba
莫里森,k l . &维斯g . a .组合alanine-scanning。gydF4y2Ba咕咕叫。当今。化学。医学杂志。gydF4y2Ba5gydF4y2Ba,302 - 307 (2001)。gydF4y2Ba
罗兰,t . et al。人类interactome proteome-scale映射网络。gydF4y2Ba细胞gydF4y2Ba159年gydF4y2Ba,1212 - 1226 (2014)。gydF4y2Ba
夜莺,a . et al .蛋白质API:访问关键蛋白质和基因组信息集成。gydF4y2Ba核酸Res。gydF4y2Ba45gydF4y2BaW539-W544 (2017)。gydF4y2Ba
1000人基因工程财团。等。全球参考人类遗传变异。gydF4y2Ba自然gydF4y2Ba526年gydF4y2Ba,68 - 74 (2015)。gydF4y2Ba
列克,m . et al . 60706年分析蛋白质编码基因变异人类。gydF4y2Ba自然gydF4y2Ba536年gydF4y2Ba,285 - 291 (2016)。gydF4y2Ba
《福布斯》,s . a . et al。宇宙:探索世界的体细胞突变在人类癌症的知识。gydF4y2Ba核酸Res。gydF4y2Ba43gydF4y2Bad805 - 811 (2015)。gydF4y2Ba
皮尼罗,j . et al . DisGeNET:一个全面的平台集成信息对人类疾病相关基因和变异。gydF4y2Ba核酸Res。gydF4y2Ba45gydF4y2BaD833-D839 (2017)。gydF4y2Ba
费明力提m . l . et al .遗传变异和疾病UniProtKB / Swiss-Prot:人工管理专家的来龙去脉。gydF4y2Ba嗡嗡声。Mutat。gydF4y2Ba35gydF4y2Ba,927 - 935 (2014)。gydF4y2Ba
它,m . j . et al . ClinVar:公共档案馆的序列变异和人类表型之间的关系。gydF4y2Ba核酸Res。gydF4y2Ba42gydF4y2Bad980 - 985 (2014)。gydF4y2Ba
坎宁安,f . et al . 2015年运用。gydF4y2Ba核酸Res。gydF4y2Ba43gydF4y2Bad662 - 669 (2015)。gydF4y2Ba
麦克阿瑟,j . et al .发表的新NHGRI-EBI目录全基因组关联研究(GWAS目录)。gydF4y2Ba核酸Res。gydF4y2Ba45gydF4y2BaD896-D901 (2017)。gydF4y2Ba
以至于,c, e .医学主题词(网)。gydF4y2Ba公牛。地中海,Libr。Assoc。gydF4y2Ba88年gydF4y2Ba,265 - 266 (2000)。gydF4y2Ba
高,j . et al .综合分析复杂的使用cBioPortal癌症基因组学和临床资料。gydF4y2Ba科学。信号。gydF4y2Ba6gydF4y2Ba、pl1 (2013)。gydF4y2Ba
Verma R。,Schwaneberg, U. & Roccatano, D. Computer-aided protein directed evolution: a review of web servers, databases and other computational tools forprotein engineering.第一版。结构体。Biotechnol。J。gydF4y2Ba2gydF4y2Bae201209008-e201209008 (2012)。gydF4y2Ba
Wagih, o . et al .综合变异效果预测模型的单核苷酸变异生物。预印在gydF4y2BabioRxivgydF4y2Bahttps://doi.org/10.1101/313031gydF4y2Ba(2018)。gydF4y2Ba
Kumar P。,Henikoff, S. & Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm.Protoc Nat。gydF4y2Ba4gydF4y2Ba,1073 - 1081 (2009)。gydF4y2Ba
莫斯卡,R。,Céol, A. & Aloy, P. Interactome3D: adding structural details to protein networks.Nat方法。gydF4y2Ba10gydF4y2Ba47-53 (2013)。gydF4y2Ba
Van Durme j . et al . FoldX力场的图形界面。gydF4y2BaBioinforma。Oxf,心血管病。gydF4y2Ba27gydF4y2Ba,1711 - 1712 (2011)。gydF4y2Ba
Adzhubei,中情局et al。预测方法和服务器损害错义突变。gydF4y2BaNat方法。gydF4y2Ba7gydF4y2Ba,248 - 249 (2010)。gydF4y2Ba
白,a . et al .磷量酪氨酸相关的蛋白质相互作用网络。gydF4y2Ba摩尔。系统。医学杂志。gydF4y2Ba11gydF4y2Ba794 (2015)。gydF4y2Ba
霍恩贝克,p . v . et al . PhosphoSitePlus 2014:突变,天车和调整。gydF4y2Ba核酸Res。gydF4y2Ba43gydF4y2Bad512 - 520 (2015)。gydF4y2Ba
Schaefer, m . H。,Serrano, L. & Andrade-Navarro, M. A. Correcting for the study bias associated with protein-protein interaction measurements reveals differences between protein degree distributions from different cancer types.前面。麝猫。gydF4y2Ba6gydF4y2Ba260 (2015)。gydF4y2Ba
Rahmati, S。,一个bovsky, M., Pastrello, C. & Jurisica, I. pathDIP: an annotated resource for known and predicted human gene-pathway associations and pathway enrichment analysis.核酸Res。gydF4y2Ba45gydF4y2BaD419-D426 (2017)。gydF4y2Ba
Schuster-Bockler, b &贝特曼,a .蛋白质相互作用在人类遗传疾病中。gydF4y2Ba基因组医学杂志。gydF4y2Ba9gydF4y2Ba,R9机型(2008)。gydF4y2Ba
Woodsmith j . et al .蛋白质交互摄动分析氨基酸的分辨率。gydF4y2BaNat方法。gydF4y2Ba14gydF4y2Ba,1213 - 1221 (2017)。gydF4y2Ba
侮辱,g . &雷纳b物理相互作用的遗传景观。gydF4y2BaeLifegydF4y2Ba7gydF4y2Bae32472 (2018)。gydF4y2Ba
斯拉米、大肠等。cBio癌症基因组学门户:一个开放的平台,探索多维癌症基因组学数据。gydF4y2Ba癌症。gydF4y2Ba2gydF4y2Ba,401 - 404 (2012)。gydF4y2Ba
萨尼,n . et al . Edgotype:一个基本的基因型和表型之间的联系。gydF4y2Ba咕咕叫。当今。麝猫。Dev。gydF4y2Ba23gydF4y2Ba,649 - 657 (2013)。gydF4y2Ba
先生,m . m .本质上的贡献无序蛋白质功能区域,细胞的复杂性和人类疾病。gydF4y2Ba物化学。Soc。反式。gydF4y2Ba44gydF4y2Ba,1185 - 1200 (2016)。gydF4y2Ba
Ihaka, R &绅士,R R:数据分析和图形的语言。gydF4y2Baj .第一版。图。统计。gydF4y2Ba5gydF4y2Ba,299 - 314 (1996)。gydF4y2Ba
RStudio团队。gydF4y2BaRStudio:集成开发R。gydF4y2Ba(RStudio, Inc .,波士顿,MA, 2015)。gydF4y2Ba
窝Dunnen, j . t . et al . HGVS发布建议序列变异的描述:2016更新。gydF4y2Ba嗡嗡声。Mutat。gydF4y2Ba37gydF4y2Ba,564 - 569 (2016)。gydF4y2Ba
哈伯德,s和桑顿,J。gydF4y2BaNACCESSgydF4y2Ba。(生物化学与分子生物学,伦敦大学学院,伦敦,1993)。gydF4y2Ba
Suzek b E。王,Y。,Huang, H., McGarvey, P. B. & Wu, C. H. UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches.生物信息学gydF4y2Ba31日gydF4y2Ba,926 - 932 (2015)。gydF4y2Ba
花瓶,R。,一个dusumalli, S., Leng, S. N., Sikic, M. & Ng, P. C. SIFT missense predictions for genomes.Protoc Nat。gydF4y2Ba11gydF4y2Ba1 - 9 (2016)。gydF4y2Ba
王,K。,Li, M. & Hakonarson, H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data.核酸Res。gydF4y2Ba38gydF4y2Bae164-e164 (2010)。gydF4y2Ba
确认gydF4y2Ba
完整的数据库和EMBL-EBI-based作者收到EMBL的核心资金资助和开放的目标(批准协议otar - 044)。浸数据库由国家卫生研究院授予R01GM123126。薄荷得到伦理委员会的支持格兰特的深度项目欧洲研究委员会(322749年授予协议)。英国心脏基金会大学伦敦大学(BHF-UCL)管理团队与英国心脏基金会拨款资助RG / 13/5/30112。UniProt EMBL-EBI和瑞士生物信息学研究所的管理活动是由美国国家眼科研究所,国家人类基因组研究所、国家心脏,肺和血液研究所,国家过敏症和传染病研究所,国家糖尿病、消化和肾脏疾病研究所,一般医学科学研究所和国家精神卫生研究所的美国国立卫生研究院的“奖号码(U24HG007822),国家人类基因组研究所奖数字[U41HG007822和U41HG002273],和国家综合医学科学研究所的奖项数量(R01GM080646, P20GM103446和U01GM120953)(内容是完全的责任作者和不一定代表美国国立卫生研究院的官方观点);瑞士联邦政府通过国家秘书处为教育、研究和创新;和之前提到的英国心脏基金会赠款和EMBL的核心资助。从ISCIII-FEDER DisGeNET EU-FP7基金支持(CP10/00524 CPII16/00026), IMI-JU(批准协议。116030年,TransQST)和EFPIA公司贡献,和欧盟H2020计划2014 - 2020(没有授予协议。634143年,MedBioinformatics也没有。 676559, Elixir-Excelerate). The Research Programme on Biomedical Informatics (GRIB) is a member of the Spanish National Bioinformatics Institute (INB), PRB2-ISCIII and is supported by grant PT13/0001/0023, of the PE I+D+i 2013-2016, funded by ISCIII and FEDER. The DCEXS is a ‘Unidad de Excelencia María de Maeztu’, funded by the MINECO (ref: MDM-2014-0370). I.J. and group supported in part by Krembil Foundation, Ontario Research Fund (#34876), and Canada Foundation for Innovation (CFI #225404, #30865, #33536). The authors would like to thank Marco Galardini, Luz García-Alonso, Denes Turei and Martin Krallinger for valuable discussions when designing the data set output format; Iain Moal for providing key information about SKEMPI 2.0; Danish Memon for his help pre-processing cBioPortal data; and Luz García-Alonso as the creator of the Python scripts we used to parse UniProt mutagenesis annotations.
作者信息gydF4y2Ba
作者和联系gydF4y2Ba
财团gydF4y2Ba
贡献gydF4y2Ba
S.O. P.P.本研究设计和写的手稿。突变的注释生成的IMEx财团策展人。医学博士,S.O.,M.Koch, N.dT., A.S. and P.P. re-curated the data set and implemented semi-automated quality control procedures. L.P., D.O., O.W., C.P., M.Kotlyar, J.P. and P.P. analysed the data. S.O., H.H., P.B., L.F., I.J. and P.P. interpreted the results and revised the manuscript.
相应的作者gydF4y2Ba
道德声明gydF4y2Ba
相互竞争的利益gydF4y2Ba
作者宣称没有利益冲突。gydF4y2Ba
额外的信息gydF4y2Ba
出版商的注意:gydF4y2Ba施普林格自然保持中立在发表关于司法主权地图和所属机构。gydF4y2Ba
#gydF4y2Ba联盟成员的完整列表出现在论文的结束。gydF4y2Ba
源数据gydF4y2Ba
权利和权限gydF4y2Ba
开放获取gydF4y2Ba本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到Creative Commons许可,并指出如果变化。本文中的图片或其他第三方材料都包含在本文的创作共用许可,除非另有说明在一个信用额度的材料。如果材料不包括在本文的创作共用许可证和用途是不允许按法定规定或超过允许的使用,您将需要获得直接从版权所有者的许可。查看本许可证的副本,访问gydF4y2Bahttp://creativecommons.org/licenses/by/4.0/gydF4y2Ba。gydF4y2Ba
关于这篇文章gydF4y2Ba
引用这篇文章gydF4y2Ba
IMEx财团策展人。del toro, N。Duesbury, M。gydF4y2Baet al。gydF4y2Ba捕捉变化影响分子相互作用的IMEx财团突变数据集。gydF4y2BaNat CommungydF4y2Ba10gydF4y2Ba10 (2019)。https://doi.org/10.1038/s41467 - 018 - 07709 - 6gydF4y2Ba
收到了gydF4y2Ba:gydF4y2Ba
接受gydF4y2Ba:gydF4y2Ba
发表gydF4y2Ba:gydF4y2Ba
DOIgydF4y2Ba:gydF4y2Bahttps://doi.org/10.1038/s41467 - 018 - 07709 - 6gydF4y2Ba
本文引用的gydF4y2Ba
对人类蛋白质相互作用网络结构解决gydF4y2Ba
《自然结构和分子生物》上gydF4y2Ba(2023)gydF4y2Ba
预测功能的变异使用分子间相互作用的网络特性的后果gydF4y2Ba
人类遗传学gydF4y2Ba(2022)gydF4y2Ba
核酸Acids-based Bioimaging功能纳米材料gydF4y2Ba
杂志》的分析和测试gydF4y2Ba(2021)gydF4y2Ba
有机异质结构由一个二维光子应用多晶型物gydF4y2Ba
科学中国化学gydF4y2Ba(2020)gydF4y2Ba
回顾拆分双过渡金属/ photoredox催化gydF4y2Ba
科学中国化学gydF4y2Ba(2020)gydF4y2Ba
评论gydF4y2Ba
通过提交评论你同意遵守我们的gydF4y2Ba条款gydF4y2Ba和gydF4y2Ba社区指导原则gydF4y2Ba。如果你发现一些滥用或不符合我们的条件或准则请国旗是不合适的。gydF4y2Ba