介绍gydF4y2Ba

细胞处理信息和应对环境通过分子相互作用的动态网络,节点的生物分子(如蛋白质、基因、代谢产物,microrna)和边代表功能关系,包括物理蛋白质-蛋白质之间的关系、转录调控、遗传相互作用和基因/蛋白的修改。全面、系统的描述这些网络是必不可少的全面理解复杂的生物过程,细胞如何应对特定的线索,和网络的个别组件如何导致表型,在生理、病理或合成条件。gydF4y2Ba

分子之间的相互作用可以被固有的稳定和本质上是不可逆转的,导致稳定的大分子复合物的形成,或弱瞬态交互特征的离解常数(KD)微摩尔的范围和一生的秒。改变单一的氨基酸在蛋白质链就足以破坏蛋白质结合位点和可能会改变瞬态绑定的子网络结构或蛋白质复合体的形成。变异导致的失活蛋白激酶分子可能导致大面积中断翻译后磷酸化的事件和相关的信号网络的重新布线。许多疾病是由特定的基因突变引起的,治疗和预后或响应通常是突变特异的。变异如何影响分子相互作用的研究是这样的极端感兴趣,因为它可以帮助确定特定的蛋白质的作用残留在分子的通用功能绑定。几项研究gydF4y2Ba1gydF4y2Ba,gydF4y2Ba2gydF4y2Ba,gydF4y2Ba3gydF4y2Ba,gydF4y2Ba4gydF4y2Ba有疾病相关变异分子相互作用网络的影响进行了探讨,利用结构研究和计算预测试图识别variation-affected接口和预测特定变量交互作用的影响。这些研究表明,交互接口包含一个与疾病相关的变异率显著高于其余的分子变异的位置在这些接口可以确定疾病特异性。gydF4y2Ba

尽管可用的高通量筛选平台交互,这些变异效应预测的实验验证系统扩展仍然是一个重大的挑战。然而,这些数据可以发现在文献中报道,但很难搜索和连接。研究人员多年来一直在研究单一的影响,或多个感应点突变对二进制和n - ary交互在小规模实验。目标改变蛋白质的氨基酸序列设计,主要由定点诱变,目标是模仿的变体gydF4y2Ba5gydF4y2Ba,gydF4y2Ba6gydF4y2Ba、消除已知或预测,转录后修饰gydF4y2Ba7gydF4y2Ba,gydF4y2Ba8gydF4y2Ba,扰乱地区所需蛋白质的稳定性或改变蛋白结合域的属性gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10gydF4y2Ba,他们感兴趣的互动效果监控。IMEx财团的工作gydF4y2Ba11gydF4y2Ba捕捉这些信息到一个单独的数据集,从而使重用和re-analyse可供研究人员。IMEx财团注释器详细内容管理模型,不仅捕获实验的全部细节(包括交互检测方法,参与者识别方法和宿主生物体)也使用的结构的描述。这可能包括缺失突变体用于获得最低的坐标也绑定域和点突变的影响。财团执行详细的数据库,出版文献和档案管理也接收前置数据通过直接提交。这密切合作与数据生产者通常需要访问数据未发表的细节,比如实验报告基因突变没有影响交互,使捕获科学界的附加值。gydF4y2Ba

在这里,我们描述了最大literature-derived数据集,据我们所知,捕获序列变化的影响相互作用的结果。我们将讨论如何生成的数据集,以及它是如何维护的EMBL-EBI完整的团队。我们还提供一个初始数据集的分析,突出其重叠基因变异数据,讨论可能的偏见和探索其潜在的基准测试工具变量影响预测工具。gydF4y2Ba

结果gydF4y2Ba

数据管理和质量控制gydF4y2Ba

IMEx财团数据库收集点突变数据已经超过14年,这导致了一个相当大的数据集的近28000完全注释事件(gydF4y2Bawww.ebi.ac.uk完整/资源/数据集# mutationDsgydF4y2Ba)。牧师的IMEx资源交互数据到结构化数据库字段,和从那里进入社区标准交换格式,每一个观测使用受控词汇表术语描述。突变在UniProtKB映射到底层的蛋白质序列和更新与变化序列,以确保它们保持映射到正确的氨基酸残基与每一个蛋白质组。gydF4y2Ba

为了使突变更易于访问数据集生物医学科学家,该财团已经发布了的格式(表一样gydF4y2Ba1、补充表1gydF4y2Ba),其中包括位置的细节和氨基酸突变的变化,分子相互作用和交互上的突变的影响,以及额外的字段包含上下文信息。gydF4y2Ba

表1中概述的IMEx突变数据集可下载的平面文件gydF4y2Ba

此外,数据更新管道已专门开发,确保准确性的突变事件交互参与者的注释功能(补充图gydF4y2Ba1gydF4y2Ba)。这个管道的建设已经成为可能,通过创造特定字段获取序列的变化我们最近开发的标准格式PSI-MI XML3.0gydF4y2Ba12gydF4y2Ba。它运行在协调完整的蛋白质数据库每月更新程序,确保与UniProtKB同步gydF4y2Ba13gydF4y2Ba并自动转换功能位置是否有引用的蛋白质序列的变化。管道应用于整个完整的数据库中的数据(gydF4y2Bawww.ebi.ac.uk完好无损gydF4y2Ba),所有的IMEx数据,也遗留数据生成的完整,薄荷、倾斜和UniProt屏模组(见gydF4y2Ba补充信息gydF4y2Ba,部分的初始re-curation IMEx突变数据的细节re-annotation和突变的自动化质量控制管道IMEx条目的数据更新过程)。突变数据更新管道将继续在质量控制模式下运行每次发布的数据集保存完好,确保突变与UniProtKB完全更新。gydF4y2Ba

数据集的统计数据gydF4y2Ba

完整的IMEx突变数据集包含27868个完全注释事件序列的改变已经在一个互动实验。实验测试所有这些信息已经手动策划,代表超过33000工时biocurators价值的工作,并不断增长与持续的IMEx管理活动。4353蛋白质注释来自297个不同的物种,与超过60%的事件注释在人类蛋白质和大约90%的带注释的七种主要模式生物(见表gydF4y2Ba2gydF4y2Ba)。gydF4y2Ba

表2总结统计每个有机体gydF4y2Ba

总共13926互动证据注释有不同影响,使用PSI-MI受控词汇表。大部分的影响报道的“有害”自然,破坏(10976注释,39.3%)或减少交互(8553注释,30.7%),但有相当数量的互动,加强(2256注释,8.1%)或(188注释,0.7%)的突变引起与野生型序列相比(图gydF4y2Ba1gydF4y2Ba)。数据集还包括这些突变实验测试,但发现没有在交互效应(3057注释,11%)和“定义”突变出现在实验中使用的结构,但比较与野生型引用缺席或不可能(2838注释,10.2%)。重要的是要注意,“导致”和“没有影响”突变效应分类最近只采用受控词汇表和biocurators占领,所以他们有一个低得多的注释和不具有直接可比性的另一个类别去了。gydF4y2Ba

图1gydF4y2Ba
图1gydF4y2Ba

IMEx突变数据集的概述。gydF4y2Ba一个gydF4y2Ba通过影响类型的注释数目;gydF4y2BabgydF4y2Ba增加报告的蛋白质相互作用涉及野生型和突变蛋白。酒吧代表总数每年报告的质子泵抑制剂(野生型蛋白,突变蛋白在蓝色)。线表示的累积和质子泵抑制剂与突变的蛋白质,与实线代表实际的累积趋势,虚线显示投影在过去3年;gydF4y2BacgydF4y2Ba变异注释的数量分布交互检测方法;gydF4y2BadgydF4y2Ba分布的数量变异注释捕获/出版。注释/出版物的数量显示在对数尺度;gydF4y2BaegydF4y2Ba许多突变原产地标注每个数据库;gydF4y2BafgydF4y2Ba内部一致性的反复报道突变。“冲突”的情况下是那些报道影响敌对的(例如“破坏”和“增加”)。轻微的冲突的情况下,有时这些突变的报道有一些影响对他人没有可检测的效果gydF4y2Ba

蛋白质相互作用(PPI)实验报告这种类型的数据一直在稳步增加在过去的20年里,超过4100出版物中包含的数据与突变蛋白质序列IMEx财团的策划。然而,分数的质子泵抑制剂突变蛋白据报道仍相对较低(图。gydF4y2Ba1 bgydF4y2Ba)。大多数的突变蛋白的相互作用涉及到检测使用亲和力chromatography-related方法(如co-immunoprecipitations或在下拉菜单)或互补分析基于转录记者,主要是酵母二者混合方法的变化(见图。gydF4y2Ba1 cgydF4y2Ba)。我们的大多数数据集来自小规模论文的管理每个报告只有少数突变(图。gydF4y2Ba1 dgydF4y2Ba)。大约99%的出版物(4173)包含少于100变异注释和代表注释(22218)的80%。只有8出版物包含超过100个注释,描述超过4000事件,其中一个研究中,作者系统地测试大量的变异及其对相互作用的影响gydF4y2Ba5gydF4y2Ba。记录象这样的大规模数据集已经被灵活的发展使PSI-MI XML3.0上述引用的格式。gydF4y2Ba

目前,唯一的资源,代表氨基酸替换绑定事件的影响是SKEMPI 2.0数据库gydF4y2Ba14gydF4y2BaUniProtKB和IMEx财团成员通过完整(见表数据库gydF4y2Ba3gydF4y2Ba详细比较)。这些资源的IMEx是最大的,唯一一个能够提供便利,系统地描述了,最新的注释。UniProtKB诱变注释记录序列的改变是否会影响交互,但实验背景不是捕获和半自由文本字段中所描述的影响是很难解析。SKEMPI序列变化的影响提供了一个详细的概述绑定来自体外实验,记录亲和力和其他蛋白复合物动力学参数的变化与结构性数据可用蛋白质数据库(PDB)gydF4y2Ba15gydF4y2Ba。只有非常具体的交互检测方法,使用纯化蛋白质,被认为是,这限制了它的范围。gydF4y2Ba

表3资源报道突变在交互效应gydF4y2Ba

这些资源之间存在有限的重叠,只有4出版物和44报道发现在所有三个序列变化。我们手动评估的一致性的注释4出版物和发现的不一致造成的不同的管理实践。最值得注意的是,SKEMPI 2.0报道突变坐标使用链作为注释在PDB,通常不同于实际的氨基酸位置报道UniProt条目,使用的IMEx UniProt。我们还发现情况突变与很少或没有影响交互结果没有报告的IMEx数据集,因此早期的管理方针,不需要注释的突变,除非显然表现产生影响。此外,UniProt和SKEMPI 2.0突变的实际证据最初生成报告在出版物中引用一个附加的记录。根据IMEx指南,所有变异注释必须提交原出版。最后,一些注释只是缺少一个或多个资源没有明显的原因,虽然我们可以认为某些情况下non-parseable UniProt记录。我们手册的全部细节评估可以在补充数据gydF4y2Ba1gydF4y2Ba。gydF4y2Ba

形成的IMEx财团目前11组,每一个自己感兴趣的领域,已经同意使用相同的管理标准和数据表示格式下载。联盟的所有成员gydF4y2Ba16gydF4y2Ba,gydF4y2Ba17gydF4y2Ba,gydF4y2Ba18gydF4y2Ba,gydF4y2Ba19gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba,gydF4y2Ba21gydF4y2Ba,gydF4y2Ba22gydF4y2Ba,gydF4y2Ba23gydF4y2Ba使用内容管理平台提供的完整团队EMBL-EBI。图gydF4y2Ba1 egydF4y2Ba显示了每个事件的数量标注数据资源。大型数据库等完好无损,倾斜和薄荷,独家关注交互数据管理,生产的大多数注释,但一个相当大的数据集的一部分进入了其他特定领域,该财团的成员。gydF4y2Ba

根据IMEx模式和管理政策,交互的证据,而不是相互作用对分子,是数据表示的焦点。这导致的管理多个不同的证据描述相同的相互作用对和体重特征如何提供了一种方法是给定一组相互作用的分子。它还使我们能够捕获分离实验,测试不同的序列变异的交互影响。大部分的蛋白质数据集有一个低数量的突变有关,大多数蛋白质有不到15注释(补充图gydF4y2Ba2gydF4y2Ba)和5或更少(补充图序列变化gydF4y2Ba2 bgydF4y2Ba)。有一个更深入的信息可供人类蛋白质,因为人类的数据与其他物种的相对数量增加的数量每蛋白质注释。gydF4y2Ba

的IMEx evidence-centric管理模型还可以检查是否同样的突变已经测试相同的分子使用不同的交互检测方法(或由不同的研究小组)和突变的结果是否在所有这些实验是一贯的。在无花果。gydF4y2Ba1 fgydF4y2Ba我们只显示大多数突变是注释(仅测试在一个实验中)。在这些情况下,有证据的多个实例测试,结果似乎是高度一致的,只有少数情况下确定的相互矛盾的结果报告。通报了7212起病例突变的影响在一个接口测试2次或更多,只有90人(1.3%)显示不同的效果,只有19例(0.3%)报告拮抗效应。我们仔细检查了敌对的情况下,发现17个19例,这些显然是矛盾的原因结果变异形式测试实验装置提供完全不同的类型的信息。最常见的例子是当一个蛋白质的突变体和野生型版本测试对酶活性和绑定在单独的化验。例如,gydF4y2Ba枯草芽孢杆菌SufUgydF4y2BaC41A变体形式的hetero-tetramer其潜在的衬底gydF4y2Ba进而gydF4y2Ba,但失去sulfotransferase活动gydF4y2Ba24gydF4y2Ba。其余2例是真正的冲突,造成不同的出版物使用类似的实验方法,但报告不同的效果。这种比较的详细概述中可以找到补充数据gydF4y2Ba2gydF4y2Ba。gydF4y2Ba

绝大多数的数据集是指氨基酸替换,有边际的插入和删除报道(83年只有65删除和插入注释)。图gydF4y2Ba2gydF4y2Ba表明,精氨酸,亮氨酸和丝氨酸是最经常更换残留,而组氨酸和甲硫氨酸残基突变较少(见附加图gydF4y2Ba3gydF4y2Ba更详细的视图在特定的替代品)。丙氨酸是迄今为止最常用的残渣替换(图。gydF4y2Ba2 bgydF4y2Ba),这可能是广泛使用的反光丙氨酸扫描gydF4y2Ba25gydF4y2Ba确定残留绑定到其他的关键分子,因为他们发现在交互界面或变构结合位点。当我们检查不同的突变影响的相对比例/替换残渣(图。gydF4y2Ba2摄氏度gydF4y2Ba,补充图gydF4y2Ba3 bgydF4y2Ba),丙氨酸替代主要对交互与有害的影响。有害效应的主导地位很可能反映了原始研究的作者使用丙氨酸扫描定位为绑定残留。gydF4y2Ba

图2gydF4y2Ba
图2gydF4y2Ba

氨基酸替换频率在整个数据集。gydF4y2Ba一个gydF4y2Ba更换频率由原来的残留物;gydF4y2BabgydF4y2Ba更换频率产生的残留物;gydF4y2BacgydF4y2Ba归一化频率产生的序列的突变效应的交互。与非标准氨基酸替换和删除没有显示为简单起见。源数据作为源数据文件提供gydF4y2Ba

基因组变异和IMEx突变的数据集gydF4y2Ba

在这个深度排序基因组学的时代,有大量的数据产生的基因变异。正如之前所讨论的,这些实验的设计背后的动机各不相同,只有一小部分是专门设计用于系统测试已知的变异与参考(野生型)版本的参与者的蛋白质gydF4y2Ba5gydF4y2Ba,gydF4y2Ba26gydF4y2Ba。因此,我们决定探索多少目前可用的信息可以与自然或疾病相关变异的数据集,因为强烈的人类的数据优势在IMEx突变和变异的数据集,我们决定只关注人类蛋白质。gydF4y2Ba

我们使用了EMBL-EBI蛋白质APIgydF4y2Ba27gydF4y2Ba访问两个手动标注的数据变化和映射到UniProtKB从大规模基因组测序研究如1000年gydF4y2Ba28gydF4y2Ba,ExACgydF4y2Ba29日gydF4y2Ba和宇宙gydF4y2Ba30.gydF4y2Ba项目。我们查询8820 1990年人类蛋白质序列变化,对应16765年IMEx变异注释(见表gydF4y2Ba4gydF4y2Ba和无花果。gydF4y2Ba3gydF4y2Ba)。29%(4804)的变异注释(图。gydF4y2Ba3gydF4y2Ba)和12%(1073)的序列变化(图。gydF4y2Ba3 bgydF4y2Ba)完全映射到自然变异。我们也检查的情况有一个变体中描述的一样IMEx突变报道的数据集,但氨基酸的变化是不同的两个数据集(位置匹配),还有那些跨越多个突变,只有一些残留的变化或职位匹配UniProtKB(部分匹配)。百分之十六(2671)的变异注释(图。gydF4y2Ba3gydF4y2Ba)和16%(1415)的序列变化(图。gydF4y2Ba3 bgydF4y2Ba)是位置或部分匹配。位置和局部映射的生物学意义不超出规定区域或位置问题是重要的交互和变量。然而,我们相信这些信息可能有助于研究人员感兴趣的更详细地研究特定区域。gydF4y2Ba

表4总结变异映射gydF4y2Ba
图3gydF4y2Ba
图3gydF4y2Ba

基因组变异和疾病注释的IMEx突变数据集。gydF4y2Ba一个gydF4y2Ba映射IMEx变异注释UniProtKB人类变异;gydF4y2BabgydF4y2Ba映射UniProtKB人类变异IMEx-reported序列变化;gydF4y2BacgydF4y2Ba分布的IMEx突变与选定的网格疾病相关联的注释类(见补充数据gydF4y2Ba3gydF4y2Ba疾病突变关联的完整列表)。酒吧是彩色根据疾病变异之间的映射的类型和IMEx变异注释(完全匹配:蓝色,偏/位置匹配:灰色);gydF4y2BadgydF4y2BaIMEx变异注释的作用类型及其与疾病的关系;gydF4y2BaegydF4y2BaIMEx突变序列的变化通过影响类型及其与疾病的关系;gydF4y2BafgydF4y2BacBioPortal复发评分为突变按效果类型分组。gydF4y2BapgydF4y2Ba值计算与片面Wilcoxon试验表明(减少vs没有影响gydF4y2BaWgydF4y2Ba= 582.5;增加对没有影响gydF4y2BaWgydF4y2Ba= 521.5);gydF4y2BaggydF4y2Ba比例的高复发癌症变异根据影响cBioPortal类型。gydF4y2BapgydF4y2Ba值计算与Fisher精确检验。源数据作为源数据文件提供gydF4y2Ba

我们也检查了多少映射变异注释根据UniProtKB与疾病。疾病关联与DisGeNET数据库的数据补充gydF4y2Ba31日gydF4y2Ba。有疾病有关的变异为42%(840)的蛋白质,查询的中值4疾病变异映射/蛋白质。见表gydF4y2Ba4gydF4y2Ba,20%(3432)的IMEx变异注释标记相关的疾病,超过900种已知疾病变异为代表的数据集。UniProtKB疾病注释变异来自人工管理gydF4y2Ba32gydF4y2Ba从ClinVar和进口的相互参照数据gydF4y2Ba33gydF4y2Ba通过运用gydF4y2Ba34gydF4y2Ba,而DisGeNET还包括变异从GWAS目录gydF4y2Ba35gydF4y2Ba,从文本挖掘科学文献。图gydF4y2Ba3 cgydF4y2Ba显示了不同变体的分布关联疾病类使用医学主题词(网)gydF4y2Ba36gydF4y2Ba分类。这些突变的一个详细列表annotation-disease协会可以在补充数据gydF4y2Ba3gydF4y2Ba。gydF4y2Ba

然后我们检查,如果在IMEx疾病相关注释的比例根据不同报道对相互作用的影响。见图。gydF4y2Ba3 d, egydF4y2Ba,疾病相关变异往往主要有害影响相互作用的结果,但我们也可以映射相当数量的功能注释那里有增加甚至的绑定(411代表116个变异注释)。当我们观察变异在不同类型的癌症复发从cBioPortal中提取gydF4y2Ba37gydF4y2Ba突变加强互动似乎都统计高复发的价值和更高比例的突变与极高的复发癌症数据集(图。gydF4y2Ba3 f, ggydF4y2Ba)。gydF4y2Ba

计算预测和文学内容管理gydF4y2Ba

目前各种计算工具用来标注数据集变化gydF4y2Ba38gydF4y2Ba。这些工具可以在蛋白质功能报告变化的影响,折叠或绑定,通常几乎完全基于序列或结构数据,或者也可以报告genome-derived等位基因频率或保护分数等参数。我们想研究变异注释提供了这些工具结合实验效果随着交互在文献中报道。gydF4y2Ba

为了这个目的,我们使用mutfunc (gydF4y2Bawww.mutfunc.comgydF4y2Ba)gydF4y2Ba39gydF4y2Ba数据库报告的影响几乎任何可能的突变蛋白稳定性、交互界面、转录后修饰、蛋白质翻译、守恒的地区,和监管区域。主机的预先计算变异影响数据来源于建立资源筛选等gydF4y2Ba40gydF4y2Ba,Interactome3DgydF4y2Ba41gydF4y2Ba或FoldXgydF4y2Ba42gydF4y2Ba。gydF4y2Ba

我们首先研究了预测扰动突变影响蛋白质的结构模型接口,他们除以literature-reported效果。我们可以看到在无花果。gydF4y2Ba4gydF4y2Ba突变,“减少”,尤其是“扰乱”影响交互预测扰动效应明显高于那些没有效果,区别是未见的突变,将加强,甚至导致一个交互。这些有害组还包含一个更高比例的突变预测为接口(图很不稳定。gydF4y2Ba4 bgydF4y2Ba)。gydF4y2Ba

图4gydF4y2Ba
图4gydF4y2Ba

计算注释和IMEx突变数据集。gydF4y2Ba一个gydF4y2Ba交互界面破坏与FoldX预测,通过突变效应类型。表示gydF4y2BapgydF4y2Ba值计算与Wilcoxon测试(减少vs没有影响gydF4y2BaWgydF4y2Ba= 25100;扰乱vs没有影响gydF4y2BaWgydF4y2Ba= 24411);gydF4y2BabgydF4y2Ba比例高度破坏性的变异的突变影响类型;gydF4y2BacgydF4y2Ba比例低公差的残渣职位根据筛选,通过突变效应类型;gydF4y2BadgydF4y2BaExAC-extracted IMEx代表突变的等位基因频率数据集,通过突变效应类型;gydF4y2BaegydF4y2Ba低频变异,变异类型的影响。表示gydF4y2BapgydF4y2Ba值计算与Wilcoxon测试(减少vs没有影响gydF4y2BaWgydF4y2Ba= 1841.5;扰乱vs没有影响gydF4y2BaWgydF4y2Ba= 2389.5;增加对没有影响gydF4y2BaWgydF4y2Ba= 645);gydF4y2BafgydF4y2Ba有害的比例根据Polyphen2替换,通过突变效应类型;gydF4y2BaggydF4y2Ba数量的变异注释位于绑定接口(策划和预测),通过效果;gydF4y2BahgydF4y2Ba在相互作用下的归一化频率的变异注释报告和本地化的绑定接口。gydF4y2BapgydF4y2Ba值显示在面板gydF4y2BabgydF4y2Ba,gydF4y2BacgydF4y2Ba,gydF4y2BadgydF4y2Ba和gydF4y2BafgydF4y2Ba计算与Fisher精确检验。源数据作为源数据文件提供gydF4y2Ba

我们接下来研究genome-derived参数有用的学习变化,如残留保护或自然等位基因频率。实验观察到影响绑定稳定我们报告数据集也可以反映在这些参数。这种假设部分证实了使用三个独立测量。首先,我们使用“排序从宽容宽容”(筛选)方法gydF4y2Ba40gydF4y2Ba,观察变异容忍度较低分数的比例明显高于在所有组的影响报道与参考(图“没有影响”。gydF4y2Ba4摄氏度gydF4y2Ba)。其次,我们还检查了等位基因频率来自ExAC数据。再次,突变的报道效果似乎大大降低等位基因频率(图。gydF4y2Ba4 dgydF4y2Ba与极低)和更高比例的等位基因频率(无花果。gydF4y2Ba4 egydF4y2Ba)据报道,比没有影响交互。最后,我们使用PolyPhen2gydF4y2Ba43gydF4y2Ba错义突变效应预测算法,使用朴素贝叶斯分类器基于序列和基于结构的预测功能。在这种情况下,有害的突变预测PolyPhen2显著富集的“减少”和“破坏”效应团体对那些“没有影响”(无花果。gydF4y2Ba4 fgydF4y2Ba)。gydF4y2Ba

interaction-perturbing影响报告的IMEx整体蛋白质结构数据集可以通过修改或变更绑定的接口。我们可以确定突变报道属于序列区域与绑定使用计算预测和literature-reported实验数据。我们获得预测接口,基于可用的结构数据,从Interactome3DgydF4y2Ba41gydF4y2Ba。Literature-curated接口从IMEx推断记录包含参与者的特征“binding-associated地区”(MI: 0117)分支。这些代表实验,作者测试片段结构,试图找到序列是绑定的关键地区,尽管他们不一定代表实际约束力的表面。见图。gydF4y2Ba4 g hgydF4y2Ba,大多数的突变属于预测或策划接口。突变产生了影响的比例在绑定似乎更高的交互接口,预测和推断IMEx帘。疾病有关的变异似乎显示相同的模式(补充图gydF4y2Ba4 a、bgydF4y2Ba)。据报道,因此,大部分的变异影响蛋白质相互作用(68%)可以与扰动约束力的区域内,与一个较小的变异(32%)的比例可能代表系统或变构效应影响的交互。gydF4y2Ba

磷酸化和变异的交互gydF4y2Ba

转录后修饰(天车)可以被视为化学开关与可能影响蛋白质相互作用gydF4y2Ba44gydF4y2Ba。我们探索突变是否与报道的影响在我们的数据集是蛋白质的丰富已知网站修改,重点在人类蛋白质磷酸化最好的天车数据集特征。利用PhosphoSitePlus phosphosite注释®gydF4y2Ba45gydF4y2Ba,我们发现,减少干扰,增加突变确实是丰富的注释phosphosites(无花果。gydF4y2Ba5gydF4y2Ba)。特定氨基酸替换也常用于破坏phosphosite (phospho-disrupting突变,丝氨酸,苏氨酸和酪氨酸取代丙氨酸、甘氨酸、缬氨酸、苯丙氨酸)或模拟(phospho-mimetic突变,用同样的氨基酸谷氨酸或天冬氨酸)所取代。看着这些替换具体来说,我们可以看到,phosphosite-disrupting突变占大多数的重叠和注释phosphosites又丰富的减少,破坏和增加效果(图。gydF4y2Ba5 bgydF4y2Ba)。Phospho-mimetic突变明显丰富只有当他们越来越影响了交互(图。gydF4y2Ba5度gydF4y2Ba)。gydF4y2Ba

图5gydF4y2Ba
图5gydF4y2Ba

phosphosites重叠和变异注释。重叠的突变与人类phosphosites注释,取自PhosphoSitePlus®。gydF4y2Ba一个gydF4y2Ba重叠与所有突变在所有潜在phosphosites注释;gydF4y2BabgydF4y2Ba重叠phospho-disrupting变异注释;gydF4y2BacgydF4y2Ba重叠与phospho-mimetic变异注释。gydF4y2BapgydF4y2Ba值比较的参考中表示“没有影响”效应类型图计算Fisher精确检验。源数据作为源数据文件提供gydF4y2Ba

文学偏见的IMEx突变数据集gydF4y2Ba

IMEx数据库有一个宽范围在选择出版物上面提到的,它是合理的假设在这个数据集是代表的蛋白质交互数据探索的文学。社会驱动、文学偏见是一个众所周知的现象之前报道literature-curated数据集gydF4y2Ba26gydF4y2Ba,gydF4y2Ba46gydF4y2Ba,所以我们决定去探索它在多大程度上影响了数据集。gydF4y2Ba

首先,我们检查是否注释和变异的数量数据集和出版物的数量影响蛋白质的相关报道。见图。gydF4y2Ba6 a、bgydF4y2Ba,数据集包含的例子都大量研究蛋白质与低数量的注释和变异,反之亦然。如果我们之间符合线性模型注释的数量/变异和出版物数量的蛋白质是报告我们发现轻微的正相关,特别是在疾病相关变异的情况。这个观察是兼容社会引起偏见,与已知的疾病相关蛋白质和变异更经常在文献报道。gydF4y2Ba

图6gydF4y2Ba
图6gydF4y2Ba

文学偏见IMEx突变数据集。gydF4y2Ba一个gydF4y2Ba,gydF4y2BabgydF4y2Ba:散点图的出版物的数量(在对数刻度),蛋白质和报道gydF4y2Ba一个gydF4y2Ba注释和的数量gydF4y2BabgydF4y2Ba变异的数量报告的IMEx突变数据集。疾病相关注释以蓝色突出显示,用黄色与疾病无关。相应的回归行是彩色的。相关系数和线性模型的假定值表示。95%可信区间(CI)显示为灰色的区域在回归;gydF4y2BacgydF4y2Ba重叠明显富集的通路(gydF4y2Ba问gydF4y2Ba< 0.01)在不同的蛋白质和词浓缩分析(使用Wordle丰富路径名称)的重叠设置(任何突变效应),一组蛋白质注释没有效果,剩余的蛋白质IMEx (non-mutated)。在“没有影响”字浓缩的分析中,单词“通路”和“行动”已被移除使剩下的单词更明显(原词云可作为补充图gydF4y2Ba6gydF4y2Ba),而在“重叠的傻瓜”字云的话“通路”和“信号”已被移除(原词云可作为补充图gydF4y2Ba6 bgydF4y2Ba)。这个图的分析只考虑人类蛋白质执行。源数据图。gydF4y2Ba6gydF4y2Ba和gydF4y2Ba6 bgydF4y2Ba作为一个源数据文件,提供源数据图。gydF4y2Ba6摄氏度gydF4y2Ba可以补充数据gydF4y2Ba4gydF4y2Ba和gydF4y2Ba5gydF4y2Ba

然后我们开始寻找中蛋白质突变数据集是否参与独特的途径和蛋白质的IMEx交互信息。为了避免特定于数据库的偏见我们执行注释使用PathDIP富集分析(gydF4y2Bahttp://ophid.utoronto.ca/pathDIPgydF4y2Ba),一个分析工具,它集成了来自20源数据库的信息gydF4y2Ba47gydF4y2Ba。人类蛋白质分为不同取决于效果报告他们的突变和通路注释浓缩计算使用所有的人类蛋白质IMEx作为背景。途径获得这些设置有大量重叠(图。gydF4y2Ba6摄氏度gydF4y2Ba694通道)。这些结果表明,突变的蛋白质交互影响收集在这个数据集可能有偏见,可能是因为研究人员探索的特定利益变化影响分子的相互作用。具体地说,在群突变表明影响交互,通路与免疫系统有关,信号、疾病和细胞周期控制排在顶部(补充图gydF4y2Ba5gydF4y2Ba,请参阅补充数据gydF4y2Ba4gydF4y2Ba和gydF4y2Ba5gydF4y2Ba全部细节),类别之间的差异影响。似乎有癌症相关通路的优势,与代表“疾病”和“信号”类别,同意报告的观察图。gydF4y2Ba6 bgydF4y2Ba文学是偏向疾病相关变异。gydF4y2Ba

讨论gydF4y2Ba

这里我们提出一个独特的资源包含实验、公开可用信息序列变化的影响在特定蛋白质相互作用的结果。这是一个直接结果的IMEx财团详细细节的管理政策和代表的一个例子专家管理,导致结构化和标准化的表征,是必需的,为了充分利用已发表的实验结果。相似,相比已有的数据集记录变化影响交互,这个资源深度代表了一个飞跃,规模和范围(表gydF4y2Ba3gydF4y2Ba)。前一个,相对较小的研究gydF4y2Ba48gydF4y2Ba报道策划的大约100突变影响列表交互。尽管由于其大小明显限制,这是作为基准的研究调查疾病相关变异之间的联系和交互的接口gydF4y2Ba1gydF4y2Ba,显示了这种类型的数据的应用潜力。管理基础设施和实践的IMEx财团将使数据的获取越来越多的deep-mutagenesis交互研究,在成百上千的单一氨基酸的变化在整个长度的蛋白质序列研究对相互作用的影响gydF4y2Ba49gydF4y2Ba。新研究出现在基因和蛋白质的相互作用之间的复杂关系gydF4y2Ba50gydF4y2Ba。这些上位关系可以代表PSI-MI数据模型和策展人的IMEx财团正在探索如何使他们的注释。gydF4y2Ba

我们也承认任何固有的社会偏见以资源在我们的数据集,虽然很难确定它的程度。丙氨酸扫描特性显著(图作为一种常用的技术。gydF4y2Ba2 bgydF4y2Ba),可能代表氨基酸变化,永远不会出现在自然进化的约束或仅仅是因为他们需要广泛的序列DNA水平上改变,但是仍然是一个宝贵的信息来源,识别关键为绑定的位置。人类小节的数据集,疾病相关变异和蛋白质所占比例可能高于平均水平(无花果。gydF4y2Ba3 b, cgydF4y2Ba,补充图gydF4y2Ba5gydF4y2Ba)和优先选择了biocuration non-disease-related蛋白质(补充图gydF4y2Ba2gydF4y2Ba)。有趣的是,我们报告超过100疾病相关变异中所描述的文学造成或增加现有的交互(无花果。gydF4y2Ba3 d, egydF4y2Ba),其中的一些发现高度根据cBioPortal癌症复发gydF4y2Ba51gydF4y2Ba。这与研究结果报道萨尼et al。gydF4y2Ba5gydF4y2Ba,只有两例gain-of-interaction突变被发现在一个系统筛查疾病相关的基因突变,并影响使用酵母2台混合动力技术的交互。虽然互动减少/干扰效果更频繁地报道,这突显出gain-of-interaction机制发挥重要作用在疾病发病机理,尤其是癌症。gydF4y2Ba

我们也探讨了突变,模仿或扰乱磷酸化网站,发现浓缩与报道突变的影响。Phosphosite-disrupting突变主要显示蛋白质相互作用,不利影响和phosphosite-mimetic突变都不利,增加效果(图。gydF4y2Ba5gydF4y2Ba)。这些结果是一致的磷酸化影响绑定函数被认为是分子开关。gydF4y2Ba

变异分析是一个基本的工具在基础和临床研究中,直接通过转化基因组学应用在诊所。变化影响研究主要是通过统计分析人口的大型数据集,GWAS研究、定量分析的影响通过识别eQTLs表达式。然而,为了解开背后的机制检测效果,它是探索分子相互作用是如何影响的关键gydF4y2Ba52gydF4y2Ba。目前,大多数的机械的洞察变化影响是由计算注释和预测,使用工具是基于参考集相对较小,通常基于结构数据。为例,广泛使用FoldX算法生成的蛋白质复杂的结构,测试1008突变体库gydF4y2Ba42gydF4y2Ba。我们当前的数据集已经提供了交互作用超过10倍个体变异和并不局限于结构数据。实验设置的宽范围(图表示。gydF4y2Ba1 cgydF4y2Ba)允许对蛋白质和蛋白质的影响区域的捕获,本质上可能是结构化的gydF4y2Ba53gydF4y2Ba。我们目前显示的数据集提供了无与伦比的概述和代表哪些残留的关键蛋白相互作用,结果是很好的按照常用的变异注释器(图。gydF4y2Ba4gydF4y2Ba)。IMEx管理实践最初没有执行捕获序列变化,在互动的结果没有影响,但由于磋商与工具开发人员和数据用户这一政策已经修改,现在的数据集特征越来越多的突变没有影响,可以用作训练发展的负集计算注释工具。gydF4y2Ba

IMEx突变数据集表示直接引用来源,以变异特征和独特的指标,可用于进一步细化计算变异注释器的影响。我们将继续扩大的数据集和改善其用户的可访问性,确保IMEx全球使命的一部分的数据表示和重用。gydF4y2Ba

方法gydF4y2Ba

源数据gydF4y2Ba

所有的分析都使用了2017年9月版的IMEx突变的数据集,可以直接下载gydF4y2Baftp://ftp.ebi.ac.uk/pub/databases/intact/2017-09-02/various/mutations.tsvgydF4y2Ba。gydF4y2Ba

软件和包gydF4y2Ba

变异注释的质量控制管道是开发和集成在生产代码中使用完整的数据库。代码都是用Java编写的,使用Hibernate和Spring框架与核心交互SQL数据库和应用程序的实现。具体的实现细节可按照客户要求定制。统计分析、情节突变re-annotation检查和映射进行使用R编程语言gydF4y2Ba54gydF4y2Ba通过RStudio编程套件gydF4y2Ba55gydF4y2Ba。下面的R包被用于研究:数据。表、dplyr ggplot2、ggpubr gridExtra, gsubfn, httr, jsonlite, plyr, RCurl, reshape2,尺度,seqinr, splitstackshape, XML, Biostrings, biomaRt。gydF4y2Ba

管理实践gydF4y2Ba

数据已经产生后通过手工文献管理IMEx财团管理指南gydF4y2Ba11gydF4y2Ba,详细探讨了在联盟网站上:gydF4y2Bawww.imexconsortium.org/curationgydF4y2Ba。短暂,每一个出版物审查是策划的整体交互数据里面,代表每个实验证据作为一个单独的记录。详细综述了注册使用的结构和每个条目由至少两个独立策展人的质量控制。gydF4y2Ba

突变re-annotation努力gydF4y2Ba

PSI-XML3.0的发展和后产生的序列的字段IMEx模式来捕获氨基酸改变参与者的特征类型的突变(MI: 0118)和儿童,有必要从参与者填充字段与遗留数据功能短标签。这个自由文本,手动输入字段是容易包含印刷错误,很难保持更新。策展人使用一组简单的规则来描述氨基酸替换,删除和插入。作为第一步填充结果序列的领域,我们写临时解析脚本评估和提取信息存储在短的标签。几轮修正发生,直到数据集其当前状态。27868条记录的数据集,20161年必须纠正,其中约2000手动更正。仍有大约2500条记录没有修复的可能没有完全修改原始条目。这些被排除在数据集,直到被一个重新审视IMEx馆长。自动化质量控制管道已经到位处理创建的条目和未来UniProtKB(细节的变化gydF4y2Ba补充信息部分的最初re-curation IMEx突变数据的gydF4y2Ba)。最后,我们还参与者特性短标签适应人类基因组变异的社会变体(HGVS发布)建议注释gydF4y2Ba56gydF4y2Ba,它可以访问gydF4y2Bahttp://varnomen.hgvs.org/recommendations/protein/gydF4y2Ba。gydF4y2Ba

IMEx UniProt和SKEMPI 2.0变异注释比较gydF4y2Ba

最新版本的SKEMPI 2.0 2018年7月从数据库下载gydF4y2Bahttps://life.bsc.es/pid/skempi2/database/download/gydF4y2Ba。条目被解析和PDB REST API用于蛋白质在PDB记录映射到UniProt加入数字为了使比较。链信息被用来确定个人的身份蛋白质。报告的情况下,不止一个蛋白质链,以及未映射条目,从进一步分析被丢弃。最后,效应类型分类两类:“损失”和“获得”的绑定功能。为了分类注释这两类之一,亲和力值序列的变异版本与野生型形式规范化的关系。褶皱变化和低于50%的野生型被标注为“获得”或“损失”,分别。小褶皱的变化被限定为“没有影响”。UniProt诱变注释是2018年7月29日获得解析UniProt webservice XML输出使用Python脚本请由Luz Garcia-Alonso提供。由于互动合作伙伴只认同基因符号UniProt注释,他们的准确身份无法确定数量的记录,这被丢弃的进一步分析。 The effects reported in the annotations were simplified and qualified as simple ‘loss’ and ‘gain’ of binding function. IMEx mutation types were simplified accordingly to allow consistent comparison of mutation effects among data sets.

评估冲突变异注释gydF4y2Ba

突变被定义为“冲突”的序列变异时,测试相同的互动合作伙伴,是注释直接对抗的效果(例如“破坏”和“增加”)。不同proteoforms相同的参考蛋白被认为是不同的互动合作伙伴(如磷酸化蛋白被认为是不同于其non-phosphorylated形式)。当不同的效果被报道,但没有直接拮抗突变被认为是“一致”如果所有影响方向相同(例如“干扰”和“减少”)或“轻微的冲突”如果大多数走在同一个方向,其余被标注“无影响”(如“减少”和“没有影响”)。gydF4y2Ba

映射IMEx UniProtKB和基因突变gydF4y2Ba

UniProtKB到达人类蛋白质提取的IMEx突变数据集,保持同种型标识符,用于查询EMBL-EBI蛋白质APIgydF4y2Ba27gydF4y2Ba。API的“变异”的方法被用来提取大规模变化从UniProtKB注释,而不管它的来源。注释中提取通过这种方法被映射到IMEx突变数据集使用UniProtKB入世,位置和产生的氨基酸序列仅供完整的映射和UniProtKB加入位置的映射和位置。IMEx-reported突变情况下跨越多个氨基酸位置被分为个体替换,只有贴上“完整”匹配如果每个个体的位置匹配UniProtKB的注释。否则,他们被认为是“部分”的映射。疾病注释从API中提取的输出,以及rsIDs。这些rsIDs被用于DisGeNET寻找额外的注释也带来了疾病。疾病被映射到相应的网格疾病类使用统一医学语言提供的交叉引用系统(uml) Metathesaurus(版本2017 ab)。在交叉引用的情况下网格并不可用,我们手动分配一个家长,例如,零星的乳腺癌是映射到乳房癌。这允许地图98.5和93%的疾病UniProt DisGeNET,分别。 The following MeSH disease classes were discarded because they were deemed uninformative or not appropriate for the analysis in hand: ‘pathological conditions, signs and symptoms’, ‘occupational diseases’ and ‘animal diseases’.

预测影响蛋白质交互接口gydF4y2Ba

实验和同源性建模结构从Interactome3D获得了蛋白质相互作用数据库gydF4y2Ba41gydF4y2Ba。相对残留溶剂可访问性(RSA)所有原子使用NACCESS计算gydF4y2Ba57gydF4y2Ba复杂的蛋白质分别和交互。界面残留在RSA中被定义为那些有任何改变。变异的影响对界面稳定性计算使用FoldX v.4.0。所有二进制接口结构修理使用RepairPDB命令,使用默认参数。Pssm命令被用来预测G numberOfRuns∆= 5。这个执行多次突变与变量旋转异构体配置,确保算法实现收敛。所有运行计算的平均∆G和∆∆G计算是野生型和突变体之间的差异提供了一个预测估计不稳定的突变是交互界面。gydF4y2Ba

预测变量筛选和PolyPhen2功能的影响gydF4y2Ba

为了计算筛分数,所有蛋白质比对对UniRef50建成gydF4y2Ba58gydF4y2Ba,使用seqs_chosen_via_median_info。筛选5.1.1 csh脚本gydF4y2Ba59gydF4y2Ba。siftr R包(gydF4y2Bahttps://github.com/omarwagih/siftrgydF4y2Ba)是用于生成筛分数与参数ic_thresh = 3.25和residue_thresh = 2。PolyPhen2获得的分数gydF4y2Bahttp://genetics.bwh.harvard.edu/pph2/bgi.shtmlgydF4y2Ba2018年8月6日使用批处理查询工具。GRCh37 / hg19基因组大会和HumDiv分类器模型被用于考虑错义注释对规范记录。gydF4y2Ba

等位基因频率gydF4y2Ba

总共3198692个编码变异gydF4y2Ba智人gydF4y2Ba超过65000个人收集ExAC财团gydF4y2Ba29日gydF4y2Ba在ANNOVARgydF4y2Ba60gydF4y2Ba输出格式和相应的调整等位基因频率。运用记录位置映射到UniProt通过执行Needleman-Wunsch对UniProt翻译运用记录序列的全局比对序列使用pairwiseAlignment函数在Biostrings R包。运用记录id之间的映射(v81)和UniProt到达biomaRt获得R包。如果多个等位基因样本映射到单一的氨基酸替换,最高的一个等位基因频率调整留存。gydF4y2Ba

递归式gydF4y2Ba

带注释的体细胞突变复发10155肿瘤样本数据从TCGA pan-cancer图谱数据集获得下载cBioPortal v1.15.0 11/08/2018。数据集包含1866976个错义变异映射到UniProt和属于33肿瘤类型。gydF4y2Ba

变量映射到交互接口gydF4y2Ba

从Interactome3D预测界面和可访问性坐标了。策划接口提取完整的通过选择参与者特征下PSI-MI术语“binding-associated地区”(MI: 0117)。只有人类蛋白质的可访问性计算直接从结构性数据Interactome3D被选为这个分析,模拟结构被排除在外。gydF4y2Ba

映射突变和phosphositesgydF4y2Ba

Phosphosite数据下载PhosphositePlus®(gydF4y2Bawww.phosphosite.orggydF4y2Ba02/07/2018)。所有phosphosite注释为人类蛋白质被认为提供的分析和映射到我们的数据集使用UniProt坐标。只有突变丝氨酸,苏氨酸和酪氨酸残基被用于比较。gydF4y2Ba

估计文学偏见gydF4y2Ba

我们使用了NCBI geneID2pubmed表,在访问gydF4y2Baftp://ftp.ncbi.nih.gov/gene/DATA/gene2pubmed.gzgydF4y2Ba,估计有多少论文相关的个别蛋白质的IMEx突变数据集。只有人类蛋白质被认为是。Entrez GeneIDs映射到UniProtKB到达使用UniProt网站的REST API映射服务描述gydF4y2Bawww.uniprot.org/help/api_idmappinggydF4y2Ba。gydF4y2Ba

使用PathDIP通路富集分析gydF4y2Ba

途径进行浓缩使用质子泵抑制剂突变(即突变蛋白+合作伙伴)的突变类型(造成破坏,等等)和pathDIP 2.5通路(只考虑核心途径,gydF4y2Bahttp://ophid.utoronto.ca/pathDIPgydF4y2Ba47gydF4y2Ba)。我们认为整个完整的人类质子泵抑制剂作为浓缩的背景分析(2018年3月24日下载)。对路径重叠Venny 2.1.0的(gydF4y2Bahttp://bioinfogp.cnb.csic.es/tools/vennygydF4y2Ba)使用和Wordle (gydF4y2Bawww.wordle.netgydF4y2Ba)被用来准备词云从丰富通路的标题。gydF4y2Ba

代码的可用性gydF4y2Ba

代码和映射用于分析可按照客户要求定制。gydF4y2Ba