- 拆分视图
-
的观点
-
引用
引用
Yasset Perez-Riverol, Attila Csordas, Jingwen Bai, Manuel Bernal-Llinares, Suresh Hewapathirana, Deepti J Kundu, Avinash Inuganti, Johannes Griss, Gerhard Pfeuffer, Timo Sachsenberg, Şule yilmaz, Shivani Tiwary, Jürgen Cox, Enrique Audain, Mathias Walzer, Andrew F Jarnuczak, Tobias Ternent, Alvis Brazma, Juan Antonio, 2019年的PRIDE数据库和相关工具和资源:改进对量化数据的支持,核酸研究,第47卷,D1期,2019年1月8日,D442-D450页https://doi.org/10.1093/nar/gky1106
-
分享
摘要
PRoteomics identiizations (PRIDE)数据库(https://www.ebi.ac.uk/pride/)是世界上最大的基于质谱的蛋白质组学数据库,也是全球ProteomeXchange (PX)联盟的创始成员之一。在这篇手稿中,我们总结了自上一篇更新手稿发表以来PRIDE资源和相关工具的发展核酸研究在2016年。在过去的3年里,通过PRIDE (PX的一部分)共享公共数据已经成为该领域的常态。与此同时,公共蛋白质组学数据的重用也有了极大的增加,并有了多种应用。我们首先描述PRIDE Archive (PRIDE的归档组件)的新体系结构。PRIDE档案和相关的数据提交框架已得到进一步开发,以支持提交的数据量和其他数据类型的增加。一个新的可扩展和容错存储后端,应用程序编程接口和web接口已经实现,作为一个正在进行的过程的一部分。此外,我们强调了通过mzTab格式对定量蛋白质组学数据的改进支持。最后,我们概述了当前数据内容和下载量的关键统计数据,以及PRIDE数据如何开始传播到包括Ensembl、UniProt和Expression Atlas在内的增值资源。
介绍
近年来,基于高通量质谱(MS)的蛋白质组学方法已经显著成熟,成为生物研究中越来越多使用的工具,有时与其他“组学”方法如基因组学和转录组学一起使用。同样,在过去的15年里,一些公共蛋白质组库和生物信息学资源已经被开发出来,以支持蛋白质组学研究人员。PRoteomics identiizations (PRIDE)数据库(https://www.ebi.ac.uk/pride/)于2004年在欧洲生物信息学研究所(EMBL-EBI, Hinxton, Cambridge, UK)成立,以实现MS蛋白质组学数据的公共数据沉积,提供科学出版物(1).从那时起,PRIDE(更具体地说,PRIDE档案组件)与该领域并行发展,成为全球最大的蛋白质组学数据存储库(2).
尽管来自数据依赖采集(DDA)蛋白质组学方法的数据集是迄今为止最丰富的实验类型,但PRIDE Archive可以存储来自所有主要蛋白质组学数据工作流的数据集(包括数据独立采集(DIA)、MS成像和自上而下的蛋白质组学等)。每个提交的数据集中必须包含的数据类型是原始文件(质谱仪的输出文件)和处理结果(至少是肽/蛋白鉴定结果,定量信息是可选的)。因此,PRIDE Archive中的每个数据集都可以包含异构数据类型,如肽/蛋白质鉴定和定量值、质谱(峰值列表和原始数据)、搜索序列数据库或谱库、编程脚本和数据提交者提供的任何其他技术和/或生物元数据。
PRIDE领导的一项重要发展是建立了MS蛋白质组学资源的ProteomeXchange (PX)联盟(http://www.proteomexchange.org) (3.),旨在规范蛋白质组学数据在全球范围内的提交和传播。截至2018年9月,以下蛋白质组学资源也是PX的一部分:PeptideAtlas和PASSEL (PeptideAtlas SRM实验库)(4,5)、海量(http://massive.ucsd.edu/), jPOSTrepo (6), iProx (http://www.iprox.org/)及全景公众(7).
PRIDE有四个主要目标:(1)支持蛋白质组学实验的数据沉积,并对相关实验元数据进行自动和手动管理;(ii)实施质量控制管道和可视化组件以评估数据质量(8);(iii)促进和便利公共蛋白质组学数据的再利用;(iv)将高质量的蛋白质组学证据传播给附加值资源,包括Ensembl (9)、UniProt (10)及表情图谱(11).
为了便于数据的沉积、可视化和质量评估,团队多年来开发了完整的开源软件框架,包括PX Submission工具和PRIDE Inspector (12).此外,不同的PRIDE相关数据管道,REST web服务(13)和网页界面(2)一直在不断完善。此外,我们还开发了多个Java开源软件库,包括jmzML、jmzIdentML、jmzReader、jmzTab、ms-data-core-api (14)和PIA(蛋白质推断算法)工具箱(15,16) (https://github.com/PRIDE-Utilities),以支持由蛋白质组学标准计划(PSI)开发的最流行的蛋白质组学数据标准格式(如mzML, mzIdentML, mzTab)的处理(例如读写)(17).除了上述PX资源外,还有其他蛋白质组学数据库和资源可提供蛋白质表达信息,最著名的是全球蛋白质组机器数据库(GPMDB) (18)、CPTAC(临床蛋白质组学肿瘤分析联盟)数据门户(19)及蛋白质组学数据库(20.).
在这篇文章中,我们将总结过去三年来与PRIDE相关的主要进展核酸研究数据库更新稿件发表(2).我们将更详细地讨论PRIDE档案,但也将提供有关PRIDE相关工具和其他正在进行的活动的最新信息。
骄傲档案和相关工具的当前状态
科学家提交的原始数据集储存于PRIDE档案(http://www.ebi.ac.uk/pride/archive/).在默认情况下,所有数据集都是私有的(密码保护),只有在相关手稿被接受后,或者当PRIDE被原始提交者通知这样做时,才会公开。PRIDE Archive中的数据可以通过四种不同的方式进行搜索和访问:(i) web界面,提供每个数据集的总体概述;(ii) PRIDE检查员工具(12),可用于下载提交的数据文件,并以开放格式(包括多个PSI标准)显示谱、肽和蛋白质信息;(iii) Restful web服务(https://www.ebi.ac.uk/pride/ws/archive/) (21);以及(iv)文件储存库,其中FTP和Aspera (https://asperasoft.com/)文件传输协议可用于访问文件。此外,PRIDE档案中的所有公共数据集都可通过OmicsDI (https://www.omicsdi.org/),该EMBL-EBI资源整合了来自不同组学技术的公共数据集(22).数字1提供PRIDE生态系统的概述,包括最相关的工具、软件库和数据传播到其他资源。
新的PRIDE档案基础设施:扩大当今蛋白质组学实验的资源
近年来,提交给PRIDE的数据集数量与实验规模同步显著增长,例如样本数量、生物/技术重复和证据-质谱、肽谱匹配(psm)、肽和蛋白质。两个不同的因素,可伸缩性和可靠性(容错),指导了新的PRIDE Archive分布式体系结构的开发(补充说明1).每个存储项(例如MongoDB, Solr Indexes)现在都部署在两个EMBL-EBI数据中心作为分片分布式集群。这种新的体系结构确保了如果一个数据中心无法访问(例如由于技术维护),PRIDE Archive仍然可以访问。
数据提交流程:改进了对量化结果的支持
数据提交流程没有实质性变化,因为PX提交总体准则保持稳定(23).最新的网页教程解释了这一过程http://www.ebi.ac.uk/training/online/course/proteomexchange-submissions-pride.新增的主要功能是支持标准的以制表符分隔的mzTab格式(24)执行“完整”提交(由于这项持续的开发,肽/蛋白质鉴定以及相应的定量信息可以由存储库解析,可在数据库中访问并链接到原始质谱)。因此,对mzTab的支持使定量数据第一次能够以支持“完整”提交的标准格式沉积到PRIDE Archive中(补充说明2).截至2018年10月,吉祥物(25)搜索引擎(例如https://www.ebi.ac.uk/pride/archive/projects/PXD009079)、OpenMS框架(26)(如。https://www.ebi.ac.uk/pride/archive/projects/PXD010981)及MaxQuant (27)(如。https://www.ebi.ac.uk/pride/archive/projects/PXD011194)允许本地导出定量结果到mzTab。为了不断提高对量化数据的支持,我们的目标是促进mzTab在其他流行软件工具中的实现,如Proteome Discoverer (ThermoFisher科学).
mzIdentML格式仍然是“完整”提交的主流格式,并且越来越多地得到搜索引擎和工具的支持(14).如果mzTab和/或mzIdentML还不被用户选择的软件所支持,替代方案是执行“部分”提交,这也是当前数据工作流的替代方案,如DIA,自顶向下和MS成像。在持续发展PSI数据标准格式的同时,所有与pride相关的软件库(https://github.com/PRIDE-Utilities)不断发展,使数据处理和提交过程更加稳健。在这种情况下,我们将继续扩展我们的库(MS -data-core-api和jmzIdentML),以支持mzIdentML 1.2版中包含的新功能,例如MS/MS交联和蛋白质基因组学方法。
PX提交工具
PX提交工具(3.)(可于https://github.com/proteomexchange/px-submission-tool)是一个独立的工具,大多数PRIDE提交者使用它来执行数据提交。该工具最近做了一些改进:(i)集成了新的OLS(本体查找服务)客户端和OLS对话库(28),支持新版本的OLS,用于使用受控词汇表术语注释数据集;以及(ii)增加直接反馈系统,供用户报告数据提交情况。
PRIDE Inspector工具套件:在提交PRIDE档案之前和之后审查数据集
PRIDE检查器工具(12)(可于https://github.com/PRIDE-Toolsuite/pride-inspector)的开发,使研究人员能够在数据集公开后,在数据提交之前和之后对数据进行可视化和初始质量评估。PRIDE Inspector支持几种不同的实验开放输出文件,从质谱(mzML, mzXML和最流行的峰列表格式,如mgf, dta, ms2, pkl和apl),识别结果(mzIdentML, mzTab),定量数据(mzTab)。在过去的几年中,在工具和底层软件库中已经实现了一些改进。最近添加的主要新功能是支持审查人员使用更快的Aspera文件传输协议下载私有数据集。这一促进审查过程的关键功能目前无法通过PRIDE档案网站界面提供。
PRIDE web界面和restful API:检索公共蛋白质组学数据
PRIDE网页界面及Restful API (13)可用于检索和可视化所有PRIDE数据集对应的数据。新的PRIDE网页界面(图2)提供了一个强大的机制来搜索和/或过滤多种类型的元数据信息,如样本细节(例如物种、组织、细胞类型等)、仪器仪表(质谱仪)、关键字和其他提供的注释(补充说明3).使用API,可以通过编程方式查询和检索肽和蛋白质鉴定,数据集和分析特定的元数据,以及所有最初提交的文件。这两个组件目前都在开发中,并且正在实现新的功能,例如对类似数据集的建议、自动完成搜索功能和实时数据内容统计(图2)2).
PRIDE肽穹窿:来自PRIDE档案的高质量肽证据
PRIDE Archive中报告的psm使用频谱聚类方法进行质量过滤(29).所有来自PRIDE档案中公开实验的识别光谱都使用PRIDE聚类算法的第二次迭代进行聚类,称为spectra-cluster(https://github.com/spectra-cluster) (30.).聚类过程的结果可以通过以肽为中心的PRIDE肽群资源(正式名称为PRIDE集群,http://www.ebi.ac.uk/pride/cluster/),它有一个全新的网页界面,与PRIDE Archive的新界面保持一致。相应的光谱库和光谱档案(只包含未识别的光谱)可在https://www.ebi.ac.uk/pride/cluster/#/libraries而在https://www.ebi.ac.uk/pride/cluster/#/results.
Pride归档数据内容统计
截至2018年9月1日,PRIDE档案包含10100个数据集(与2015年9月的3336个数据集相比),其中大约19%是“完整”数据集(1975年数据集),72%是“部分”数据集(7295),其余9%(830)对应于PX数据工作流实施之前提交的旧“遗留”数据集。数字3显示每月提交的数据集数量的演变。截至2018年9月,2018年平均每月提交274个数据集,与3年前相比增加了2倍多。里程碑式数据集PXD010000于2018年6月1日提交。这些数字对应于所有数据集,包括私人数据集(未发布,密码保护)。截至2018年9月1日,56%(5719个)的数据集是公开可用的。有趣的是,使用DDA以外的实验方法生成的提交数据集的数量正在增长(图3 b).截至2018年9月,PRIDE中被分类为DDA的数据集数量为91%,而被分类为其他类型的数据集数量为26%3 b).DIA和精选反应监测(SRM)数据集的数量确实是DDA数据集之后最丰富的数据集。
最具代表性的物种(包括公共和私人数据集)是人类(4335个数据集)和一些主要的模式生物,最著名的是老鼠(1432),拟南芥(375),酿酒酵母(341),大鼠(300),大肠杆菌(247),牛(112),黑腹果蝇鸡肉(65),大米(70)和大豆(49)。总的来说,来自1840多个不同分类标识符的数据集存储在PRIDE Archive中(图2)4).在我们看来,这些统计数字公正地反映了目前由许多资助机构和一些科学期刊制定的强制性数据沉积指南。在撰写本文时,威康基金会、BBSRC、MRC和NIH以及其他资助者要求或强烈鼓励开放获取包括蛋白质组学在内的研究数据。此外,两家最著名的蛋白质组学期刊(分子和细胞蛋白质组学而且蛋白质组学研究杂志)和来自自然小组现在要求提交至少支持每个蛋白质组学出版物的原始数据。其他期刊已经推荐或强烈推荐数据提交(例如:蛋白质组学(威利),蛋白质组学杂志(爱思唯尔),公共科学图书馆期刊,等等)。PRIDE数据集支持的研究文章百分比的演变(在三种不同的蛋白质组学期刊中:分子与细胞蛋白质组学,蛋白质组学研究杂志而且蛋白质组学)将在补充说明4.最后,在这种情况下,重要的是要强调,人类蛋白质组计划已经制定了正式的指导方针,要求所有生成的数据集提交数据(31).
公共骄傲数据集的数据重用
蛋白质组学研究人员正越来越多地重复利用PRIDE(和其他资源)中提供的公共数据,用于广泛的目的。我们提出了四类公共蛋白质组学数据再利用:使用(二)重用(3)再加工和(四)重新(32).一个简单的直接例子使用蛋白质组学数据资源与UniProt和Ensembl (10).在这种情况下重用在美国,公共数据被重新用于新颖的实验,有可能产生新的知识。来自大量独立数据集的数据可以被分析或重新组合使用(所谓的元-分析研究),以提取无法从任何单个数据集中获得的新知识。在这种情况下再加工随着蛋白质序列数据库和软件工具的发展,公共数据集被重新分析,以提供更新或集成的结果视图。最后,再利用包括所有在不同于原始实验的环境中考虑数据的情况。两种流行的应用是蛋白质基因组学方法(用于人类和主要的模式生物,例如33,34),以及新的PTMs(翻译后修饰)的发现。最近关于重复使用公共蛋白质组学数据的综述(32,35).
为了证实数据重复使用的增加,图5显示每年PRIDE数据下载量的增长,在2017年达到296 tb。此外,使用前面提到的资源OmicsDI,现在可以跟踪PeptideAtlas和GPMDB执行的PRIDE数据集重新分析的数量,以及文献中PRIDE数据集的直接引用数量(BioRxiv:https://doi.org/10.1101/282517).截至2018年9月,已有293个数据集被重新分析,381个数据集标识符被直接引用在文献中。
PRIDE蛋白质基因组学:使用“TrackHubs”将肽序列表示为Ensembl
PRIDE和Ensembl团队一直在合作,以改善基因组环境下蛋白质组学数据的整合。PRIDE档案中来自“完整”公共数据集的肽证据首先使用PIA框架进行质量过滤(肽错误发现率为1%)15).使用PoGo工具将可靠的肽序列(包括PTMs)从给定的Ensembl版本映射到相应的基因组坐标(36).然后将每个单独数据集的结果数据进行组合,并使用流行的BED格式通过Ensembl ' TrackHub '注册表提供。除了单个数据集,PRIDE集群数据(现在更名为PRIDE Peptidome)也可以作为独立的“TrackHubs”使用。在撰写本文时,184个PRIDE公共数据集已经在Ensembl ' TrackHub '注册表中提供(https://www.trackhubregistry.org/): 163人,15人亩骶, 4个来自鼠形2个来自牛.' TrackHubs '可以在' TrackHub '注册表中通过项目标识符、分类法和/或相应PRIDE数据集描述中可用的特定关键字进行搜索。作为一个关键点,“TrackHubs”可以与其他基因组特征一起在Ensembl web界面中加载和可视化6).超过400万个肽序列(其中120万个包含PTMs)已被映射到人类基因组(GRCh38)。我们正在努力包括来自其他模式生物的数据。非常重要的是,开发的框架支持另外两个主要的基因组浏览器:UCSC基因组浏览器和IGV(整合基因组查看器)。所有数据都可以从http://ftp.pride.ebi.ac.uk/pride/data/proteogenomics/latest/archive/,进行下游分析。
将数据移动到表达式图谱:定量数据集的重新分析
在撰写本文时,15个定量蛋白质组学数据集已经集成到表达图谱(Expression Atlas)中,这是一个EMBL-EBI增值数据库,提供了关于不同物种和背景下基因和蛋白质表达的信息(11).所有PRIDE集成的蛋白质组学数据集都使用基于MaxQuant的管道进行手动整理和重新分析。截至2018年9月,5个小鼠数据集(展示了完整的蛋白质组,例如:https://www.ebi.ac.uk/gxa/experiments/E-PROT-16/Results),来自癌细胞系的6个数据集(展示了蛋白质组学和转录组学数据之间的整合)和来自临床肿瘤样本的4个数据集已经集成到Expression Atlas中。从Expression Atlas,在不久的将来,我们计划将相关的定量蛋白质组学数据传播到Open Targets平台(37).
讨论及未来计划
由于PRIDE(以及PX联盟作为一个整体)的成功,蛋白质组学社区现在广泛接受开放数据政策,这与几年前的情况正好相反。与此同时,公共蛋白质组学数据正越来越多地重复使用,具有多种应用。接下来,我们将概述在不久的将来PRIDE的一些主要工作领域。
首先,一个关键的方面是改进数据集的注释。目前的要求是在2011年PX建立期间制定的(2013年进行了小幅更新),反映了当时涉及该领域许多关键利益相关者的讨论。首要任务是普及数据共享。一旦实现了这一点,现在就是“提高标准”的时候了。在撰写本文时,一种新的注释系统正在开发中(补充说明2).其目的是改善对实验设计信息和技术元数据(例如,原始文件中包含的搜索参数和相关信息)的捕获(28,38).还需要改进注释,以方便第三方进一步重用数据。使数据重用更容易的另一个关键方面是使分析工具更接近数据,因为数据集的大小不断增加。
我们已经在致力于开发不同类型蛋白质组学工作流程的开放和可重复的数据分析管道(例如DDA, DIA,蛋白质基因组学)。其主要原理是使在云基础设施中使用该软件成为可能(使用EMBL-EBI云作为起点),以便将来社区可以使用软件容器技术在云中使用管道(39,40).此外,我们的目标是越来越多地进行内部数据重用(包括数据再处理),并将PRIDE的高质量蛋白质组学数据传播到前面提到的增值资源(Ensembl, UniProt和Expression Atlas)等。目前,PRIDE“完整”数据集中识别的蛋白质在相应的UniProt条目中被交叉引用(例如。https://www.uniprot.org/uniprot/Q12181)和“TrackHubs”是针对ensemble bl中的一些“完整”数据集发布的。我们计划使用来自PRIDE的蛋白质组学证据对UniProt和Ensembl条目进行更详细的注释,重点关注ptm、序列变体和定量表达信息。
为了支持这一点,需要适当地支持PRIDE档案基础设施中重新分析的数据集和相应结果的集成。未来几年另一个高度相关的主题是临床蛋白质组学数据的管理,以及它们是否应该被认为是患者可识别的。在欧盟推出GDPR(通用数据保护条例)指导方针后,这个主题最近变得更加相关,我们计划在ELIXIR活动的背景下进一步讨论它(https://www.elixir-europe.org/).在此背景下,有必要强调的是,2017年PRIDE被命名为ELIXIR核心数据资源(https://www.elixir-europe.org/platforms/data/core-data-resources),加入科学界认为必不可少的生物数据库,强调需要使这些数据库长期可持续发展(41).
最后,我们邀请对PRIDE相关发展感兴趣的各方关注PRIDE推特账号(@pride_ebi)。如需定期发布所有新的公开数据集,用户可关注PX推特账号(@proteomexchange)。
补充数据
补充数据都可以在NAR Online上找到。
确认
我们要感谢2015年至2018年PRIDE科学咨询委员会的所有成员,即Ruedi Aebersold、Roz Banks、Jurgen Cox、Pedro Cutillas、Concha Gil、Angus Lamond、Kathryn Lilley、Juri Rappsilber、Hans Vissers和Ioannis Xenarios。我们还要对亨宁·赫姆雅各布表示衷心的感谢。最后,我们要感谢所有数据提交者和合作者的贡献。
资金
威康信托[WT101477MA, 208391/Z/17/Z];BBSRC授予“PROCESS”[BB/K01997X/1];“ProteoGenomics”[BB / L024225/1];《蛋白质组学DIA》[BB/P024599/1];英日合作伙伴奖[BB/N022440/1];NIH“蛋白质组学标准”基金[R24 GM127667-01];EU H2020项目THOR [654039];ELIXIR实施三项研究;EMBL核心资金;de.德国联邦教育与研究部(BMBF) nbi项目[FKZ 031 A 534A to g.m., 031 A 535A to j.p., T.S.]; Vienna Science and Technology Fund (WWTF) [LS11-045 to J.G.]; PURE (Protein research Unit Ruhr within Europe), a project of North Rhine-Westphalia, a federal state of Germany (to M.E.); European Union’s Horizon 2020 Research and Innovation Program [686547 to J.C.]; FP7 [GA ERC-2012-SyG_318987-ToPAG to S.T.]. Funding for open access charge: Wellcome Trust.
利益冲突声明.没有宣布。
评论