文摘

简介:金属提供了一种计算有效的全基因组关联分析的扫描工具,这是一个常用的方法为提高电力复杂性状基因定位研究。金属提供了丰富的编程接口和实现高效的内存管理允许分析非常大的数据集和支持各种输入文件的格式。

可用性和实现:金属,包括源代码、文档、示例和可执行文件,可在http://www.sph.umich.edu/csg/abecasis/metal/

联系人:goncalo@umich.edu

1介绍

荟萃分析越来越重要的工具在全基因组关联研究(GWAS)复杂的遗传疾病和特征(de赞美上帝et al。,2008年)。荟萃分析提供了一个高效、实用的策略与适度的影响大小(Skol检测变体et al。,2007年)。我们和其他人有金属用于执行GWAS的荟萃分析来识别位点可再生产地与各种相关的特征,如2型糖尿病(Scottet al。,2007年;Zegginiet al。,2008年)、血脂水平(Kathiresanet al。,2008年,2009年;Willeret al。,2008年)、体重指数(Willeret al。,2009年)、血压(Newton-Chehet al。,2009年)和空腹血糖水平(Prokopenkoet al。,2009年)。

荟萃分析的全基因组协会汇总统计,相比直接集中个体层面的数据进行的分析,缓解共同关注与研究参与者的隐私,避免繁琐的集成来自不同研究的基因型和表型数据。荟萃分析允许自定义分析的个体研究方便占人口子结构,相关个人的存在,一些具体和许多其他反是ascertainment-related问题。已经表明,荟萃分析总结统计是有效的(的统计力量)池在研究个体层面的数据,但是太麻烦(林和曾庆红,2009年)。从GWAS例行检查的证据协会在数以百万计的直接基因分型和估算单核苷酸多态性在数十甚至数百个人研究,重要的是使用一个快速和灵活的工具进行荟萃分析。

2方法

荟萃分析的基本原理是将协会的证据从个体的研究,使用适当的权重。金属实现两种方法。第一种方法转换效应和的方向P值在每个研究一个签名Z分数,这样非常消极Z分数显示一个小P值和一个等位基因与疾病风险或定量特征水平较低有关,而大的正面Z分数显示一个小P值和一个等位基因与疾病风险或定量特征水平较高有关。Z分数为每个等位基因结合在样本加权和,与重量成正比√(每个研究的样本量(史都华牌et al。,1949年)。与不平等的研究的病例数和控制,我们建议的有效样本量在输入文件中,提供Neff= 4 / (1 /N情况下+ 1 /Nctrl)。这种方法是非常灵活的,允许结果结合即使效应值估计或β-coefficients和标准错误从个体的研究在不同的单位。第二种方法实现金属重量的影响大小的估计,或β-coefficients,估计标准误差。第二种方法需要效应值估计和他们的标准错误一致的单位研究。渐近,这两种方法是等价的特征分布是相同的在样本(标准误差是可预测的样本大小的函数)。这两种方法的关键公式表1

表1。

公式荟萃分析

分析策略
样本容量为基础 基于逆方差
输入 N——为研究样本 β-效果评估研究
PP价值研究
Δ——效果研究的方向 se——标准误差进行研究
中间的统计数据 Z−1(P/ 2)*(Δ迹象) w= 1 / SE2
forumla forumla
forumla
整体Z分数 forumla Z=β/SE
整体P价值 P= 2Φ(|−Z |)
分析策略
样本容量为基础 基于逆方差
输入 N——为研究样本 β-效果评估研究
PP价值研究
Δ——效果研究的方向 se——标准误差进行研究
中间的统计数据 Z−1(P/ 2)*(Δ迹象) w= 1 / SE2
forumla forumla
forumla
整体Z分数 forumla Z=β/SE
整体P价值 P= 2Φ(|−Z |)
表1。

公式荟萃分析

分析策略
样本容量为基础 基于逆方差
输入 N——为研究样本 β-效果评估研究
PP价值研究
Δ——效果研究的方向 se——标准误差进行研究
中间的统计数据 Z−1(P/ 2)*(Δ迹象) w= 1 / SE2
forumla forumla
forumla
整体Z分数 forumla Z=β/SE
整体P价值 P= 2Φ(|−Z |)
分析策略
样本容量为基础 基于逆方差
输入 N——为研究样本 β-效果评估研究
PP价值研究
Δ——效果研究的方向 se——标准误差进行研究
中间的统计数据 Z−1(P/ 2)*(Δ迹象) w= 1 / SE2
forumla forumla
forumla
整体Z分数 forumla Z=β/SE
整体P价值 P= 2Φ(|−Z |)

3的结果

3.1实现

荟萃分析在实施我们的软件,主要考虑的是便于识别和解决常见问题的分析。次要的考虑因素是能够指定自定义标题和分隔符,将输入文件与不同的格式生成各种统计软件包。金属试图解决或标志不一致而导致的常见问题所选择的等位基因标签或在研究基因链,或无效的存在P值或测试数据的一个子集标记(由于数值误差)。金属允许过滤后的数据质量控制措施,并能处理大量数据(通常总几个GB大小的)工作站的内存容量不超过2 GB。

3.2使用

金属已经被许多团体广泛使用自2008年1月首次发布。这一领域的测试不仅全面启用调试但错误检测方法的改进。金属可以交互地或运行一个命令脚本作为输入。输入文件处理一次,用于更新中间数据存储在内存中。金属实现科克伦的以及对异质性(科克伦,1954年)和适当的统计数据可以计算出如果要求的用户。金属设计灵活的输入文件的格式,并允许用户自定义标签键列,每个输入文件的输入字段分隔符和其他特征。基因组信息链,如果可用,当unavailable-METAL自动解决链不匹配的标记链是显而易见的(例如,所有与A / T和snp除C / G等位基因)。金属有一个选项来估计一个基因组控制参数(Devlin和罗德,1999年)对于每一个输入文件和应用适当的基因控制修正输入数据前进行荟萃分析。为了便于检测等位基因标签可能是mis-specified由用户,这对于正确的方向的确定是至关重要的作用,金属实现输出的选项的意思是,方差和最小和最大等位基因频率为每一个标记。金属会追踪自定义统计,如累积样本量,即使标准error-weighted荟萃分析。金属可以阅读gzip文件,以便有效的利用磁盘空间和选择允许标记的子集进行分析。完整的文档的所有可用选项http://www.sph.umich.edu/csg/abecasis/metal/

3.3性能

金属是用c++写的,免费下载。金属编译和运行在大多数Unix和Linux系统,和在Windows和Mac工作站。我们最近进行了荟萃分析GWAS的BMI (Willeret al。,2009年)。分析包括15个研究中,每个协会统计数据为2.2 -250万个snp(平均文件大小225 MB),共计3600万协会统计数据和一组输入文件总计3.4 GB。这种分析需要< 6分钟计算时间和790 MB的内存2.83 GHz的英特尔处理器。运行时扩展线性的研究检查了荟萃分析包括74输入文件(每个> 2.5个snp)花了36分钟,1 GB的内存。

确认

作者感谢迈克尔•Boehnke Hyun敏康和安妮·杰克逊回顾本文的早期版本。我们也感谢众多合作者的大财团,财团全球脂质基因财团和图用于测试金属和提供许多有用的建议。

资金:G.R.A.支持部分由国家人类基因组研究所(HG0002651和HG0005214)和国家精神卫生研究所(MH084698)。C.J.W.由通路支持独立奖国家心脏,肺和血液研究所(K99HL094535)。Y.L.得到了国家糖尿病、消化和肾脏疾病研究所(DK078150-03,πMohlke)和美国国家癌症研究所(CA082659-11S1,π林)。

的利益冲突:没有宣布。

引用

科克伦
工作组
估计不同的组合实验
,
生物识别技术
,
1954年
,卷。
10
(pg。
101年
- - - - - -
129年
)
de赞美上帝
π
,等。
的实用角度imputation-driven荟萃分析的全基因组关联研究
,
嗡嗡声。摩尔,麝猫。
,
2008年
,卷。
17
(pg。
R122
- - - - - -
R128
)
Devlin
B
,
罗德
K
基因组协会研究控制
,
生物识别技术
,
1999年
,卷。
55
(pg。
997年
- - - - - -
1004年
)
Kathiresan
年代
,等。
6个新的位点与血液低密度脂蛋白胆固醇、高密度脂蛋白胆固醇或甘油三酯在人类身上
,
Nat,麝猫。
,
2008年
,卷。
40
(pg。
189年
- - - - - -
197年
)
Kathiresan
年代
,等。
30岁常见变异位点多基因血脂异常
,
Nat,麝猫。
,
2009年
,卷。
41
(pg。
56
- - - - - -
65年
)
DY
,
D
全基因组关联研究的荟萃分析:任何效率获得使用个人参与者的数据
,
麝猫。论文。
,
2009年
,卷。
34
(pg。
60
- - - - - -
66年
)
Newton-Cheh
C
,等。
全基因组关联研究确定了8个位点与血压有关
,
Nat,麝猫。
,
2009年
,卷。
41
(pg。
666年
- - - - - -
676年
)
Prokopenko
,等。
变异在MTNR1B空腹血糖水平的影响
,
Nat,麝猫。
,
2009年
,卷。
41
(pg。
77年
- - - - - -
81年
)
斯科特
LJ
,等。
全基因组关联研究2型糖尿病的芬兰人检测多个易感变异
,
科学
,
2007年
,卷。
316年
(pg。
1341年
- - - - - -
1345年
)
Skol
广告
,等。
最优设计为两级全基因组关联研究
,
麝猫。论文。
,
2007年
,卷。
31日
(pg。
776年
- - - - - -
788年
)
史都华牌
SA
,等。
,
在军队的生活调整。
,
1949年
普林斯顿,纽约
普林斯顿大学出版社
Willer
CJ
,等。
新发现的位点影响脂质浓度和冠状动脉疾病的风险
,
Nat,麝猫。
,
2008年
,卷。
40
(pg。
161年
- - - - - -
169年
)
Willer
CJ
,等。
6个新的位点与身体质量指数强调对体重调节神经元的影响
,
Nat,麝猫。
,
2009年
,卷。
41
(pg。
25
- - - - - -
34
)
Zeggini
E
,等。
荟萃分析的全基因组关联数据和大规模复制识别额外的2型糖尿病的易感性位点
,
Nat,麝猫。
,
2008年
,卷。
40
(pg。
638年
- - - - - -
645年
)

作者指出

副主编:伯克哈德罗斯特

这是一个开放的分布式根据条创作共用署名非商业性许可(http://creativecommons.org/licenses/by-nc/2.5),它允许无限制的非商业性使用,分布,在任何介质,和繁殖提供了最初的工作是正确引用。