跳转到主页内容
美国国旗

美国政府的官方网站

点政府

gov表示它是官方的。
联邦政府网站通常以。gov或。mil结尾。在分享敏感信息之前,确保你是在联邦政府网站上。

Https

站点安全。
https://确保您连接到官方网站,并且您提供的任何信息都经过加密和安全传输。

访问键 NCBI主页 MyNCBI主页 主要内容 主导航
2018年10月,562(7726):203 - 209。
doi: 10.1038 / s41586 - 018 - 0579 - z。 Epub 2018 10月10日。

英国生物银行资源与深层表型和基因组数据

从属关系
免费PMC文章

英国生物银行资源与深层表型和基因组数据

克莱尔Bycroftet al。 自然 2018年10月
免费PMC文章

摘要

英国生物银行项目是一项前瞻性队列研究,收集了来自英国各地的大约50万名年龄在40至69岁之间的个体的深度遗传和表型数据。开放资源在大小和范围上是独一无二的。每个参与者都有丰富多样的表型和健康相关信息,包括生物测量、生活方式指标、血液和尿液中的生物标记物以及身体和大脑的成像。跟踪信息是通过联系健康和医疗记录来提供的。已经收集了所有参与者的全基因组基因型数据,为发现新的遗传关联和复杂性状的遗传基础提供了许多机会。在这里,我们描述了遗传数据的集中分析,包括基因型质量、群体结构的特性和遗传数据的相关性,以及有效的分阶段和基因型imputation,将可测试变异的数量增加到9600万左右。11个人类白细胞抗原基因的经典等位基因变异被归因,从而恢复了已知的人类白细胞抗原等位基因与许多疾病之间关联的信号。

利益冲突声明

J.M.是Gensci有限公司的创始人和董事。p.d., G.M.和S.L.是Peptide Groove LLP的合伙人。通用和P.D.是基因组公司的创始人和董事。其余作者声明没有相互竞争的经济利益。

数据

图1
图1所示。英国生物银行资源和基因分型阵列内容摘要。
英国生物银行资源的主要组成部分摘要。详见扩展数据表1。该图还显示了英国生物银行Axiom基因型阵列上不同类别内容的示意图。数字表示每个类别中标记的大致数量,忽略任何重叠。关于数组内容的更详细的描述可以在英国Biobank Axiom数组内容摘要中找到。
图2
图2所示。基因型数据质量和内容总结。
在应用质量控制后,所有的图显示了英国生物银行基因型数据的特性。一个,基于所有样本的MAF分布(805,426个标记)。插图仅显示罕见标记(MAF < 0.01)。b,标记失败的批级质量控制(QC)测试数的分布(见方法)。对于四个MAF范围中的每一个,我们显示了未能达到指定批次数量的标记的比例。c,在每项研究的欧洲血统参与者中,比较英国生物库中的MAF与ExAC中相同等位基因的频率(补充信息)。这项分析使用了91298个重叠标记。每个六边形的箱子是根据落在箱子里的标记的数量(对数10规模)。红色虚线所示x=y.在图的顶部、底部和左侧看到的等位基因频率非常不同的标记大约由300个标记组成。这是比较中所有标记物的0.3%(讨论见补充信息)。d,平均对数2比率(左2R),表明性染色体可能是非整倍体(见方法)。有652个样本具有可能的性染色体非整倍体(由交叉表示)。具有不同假定核型的个体群的位置用希腊符号表示:λ = X0(或镶嵌XX/X0), θ = XXX, α = XXY, π = XYY。这些地区的人数载于补充表2。颜色表示自我报告的性别和Affymetrix(从基因数据)推断的性别的不同组合。对于几乎所有的样本(99.9%),自我报告的性别和推断的性别是相同的,但对于少数样本(378)它们不匹配(参见补充信息进行讨论)。
图3
图3。祖先多样性和家族亲缘性。
一个,每个点代表一个英国生物银行参与者(n= 488,377个样本),并根据其主成分(PC)在前四个主成分中的得分进行放置。颜色和形状表示每个人自我报告的种族背景。各类别的比例见扩展数据表3。b,参与者在英国生物银行队列中亲属数量的分布情况。每个条的高度显示了参与者的计数(日志10量表)与指定的亲属数量。颜色表示在一个条形图中每个相关等级的比例。c,英国生物银行队列中的家庭群体的例子。点代表参与者,点之间的彩色线表示它们的推断关系(例如,蓝色线连接完整的兄弟姐妹)。整数显示了队列中具有相同配置的家庭网络的总数(如果不止一个),忽略了三度对。
图4
图4。人类身高的相关统计。
结果(P使用3组不同的2号染色体数据进行人类身高和基因型之间的关联测试。在一个- - - - - -cP数值显示在−log中10刻度,上限为50,为视觉清晰度和未经校正的多次比较。−log标记10P) > 50的标绘点为y轴和显示为三角形而不是点。水平红线表示P= 5 × 10−8一个, GIANT (n= 253,288), NCBI GWAS目录标记以红色叠加(在报告处绘制)P值)。b,基因型数据中英国生物银行标记物的关联统计(来自线性混合模型,见方法)(n= 343321)。c,估算数据中英国生物银行标记的关联统计(来自线性混合模型,见方法)(n= 343321)。粉红色的点表示用于预阶段和植入的基因分型标记。这意味着这些标记的大部分数据来自基因分型试验。黑点(绝大多数,约800万)表示完全估算标记。d,维恩图的结果计算的1-Mb窗口的数量与至少一个位点P< 5 × 10−8在GIANT、英国生物银行基因分型和英国生物银行估算数据集中(见方法)。括号中的百分比是所有三个数据源中这些窗口并集的比例(1215)。在UK Biobank基因分型数据中只有三个窗口,而不是估算数据。e,比较Z再保险公司e在英国生物银行(y轴)和GIANT (x轴)。Z-分数计算为效应量除以标准误差,但仅适用于P< 5 × 10−8在GIANT中,为575个相关区域的集合,我们也将其用于可信集分析(参见方法)。最小的记号笔P值(在GIANT中)在每个区域内用蓝色圆圈突出显示。黑色虚线所示x=y,红色实线为根据这些数据估计的线性回归线。回归系数的标准误差如括号所示。Pearson相关系数被用来计算r 2价值。
扩展数据图1
扩展数据图1。基于样品的质量控制总结。
一个- - - - - -c,这三个图显示杂合度和缺失率,我们用来标记质量差的样本(n= 488,377个样本)。面板一个而且b分别显示每个样本在前后的杂合度,使用主成分校正祖先背景。符号(形状和颜色)表示每个参与者自我报告的种族背景。面板c显示了我们标记为异常值(红色)的968个样本的集合,以及所有其他样本(黑色),其形状与其他两个图相同。垂直线显示了我们用来将样本称为缺失率异常值的阈值。在所有图中,缺失率数据都转换为logit刻度,但轴上标有原始值。
扩展数据图2
扩展数据图2。强度数据和基因型的例子需要不同等位基因频率的标记。
每个子图显示了六个不同批次中单个标记物的强度数据。标有“UKBiLEVEAX”前缀的批次仅包含使用UKBiLEVE Axiom数组键入的样品,而标有“batch”前缀的批次仅包含使用UK Biobank Axiom数组键入的样品。每个点代表一个样本,并根据标记处推断的基因型进行着色。的x而且y坐标轴是针对每个等位基因“A”和“B”的探测集的强度转换(关于探测集的定义,请参阅补充信息)。椭圆表示所述批次中三种基因型转换强度的后验概率分布(二维多元正态)的位置和形状。也就是说,每个椭圆都包含85%的概率密度。看到AffymetrixAxiom基因分型方案数据分析指南查阅更多Affymetrix基因型呼叫的详情。每个标记的MAF是使用英国生物银行发布的基因型数据中的所有样本计算的。一个, MAF为0.077,基因型簇分离良好。b, MAF为0.00092的标记物强度,具有分离良好的基因型簇。正如在Hardy-Weinberg平衡下预期的那样,没有样本具有小纯合子基因型的实例。c,对于MAF为0.00066的标记,在某些批次中杂合子簇与较大的主纯合子簇没有很好地分离,使杂合子基因型更难确定。
扩展数据图3
扩展数据图3。每个自报出生国家的平均主成分分数。
每一列显示一个主成分,每个元素是在标记国家出生的个人的平均主成分得分,由该主成分得分的标准差缩放。每列中的元素只有在该国的系数非零(P< 10−5;双面的t-test),以出生国家为预测因子,主成分得分为结果(n= 487,848个样本)。国家(行)使用层次聚类(R中的' hclust '函数)进行排序。每个国家标签旁边的符号表示出生在该国的参与者中最常见的种族背景类别。例如,在斯里兰卡出生的参与者自我报告的最常见的种族背景是“任何其他亚洲背景”。出生人口少于20人的国家被排除在分析之外。
扩展数据图4
扩展数据图4。估算数据集中常染色体标记的信息分数分布。
左上角的图表显示了信息分数的完整分布。其余的面板显示了MAF的分段分布;加器> 5%、1% < 5%、0.1%≤≤乘加加< 1%、0.01%≤乘加<≤0.1%和0.001%加< 0.01%。
扩展数据图5
扩展数据图5。站立高度GWAS的关联区域示例。
GWAS相关统计数字(P在GIANT(2014)荟萃分析中,站立高度集中在2号染色体的~3-Mb区域,没有达到全基因组的显著性,但在英国生物银行中有(线性混合模型;见的方法)。的P所显示的值不会针对多次测试进行调整。在英国生物库中基因分型的标记显示为菱形,而估算的标记显示为圆形。两个最小的记号笔P每个基因分型数据和估算数据的值用黑色轮廓放大并突出显示,其他英国生物银行标记根据它们的相关性着色(r 2)用这两个中的一个。即,带有先导基因型标记(rs17713396)的基因型标记,以及带有先导植入标记(rs12714401)的植入标记。标记与r 2小于0.1的值显示为黑色或绿色。
扩展数据图6
扩展数据图6。GIANT(2014)和UK Biobank估算数据的精细制图比较。
在这里,我们总结了GIANT(2014)和UK Biobank两项研究中与站立高度相关的575个基因组学区域的可信集分析结果(见方法)。图上的红色实线表示位置x=y一个,两个图都比较了95%可信集中标记物的数量,在这两个研究中,标记物的大小小于18个(左侧图中有363个区域;右边是445)。bc,两张图均来自考虑了每项研究中所有标记物的分析。在b对于每个区域,我们显示了在给定研究的分析中使用的标记在该研究的95%可信集中的比例。该图包含与左侧图相同的363个区域一个.在c对于所有575个地区,我们总结了我们的英国生物样本库分析对GIANT(2014)的分析表明重要的标记的权重。

评论

类似的文章

  • 全基因组测序与Imputation耦合发现人体测量性状的遗传信号。
    Tachmazidou我Suveges D,敏杰,里奇GRS,斯坦伯格J,沃尔特·K Iotchkova V,瓦尔兹特鲁布J,黄J, Memari Y,麦卡锡年代,克劳福德AA, Bombieri C, Cocca M, Farmaki AE,憔悴的TR, Jousilahti P, Kooijman MN, Lehne B, Malerba G, Mannisto年代,Matchan, Medina-Gomez C, Metrustry SJ,唠叨,Ntalla我,符咒L,雷纳NW,萨拉C,斯科特WR, Shihab哈,生意L,圣Pourcain B, Traglia M, Trajanoska K, Zaza公司G,张W,阿提加斯女士,邦萨尔N, Benn M,陈Z, Danecek P,林王寅,洛克,Luan J, Manning AK, Mulas A, Sidore C, tybjergg - hansen A, Varbo A, Zoledziewska M, Finan C, Hatzikotoulas K, Hendricks AE, Kemp JP, Moayyeri A, Panoutsopoulou K, Szpak M, Wilson SG, Boehnke M, Cucca F, Di Angelantonio E, Langenberg C, Lindgren C, McCarthy MI, Morris AP, Nordestgaard BG, Scott RA, Tobin MD, Wareham NJ;SpiroMeta财团;GoT2D财团;Burton P, Chambers JC, Smith GD, Dedoussis G, Felix JF, Franco OH, Gambaro G, Gasparini P, Hammond CJ, Hofman A, Jaddoe VWV, Kleber M, Kooner JS, Perola M, Relton C, Ring SM, Rivadeneira F, Salomaa V, Spector TD, Stegle O, Toniolo D, Uitterlinden AG;气电焊财团;理解社会科学小组;UK10K财团;巴罗佐I,格林伍德CMT,佩里JRB,沃克BR,巴特沃斯AS,薛Y,德宾R,斯莫尔KS,索兰佐N,蒂姆森NJ,杰基尼E。 Tachmazidou I等人。 Am J Hum Genet. 2017年6月1日;100(6):865-884。doi: 10.1016 / j.ajhg.2017.04.014。Epub 2017年5月25日。 Am J Hum Genet, 2017。 PMID:28552196 免费的PMC文章。
  • 评估数字表型以加强人类疾病的遗传研究。
    DeBoever C, Tanigawa Y, Aguirre M, McInnes G, Lavertu A, Rivas MA。 DeBoever C等人。 Am J Hum Genet. 2020年5月7日;106(5):611-622。doi: 10.1016 / j.ajhg.2020.03.007。Epub 2020年4月9日 Am J Hum Genet, 2020。 PMID:32275883 免费的PMC文章。
  • 日本人群主要组织相容性复杂区域的遗传和表型景观。
    平田J,细道K,坂井S,金井M,中冈H,石垣K,铃木K,秋山M,岸川T,小川K,增田T,山本K,平田M,松田K,蒙小泽Y,井上I,久保M,镰谷Y,冈田Y。 平田J,等。 2019年3月;51(3):470-480。doi: 10.1038 / s41588 - 018 - 0336 - 0。Epub 2019 1月28日。 Nat Genet, 2019年。 PMID:30692682
  • 基因、生活方式和环境。英国生物银行是一个开放获取的资源,跟踪50万参与者的生活,以改善后代的健康。
    Trehearne。 Trehearne。 《联邦科学发展观》,2016年3月;59(3):361-7。doi: 10.1007 / s00103 - 015 - 2297 - 0。 德国gesundheitsblatt Gesundheitsforschung Gesundheitsschutz. 2016。 PMID:26753864
  • 英国生物银行(UK Biobank): JACC焦点研讨会6/8。
    Caleyachetty R, Littlejohns T, Lacey B, be舍维奇J, Conroy M, Collins R, Allen N。 Caleyachetty R,等。 中华医学杂志。2021年7月6日;78(1):56-65。doi: 10.1016 / j.jacc.2021.03.342。 J Am Coll Cardiol, 2021。 PMID:34210415 审查。

引用的

参考文献

    1. Plenge RM, Scolnick EM, Altshuler D.通过人类遗传学验证治疗靶点。《药物发现》2013;12:581-594。doi: 10.1038 / nrd4051。-DOI-PubMed
    1. 英国生物银行。UK Biobank Axiom Array内容摘要http://www.ukbiobank.ac.uk/wp-content/uploads/2014/04/UK-Biobank-Axiom-A..。(2014)。
    1. 英国生物银行。大规模、广泛表型的前瞻性资源英国生物库的基因分型和质量控制http://biobank.ctsu.ox.ac.uk/crystal/docs/genotyping_qc.pdf(2015)。
    1. Young AI, Wauthier F, Donnelly P.多种新的基因-环境相互作用修改了FTO变体对体重指数的影响。Nat. common . 2016;7:12724。doi: 10.1038 / ncomms12724。-DOI-PMC-PubMed
    1. Astle WJ,等。人类血细胞性状变异的等位基因景观及其与常见复杂疾病的联系。细胞。2016;167:1415 e19——1429.。doi: 10.1016 / j.cell.2016.10.042。-DOI-PMC-PubMed

发布类型

网格计算

物质