摘要

动机

维恩图和欧拉图是集合交叉口定量可视化的一种流行但不充分的解决方案。需要一种可扩展的替代维恩图和欧拉图来可视化交叉集及其属性。

结果

我们开发了UpSetR,这是一个开源的R包,它使用了一个可伸缩的基于矩阵的可视化来显示集合的交集、它们的大小和其他属性。

可用性和实现

UpSetR可在https://github.com/hms-dbmi/UpSetR/并根据MIT许可证发布。一个闪亮的应用程序可以在https://gehlenborglab.shinyapps.io/upsetr/

补充信息

补充数据可用在生物信息学网上。

1介绍

集合及其交叉点的可视化是处理生物和生物医学数据的研究人员面临的共同挑战。例如,研究人员可能需要比较识别单核苷酸多态性的多种算法(et al。,2012年补充图S1)或在相关物种的基因组中显示新测序物种的基因(D 'Hontet al。,2012年补充图S2).尽管存在许多可供选择的集合可视化技术(Alsallakhet al。, 2016年),这类数据通常使用维恩图和欧拉图来可视化。这样的图可以用R包生成,例如venneuler威尔金森,2012),维恩图Chen和Boutros, 2011).这些密切相关的技术有众所周知的缺点,因为它们很难产生超过少量的集合。通过不规则的形状和未对齐的区域来直观表示交叉口的大小,这使得回答诸如“哪个交叉口是最大的?”'或'是交集X比十字路口Y?”(克利夫兰和麦吉尔,1984年).

2材料与方法

在此,我们提出一个基于' UpSet '技术的R包,名为' UpSetR ' (Lexet al。,2014年Lex和Gehlenborg, 2014),使用基于矩阵的布局来显示集合的交叉点及其大小。它是使用ggplot2 (韦翰,2009),并允许数据分析师轻松地为自己的数据生成生成扰动图。UpSetR支持三种输入格式:(i)表的行代表元素,列包含集合赋值和附加属性;(ii)元素名称集;和(iii)由引入的描述集合交叉口大小的表达式venneuler包(威尔金森,2012).UpSetR提供了与集合中包含的元素相关联的属性可视化支持,使研究人员能够探索和描述交集。UpSetR不同于原始的UpSet技术,因为它是针对静态图和集成到典型的生物信息学工作流程进行优化的。我们还提供了一个闪亮的应用程序,允许研究人员直接在网络浏览器中创建出版质量的沮丧情节。

UpSetR将集合的交集可视化为一个矩阵,其中行表示集合,列表示集合的交集(图1而且补充无花果。S1和S2比较Venn和Euler图与UpSetR图)。对于每个集合,它是给定交集的一部分,在对应的矩阵单元格中放置一个黑色填充的圆。如果一个集合不是交集的一部分,则显示一个浅灰色的圆。在每一列中,用一条垂直的黑线连接最上面的黑圈和最下面的黑圈,以强调基于列的关系。交叉点的大小以柱状图的形式显示在矩阵的顶部,这样每一列都恰好与一个柱状图对齐。第二个柱状图显示了每个集合的大小,显示在矩阵的左边。

图1

一个跨越8个ICGC癌症研究的变异UpSetR图,包含三个交叉查询、一个元素查询、四个属性图和两个集合元数据图。LUSC-KR和LAML-KR的数据基于全基因组测序,其他所有数据基于全外显子组测序。这三个交集查询分别是LUSC-US(蓝色)和THCA-SA(紫色)的单向交集,以及LUSC-KR和LAML-KR的双向交集(绿色)。元素查询(黄色)选择归类为删除的突变。三个自定义转换/转换图显示了交集查询的替换事件的相对频率。条形图属性图显示了THCA-SA队列(紫色)中独特的变体对每种突变类型的贡献。集合元数据被绘制到集合大小栏(图表)的左侧。

3使用场景

为了说明UpSetR的功能和特点,我们从ICGC数据门户检索了8个癌症研究的变量调用(参见补充材料).每个癌症研究代表一个集合,每个变体代表一个或多个集合中包含的元素(S3补充图。).UpSetR支持对数据的查询,以突出显示功能。交叉路口查询可用于选择由交集定义的数据集中的元素子集。查询被分配一个唯一的颜色,它们的结果被绘制在交集大小柱状图的顶部。例如,这可以用于选择特定交叉点的元素(补充图。S4).此外,UpSetR支持基于与集合中元素关联的属性对元素的选择进行查询。属性可以是数值的、布尔的或分类的。在我们的示例中,元素属性是与每个变体相关的染色体、基因组位置和变体类型(删除、插入、替换)。UpSetR元素的查询根据特定的属性值选择跨交叉和集合的元素。通过提供对任何属性组合操作的自定义查询函数,基本内置查询可以扩展到任意复杂的查询。元素查询可以用来选择特定类型的变量,比如删除,并在交叉处查看它们(补充图S5).

UpSetR提供额外的集成属性图它可以可视化由交集或元素查询所选择的元素的属性。UpSetR内置了对散点图和直方图的支持。可以通过在函数中提供返回ggplot对象来可视化数据。当应用属性或交集查询时,除了交集大小条图之外,查询结果还可以覆盖在属性图上。图1演示了这些特征,包括关于集合的元数据的可视化,如何可以组合成一个图,在其他问题中,揭示了THCA-SA研究中变量中独特删除的显著过度表示。

4结论

UpSetR是一个高度可定制的工具,用于数据探索和集可视化生成。通过使UpSetR与现有流行的维恩图和欧拉图包的输入格式兼容,并提供一个Shiny web界面,我们鼓励使用绘图图,并使没有编程技能的用户能够生成有效的集合可视化。通过与ggplot2的无缝集成及其应用几乎任何查询的能力,可以以任何其他集合可视化包都不支持的方式定制和探索数据。此外,UpSetR与ggplot2的集成允许开发人员扩展UpSetR,以便在他们自己的软件包中使用。

确认

我们感谢Megan Paul的贡献和美国国立卫生研究院的资助(R00HG007583, U54HG007963, U01CA198935)。

参考文献

Alsallakh
B。
et al。(
2016
最先进的布景可视化
计算机图形学论坛
35
234
- - - - - -
260

H。
加利
个人电脑
2011
VennDiagram:用于在R中生成高度可定制的Venn和欧拉图的包
BMC生物信息学
12
35.

克利夫兰
至此
麦吉尔
R。
1984
图形感知:图形方法发展的理论、实验和应用
j。统计协会。
79
531
- - - - - -
554

D 'Hont
一个。
et al。(
2012
香蕉(musa acuminata)基因组与单子叶植物的进化
自然
488
213
- - - - - -
217

Lex
一个。
Gehlenborg
N。
2014
集&十字路口
Nat方法。
11
779.

Lex
一个。
et al。(
2014
交叉集的可视化
IEEE反式。粘度第一版。图
.,
20.
1983
- - - - - -
1992

韦翰
H。
2009
).
数据分析的优雅图形
施普林格,纽约

威尔金森
l
2012
精确和近似的面积比例圆形维恩图和欧拉图
IEEE反式。粘度第一版。图
.,
18
321
- - - - - -
331

F。
et al。(
2012
一种用于下一代测序数据的快速准确的SNP检测算法
Nat。Commun
.,
3.
1258.

这是一篇开放获取文章,根据创作共用授权协议(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上不受限制地重用、分发和复制,只要原始作品被恰当地引用。
副主编: 约翰·汉考克
约翰·汉考克
副主编
搜索作者的其他作品:

补充数据