小提琴图

作者

[编辑] 郑虎;

[审核] .

注记

Hiplot 网站

本页面为 Hiplot Violin 插件的源码版本教程,您也可以使用 Hiplot 网站实现无代码绘图,更多信息请查看以下链接:

https://hiplot.cn/basic/violin?lang=zh_cn

小提琴图,因形似小提琴而得名,是结合了箱形图和核密度图,用于显示数据分布及概率密度的统计图表。

环境配置

  • 系统: Cross-platform (Linux/MacOS/Windows)

  • 编程语言: R

  • 依赖包: ggpubr; ggthemes

# 安装包
if (!requireNamespace("ggpubr", quietly = TRUE)) {
  install.packages("ggpubr")
}
if (!requireNamespace("ggthemes", quietly = TRUE)) {
  install.packages("ggthemes")
}

# 加载包
library(ggpubr)
library(ggthemes)

数据准备

载入数据为数据集 (不同肿瘤中基因名称及表达水平)。

# 加载数据
data <- read.delim("files/Hiplot/181-violin-data.txt", header = T)

# 整理数据格式
groups <- unique(data[, 2])
ngroups <- length(groups)
comb <- combn(1:ngroups, 2)
my_comparisons <- list()
for (i in seq_len(ncol(comb))) {
  my_comparisons[[i]] <- groups[comb[, i]]
}

# 查看数据
head(data)
  Expresssion Tumor
1    12.10228   AML
2    12.61382   AML
3    12.52741   AML
4    12.67990   AML
5    12.64837   AML
6    12.12146   AML

可视化

# 小提琴图
p <- ggviolin(data, x = "Tumor", y = "Expresssion", fill = "Tumor", add = "boxplot",
              xlab = "Tumor", ylab = "Expresssion", 
              add.params = list(fill = "white"),
              palette = c("#e04d39","#5bbad6","#1e9f86"),
              title = "Violin Plot", alpha = 1) + 
  stat_compare_means(comparisons = my_comparisons, label = "p.signif") +
  theme_stata() +
  theme(text = element_text(family = "Arial"),
        plot.title = element_text(size = 12,hjust = 0.5),
        axis.title = element_text(size = 12),
        axis.text = element_text(size = 10),
        axis.text.x = element_text(angle = 0, hjust = 0.5,vjust = 1),
        legend.position = "right",
        legend.direction = "vertical",
        legend.title = element_text(size = 10),
        legend.text = element_text(size = 10))

p
图 1: 小提琴图

小提琴图可以反映数据分布,同箱形图类似,方框中黑色横线显示各肿瘤中基因表达水平的中位数, 白色方框中上下框边代表数据集中的上,下四分位点;小提琴图还可以反映数据密度,数据集数据越集中则图形越胖。图示中BLGG 组中的基因表达分布更集中,BIC 组次之,AML组则分布最分散。