ggplot2 词云

作者

[编辑] 郑虎;

[审核] .

词云是通过形成“关键字云层”或“关键字渲染”来可视化Web文本中经常出现的“关键字”。

环境配置

  • 系统: Cross-platform (Linux/MacOS/Windows)

  • 编程语言: R

  • 依赖包: ggwordcloud

# 安装包
if (!requireNamespace("ggwordcloud", quietly = TRUE)) {
  install.packages("ggwordcloud")
}

# 加载包
library(ggwordcloud)

数据准备

加载数据名词和名词频率。

# 加载数据
data <- read.delim("files/Hiplot/076-ggwordcloud-data.txt", header = T)
inmask <- "files/Hiplot/076-ggwordcloud-hearth.png"

# 整理数据格式
col <- data[, 2]
data <- cbind(data, col)

# 查看数据
head(data)
    word freq col
1    oil   85  85
2   said   73  73
3 prices   48  48
4   opec   42  42
5    mln   31  31
6    the   26  26

可视化

# ggplot2 词云
p <- ggplot(data, aes(label = word, size = freq, color = col)) +
  scale_size_area(max_size = 40) +
  theme_minimal() + 
  geom_text_wordcloud_area(mask = png::readPNG(inmask), rm_outside = TRUE) +
  scale_color_gradient(low = "#8B0000", high = "#FF0000")

p
图 1: ggplot2 词云

根据名词的频率在词云图中显示名词的比例。