Preface to the second edition
第二版前言
欢迎来到 “R for Data Science” 第二版! 这是对第一版的重大改进,删除了我们认为不再有用的内容,增加了我们希望在第一版中包含的内容,并且通常更新了文本和代码,以反映最佳实践的变化。 我们还非常高兴迎来一位新的合著者:Mine Çetinkaya-Rundel,一位知名的数据科学教育家,也是我们在 Posit(以前被称为 RStudio 的公司)的同事之一。
以下是最重大改变的简要总结:
书的第一部分更名为 “Whole game”。 该部分的目标是在我们深入细节之前,给您提供关于数据科学”整个游戏”的大致细节。
书的第二部分是 “Visualize”。 与第一版相比,这部分更全面地介绍了数据可视化工具和最佳实践。 获取所有细节的最佳方式仍然是ggplot2 book,但现在 R4DS 也涵盖了更多最重要的技术。
书的第三部分现在称为 “Transform”,并新增了关于数字、逻辑向量和缺失值的章节。 这些内容以前是数据转换章节的一部分,但需要更多空间来详细介绍所有细节。
书的第四部分称为 “Import”。 这是一组新的章节,不仅介绍如何读取平面文本文件,还介绍了如何处理电子表格、从数据库获取数据、处理大数据、转换分层数据以及从网站抓取数据。
“Program” 部分保留了下来,但进行了全面重写,重点放在了函数编写和迭代的最重要部分。 函数编写现在包括有关如何包装 tidyverse 函数(处理整洁评估的挑战)的详细信息,因为在过去几年中,这变得更加简单和重要。 我们新增了一章,介绍了在现有的 R 代码中可能遇到的重要基本 R 函数。
“modeling” 部分已被移除。 我们从来没有足够的空间来充分展示建模,而且现在有更好的资源可用。 我们通常建议使用 tidymodels 软件包,并阅读 Max Kuhn 和 Julia Silge 的 Tidy Modeling with R。
“Communicate” 部分保留下来,但已经全面更新,使用 Quarto 取代了 R Markdown。 本书的这个版本是使用 Quarto 编写的,它显然是未来的工具。