第二版前言
欢迎来到《R for Data Science》(我们也在后面简称为 R4DS)第二版!这是对第一版的重大重写,删除了我们认为不再有用的内容,增加了我们希望第一版中就包含的内容,并全面更新了文本和代码以反映最佳实践的变化。我们也非常激动地欢迎一位新的合著者:Mine Çetinkaya-Rundel,她是一位著名的数据科学教育家,也是我们在 Posit(前身为 RStudio 公司)的同事之一。
以下是最大变化的简要总结:
本书的第一部分已更名为“全貌(Whole game)”。这一部分的目标是在我们深入细节之前,先让你大致了解数据科学的“全貌”。
本书的第二部分是“可视化(Visualize)”。与第一版相比,这一部分对数据可视化工具和最佳实践进行了更深入的覆盖。获取所有细节的最佳去处仍然是 ggplot2 书,但现在 R4DS 本书则涵盖了更多最重要的技术。
本书的第三部分现在称为“变换(Transform)”,并增加了关于数值、逻辑向量和缺失值的新章节。这些内容以前是数据变换章节的一部分,但其实它们需要更多的篇幅来涵盖所有的细节。
本书的第四部分称为“导入(Import)”。这是一组新的章节,不局限于读取纯文本文件,还包括处理电子表格、从数据库获取数据、处理大数据、整理层级数据以及从网站抓取数据。
“编程(Program)”部分保留了下来,但已全部重写,以重点关注函数编写和迭代中最重要的部分。函数编写现在包含了关于如何封装 tidyverse 函数的细节(处理 tidy evaluation 的挑战),因为在过去几年中,这变得容易得多也重要得多。我们增加了一个关于重要的基础 R 函数的新章节,你很可能会在现实世界别人的 R 代码中看到这些函数。
建模部分已被移除。我们过去从来没有用足够的篇幅来充分地讲解建模,但现在有了更好的资源可用。我们一般建议使用 tidymodels 包并阅读 Max Kuhn 和 Julia Silge 撰写的 Tidy Modeling with R。
“沟通(Communicate)”部分保留了下来,但已彻底更新,以重点介绍 Quarto 而不是 R Markdown。本书的这一版就是用 Quarto 编写的,它显然是未来的工具。