全貌
本书这一部分的目标是让你快速了解数据科学的主要工具:导入 (importing)、整理 (tidying)、变换 (transforming) 和 可视化 (visualizing) 数据,如 Figure 1 所示。我们希望向你展示数据科学的“全貌”,让你掌握所有主要部分的基础知识,以便你能够处理真实(即使是简单的)数据集。本书的后续部分将更深入地逐一探讨这些话题,从而扩大你可以应对的数据科学挑战的范围。
本书有四章重点介绍数据科学的工具:
可视化是开始 R 编程的绝佳切入点,因为回报非常明显:你可以制作优雅且信息丰富的图形,从而帮助你理解数据。在 1 数据可视化 中,你将深入学习可视化,了解 ggplot2 图的基本结构,以及掌握将数据转化为图形的强大技术。
仅有可视化通常是不够的,所以在 ?sec-data-transform 中,你将学习关键的函数,这些函数允许你选择重要的变量、筛选关键的观测、创建新变量以及计算摘要统计量。
在 ?sec-data-tidy 中,你将学习数据的整洁形式 (tidy data),这是一种约定一致的数据存储方式,可以使变换、可视化和建模变得更加容易。你将学习其基本原则,以及如何将你的数据整理成整洁的形式。
在变换和可视化数据之前,你首先需要将数据导入 R。在 ?sec-data-import 中,你将学习将
.csv文件导入 R 的基础知识。
穿插在这些章节中的是另外四章,它们重点关注你的 R 工作流程。在 ?sec-workflow-basics、?sec-workflow-style 和 ?sec-workflow-scripts-projects 中,你将学习编写和组织 R 代码的良好工作流程。从长远来看,这些将为你取得成功奠定基础,因为它们将为你提供在处理实际项目时保持项目条理、逻辑清楚的工具。最后,?sec-workflow-getting-help 将告诉你如何获取帮助并保持学习。