全貌

本书这一部分的目标是让你快速了解数据科学的主要工具:导入 (importing)整理 (tidying)变换 (transforming)可视化 (visualizing) 数据,如 Figure 1 所示。我们希望向你展示数据科学的“全貌”,让你掌握所有主要部分的基础知识,以便你能够处理真实(即使是简单的)数据集。本书的后续部分将更深入地逐一探讨这些话题,从而扩大你可以应对的数据科学挑战的范围。

展示数据科学过程的图示:导入 -> 整理 -> 理解(其中包含变换 -> 可视化 -> 建模的循环阶段) -> 沟通。围绕所有这些的是编程。图中导入、整理、变换和可视化被高亮显示。
Figure 1: 在本书的这一部分,你将学习如何导入、整理、变换和可视化数据。

本书有四章重点介绍数据科学的工具:

穿插在这些章节中的是另外四章,它们重点关注你的 R 工作流程。在 ?sec-workflow-basics?sec-workflow-style?sec-workflow-scripts-projects 中,你将学习编写和组织 R 代码的良好工作流程。从长远来看,这些将为你取得成功奠定基础,因为它们将为你提供在处理实际项目时保持项目条理、逻辑清楚的工具。最后,?sec-workflow-getting-help 将告诉你如何获取帮助并保持学习。