数据科学生命周期

本节首先介绍一个数据科学项目的生命周期，包括提出问题、收集数据、理解数据、建立模型，最终形成报告、决策建议和解决方案。一切是从提出一个清晰、聚焦、有意义，能被数据回答的问题开始的。

我们然后讨论如何分析问题的目标人群和数据的接入人群。为了让研究结果最终有意义，我们要保证它们的匹配。这就是数据范围的问题。在开展一个数据科学问题的研究前，我们要深入思考这个问题，然后进行数据收集、样本质量检查、数据清洗。

我们然后讨论数据科学中导致错误的两个主要原因：Bias（偏差）和 Precision（精度）。我们需要精心设计调查方法、调试仪器，减少偏差，应对实验结果 Variation 的影响。

我们然后就讨论如何进行测量方法和协议的设计，以减少导致我们出错的两个主要原因：Bias（偏差）和 Variation（精度）。我们用一个测量空气中的二氧化碳浓度的例子，来给予生动的说明。

我们然后学习仿真与实验设计。我们学习随机抽样的 Urn 模型，并用三个例子，说明随机仿真中偏差和精度带来的问题，如何比较两个实验结果，如何基于仿真进行假设检验，以及评估测量仪器的精度。