数据科学生命周期
本节首先介绍一个数据科学项目的生命周期,包括提出问题、收集数据、理解数据、建立模型,最终形成报告、决策建议和解决方案。一切是从提出一个清晰、聚焦、有意义,能被数据回答的问题开始的。
我们然后讨论如何分析问题的目标人群和数据的接入人群。为了让研究结果最终有意义,我们要保证它们的匹配。这就是数据范围的问题。在开展一个数据科学问题的研究前,我们要深入思考这个问题,然后进行数据收集、样本质量检查、数据清洗。
我们然后讨论数据科学中导致错误的两个主要原因:Bias(偏差)和 Precision(精度)。我们需要精心设计调查方法、调试仪器,减少偏差,应对实验结果 Variation 的影响。
我们然后就讨论如何进行测量方法和协议的设计,以减少导致我们出错的两个主要原因:Bias(偏差)和 Variation(精度)。我们用一个测量空气中的二氧化碳浓度的例子,来给予生动的说明。
我们然后学习仿真与实验设计。我们学习随机抽样的 Urn 模型,并用三个例子,说明随机仿真中偏差和精度带来的问题,如何比较两个实验结果,如何基于仿真进行假设检验,以及评估测量仪器的精度。
Index | Next |