数据科学工作流程和所需技能

数据科学工作流程

具体的数据科学的工作流，包括运维和分析两个部分。每个同学的兴趣不一样。有的同学可能喜欢做运维，就是运行和维护一个大数据系统，有的同学，比如经管的同学，可能就希望对数据有一些基本的分析处理，发现里面的故事。这些都在大数据的工作流里头。

大数据的工作流，可以用到各行各业，包括政府，金融，物流，比如京东物流，媒体，比如抖音，零售，比如拼多多，教育，比如学而思。我们的同学去学而思，做数据科学，大家猜他们预测什么？他们预测家长会不会续费，很准很准的。然后，我们的同学去中国电信、中国移动、中国联通。他们做的数据科学的项目是预测客户投诉。他们想理解用户为什么投诉，能不能够别投诉我。医疗方面，现在医疗大数据太火了。

在这些行业的数据科学工作，主要分三个阶段：

第一个阶段就是数据采集和存储。比如有传感器，把这个数据采集上来。采集上来之后，要合并：有很多表要关联。然后要存储，比如大数据就需要分布式存储。分布式存储的话，我们有 Hadoop。我们把数据存到它里头。

第二个阶段是分析，这包括数据整理、清洗和探索。数据这么多，我们怎么从中间发现这个故事呢？我们首先把数据弄干净了，就是进行清洗，然后做一些计算。比如说有的时候，我们要给它做log转换。你本来看不出什么规律，但是log了以后，可能就发现规律了还有一些转换能够帮助后面的分析，比如说把一些字符串转成有顺序的类别值，

数据整理、清洗和探索是很重要的，是我们数据工程师要干的活。这些工作重要，是因为你最后的模型好不好，很大程度取决于你的数据质量。大家发论文常常是在网上弄个公开的数据集，然后跑一跑。但到了现场，你拿到一个真实的数据，这时候前面这些整理、清洗、探索的工作，要花掉你大量的精力。但它们也是极有意义的，因为你在这个过程中，你就熟悉它了，就能够从中发现故事了。如果你就天天看着这个表，不去处理它，不去画图分析它，是没有感觉的。

第三个阶段是应用，就是确定我的问题是什么，我到底想用它干啥。我要预测明年的股价，还是要预测它有什么异常？确定你的目标，确定你的问题，然后用合适的算法，来处理它，最后把结果可视化地呈现出来。

所以，采集存储、分析、应用，这三个阶段。前面偏工程师方向，要运行和维护这些数据采集和处理的系统；后面偏分析师方向，注重应用。像我们经管的同学，做分析师都是特别好的。工程师和分析师在实际工作中是互相融合的。工程师要知道分析师想分析啥，然后进行数据收集和处理；分析师要知道工程师是怎么弄的，才有数据分析。

数据科学家的基本技能

我们下面看数据科学家的基本技能。一个大数据工程师，或数据科学家，应该有产品开发的知识，这样可以接产品开发，也要学一些数学的东西，比如最优化、贝叶斯概率推断、统计学。编程方面，R语言一般是小数据，Python也很常用。大数据就是python，或者Spark。Spark支持三种语言。你可以用java编程，也可以用scala编程，还可以用python编程。最后，因为我们要做一些模型，所以就要用到机器学习。现在比较流行的还有深度学习。掌握这些算法。

这门课会给大家分成两部分讲：数据工程和数据分析。前一部分偏工程，讲系统，包括 Hadoop、Spark、Kafka、ZooKeeper；后一部分讲分析师，讲分析，包括数据可视化、故事怎么分析、EDA（探索性的数据分析）。我们用的编程语言主要是Python。所以大家看，我们分两部分：这边是工程，那边是分析。工程方面，你要维护数据系统，开发各种数据应用。分析方面，我们掌握最基本的数据分析方法，包括统计学的分析、假设检验。

工程方面

我们首先看工程方面。工程方面，大家可以看到有四个台阶，分别对应的其实就是咱们在企业里面的职业发展路线。

首先，最基本的就是数据管理。管理数据一般是在后台。比如用 Python、SQL 跟数据打交道。因为数据往往存在数据库里，所以我们需要管理数据库。在各种数据库中，有一种大数据的数据库叫 Hadoop，后面会给大家讲解它。在数据的管理中，我们主要是对数据进行查询和操作。

其次，是运维。运维是对一个大数据系统的运行和维护，主要是一些管理工作。比如硬件和软件的搭建、安装和调试；在系统运行过程中的一些维护，比如说发现异常了，要做故障排除和系统恢复。

然后，是开发大数据系统。比如基于开源系统进行开发，加上一些自己需要的功能和特性，或者完全自己开发一套。大数据系统通常都需要几万台机器同时工作，所以它很自然的就是一个分布式系统。

最后，一个特别厉害的职位就是架构师。她要对整个大数据系统的架构来进行设计，让它能够高性能的维护和运行。这就要有几十年的经验才能够扛得住了。

因为我们这门课是基础课，所以只简单介绍前面两部分的基础内容。具体来说，Python、SQL 都是很重要的。Excel 我们不会教大家，但是大家是应该学学 Excel 的，因为Excel 能够实现很强大的功能。然后数据库，如 mySQL。还有 NoSQL 数据库，如 HBase。我们还会给大家介绍分布式存储和计算系统 Hadoop、Spark。然后就是一些数据系统，如 Kafka、flume、flink、Hive。这些都是做数据收集、存储和管理的。大家如果想要走这个方向的话，可以自己拿台电脑搭一搭，因为这些软件都是可以自己搭的。你可以在实验室找台没有人用的电脑，就在上面搭就行。然后系统的研发方面，你可以用 Scala、Java、Python编程。然后你要分析客户的需求。架构设计的要求就比较高了。一般来说我们刚开始找工作的时候，不会让大家去做架构师的，都会让大家先做一段时间测试。然后慢慢的转开发，然后慢慢的做设计，最后才去做架构师。这个要积累个几年，但是路大概是这样子的。大家现在就可以根据自己的兴趣来选择了。

分析方面

下面是分析。前面工程方面的工作是要设计和维护大数据系统。分析工作是用这个大数据系统来分析我们的数据，得到数据的洞察。分析方面的技能要求包括下面四个方面。

首先，是一些基本的数据管理的工作，因为我们要用这个系统。

然后，是做运营的报表。运营报表里面有两种数据，一种是 KPI（关键性能指标）数据。比如咱们是一个电商，KPI 数据就是我上个月卖了多少货？销售额多少？因为它们是我们的关键性能指标，就是我这个公司的目标。另一种是一些基本的数据分析。比如说我的库存，发货时间，客服满意度。这些都是基本数据分析。

在报表的工作中，沟通表达方面的工作非常重要。我们应聘过去当一个数据分析师，如果每天就坐在电脑前面，又不说话，那么老板是不是第二天就可能觉得自己亏了，想把我们裁掉？但是，如果我们每天给他出一个 PPT，把我们从数据中发现都故事做出可视化的图，给他演示，分析情况，提出建议，那么老板就会觉得自己又多了一双睿智的眼睛，就会特别开心，对不对？肯定给我们加工资。我们要离职的话，他还舍不得，要挽留我们，是这样吧？所以沟通表达方面的工作特别重要。这跟我们研究生面试有一些类似。大家有没有发现，有的同学在面试的时候，给她一张纸，她能 15 分钟说个不停，老师就会觉得这个同学的沟通能力肯定没问题，但也有的同学，问他一个问题，他一个单词给你回答了，然后就站在那里，看着老师，老师就得努力想出下一个问题，否则就会陷入尴尬。这就不是好的沟通，是吧？写论文也类似：不管我们是写小论文还是写大论文，最后老师看到的应该是一个故事。它有血有肉，从标题开始就吸引人，中间表达非常简洁，思路清晰，直到最后的结论，一气呵成。这就是一篇表达得非常好的论文。

其次是进行定性分析或定量分析。比如我们定性地分析风险。比如和老板说：我发现这里有问题，去年这个产品还能卖 200 万，今年怎么只能卖 100 万了。这是一个问题。然后我分析了，觉得原因是这样，因此，我们下面要不要做这样的调整？这就是定性分析。它是一种战略分析。

我们更应该进行定量分析。定量分析可以建立数学模型，也可以进行统计的假设检验。这里有一些基本的模型，比如回归模型。也包括各种机器学习模型，如决策树。它们也能提供量化的分析和预测结果。

我们下面举两个定量分析模型的例子。

第一个例子是决策树。决策树这个模型很有意思。顾名思义，老板拿着这个模型呢，就知道怎么做决策了。比如我给各位同学提供一个选课的决策树模型。大家拿到这个决策树模型后，就按照它，首先看上课时间是上午、下午，还是晚上；如果是下午或者晚上的话，就不选了，因为太困；如果是上午，就继续看：作业多不多？如果不多的话，就不选了，因为太没有挑战了；如果作业很多，就接着看考试难不难？如果不难，就不选了，因为没意思。所以，你就会发现：决策树模型给了我们一系列的“如果-否则”（if else）判断，最终获得决策的结果，比如选不选这个课。我们通过分析我们的数据，就可以训练一个这样的模型，给老板提供决策的工具。

第二个例子是购物篮分析。购物篮分析是我们经常做的一个分析。顾名思义，就是分析用户们购物篮里面的商品：是不是有某种商品老是跟另外一种商品在一起？比如说，买牛奶的人是不是还经常买面包。有了这个发现之后，如果有个人买了牛奶，那么我们就给他推荐面包。这时那个顾客是不是就特别高兴？啊！我本来就要买面包的，但差点忘了，谢谢你把面包推荐给我，否则我后面还得跑一趟。这就是购物篮分析在电商中的应用。它在其他地方也有应用。比如说，我们分析各种交通事故，发现摩托车事故总是跟摩托车进入非机动车道在一起出现。这时候我们就会觉得它们可能有一些联系，那么就可以进一步研究它，分析它们的关联，然后有针对性地进行调整，比如限制摩托车进入非机动车道，以减少未来事故的发生。

最后是人工智能。人工智能有基于规则的，也有基于数据的。最近非常火的深度学习是基于大数据的，因为它要求的数据量非常大。可以说没有大数据，就没有深度学习。

上面就是分析方向的基本内容。对这些方面的内容，比如人工智能，有专门的课程讲授，所以本课程并不深入讲解，但是大家理解，它也是一种数据科学。分析的话，你学了Python，就可以自己编程分析了。SQL、Excel，都可以用。分析这种运维的报表，KPI（关键性能指标）。做数据分析。还有沟通能力，即我们不仅要懂，还能让别人知道我懂。你怎么让别人知道你懂？你要能说出来。说出来很重要。然后进行洞察，营销分析，特定业务的问题分析，战略分析，PPT演示。这些都特别重要。在算法模型方面，像统计检验、回归、决策树、购物栏分析、人工智能，等等。未来十年，数据分析工程师要求的还是比较多的，为什么呢？因为很多行业、工作都需要数据分析，所以岗位自然就多了。然后，机器学习工程师涉及到算法，需要的人数肯定少一些。最后是人工智能专家。因为人工智能的模型越来越复杂，所以需要的人也就更少了。现在对数据科学家的需求很旺盛，为什么？因为到处都有数据，都想分析。再往上，我们可以做机器学习工程师、人工智能专家。

三种职业

我们下面总结数据科学的三种职业。

第一种是分析师。分析师有三个典型的工作。她就像个侦探。首要任务是收集各种各样的数据。拿到数据之后，可能有些数据质量不高，我们就要清洗它，并做必要的修复；然后再做分析。

第二种是科学家。科学家就不是简单的对数据清洗清洗、分析分析了，而是要独立地研究和解决问题。这就是我们读研究生的意义。大家一定要理解，我们读研究生，不是说完成老师布置的任务就完事了，而是要明白，老师让你干某件事，其实是要锻炼你的独立研究和解决问题的能力，这种能力，是我们三年以后，走上工作岗位的时候，面试的时候，面试官唯一要看的。因为我们干的具体的那个工作，有很大可能，和我们面试的岗位将要进行的工作，是完全不同的。比如说我们在研究生期间研究了三年的微服务的异常检测，然后在找工作的时候，面试 10 个岗位，可能都配不上微服务方面的运维工作，但这没关系：我们在自己干过的工作中，通过发现和解决问题，获得的能力，在各种工作岗位上都用得上。这时候面试官看着你的简历，然后问你相关的情况，你能清楚地表达出来，细节完整，逻辑严密，面试就过了。这就是读研究生的意义。然后呢，科学家要有定量分析的能力。这就是科学家和分析师的区别。

第三种是大数据工程师。她是要去开发和维护大数据平台的，而大数据平台是一个分布式系统。比如阿里云的大数据平台，你要能够把它跑起来，能够编译、安装和部署，进行集群的维护、扩展和管理。

Index