数据科学的定义和应用
首先给大家讲讲这门课是讲啥的。大家肯定都是看着数据科学那个名字来的。
科学范式的改变
一直以来,人们认为科学皇冠上的明珠是数学。有一个物理学家写过一篇文章《不可思议的数学的有效性》,讲述数学在物理学中不可思议的有效性。说:我们通过数学,能够发现世界运行的基本规律。这时候你就感觉你发现了上帝的奥秘,你发现了上帝是怎么制造这个宇宙的。比如说爱因斯坦,他用数学推导出来了宇宙是这样子的,后来我们花几十亿美元,做了测引力波的实验室。一测,发现确实是这样子的。
有了数学的指导,自然科学和工程学发展的效率得到极大提升。过去 100 年内,你看自然科学和工程学发展得得多快,让整个人类的面貌焕然一新。这就是因为通过数学,很多东西都可以算出来,而不需要再辛苦地一个个案例地进行测试、分析和验证。因此,数学在自然科学和工程学里有很核心的地位。
所以,一般来说,做科学就得有数学模型。数学几乎是科学的代名词。比如牛顿、莱布尼茨他们,为了解释自然现象,发明了微积分这个伟大的数学工具。有了微积分,我们就能计算很多原来算不出来的东西。这也就是大学物理跟中学物理的最大区别:因为我们在大一的时候学了微积分,所以大学物理可以把我们中学物理学过的那些物理现象,用微积分都算出来,并且能够计算更复杂的情况。这就让我们发现我们的能力边界被大大地拓宽了。
而如果缺乏数学理论,纯靠做实验,一个领域就发展特别慢。对这一点体会最深的领域就是生物学。在谷歌的 AlphaFold 出现之前,做分子生物学研究的老师和同学,用电子显微镜,拼命地看蛋白质分子的样子,把它画出来:这里转一下,那里转一下。一个博士同学工作好几年,才能把一两个蛋白质分子的结构画出来。这就是因为我们缺少一个数学工具,描述蛋白质分子的结构和它的 DNA 的数学关系,因此不能算出来:为什么这个 DNA 就会生成这样的蛋白质的分子结构?对这个问题,一直没有数学理论来解释。如果没有一个数学理论让我们能够算的话,那么我们就只能一个个蛋白质分子地观察、刻画。这世界上有这么多的蛋白质。每个蛋白质的结构都要一个博士弄三四年来画,所以生物学的进展特别缓慢。
但建立一个像微积分这样的崭新的数学工具,很难很难。冯诺依曼他们很早就说要设计新的工具,来建立关于生物学的数学模型。这就要发明一个类似微积分这样的崭新的数学工具,才能带来翻天覆地的变化。冯诺依曼似乎就是在希尔伯特空间做这些事。但是,这么多年过去了,无数科学家把自己的一生都投进去了,能够进行生物学计算的数学工具还是没有建立起来。
因此,这些年来,我们常用的工程学、生物学等领域的数学工具,一直保持稳定。虽然很多数学家依旧在做非常有意思的研究,发明了很多有意义的数学工具,但能够推动工程学、生物学等领域向前进一步发展的数学工具,一直保持稳定。比如说大学物理。今年同学学的大学物理跟十年前学的大学物理,都差不太多:力学、光学、电磁场,这些都差不多。又比如说咱们的通信系统原理,我们现在学的跟 20 年前学的,也都差不太多。
那难道我们人类就不发展了吗?不是,我们又发现了一种新的科学范式:基于数据的机器学习。
基于数据的机器学习
机器学习是基于数据的,它的根本就是基于数据。从上世纪 60 年代开始,人们提出,不建立数学模型,而是通过对数据本身的学习,也能建立关于世界的模型,从而进行预测、分类等很多工作。这就是机器学习模型。经过这么多年的探索,大家发现机器学习能帮我们干很多的事情。
互联网迅速发展的根本原因是其基于数据的生产方式。机器学习的兴起,互联网受益最大,因为互联网有最多的数据。2000 年以后,随着互联网的发展,比如像百度、阿里、腾讯这些互联网公司,它们有很多的数据。比如我们现在上阿里的网站上买东西,我们晚上几点几分登录的?用的什么手机?在哪个城市?用的 WiFi 还是 5G?在这个网页停留了多少秒?那个网页停留多少秒?点了什么网页?点赞了什么?关注了什么?收藏了什么?购买了什么?你的好友买了什么?这些都有,都收集着的哈!自从我们注册一个阿里的账号开始,这些数据阿里是一点也都没有删的啊。而且阿里把这些数据作为它的核心价值。从这些数据里,就诞生了中国的以及全世界的互联网公司。
互联网的规模,让数据产生的价值急剧扩大。为什么现在大家找工作,都说互联网公司比较好?因为互联网公司的基于数据的生产方式,能够让我们的能力无限放大。你是一个淘宝的工程师,你对淘宝的界面做一点点改动,全世界十几亿人可能都会看到。比如你对淘宝主页上的推荐稍微改一点点,整个淘宝的十几亿用户全会看到这个算法的改进效果。那么,这十几亿人里面,如果有十万人,因为你的这个改动多买了十块钱东西,那一下就多出来 100 万的销售额,没错吧?在这里面给你分个一万块钱,不算多吧?但这一万块钱那你个人来说,还是很够意思的吧?这就是进了互联网公司,每个人的人均效率就被互联网给放大了。
这跟传统行业不一样:在传统行业里,比如我们去美团跑腿,我们只有两条腿。即使我们今天发现一个跑得最好的方法,变成飞毛腿,我也得一个一个地方跑,因此我们在美团挣得钱,在物理上有一个上限。互联网就不一样:你每天工作 8 小时,影响 10 亿人,这就导致你的这个聪明才智可以放大。这时你在这个放大后的收益里,分得一点点,那也已经很多了。这有点像三体里面那个坏人向外星人发信号:她对着太阳发射,因为太阳能够帮她放大。美国最顶级的富豪巴菲特的好朋友查理芒格也懂这个道理。他当年就是因为这个原因退出律师界的。他说:做律师,看着很挣钱,但那是按小时收费的,而我一天只有 24 小时啊,所以挣得再多,也有物理上的上限,但投资不一样,它可以放大:同样的时间,我可以投 10 万,也可以投 10 个亿,没有物理的上限。所以查理芒格就退出律师界,专心做投资了。
机器学习的发展,让人们能够不用数学,基于数据也可以得到可用的世界模型。虽然这个模型不很精确,但是我们能够把它的误差降到足够低,那就基本上可用,因为人类也不是不犯错的,对吧?慢慢地,除了互联网公司,其他领域也想着利用自己的数据,建立自己的世界模型。比如在生物学中,大家好不容易画出了1000 个蛋白质的分子结构。面对这些宝贵数据,大家就在想了:能不能训练一个机器学习模型,让我们能够根据 DNA 就生成对应的蛋白质的分子结构,这样至少不用我们再一个个辛苦地去画了。这就是谷歌提出的 AlphaFold 机器学习模型。
基于数据的科学发现新范式
面对基于数据的机器学习模型的发展趋势,到了2009年,出了一篇文章,它把数学换成了数据,即《不可思议的数据的有效性》。他们的意思是,现实世界太复杂了,用数学模型已经很难对它进行模型了。仅仅依靠数学,会限制我们探索的空间。因此,我们必须要从优雅的理论模型,稍微跳出来一点点,拥抱这个世界的复杂性。
这就是基于数据的科学发现新范式。以前牛顿他们采用的方法是:先观察世界,然后提出一个猜想,建立一个数学模型,然后再验证这个数学模型是否符合实际,会不会被证伪。那么我们现在稍微扩展一点:建立不了数学模型没事,我首先记录数据,然后当海量的数据汇聚到一起的时候,同样可以基于这些数据获得有价值的决策信息。这个决策信息就是说帮助我做决策的一些信息,比如:要不要给他推荐这个产品。这和我们高中、大学学的但不太一样,是吧?
基于数据的科学范式给人类带来了新的理解世界的手段和方式,会导致人类工作生活的大变革。一般来说,范式的变化,是根本性的。比如说我们人类开车开了这么多年了,但现在要变化为无人驾驶,这就是开车范式的变化。你想想这会对整个产业带来多大的影响。类似的,基于数据的科学范式,给人类带来了新的对自然世界的理解和探索的方式。这就会导致各行各业都发生翻天覆地的变化。
做一位掌握数据科学的专业人士
一般的数据科学和大数据专业的人才很快就会饱和。按照现在的招生规模和速度,过几年,数据科学和大数据专业的同学就海了去了。现在几乎每个学校都有数据科学和大数据专业,今年高考志愿,最火专业是人工智能。最新的人工智能技术大多是基于数据的。第二就是数据科学和大数据。所以现在几乎每个大学都在大量招数据科学方面的本科生。那么,四年以后,这个领域的学生,一定会饱和。
所以我们不能做一个一般的数据科学和大数据专业人才,而要成为一个在自己热爱的领域中真正专业的人士。真正专业的人士永远稀缺,这才是我们的核心竞争力。很多新闻的标题为了吸引眼球,是故意弄得很片面的,比如这则 2014 年的新闻,它的标题是:让你的孩子以后成为一个数据科学家吧,不要成为一个医生。这个标题就是不负责任的。我们一定不能被他们忽悠,因为真正的医生是永远不可替代的,但是一般的医生很快就会被人工智能取代。所以最关键的是你要在自己热爱的领域里成为一位“真正专业的”人才。
因为数据科学已经和微积分一样,是一种有效的科学发现范式,所以,为了我们在各自专业的精进,我们自然要掌握数据科学的大数据这个强大的工具。比如,在医学院里面,现在是有大量数据可以分析的。如果你作为一个医生,掌握了数据分析和机器学习方法,就会比不掌握这些方法的医生,要厉害得很多。所以数据科学和大数据,是一种类似于微积分的工具,或者说思维方式。它在我们的知识结构中,应该处于类似微积分这样的地位。
发挥数据的价值,需要专业知识。同样一个数据,有的人分析得好,有的人分析不好。比如一个心电图的数据,我们电子工程的同学可能看不懂,但医生可能就看得懂。一个经济学的数据,我做电子信息的去分析,可能就莫名其妙,但经济系的同学拿到,就特别开心。
数据分析的普遍性
数据分析的目标是发掘数据背后的知识,然后把这些知识很好地表达出来。比如领导让我们分析一个什么东西,他其实是想要我们从中得到一些知识。我们分析半天,对他来说,就要一个结果就行,但这个结果不能是我们拍脑袋想的,而是有数据证明;然后我们还得用可视化的方法把这些知识很好地表达出来,让领导一目了然,这样领导就会特别开心,对吧?
各种岗位都需要数据分析。比如企业招你做人力资源管理,它可能就希望你分析分析:哪些人是可以被裁掉的?所以人力资源的人,每天都要分析数据:现在有几个工程师?几个销售?每个销售管多少客户?每个工程师每年开发多少行代码?明年要开发哪些产品功能?所以可以裁几个人,或者几个人需要他转岗调到别的部门去?
所以最新的就业动向是将数据科学融入大家各自的职业中。现在大家如果去找工作啊,专门的数据科学家职位,不多,但大家都想找会数据科学的人。比如说招一个人力资源,像我们经管的同学,是学人力资源专业的,应聘的人很可能会问你:懂不懂数据分析啊?如果你说我懂。他就会问你懂什么呀?你说懂 Excel,很好。Excel 是很厉害的。还懂什么呀?还懂R语言他就知道,这个同学不简单,R语言都懂。然后问还懂什么。我懂 Python。啊,Python,哎呀,你太厉害了!还懂什么,懂 Spark,那不得了了,那直接来吧。
这就是说,大家不仅希望你能够完成人力资源本职的工作,还希望你懂一点点数据科学的东西。这样的话呢,你就不是只简单地完成人力资源的那些工作,而是会帮他分析一些数据。你分析这些数据的话,自然要提出问题,对不对?你会说,老板,你看,经过我这个分析,我发现我们招的很多交大的同学,都特别优秀,那么,明年再多招一点吧?这是分析出来的嘛。就是你用分析,给老板提出这种建议,然后还有数据支撑,你给他一个柱状图。这种你就相当于是能帮助他做管理。经管的同学是这样。土建的同学也是。我们不仅能够把这个桥建好,我还能它分析数据,提出优化的方法,然后能够跟着他一起去开会,去给院士们讲,对吧?感觉就特别好。
掌握数据分析的技能能够给我们带来职业上的优势。财新杂志 2023 年 8 月 14 号发了一篇文章叫《就业为何难》。它说为什么就业这么难呢?是因为现在大家对岗位的要求都高了。就是即使是学经济、机械、电子、土建这些专业的同学,经过大学四年,再研究生三年,学了很多专业知识,但到了工作岗位上之后,经常不仅要完成别人给你的这些专业性的任务,还会接受一些数据分析的工作:企业经常想要看看这个同学能不能够从数据中发现问题,然后解决问题,提出方案。所以这时候,有基本的数据分析技巧的同学,就业就不难,而没有这些技巧的同学,就业就挺难。
所以就业为何难,是因为大家对就业的要求高了:要求不仅会微积分,还得会数据科学。不论是经济、土建专业的,还是机械、电气的同学,都需要掌握数据科学、机器学习、人工智能的知识,掌握基本的编程和数据分析技巧、基本工具的原理和使用。因为它们就像微积分一样,是我们现在理解和认识世界的一种范式化的工具。
数据科学工作的内容
数据科学的工作内容,是发掘数据的结构、模式,为产品、流程、决策提供管理建议,把握数据带来的机会。下面是《哈佛商业评论》在 2012 年的一篇文章里写的一段很有意思的话:
“Data scientists are the key to realizing the opportunities presented by big data. They bring structure to it, find compelling patterns in it, and advise executives on the implications for products, processes, and decisions.”
如这段话所述,首先,数据科学家能够发现数据里面隐藏的机会,把它们变成现实。这就是说:数据摆在这里,每个公司都有一大堆数据。我去中石油、中石化,它们数据一大堆一大堆的。这里面有很多机会。数据科学家能够把它实现出来。
然后,怎么实现呢?第一步是给数据带来一个结构。就是这些数据是很乱的,你先要给它理清楚,给它一个结构。比如说这些表,它的主键是什么,互相之间的关系是什么。这是第一步。
第二步是找到让你特别兴奋的模式,就是让你觉得特别有启发的模式。这样就能够给你带来启发嘛。
第三步就是提出建议。建议管理层:产品怎么优化,流程怎么优化,怎么做决策。商业不就都是这些事吗?我找一个学人力资源的同学过来,他不仅能够帮我把人力资源这块理清楚,还能帮我分析数据,建议我明年去哪个地方招人,不用我再到处乱跑,面试 1000 个人才招到 10 个。按他的建议,可能面试 20 个,就招到 10 个了,多好?
所以我们首先是发现数据中隐藏的机会,然后提出具体的建议,改进我们的产品、流程、决策。
那么,数据科学家的本质是什么呢?下面还是《哈佛商业评论》文章中的话:
They find the story buried in the data and communicate it. And they don’t just deliver reports: They get at the questions at the heart of problems and devise creative approaches to them.
因此,数据科学家的本质是以下工作:
第一步,从数据中把故事找出来。数据科学家其实是一个从数据中找故事的人。大家写论文也是要有个故事。不论是写小论文,还是写大论文,写硕士论文,还是写博士论文,都要有一个故事。数据科学家,就是从数据里找出故事的人。
第二步,把这个故事表达出来,让别人清楚地接受。比如用图像的方式把它表达出来。一图胜千言:我们可以用饼状图、柱状图、小提琴图、Box 图。为了让别人理解我们发现的故事,我们要准确地把它表达出来。
问题
数据科学的工作源于“提问题”。我们要提问题。不仅是在职场,你读研究生也是如此。大家明年就要开题。开题就是要提出一个问题。所以我们要找到一个问题。大家现在就要慢慢地培养这种习惯,就是要琢磨,这里面有没有问题。这是研究的核心。数据科学最核心的也是提问题。有了问题后,我们再在数据的启发下,提出创造性的方法来解决问题,或者解决这个问题。大家同意吧!
“问题”是一切研究的核心。我们毕业答辩的时候,我们只能讲十分钟,对吧?在这十分钟中,我们要讲完我们在研究生三年内完成的工作。咱们肯定不能像念流水账似的,讲我这三年干了些什么,对不对?所以,在这十分钟之内,我们就是说:我解决了一个什么问题,这个问题很有意义;这个问题很有挑战,不是那么容易解决的,现有的方法都有缺陷,因此不能很好地解决它;因此,我提出了一个什么想法、收集了一个什么独特得到数据,设计了一个什么系统、方法,来解决这个问题;最后,我做了什么实验,证明了我提出的方法有效地解决了这个问题,比现有的方法确实要高明,具体来说,在某个指标上要高明 5%。这样的话,答辩老师肯定就服了,对吧?所以,一切研究都是围绕“问题”展开的。
我们以后工作的核心其实也是“问题”。我们读研究生,并不是说我要混个文凭,因为等我们毕业的时候,研究生可多了。那我们怎么脱颖而出,只能靠面试。那我们想想,我们怎么在面试时显示出自己的能力?这时候,我们简历上已经把该写的都写完了,成绩单也改不了了。那我在面试中怎么打动面试官?我不能去吹捧面试官说:哇,同学你好帅。因为这是他帅,不是你很帅。你也不能跟他拉家常,说:啊,我们俩是老乡,你照顾照顾我吧。现在这些方法都不灵了。唯一能做的就是,我们真真实实的告诉他:我这三年研究生没有白过。我解决了一个前人解决不了的问题;我是怎么怎么解决这个问题的;我经历了多大的痛苦终于把它解决了;我现在特别开心。我保证这时那个领导一定会在心里说:太棒了,我找的就是这种人。你想想,假设我们应聘一个央企的工作办公室主任。领导需要我干什么?是不是需要我帮他扛事?是不是需要我们帮她分析问题、解决问题,而不是每天只会坐着电脑后面,等着我叫他干活,不是我叫他干啥,他就干啥。他肯定希望有一个能够给我主动提供建议的人,是吧?这就是数据科学的工作,所以是非常重要的。
古今中外,所有领导最需要的人,就是能够发现潜藏在数据后面的故事,提出问题,并为自己想出建议的优秀数据科学人才。这些在文学作品中也有反映。比如电视剧《庆余年》里面的洪竹,就是一个最典型的例子。他在检蔬司的时候,就是善于为戴公公发现问题,提出建议,得到戴公公的赏识的。他有两个很强的能力:第一是发现问题,这样他就会提示领导注意风险;第二是他表达能力很强,简短的几句话,就让领导明明白白。这样的同学,古今中外,任何哪个领导都喜欢,都会得到重用。对这一点,哈佛管理学院的老师非常清楚。哈佛管理学院学什么?就是学习这种分析问题、解决问题的能力。在现代企业里,依据数据来完成这项工作的同学有一个很专业的名字:数据科学家。
搞数据科学需要对自己专业的热爱。一个真正热爱自己事业的博主,会天天看后台数据,分析自己粉丝的特点,然后有目标地进行运营。这个过程和我们读博士其实是一样的:发现数据中的问题,优化算法,希望获得比昨天的算法更好的效果。如果不热爱自己的专业或者事业,这个过程是非常枯燥的。只有具有对所研究的问题的真正的热爱,才能坚持下去,最终博士毕业。大家不要小看李佳琪。他刚开始在一个商场做口红的导购。他导购的口红销量就是比别人导购的要好。他是随随便便就很好的?不是。他察言观色,不断分析数据,总结经验,因为这就是他的热爱。正是因为这份热爱,他才会去研究数据,发现数据中的故事,然后提出建议,进行改进。所以我们读研,应该选一个自己热爱的东西开题。你要尽量在老师能够提供支持的研究范围中找到一个自己热爱的题目,这样才能成为下一个李佳琪。
数据科学的应用
数据科学,实在我们现在的日常生活中或者工作中,已经非常普及了,渗透了。我们下面来看几个领域:
第一个是智能交通。大家现在知道,咱们中国的小鹏,美国的特斯拉,它都在建自己的大规模的数据中心。这些数据中心存什么呢?现在大家买车,都是有摄像头的。有各种传感器。大家注意看那个汽车。它的前面有个小洞,两边有两个小洞。这些洞就是摄像头。所以这些摄像头,会全方位的捕捉汽车周围的图像。这些图像数据,就都存在了服务器上,然后再分析。分析什么呢?分析你在什么情况下,你踩了刹车,在什么情况下,你往左拐了,什么时候往右拐了。通过这些学习,它就可以训练它的无人驾驶。相当于我们每个人,虽然说是在开特斯拉的车,但其实你现在是在帮它,训练它的机器人,这就是智慧交通。当然还有很多智慧交通的例子,比如说智能红绿灯。就是那个红绿灯,它不是定时的了,它是根据车流的情况,自动调整的。它是学习出来的。它利用了人工智能。这就是智慧交通。
第二个是智慧工厂。现在你去买辆车,你下了单以后,你在手机上可以看到这辆车,已经开始制作了,已经有四个轮子了,上面搭了几块,整个过程你都能够看见。智能工厂,你能跟踪你这个车,它的生产过程。又比如说电厂。电厂里面的那些传感器的数据,什么压力呀,温度啊,煤呀,各种传感器的数据都在里头。然后就能分析。这就是工厂的大数据。
第三个是智慧政府。就更是了。比如说疫情的时候扫二维码,那就是大数据。有时候扫着扫着,它崩溃了,大家都做不了核酸了,很着急,那就是那个大数据崩了。
第四个是智慧金融。比如说最近在反诈,金融诈骗。大数据就可以自动分析金融诈骗,识别异常,它能够识别出来,你这张卡是不是借给人家了。更不用说现在量化投资也是基于数据的。有很多经管同学,就有一门大数据的课。所以现在量化投资都是这些事,都是有很多数据。
第五个是智慧安防。现在已经做到了盗案必破。大家现在如果骑自行车出去,不太要锁,没事。为什么?一旦丢了,你去查,肯定能找到。它能跟踪任何一辆自行车。
除了上面这些重大领域,各种小企业、个体户也需要数据科学。大家知道,总得来说,其实小企业招人比大企业招人的多,所以小企业是非常重要的。对于我们年轻人,虽然说最近大家都倾向于稳定,但是比较靠谱的创业公司其实也很值得去,因为百度当年不就七个人搞起来的是吧,阿里当年不也是马云 18 罗汉搞起来的吗。所以大家遇到了这种创业的机会,还是要珍惜。
参考文献
- Thomas H. Davenport and DJ Patil, Data Scientist: The Sexiest Job of the 21st Century, Harvard Business Review, October 2012, Webpage
Index | Previous | Next |