数据处理的特点

本节介绍数据科学的数据特点和处理特点。目前,大数据正越来越多,其中蕴含着大量的价值。了解了它的数据特点和处理特点,有助于我们更好地处理它们,发现它们的价值。

数据特点

数据,尤其是大数据,有4个特点:4个V。

第一个V就是它的体量(Volume)很大。体量大是什么概念?一般来说,在一个电脑上存不下、处理不了的数据,就是大数据了。比如说你现在需要 4 台电脑分别存,这个体量就比较大了。更不用说互联网公司的那些大数据了。比如淘宝的数据,大家想想会有多大。

第二个V是它的处理速度(Velocity)要快。你说因为这个数据特别大,所以我慢慢处理,处理个一年,这不是大数据。金融、交通、互联网,都需要很快的处理速度。咱们现在用手机,都习惯了要快速得到响应。比如你刷抖音。你刷一个视频很快的,但是在你刷视频的这几秒钟之内,抖音它就根据你这个刷的行为,实时地给你推荐下一个要看什么视频了。就是说,它根据你现在在看的视频来决定下面给你推荐什么视频。你去淘宝上买东西也是。它在根据你现在在点的商品,你在这个商品上停留了多长时间,等待信息,来决定后面给你推荐什么商品。这个处理速度是要非常快的。抖音现在为什么有一个火山引擎,里面有几十万块 GPU,就是因为需要迅速地对海量的数据进行计算,这样它才能精准地为我们进行视频推荐!

第三个特点就是它的数据类型(Variety)很多。它是一个多模态的数据。多模态,包括视频、图像、音频、文本、时间序列。所以交通有交通的数据,土建有土建的数据,各种数据只要你有,都可以放到这里面来。举个特别简单的例子,比如说淘宝。当你申请了淘宝账号以后,你在淘宝上看过的所有网页,在这些网页上停留了多长时间,点了什么图片,是不是点赞了,收藏了,推荐了,投诉了,所有数据都在。然后淘宝它还是个联盟。你在优酷上看个视频,淘宝也知道。它们都是打通的。所以经常你在优酷上,看了一个什么网页,突然发现淘宝给我推荐了,那是因为它们之间是打通的。它们的数据是相通的。

最后一个特点,是它的价值密度(Value)比较低。比如,虽然,自从我在淘宝上注册账号以来,所有的数据都存着的,但我很可能有的时候,就是偶尔点了一个什么,所以这个数据虽然很多,但其实这里面有价值的数据,其实并不多。所以这指的是它的价值密度低。它的体积很大,但里面有价值的东西少,这就是价值密度低了。基于我这样一个数据,你还非要给我做精准的推荐,是不是挺难的?所以现在的推荐算法就越来越复杂,要的 GPU 就越来越多。你看那些淘宝有阿里云,抖音有火山云,都是几百万台机器、GPU,为什么?因为各种复杂的深度学习算法,它们都用上了。中国最顶级的大数据专家和职位,就在这些公司里,因为这些公司卖货,有最大的商业价值。

在上面四个大 V 的赋能下,我们的生活早就已经被数据科学深度干预了。比如,大家有没有发现:现在我们买东西,80% 的购买行为都不是因为自己确实需要而买的,而是别人让我们买的。最典型的就是广告,或者直播带货,它们激发我们购买的欲望;然后就是各种各样的推荐、活动、券。大家现在是不是觉得自己对这些都不是很感冒了,对不对?但你就统计一下自己去年花了多少钱吧。你会发现里面 80% 的钱还都是别人让我们买的,不是我真的需要的。当然这些购买也不是什么坏事。它们开阔了我们的视野,让我们发现世界原来这么精彩,但客观上也给商家带来的价值。

数据科学工作的特点

当我们做一个数据科学的工作的时候,决定我们成败的,是数据、专家经验、模型,缺一不可。

首先,是数据要好。如果没有好的数据,再好的模型也没有用。如果你的数据特别乱,里面全是噪声也不行。所以,整理、清洗、理解数据会花我们很多时间。

其次,是专家经验。在海量的数据中,要找到一个故事,需要专家经验。比如,在海量的淘宝数据里面,挑出能够反映一个顾客特征的数据,除非你是一个在淘宝里面,做小二做了十几年,因此很有经验的人,否则你不知道在这么多的数据里面,哪些数据最能够反映一个人的习惯、喜好。所以这就需要人用自己的智能,去对数据进行分析、提取。所以人的知识、专家之经验,非常重要。到目前为止还没有一个模型说,把所有的海量的数据都送进去,就问你要什么就有什么。没有这样的。所以土建的数据就得土建的同学分析;经济的数据就得经济系的同学分析。大家的专业知识是很重要的。

最后,是合适的模型。这是另外的三分之一。因此,三分之一是数据,三分之一是你的专家经验,最后三分之一才是模型。

大数据的特点

对特别大的数据进行处理,需要特别的方法。

首先,它用分布式存储。分布式存储,就是一个文件,一台电脑存不下,只好分开用很多电脑存。

其次,它用分布式的计算。为什么分布式计算?因为我用很多电脑存文件,而一个存文件的电脑,是有CPU的,所以它就负责把自己这一块文件处理完了,然后再把结果合起来,这就是分布式的计算。

比如说我们现在在搜索引擎上搜索“北京交通大学”。百度收集了中国所有的网页。它一个电脑存不下,可能要用一万台电脑存。它就让这一万台电脑各自查自己存的网页,看里面有没有“北京交通大学”,所有电脑查完之后,再把结果汇总起来,做一个排序,再输出。

这就是分布式的存储和分布式的计算。这是大数据处理的一个基本的一个范式。

大数据应用的特点

大数据应用有三个特点:

首先,分析性的应用居多。比如电商网站,分析销售情况。

其次,读多,Append 多。因为主要是分析性的应用,所以读数据很多。然后新的数据来了,就会加到现有数据的后面。比如电商网站,我们新购物了,会添加一条我们的新的购物记录。

最后,很少更新。比如我们购物了。这条购物的记录,不需要更新。


Index Previous Next