数据处理的特点

本节介绍数据科学的数据特点和处理特点。目前，大数据正越来越多，其中蕴含着大量的价值。了解了它的数据特点和处理特点，有助于我们更好地处理它们，发现它们的价值。

数据特点

数据，尤其是大数据，有4个特点：4个V。

第一个V就是它的体量（Volume）很大。体量大是什么概念？一般来说，在一个电脑上存不下、处理不了的数据，就是大数据了。比如说你现在需要 4 台电脑分别存，这个体量就比较大了。更不用说互联网公司的那些大数据了。比如淘宝的数据，大家想想会有多大。

第二个V是它的处理速度（Velocity）要快。你说因为这个数据特别大，所以我慢慢处理，处理个一年，这不是大数据。金融、交通、互联网，都需要很快的处理速度。咱们现在用手机，都习惯了要快速得到响应。比如你刷抖音。你刷一个视频很快的，但是在你刷视频的这几秒钟之内，抖音它就根据你这个刷的行为，实时地给你推荐下一个要看什么视频了。就是说，它根据你现在在看的视频来决定下面给你推荐什么视频。你去淘宝上买东西也是。它在根据你现在在点的商品，你在这个商品上停留了多长时间，等待信息，来决定后面给你推荐什么商品。这个处理速度是要非常快的。抖音现在为什么有一个火山引擎，里面有几十万块 GPU，就是因为需要迅速地对海量的数据进行计算，这样它才能精准地为我们进行视频推荐！

第三个特点就是它的数据类型（Variety）很多。它是一个多模态的数据。多模态，包括视频、图像、音频、文本、时间序列。所以交通有交通的数据，土建有土建的数据，各种数据只要你有，都可以放到这里面来。举个特别简单的例子，比如说淘宝。当你申请了淘宝账号以后，你在淘宝上看过的所有网页，在这些网页上停留了多长时间，点了什么图片，是不是点赞了，收藏了，推荐了，投诉了，所有数据都在。然后淘宝它还是个联盟。你在优酷上看个视频，淘宝也知道。它们都是打通的。所以经常你在优酷上，看了一个什么网页，突然发现淘宝给我推荐了，那是因为它们之间是打通的。它们的数据是相通的。

最后一个特点，是它的价值密度（Value）比较低。比如，虽然，自从我在淘宝上注册账号以来，所有的数据都存着的，但我很可能有的时候，就是偶尔点了一个什么，所以这个数据虽然很多，但其实这里面有价值的数据，其实并不多。所以这指的是它的价值密度低。它的体积很大，但里面有价值的东西少，这就是价值密度低了。基于我这样一个数据，你还非要给我做精准的推荐，是不是挺难的？所以现在的推荐算法就越来越复杂，要的 GPU 就越来越多。你看那些淘宝有阿里云，抖音有火山云，都是几百万台机器、GPU，为什么？因为各种复杂的深度学习算法，它们都用上了。中国最顶级的大数据专家和职位，就在这些公司里，因为这些公司卖货，有最大的商业价值。

在上面四个大 V 的赋能下，我们的生活早就已经被数据科学深度干预了。比如，大家有没有发现：现在我们买东西，80% 的购买行为都不是因为自己确实需要而买的，而是别人让我们买的。最典型的就是广告，或者直播带货，它们激发我们购买的欲望；然后就是各种各样的推荐、活动、券。大家现在是不是觉得自己对这些都不是很感冒了，对不对？但你就统计一下自己去年花了多少钱吧。你会发现里面 80% 的钱还都是别人让我们买的，不是我真的需要的。当然这些购买也不是什么坏事。它们开阔了我们的视野，让我们发现世界原来这么精彩，但客观上也给商家带来的价值。

数据科学工作的特点

当我们做一个数据科学的工作的时候，决定我们成败的，是数据、专家经验、模型，缺一不可。

首先，是数据要好。如果没有好的数据，再好的模型也没有用。如果你的数据特别乱，里面全是噪声也不行。所以，整理、清洗、理解数据会花我们很多时间。

其次，是专家经验。在海量的数据中，要找到一个故事，需要专家经验。比如，在海量的淘宝数据里面，挑出能够反映一个顾客特征的数据，除非你是一个在淘宝里面，做小二做了十几年，因此很有经验的人，否则你不知道在这么多的数据里面，哪些数据最能够反映一个人的习惯、喜好。所以这就需要人用自己的智能，去对数据进行分析、提取。所以人的知识、专家之经验，非常重要。到目前为止还没有一个模型说，把所有的海量的数据都送进去，就问你要什么就有什么。没有这样的。所以土建的数据就得土建的同学分析；经济的数据就得经济系的同学分析。大家的专业知识是很重要的。

最后，是合适的模型。这是另外的三分之一。因此，三分之一是数据，三分之一是你的专家经验，最后三分之一才是模型。

大数据的特点

对特别大的数据进行处理，需要特别的方法。

首先，它用分布式存储。分布式存储，就是一个文件，一台电脑存不下，只好分开用很多电脑存。

其次，它用分布式的计算。为什么分布式计算？因为我用很多电脑存文件，而一个存文件的电脑，是有CPU的，所以它就负责把自己这一块文件处理完了，然后再把结果合起来，这就是分布式的计算。

比如说我们现在在搜索引擎上搜索“北京交通大学”。百度收集了中国所有的网页。它一个电脑存不下，可能要用一万台电脑存。它就让这一万台电脑各自查自己存的网页，看里面有没有“北京交通大学”，所有电脑查完之后，再把结果汇总起来，做一个排序，再输出。

这就是分布式的存储和分布式的计算。这是大数据处理的一个基本的一个范式。

大数据应用的特点

大数据应用有三个特点：

首先，分析性的应用居多。比如电商网站，分析销售情况。

其次，读多，Append 多。因为主要是分析性的应用，所以读数据很多。然后新的数据来了，就会加到现有数据的后面。比如电商网站，我们新购物了，会添加一条我们的新的购物记录。

最后，很少更新。比如我们购物了。这条购物的记录，不需要更新。

Index