数据范围
拿到数据后,我们首先要问:这些数据和我们要研究的问题,匹配吗?具体来说,就是评估问题的目标人群和数据的访问人群,是否匹配,这就是数据范围(Scope)的问题。
数据来源
实际工作中,数据有很多来源。
首先是企业现有的内部数据集。我们到了公司岗位以后,会发现企业内部有很多数据。这些数据可能比较杂乱,分散在各处,质量还不太好。这时候,就像大家看过的岗位职责中要求的那样,我们需要首先建立一个数据的收集和分析体系,把这些分散在企业各处的内部数据,基于它的业务逻辑,捋清楚。所以,你可能要去访谈各个部门的领导人,把他部门的数据弄搞清楚,然后把企业内的各种数据库都搞清楚,最后理出一个数据收集和分析的体系。这个时间可能要弄个十天半月的,你带几个同学和实习生,来完成这个工作。
然后,我们可以新增测量数据。整理完企业现有的数据之后,发现这些数据不够系统、完善的话,我们就可以设计新增一些测量数据。然后给公司运营人员、程序员等提需求,要求记录和报告数据。
除了企业内部数据,我们还需要注意收集外部数据。比如我们看过的快手的招聘信息,它还要求我们收集和分析竞争对手的数据。这些数据包括两种:
首先是公开数据集。现在网上有很多的公开数据可以下载。比如有些比赛会公开一个数据集,还有各种研究机构发布数据集。这些数据通常被发布的人清洗过了。下载下来后,一般附有一个说明文档,里面包括数据的基本介绍,字段等。然后,各个政府部分和研究机构会定期地发布数据。比如疾控中心的数据就是公开的。然后我们还可以向一些数据厂商购买数据。
这一套数据收集和分析体系建立好之后,数据分析部门就成为公司的一个大脑、一个情报机构。“情报”的英文就是intelligence。咱们搞的是 business intelligence:商业情报,简称 BI。
基于这套数据分析框架,我们就可以做出各种发现。下图是一个时间序列图。图中有三根线。第一根线是谷歌记录的、和流感有关的用户搜索关键字的流行度随时间的变化。所以这是一个内部数据。如图所示,流感相关的单词的搜索热度,是随时间变化的:有时候高,有时候低。第二根绿色的虚线是美国疾控中心根据医院接诊的人数统计,画出的流感流行度的变化曲线。如图所示,两根线是很匹配的。这个例子表明:企业内部数据跟公共数据是可以匹配的。
数据检查
各种各样的数据,能拿过来就用吗?新手才会觉得数据越多越好。对于咱们学过大数据课的同学来说,拿到一个数据,要思考一些问题。这些问题体现大家的专业程度。以后你去面试你的手下,也要问他们会不会这些问题。
第一个问题是:这个数据跟我们要研究的问题匹不匹配?这是最重要的。比如说我们研究的目标人群是 23 岁到 25 岁的年轻人,那么咱们下载的一些数据很可能和这个目标人群不匹配。这时,如果你把它用进来,反而会让咱们得到错误的答案。就像打仗似的,情报失误造成的损失是非常惨烈的是吧?所以一定要分析数据是否和我们拟研究的问题匹配。
第二个问题是:这个数据用了怎样的测量方法。它是怎么测的,在哪里测的,什么时间测的?比如说我们想要分析现在的年轻人。我们找到一个数据,它是测量的年轻人,但是 30 年前测的。因为现在的年轻人和 30 年前的年轻人可能非常不同,所以,这个数据就可能不能用。还有就是要弄清楚它的测量仪器,比如说测温度。它是用电子温度计测的,还是水银温度计测的?测量总是有误差的。我们要了解清楚数据是怎么测量的,对数据的误差做到心里有数。
第三个问题是:这个数据中会不会有错误?我们不仅要细致地检查内部数据的质量,而且要特别小心检查外部数据的质量,因为外部数据来自于外面,有更多的安全风险。
上面三个问题,大家一定觉得是对的,但在实际工作中,因为时间紧、任务重,往往容易忽略,这就会造成很大的问题。专业的做法不是一上来就合并各种表格开始统计,而是先问清楚上面三个问题,把事情理清楚,再开始具体的数据分析工作。我们要把这些问题内化于心。遇到什么问题都要先想一下这些问题,这是后面的数据分析能够正确的结果,帮助我们正确决策的基础。否则,就容易前功尽弃,或者得到错误的答案,产生严重后果。
数据范围
我们下面看第一个问题:数据范围。数据范围有两个方面:首先,我们研究的问题有“目标人群”。其次,我们收集的数据有“访问人群”(Access Frame),就是我们实际访问、测量和观察的人群。
“目标人群”指的是我们研究的对象,是人口(Population)的概念。虽然它叫“目标人群”,但是它可以不是人,而是组织、产品、行业。这些都是我们的Target,就是目标。所以我们要瞄准这个目标人群。这个目标人群可能会很大,比如抖音就有十亿的用户。
“测量人群”指的是我们真正测量的人群,是统计抽样的结果。我们不能把抖音全部十亿的用户都拉过来测,是吧?这样成本太高了,而且我们受到很多现实条件的约束。测量人群和测量时间、地点、方法都有关系。比如你早上八点钟测,那睡懒觉的人群就没测到;晚上 12 点测呢?那早睡的又没测到。所以我们实际测量的人群,很可能比目标人群要少。
在实际中,我们要非常小心目标人群和测量人群的匹配问题。虽然我们不能把所有目标人群都测到,但我们要小心分析数据,确保测量的人群样本尽量和目标人群匹配。否则就会犯错误。
让我们看四个例子:
第一个例子是研究“奖励对网络用户做出贡献的激励作用”。比如“快手”这样的网站,它靠的是用户贡献内容。那么,这个网站的运营者想分析一下:如果我发奖的话,用户是不是会更加积极地发视频呢?这就是他的问题。
所以老板就来找我们了。老板说:我想弄这个活动,你帮我分析分析。我们先不大规模推广。你先帮我做一个实验,一个星期以后告诉我答案。如果这个实验做的效果好,咱们就推。如果效果不好咱们就算了。
面对这个任务,我们首先就要想:我们找哪些用户来测试呢?
一个简单的方法是找过去一个月中,在我们快手上发视频最多的 1% 的用户,进行测试。我们就准备给这前 1% 的用户发通知:我们现在有个新的活动,发视频的话,就奖励十块钱。然后我们就观察,收到这个通知的同学是不是会更积极地发视频。这看起来很简单,对吧?
这样选择的测量人群,是我们的问题想要研究的目标人群吗?如果我们对快手的用户了解更深入的话,可能就能发现问题。比如说有一个检验非常丰富的业务人员,你跟他很熟了,他愿意帮你。你就和他说:我现在有这样一个活动,你帮我提提意见。他可能就会提醒你:在这 1% 的用户里,已经有一部分人在领我们快手的补贴了,每个月补贴他 2000 块钱。所以这些人应该不是你的目标人群,因为对这些人来说,你再给他加十块钱,意义不大。所以对这些人来说,很可能你给他钱了,他的活跃度也不上升。这就可能给我们一个错误的结论。
所以测量人群到底和目标人群匹不匹配,需要对业务有充分的了解。对这个问题,通过对人群的深入分析,我们就发现“目标人群”应该是“还没有收到奖励的人”,因此得把已经收到了补贴的人排除掉。否则,我们会错误地包括这些已经收到了奖励的人,而他们的行为会干扰我们的实验结果,比如让我们误以为奖励的激励作用并不大。这就从一开始就把整个实验引入了歧途,让后面所有的工作都白费了。我们之所以年薪百万,就是因为我们专业,能保证结果正确。我们怎么专业?得在这些细节上专业,对吧?
第二个例子是选举的民调。选举之前,大家都想先通过民调,做个随机抽样调查,预测一下谁赢。
民调是依靠少数测量人群的,因此,测量人群的选择需要尽量反映目标人群的分布。我们的目标人群是那些投票的人,比如两周以后会投票的人。但我们又不可能把所有的这些人都找出来,事先问一遍,是吧?所以民调一般来说大概也就几千到一万人左右。这已经是很花钱的了。
我们用一张图来表示此时的目标人群和测量人群。首先,下面这个框是到时候会投票的人,他们是“目标人群”。那么,如果我们的测量人群选择得不好的话,我们会调查这个框外的、到时不投票的人。那么,他都不投票,你去调查他,是不是会给调查的结果带来偏差。所以我们要尽量避免这种情况,
第三个例子是调查环境污染对我们个人健康的影响。所以我们想要调查的是个人。但在测量的时候,我们是这么做的:我们把一个城市分成了很多小格子,每个格子里记录了它里面的环境污染因素,比如这个小格子里面有一个垃圾场,那个小格子里面有一个化工厂。然后每个格子里还记录了小格子里面的人的平均健康指标,比如哮喘发病率、白血病发病率,等等。这时,我们就要认识到,我们的测量人群的粒度是以小格子为单位的,因为它只给出了一个格子里的人的平均健康情况,不能落到个人身上。因此,它和我们的目标人群的设定是不匹配的。所以我们不能据此获得关于“个人”的研究结果。
第四个例子是科学实验。比如我们想要测北京的空气质量。我们只能采样。所以这个采样的点位就很重要:我是在颐和园测的,还是在二环路上测的?然后,仪器的质量也很重要:我们是自己在网上买一个 20 块钱的测量仪测的,还是用国家环保局 200 万的设备测的?最后,测量样本的情况也很重要:比如说我是一天到晚连续测,还是就每天早上八点钟测一下。这些测量方案的设计,决定了我们的测量人群的组成。它们能不能和我们的目标人群匹配,需要细致地设计。
所以,在问题提出,或者拿到一个数据后,分析数据的范围是首先要做的事,而且必须细致,因为它决定了整个研究的有效性。因为如果目标人群和测量人群不匹配的话,就会从一开始就把整个研究引入歧途,后面所有的工作做得再好,也是白费了。大家要首先要根据我们的问题分析目标人群,然后再比较数据的测量人群,看它们匹不匹配。
Index | Previous | Next |