数据范围

拿到数据后，我们首先要问：这些数据和我们要研究的问题，匹配吗？具体来说，就是评估问题的目标人群和数据的访问人群，是否匹配，这就是数据范围（Scope）的问题。

数据来源

实际工作中，数据有很多来源。

首先是企业现有的内部数据集。我们到了公司岗位以后，会发现企业内部有很多数据。这些数据可能比较杂乱，分散在各处，质量还不太好。这时候，就像大家看过的岗位职责中要求的那样，我们需要首先建立一个数据的收集和分析体系，把这些分散在企业各处的内部数据，基于它的业务逻辑，捋清楚。所以，你可能要去访谈各个部门的领导人，把他部门的数据弄搞清楚，然后把企业内的各种数据库都搞清楚，最后理出一个数据收集和分析的体系。这个时间可能要弄个十天半月的，你带几个同学和实习生，来完成这个工作。

然后，我们可以新增测量数据。整理完企业现有的数据之后，发现这些数据不够系统、完善的话，我们就可以设计新增一些测量数据。然后给公司运营人员、程序员等提需求，要求记录和报告数据。

除了企业内部数据，我们还需要注意收集外部数据。比如我们看过的快手的招聘信息，它还要求我们收集和分析竞争对手的数据。这些数据包括两种：

首先是公开数据集。现在网上有很多的公开数据可以下载。比如有些比赛会公开一个数据集，还有各种研究机构发布数据集。这些数据通常被发布的人清洗过了。下载下来后，一般附有一个说明文档，里面包括数据的基本介绍，字段等。然后，各个政府部分和研究机构会定期地发布数据。比如疾控中心的数据就是公开的。然后我们还可以向一些数据厂商购买数据。

这一套数据收集和分析体系建立好之后，数据分析部门就成为公司的一个大脑、一个情报机构。“情报”的英文就是intelligence。咱们搞的是 business intelligence：商业情报，简称 BI。

基于这套数据分析框架，我们就可以做出各种发现。下图是一个时间序列图。图中有三根线。第一根线是谷歌记录的、和流感有关的用户搜索关键字的流行度随时间的变化。所以这是一个内部数据。如图所示，流感相关的单词的搜索热度，是随时间变化的：有时候高，有时候低。第二根绿色的虚线是美国疾控中心根据医院接诊的人数统计，画出的流感流行度的变化曲线。如图所示，两根线是很匹配的。这个例子表明：企业内部数据跟公共数据是可以匹配的。

数据检查

各种各样的数据，能拿过来就用吗？新手才会觉得数据越多越好。对于咱们学过大数据课的同学来说，拿到一个数据，要思考一些问题。这些问题体现大家的专业程度。以后你去面试你的手下，也要问他们会不会这些问题。

第一个问题是：这个数据跟我们要研究的问题匹不匹配？这是最重要的。比如说我们研究的目标人群是 23 岁到 25 岁的年轻人，那么咱们下载的一些数据很可能和这个目标人群不匹配。这时，如果你把它用进来，反而会让咱们得到错误的答案。就像打仗似的，情报失误造成的损失是非常惨烈的是吧？所以一定要分析数据是否和我们拟研究的问题匹配。

第二个问题是：这个数据用了怎样的测量方法。它是怎么测的，在哪里测的，什么时间测的？比如说我们想要分析现在的年轻人。我们找到一个数据，它是测量的年轻人，但是 30 年前测的。因为现在的年轻人和 30 年前的年轻人可能非常不同，所以，这个数据就可能不能用。还有就是要弄清楚它的测量仪器，比如说测温度。它是用电子温度计测的，还是水银温度计测的？测量总是有误差的。我们要了解清楚数据是怎么测量的，对数据的误差做到心里有数。

第三个问题是：这个数据中会不会有错误？我们不仅要细致地检查内部数据的质量，而且要特别小心检查外部数据的质量，因为外部数据来自于外面，有更多的安全风险。

上面三个问题，大家一定觉得是对的，但在实际工作中，因为时间紧、任务重，往往容易忽略，这就会造成很大的问题。专业的做法不是一上来就合并各种表格开始统计，而是先问清楚上面三个问题，把事情理清楚，再开始具体的数据分析工作。我们要把这些问题内化于心。遇到什么问题都要先想一下这些问题，这是后面的数据分析能够正确的结果，帮助我们正确决策的基础。否则，就容易前功尽弃，或者得到错误的答案，产生严重后果。

数据范围

我们下面看第一个问题：数据范围。数据范围有两个方面：首先，我们研究的问题有“目标人群”。其次，我们收集的数据有“访问人群”（Access Frame），就是我们实际访问、测量和观察的人群。

“目标人群”指的是我们研究的对象，是人口（Population）的概念。虽然它叫“目标人群”，但是它可以不是人，而是组织、产品、行业。这些都是我们的Target，就是目标。所以我们要瞄准这个目标人群。这个目标人群可能会很大，比如抖音就有十亿的用户。

“测量人群”指的是我们真正测量的人群，是统计抽样的结果。我们不能把抖音全部十亿的用户都拉过来测，是吧？这样成本太高了，而且我们受到很多现实条件的约束。测量人群和测量时间、地点、方法都有关系。比如你早上八点钟测，那睡懒觉的人群就没测到；晚上 12 点测呢？那早睡的又没测到。所以我们实际测量的人群，很可能比目标人群要少。

在实际中，我们要非常小心目标人群和测量人群的匹配问题。虽然我们不能把所有目标人群都测到，但我们要小心分析数据，确保测量的人群样本尽量和目标人群匹配。否则就会犯错误。

让我们看四个例子：

第一个例子是研究“奖励对网络用户做出贡献的激励作用”。比如“快手”这样的网站，它靠的是用户贡献内容。那么，这个网站的运营者想分析一下：如果我发奖的话，用户是不是会更加积极地发视频呢？这就是他的问题。

所以老板就来找我们了。老板说：我想弄这个活动，你帮我分析分析。我们先不大规模推广。你先帮我做一个实验，一个星期以后告诉我答案。如果这个实验做的效果好，咱们就推。如果效果不好咱们就算了。

面对这个任务，我们首先就要想：我们找哪些用户来测试呢？

一个简单的方法是找过去一个月中，在我们快手上发视频最多的 1% 的用户，进行测试。我们就准备给这前 1% 的用户发通知：我们现在有个新的活动，发视频的话，就奖励十块钱。然后我们就观察，收到这个通知的同学是不是会更积极地发视频。这看起来很简单，对吧？

这样选择的测量人群，是我们的问题想要研究的目标人群吗？如果我们对快手的用户了解更深入的话，可能就能发现问题。比如说有一个检验非常丰富的业务人员，你跟他很熟了，他愿意帮你。你就和他说：我现在有这样一个活动，你帮我提提意见。他可能就会提醒你：在这 1% 的用户里，已经有一部分人在领我们快手的补贴了，每个月补贴他 2000 块钱。所以这些人应该不是你的目标人群，因为对这些人来说，你再给他加十块钱，意义不大。所以对这些人来说，很可能你给他钱了，他的活跃度也不上升。这就可能给我们一个错误的结论。

所以测量人群到底和目标人群匹不匹配，需要对业务有充分的了解。对这个问题，通过对人群的深入分析，我们就发现“目标人群”应该是“还没有收到奖励的人”，因此得把已经收到了补贴的人排除掉。否则，我们会错误地包括这些已经收到了奖励的人，而他们的行为会干扰我们的实验结果，比如让我们误以为奖励的激励作用并不大。这就从一开始就把整个实验引入了歧途，让后面所有的工作都白费了。我们之所以年薪百万，就是因为我们专业，能保证结果正确。我们怎么专业？得在这些细节上专业，对吧？

第二个例子是选举的民调。选举之前，大家都想先通过民调，做个随机抽样调查，预测一下谁赢。

民调是依靠少数测量人群的，因此，测量人群的选择需要尽量反映目标人群的分布。我们的目标人群是那些投票的人，比如两周以后会投票的人。但我们又不可能把所有的这些人都找出来，事先问一遍，是吧？所以民调一般来说大概也就几千到一万人左右。这已经是很花钱的了。

我们用一张图来表示此时的目标人群和测量人群。首先，下面这个框是到时候会投票的人，他们是“目标人群”。那么，如果我们的测量人群选择得不好的话，我们会调查这个框外的、到时不投票的人。那么，他都不投票，你去调查他，是不是会给调查的结果带来偏差。所以我们要尽量避免这种情况，

第三个例子是调查环境污染对我们个人健康的影响。所以我们想要调查的是个人。但在测量的时候，我们是这么做的：我们把一个城市分成了很多小格子，每个格子里记录了它里面的环境污染因素，比如这个小格子里面有一个垃圾场，那个小格子里面有一个化工厂。然后每个格子里还记录了小格子里面的人的平均健康指标，比如哮喘发病率、白血病发病率，等等。这时，我们就要认识到，我们的测量人群的粒度是以小格子为单位的，因为它只给出了一个格子里的人的平均健康情况，不能落到个人身上。因此，它和我们的目标人群的设定是不匹配的。所以我们不能据此获得关于“个人”的研究结果。

第四个例子是科学实验。比如我们想要测北京的空气质量。我们只能采样。所以这个采样的点位就很重要：我是在颐和园测的，还是在二环路上测的？然后，仪器的质量也很重要：我们是自己在网上买一个 20 块钱的测量仪测的，还是用国家环保局 200 万的设备测的？最后，测量样本的情况也很重要：比如说我是一天到晚连续测，还是就每天早上八点钟测一下。这些测量方案的设计，决定了我们的测量人群的组成。它们能不能和我们的目标人群匹配，需要细致地设计。

所以，在问题提出，或者拿到一个数据后，分析数据的范围是首先要做的事，而且必须细致，因为它决定了整个研究的有效性。因为如果目标人群和测量人群不匹配的话，就会从一开始就把整个研究引入歧途，后面所有的工作做得再好，也是白费了。大家要首先要根据我们的问题分析目标人群，然后再比较数据的测量人群，看它们匹不匹配。

Index