数据检查问题

咱们在干一个数据分析的活之前,总是问一下以下这些问题。

第一个问题是关于数据来源的。谁收集了这个数据?为什么要收集这个数据?这个很重要。比如说空气污染。这个数据是陈老师在家里用一个 20 块钱的设备收集的?还是环保局他们用专业设备收集的。这个不一样。陈老师就是想简单地看一眼,还是环保局要制定国家政策,这个要求是不一样的,所以数据的质量也不一样。根据这些数据来源信息,我们来决定这个数据是不是适用咱们的问题?

查看数据来源,是一个通用的技巧。我们现在在网上看一些新闻,首先要看这个新闻是谁发布的?这是最关键的。如果是新华社发布的,那么就还行。如果是什么自媒体博主发布的,那就要慎重。当然,不是说自媒体发布的就一定不好,只是我们要再细致地看一下,他的信息源又是哪,然后问问他为什么要去收集这个数据。这么一问的话,就能看出一篇文章的可信度。比如一些公众号,它的目的就是吸引流量,但有的公众号,它是一个公益组织,有很好的正确的目标。

数据来源的英文叫 Source。一般来说,只要把 Source 检验通过了,假新闻在你身上就没有效果了。在这方面,同学们都挺专业的,一般好像没有转发假新闻什么的,但我们要提醒自己的家人,因为他们的环境非常恶劣,比如刷抖音,他们经常以为抖音上那些高赞的视频,可信度就高。一定要为他们分享你学到的数据分析的基本方法。请他们学会鉴别。那些视频真的特别坑人。

第二个问题关于场景的,就是看数据是何时、何地被收集的。这也很重要,比如说疫苗数据是什么时候收集的?在南非收集的还是在美国收集的?这是不一样的。这个跟数据的场景有关。我们想要研究什么场景?假日还是平时?北京还是乡镇,是不一样的。

第三个问题是关于目标人群和测量方法的。目标人群是谁,测量人群尽量和它匹配;采用的测量仪器和方法怎么样?该校正的就做校正,该多测几次的就多测几次,把偏差降低,把精确度提高。

我们下面来做一个课堂练习:输入你心仪的职位的招聘需求,然后问 AI 下面的问题:


Index