两种方案的比较

我们下面通过一个比较两种方案的例子,说明数据范围和控制变量对测量结果理解的重要性。

在实际中,咱们经常做 A/B 测试,以比较两个方案。比如老板说:我们要不要做这个活动?挑 100 个人做一下 A/B 测试?结果好,我们再推广。

A/B 测量不仅适用于公司,而且适用于国家。小平同志说的:摸着石头过河,就是一种 A/B 测试。他说你大胆地试。试什么呢?就是做 A/B 测试。比如说改革开放,他让一个地区当 A,另一个地区当 B:A 先开放,B 就在旁边看着。最后 A/B 测试的结果出来了,大家看看结果,自然地也就知道该怎么办了,用不着小平同志再去解释说明了,对不对?他就说不管黑猫、白猫,抓到老鼠的就是好猫。黑猫就是 A,白猫就是 B。他就是说:我们做 A/B 测试吧,最后谁抓到老鼠了,就选这只猫。就是这个意思。

A/B 测试需要对数据范围和控制变量进行细致的设计。我们前面学的内容告诉我们:实验结果和测量人群、控制变量的关系很大。没错吧。如果 A/B 测试的测量人群不一致、控制变量不一致,那两个方案的测量结果之间很可能就没有可比性。

我们下面看一个例子。

我们同学们在大学期间都经历过一场特别痛苦的疫情,是吧?这是陈老师从来没有想过会经历的。陈老师从上世纪 70 年代开始,经历改革开放,直到 2020 年。这几十年中国真的太顺了!什么战争、瘟疫都没有。大家都特别开心。你们也是独生子,从小受到爸爸妈妈爷爷奶奶的宠爱,天之骄子。结果来一场瘟疫,这个真的是没想到,特别可怕。确实是痛苦的回忆。

大家还记不记得,在疫情中,咱们有很多疫苗。疫苗都是政府采购。那么政府就要选择到底采购哪个疫苗了。但是这些疫苗不是同时上市的:大家都在拼命地抢时间,做实验,想快点上市,挽救大家的生命。所以有的疫苗上市早一点,有的疫苗上市的晚一点。

疫苗出来后,要做实验,确定它的有效性。大家还记不记得,当时咱们中国的疫苗好像是到巴西做的实验?因为那时我们中国控制得特别好,没有什么人得病,所以要做实验,却没有病人。所以我们赶紧请国外的朋友帮忙做实验。各种疫苗都是这样的。

所以现在一位市长说我要采购疫苗,所以我要比较两种疫苗的性能。他看到两个疫苗都在 3 万个人身上测试了,一种的有效性是 65%,另一种是95%。那这个市长应该选第二种吗?

大家学过前面的内容后,就知道这个比较没这么简单,因为这里有数据范围和控制变量的问题。按照我们前面学过的,我们首先要搞清楚这些数据的 范围。我们要问问题:谁测的,测谁的,什么时候测,在哪里测的,等等。

一旦大家问这个问题,就会发现:这个有效性 65% 的疫苗 A 啊,针对的是 18 岁及以上成年人。这些人里,有 40% 是患有与患严重新冠风险增加相关的疾病的,比如本来就可能有呼吸系统疾病、心细管疾病。实验的时间呢,是 2020 年 10 月到 11 月。实验的地点呢包括三个州,八个国家,特别是它包括了美国和南非。而疫苗 B,它主要是在美国实验的。49% 的实验者有继往病史。它的测量时间是在 2020 年夏季的早期。

这时候我们发现:这两个测量人群以及控制变量都不太一样。

首先,测量地点不一样:A 的测量人群是美国和南非,B 的测量人群是美国。南非的医疗条件没有美国好,所以,南非的疫情更严重;此外,南非还有各种很厉害的病毒的变种。这都导致测量人群的不同。

其次,测量时间不一样:A 测量的夏季早期,病毒还没有 10 月那么厉害,美国的病例还处于低点,疫情基本上给控制住了,显得疫苗有效性比较高;但到了 10 月份,美国疫情就快不行了,病例急剧上升。这也导致测量人群不一样。

因此,科学家后来就告诉市长:这两个疫苗的有效性不能简单地比较大小。所以据说后来市长最后就两种都采购了。

这就是一个实际工作中我们经常会遇到的 A/B 测试问题。所以以后如果老板说:这个方案的有效率是 60%,但是那个方案去年测得的有效率是 95%,所以这个方案还是不行。我们就得发挥一下专业知识,给老板分析一些去年的测试结果和今年的测试结果,在测量人群和控制变量上可能都不一致了,所以得再细致地分析。

上面的例子说明,我们问数据 Scope 的问题,是非常有用的吧。不能简单地认为 65 低于95,所以疫苗 A 就比疫苗 B 差啊。这才是专业的态度。


Index Previous Next