控制变量

我们然后讨论如何进行测量方法设计。

测量环境的控制和记录

在测量之前,我们要分析可能影响测量结果的各种因素,然后在测量的过程中,把它们控制住。

我们首先要分析“控制变量”。控制变量会对测量结果有影响。因此,我们就尽量控制住它。比如说。如果我们测量的这个数据会受到温度的影响,那我们就得在固定的温度下来测量。如果它受时间的影响,就要在时间上控制,比如说就早上八点钟测,或者工作日测量。然后有时候测量结果也可能和测量顺序有关,那我们就得固定测量顺序。

在测量期间,我们也要保持被测系统的稳定。比如说我们正在测这个系统的用户行为呢,另外一个部门的人没跟我们打招呼,把他的算法改了。这时候我发现这个用户行为就很不一样,因此就莫名其妙。这时候,我们就得跟大家都打好招呼,把大家都控制住,比如说:我在做一个重要测量,它关系到我们公司未来十年的发展,大家配合一下,不要乱动。

因为上述的原因,我们在合并多个数据源时,要非常小心,注意它们的控制变量和测量环境是否一致。不能把不一致的数据混在一起了,可能导致后续分析的困难。

因此,在测量的过程中,对控制变量的记录非常重要。任何影响实验输出的因素都要记录。否则数据分析的结果可能会与事实背道而驰。比如著名的辛普森悖论:如果不记录学生的“学院”这个因素,然后在分析的时候,控制住“学院”这个变量,按学院来分析不同性别学生的入学比例,那么观察到的结果,反而和事实并不相符。所以,在测量和分析的过程中,进行控制变量的记录和考虑,非常重要。

影响实验输出的因素可能很多,需要大家积累业务知识,并广泛交流,尽可能理解系统的内部机制和运行情况。比如,和系统的运维人员多交流。

示例

我们下面给大家举个例子。现在全世界的人都在说地球变暖,说空气中的二氧化碳浓度提高了,那怎么证明呢?

这个测量不容易。我们的问题是要理解全球的气候变暖和空气中二氧化碳浓度变化的关系。因此,它是一个很长时间尺度的、需要非常精确的测量。二氧化碳浓度的测量一般采用 PPM 这个量来测量,就是每 100 万个干空气的分子中,二氧化碳分子的数量。它每天的变化是非常微小的,所以它带来的气候变暖的影响是非常微妙的。显然,我们不能去淘宝上买一个几百块钱的测量仪,然后在宿舍里测。这样测三天之后,你可能发现:二氧化碳浓度怎么还降低了。然后发现这是因为最近交大绿树成荫,这些树吸收了很多二氧化碳,所以浓度变低了。这样测就不行。

我们下面设计科学的测量方法。

控制变量

我们首先寻找关键的“控制变量”,即测量地点。我们想想,和我们的目标人群(地球的二氧化碳浓度)相关的控制变量有哪些?通过和专业人士讨论,我们最后可能会发现,“地点”是影响空气中的二氧化碳浓度的重要控制变量。

我们然后寻找最合适的测量地点。它有以下要求:

首先,这个地点的环境必须十分稳定,几十年如一日的那种。因為我們要研究的是地球變暖,它是個很長期的过程。可能在我們一生中地球也就變暖一点点,所以我们要测量的二氧化碳浓度也是幾十年时间尺度内的變化。所以得找一个特别稳定的、幾十年如一日的地方。肯定不能在北京,对吧?得在人跡罕至的地方,比如青藏高原。对。

然后,地点和影响二氧化碳浓度的其他环境变量,如“植被”、“污染”、“海拔”,都息息相关。具体来说,植物有關係,因为植物吸收二氧化碳。“海拔”也有关系:不同海拔的空气,二氧化碳浓度不同。最后是“污染”:污染严重的话,二氧化碳浓度高。这些因素都取决于地点。

考虑到上述原因,科学家最后选择的测量地点是太平洋里的一个死火山。首先,这里一百年前和一百年后都差不多,环境特别稳定。其次,在火山这里进行测量还能控制住其他影响二氧化碳浓度的控制变量。比如,火山周圍没有植被。这就控制住了“植被”这个因素。火山的海拔高度很稳定,这就控制住了“海拔”这个因素。太平洋里的这个小岛沒有什麼污染。偶爾有一條船經過,它排放一点污染物也问题不大,这就控制住了“污染”这个因素。所以最终大家选定在太平洋上的一個死火山的火山口进行测量,周圍全是已经凝固的岩漿。

我们还可能发现,空气中的二氧化碳浓度和测量时间,比如季节、Time of Day 有关。因为一年四季,或者一天内太陽出來到落下,气温和空氣流動都不同。所以,我们在测量的时候,要进行周期测量,记录这些控制变量,然后在分析的时候,给予考虑。

参考文献

小结

我们接到任何一个数据科学的任务和数据后,要问下面几个问题:


Index Previous Next