日报标题:不仅要警惕「幸存者偏差」,也要警惕这个概念被滥用
这个答案说两件事:
1)“幸存者偏差”无非是一种选择偏倚
2)警惕“幸存者偏差”和警惕对“幸存者偏差”的滥用都有意义
假定对于一个很大的总体,我们有一个样本。我们试图通过手头的样本来找出总体的一个性质。具体来说,我们想知道的性质是:一个我们关心的变量 y,被一堆潜在的解释变量 X 中的哪些解释了。那么,最直观的做法是对样本的 y 和 X 取值做些统计分析,以对样本进行统计分析的结果来作为总体性质的猜测(或者说估计)。至于用什么方法,取决于面临的具体问题,或者说,我们对于希望找出的性质已经有了哪些知识,在这就不展开了。
但是这么干是有缺陷的。在做统计分析之前,应该问这么一个问题:样本是怎么来的。
理想的情况是:样本是从总体中等概率随机抽取的。但是现实并不一定就是这样。总体中每个个体进入样本的概率很可能是不同的。它可以跟 y 和 X 或者别的什么玩意相关。换句话说: 使用 Heckman(1979)的术语,管 叫做样本选择规则(sample selection rule,后文称 SSR),那么在对手头的样本做简单分析时,就会得到与 SSR 相关的错误。如果我们希望找的关系是一个线性的条件期望(单纯是为了举个容易理解的例子,非线性关系也有类似的结论),那么假设总体的 DGP(Data generating process)是 那么在存在一个不是常数的 SSR 时,对样本做回归,得到长这样的条件期望: 而它又等于(因为知道 的信息就等于知道了关于 的所有信息,所以知不知道 SSR,条件期望都一样):
那么,如果 ,那么通过对样本做回归得到的条件期望就等于两个东西相加:一个是假设 SSR 是常数时的条件期望,另一个是给定解释变量和 SSR,扰动项的条件期望。
由于总体的 DGP 是 ,所以条件期望 是总体 DGP 的无偏估计。而假如 不等于零,那么这个 SSR 的存在,就使得对样本做回归找出来的关系相对于真实的关系有了偏差。如果你已经从 @大象的答案里知道了有个概念叫选择偏倚,那么在看到这里的时候,你已经知道了什么样的选择方式会真的对估计结果产生影响——换句话说,真的会产生选择偏倚。
现在可以回到飞机中弹点的例子了。广为流传的版本是:机翼中弹的飞机生还概率远高于驾驶舱和机尾中弹的飞机。所以基于生还的飞机做出的应加强机翼的(统计?)决策是错的。统计学家 Wald 力主应加固机尾和驾驶舱,得到了正面效果,做出了正确决策。
那么在这个版本中,SSR 是什么呢?是生还与否,生还了选进去的概率为 1,没生还为 0。那么它产生了偏倚吗?产生了。更重要的问题是:偏倚得到纠正,靠得仅仅是找到 SSR 吗?我认为不是。尽管在这个版本中,有明确的信息表明 Wald 意识到了 SSR 的存在,但是并没有对 Wald 提出“加固驾驶舱和机尾”的决策的具体决策过程给出足够的信息。事实上,这位统计学家完全有可能找来几位经验丰富的飞行员,询问他们:“你们在作战的时候,最害怕飞机的什么部位被击中?”这些飞行员把自己阵亡的战友中弹部位的信息告诉了 Wald,才帮助 Wald 做出了应加固驾驶舱和机尾的决策。
换句话说,仅仅找到样本选择规则并且知道它有偏倚,可以做出的正确决策是拒绝用样本进行简单统计分析的结论,而并不足以分析出正确的结论。做出正确结论的方法当然有。前面说的询问老飞行员以获取更多信息算一个。但是单纯对 SSR 取反或者做些什么别的文章,可以分析出正确的结论吗?恐怕不行。网上常有人声称自己仅仅是知道了自己面临的问题中有什么样的“幸存者偏差”,并且通过“幸存者偏差”本身就分析出了(事后)正确的结论。对于这样的说法,需要动动脑子,看看能否把它和瞎蒙区别开来。毕竟瞎蒙也是有蒙中的概率的。但是瞎蒙离最大限度利用已有的信息作出决策常常有很大的距离。如果一个人拿“幸存者偏差”为自己瞎蒙蒙中的结论背书,那么他事实上是在滥用这个概念。