日报标题:先别笑,「没来上课的举个手」这事,人们干过好多回
群体的智慧一定靠谱吗?并不一定。之前我对这个问题(从经济学角度来看,「随大流」通常是理性的吗?) 的回答(以及其它答主的回答)已经说明了,很多时候群体的选择未必是明智的。当我们在现实中想要应用“群体的智慧”时,几乎总是会遇上另外一个陷阱,那就是“Sample Selection Bias”(样本选择偏差)。
样本选择偏差其实只是一种统称,因而有许多奇奇怪怪的例子都会被归在这一偏差下面,简单地讲两个比较好玩的,知乎上应该已经有人写过了。
一个例子来自于上世纪的一次美国总统选举民调,某报社决定通过电话调查的方式来了解纽约居民对于总统选举的倾向,他们随机地从电话黄页上选择了一些居民的电话号码打了过去,调查结果显示共和党将会大获全胜。结果总统选举结果出来之后,报社尴尬地发现纽约竟然成了民主党的票仓,这是为什么呢?因为当时电话还并不普及,家里装住宅电话的都是有钱人,而当时共和党中的有钱人要比民主党多得多,所以在选择电话调查的一开始,这个随机调查就已经不够“随机”了。
另一个例子则发生在二战时期,数学家 Wald(如果你们知道 Wald Test 的话,就是这家伙发明的)曾经为美军工作过一段时间,当时已经是打完诺曼底登陆之后了,盟军已经推进到法国,经常派飞机去德国轰炸一番。结果这些飞机回来以后,维修师发现,这些飞机通常在发动机部分没有什么弹孔,其它地方倒是被弹孔打得密密麻麻,于是有人就建议,应该给弹孔更多的地方加装防御钢板。这时候 Wald 就站出来了,他认为应该把这些弹孔打透的地方的防护措施减弱,全部用来给发动机加防御,这是因为回来的飞机在发动机处没有弹孔说明被打着发动机的飞机都没回来,相反弹孔密密麻麻的地方就算再打得密密麻麻一点也不太会影响飞机飞回基地。
这两个例子大概都可以算作是“Non-Reporting Bias”,简单地说,就是老师上课之前问大家“今天有谁没来上课?没来的举个手”,然后发现没有人举手……前一个例子当中,没有电话的民主党人就无法报告自己的政治倾向,而后一个例子当中,发动机中弹的飞机自然也很少能成功回到基地。
那么 Sample Selection Bias 和群体的智慧的冲突在哪里呢?我们先来看另一个与群体智慧更加直接相关的例子,称为“朋友悖论”(Friendship Paradox)。由于这个现象最早似乎是在一个中国无法登陆的网站上发现的(你们懂的),我在这里把场景替换到情况类似的人人当中。
假如有一天你特别无聊,打算做一个奇怪的统计:你的人人好友的中位好友人数。举例来说,你有 700 个人人好友,其中有 100 人有 400 个好友,有 200 人有 600 个好友,有 400 人有 1000 个好友,那么你的人人好友的中位好友人数是 1000 人。
那么“朋友悖论”说的是什么呢?有一群数据科学家发现,如果我们对网站上的所有用户统计一下他的好友个数和他的好友的中位好友个数,有远超过 50%的用户的好友人数少于其好友的中位好友人数,或者说,有远超过 50%的用户在他的朋友圈子里受欢迎程度低于 50%的好友。
尽管粗看起来这个结论有些奇怪,但是仔细一想你就能明白这里面其实就是 Sample Selection Bias 的问题。如果你有 700 个人人好友,你的好友更有可能是只有一两个好友的用户呢,还是更有可能是有着 3000 好友的用户呢?显然后者更有可能出现在的你好友列表上,既然大家都更有可能结交更“交际花”的用户而不太可能结交没有朋友的用户,那么上述结论也就不难理解了。(这里需要指出一下,其实更好地说法应该是“朋友佯谬”(Friendship Fallacy),毕竟这只是一个反直觉但确实是正确的例子,而不像一般的悖论那样是既非正确也非错误的)
“朋友佯谬”不仅告诉我们,我们其实比我们的朋友更有可能不受欢迎(其实就算不说我也知道),而且指出了这样一个事实:如果有什么特性(attribute)是和热门程度(popularity)或者说曝光度是正相关的,那么我们对拥有这种特性的人群占整个人群的比例的判断很有可能会因为“朋友佯谬”而被放大。
比如,很多人觉得美国人就是 Party Animal,觉得周围的美国学生都是整天 Party,没事去酗酒飞叶子等等,然而是不是真的大部分美国学生都在做这种事呢?显然不是,实际上是因为那些经常出入 Party,或是喜欢约上狐朋狗友一块儿去酗酒飞叶子的家伙,往往是社交网络上更加受欢迎的存在,也就更有可能出现在你的社交网络的 Timeline 上,这就让你产生了美国学生都在 Party 的错觉。
这同样可以用来部分解释很多“Stereotype”(刻板印象)的存在,注意到很多刻板印象实际上是很不常见的,因而制造这种不常见现象的个体将会被更多人注意:显然不可能所有广东人都是“什么都吃”,但是因为有个别什么都吃的广东人,而这些人又比其它广东人更加“瞩目”,因而对于不熟悉广东的人来说,就会有“广东人都是什么都吃”的错觉了。
再比如一个老生常谈的问题,为什么飞机的失事率命名比火车要低得多,平均里程死亡人数也少得多(这个没查证),人们还是觉得飞机要比火车危险呢?如果你回想一下最近新闻里出现的火车出事事故和飞机出事事故,你就会发现,因为飞机一旦出事,通常都会有各种连篇累牍的报道,而火车事故有这样大仗势的,我一时半会儿也就只想到了温州动车事件。单从这个角度,就会让人们做出飞机比火车危险的判断。
我还记得《牛奶可乐经济学》的作者举过一个算是自黑的例子:康奈尔大学经常被认为是学生自杀人数较多的大学,然而事实上康奈尔的自杀率并不比其他著名学府要高(甚至还会低一些)。这其实是因为康奈尔有一座处在必经之路上的大桥,自杀的学生往往选择在这里纵身一跃,结果警车和救护车一来就封锁了交通,每当有自杀事件发生,大家都会印象深刻。而没有这种“便利”措施的学校,学生自杀通常就会采用更加“温和”的手段,比如上吊割腕或者吃安眠药,动静会小得多。两相比较,自然康奈尔就给民众留下了自杀率高的错觉。
昨天我读 Ph.D.的同学问我周围有没有得白血病的朋友,因为他有一个得白血病的同学刚刚非常幸运地骨髓移植成功出院了。我回想了一下,貌似从小学到高中再到大学都有过得白血病的同校同学,而且新闻里时不时地都会有给白血病患者募捐的新闻,这样一想感觉白血病的发病率确实很高。不过,虽然中国的白血病发病率确实在逐年上升(网上查到的数据是从 10 万人中有 3-5 人逐渐提高到如今的 10 万人中有 8-10 人),但是我们估计的白血病发病率的比例恐怕还是比实际的数据要高一些的,因为白血病现在已经成为受到媒体特别关注的一种疾病。
可以做一个简单的类比,白化病的发病率实际上和白血病相当,但是大多数人恐怕都没有接触过白化病患者,媒体也不怎么报道白化病病人需要募捐的新闻,因而如果让我们来估计白化病的发病率,估计值大概会比白血病的发病率低得多。再比如,中国盲人的比例大概在 0.65%(网上查到的数据),也就是每 200 人中就有一个盲人,但是我们平时接触的盲人也是很少的,盲人也没有得到什么广泛地关注,尽管我们大概有这样的概念,中国的盲人数量恐怕不会太少,但是如果让我们估计一下比例,恐怕更有可能会是大幅度的低估。
最后我们来尝试解释一下如下这个 Over Confidence 的现象:对司机的采访显示,大多数司机认为自己比大多数司机开车开得更好,这是为什么呢?
借用上面的想法,我们可以认为是这样的:司机判断自己的驾驶水平如何的标准是他接触到的其它司机,尽管大街上开车不错的司机很多,但是他印象更深刻的显然是那些开车更糟糕的司机,比如随意变道啦,不打灯或者乱打灯啦,而且那些经常上电视的司机基本上都是技术比较差劲的司机,比如开车开河里去了……由于水平更差和曝光度成正比,每个司机认为的司机整体水平通常会偏低,因而就觉得自己开得不错了。
多说两句,这个问题当然还有其它的解释。
比如用贝叶斯更新(Bayesian Updating)的模型:假定差司机一年有 5%的概率发生车祸,而好司机一年只有 1%的概率发生车祸,每个司机每年会根据去年自己是否发生车祸来更新自己是差司机还是好司机的后验概率,推导结果表明在这个模型下司机会高估自己是好司机的概率。
再比如,假定开车水平实际上不是一个单一维度的变量,而是由两个维度组成,不妨认为就是跟车水平和停车水平吧;每个司机对于这两个维度的重视程度不一样:有些司机觉得跟车水平比停车水平更重要,因此他会花更多的精力在提高跟车水平上而花更少的精力在提高停车水平上,结果是他的跟车水平处于中上而停车水平只有中下,而他又恰好是重视跟车水平的,那么他自然会觉得自己总的开车水平还算不错;反过来有些司机觉得停车水平比跟车水平更重要的,就会提高自己的停车水平而不重视跟车水平,结果是他也觉得自己的开车水平还算不错。当然我们也可以扩展到更多的维度,但是结论是类似的。这个模型很容易应用到现实中,比如说每个职业都会觉得自己是最痛苦的,因为他们用来衡量哪种职业更痛苦的标准通常就是使得自己的行业最痛苦的标准……