Quantcast
Channel: 知乎日报
Viewing all articles
Browse latest Browse all 20608

「数据会说谎」的真实例子有哪些?

$
0
0

日报标题:事关 200 万人的死因,理解数据需要一场博弈

Manolo,经济学/历史学爱好者,计划申请JD。

举一个事关 200 万人死因的例子,来自 Drixler(2016)。核心结论在最后一段。

出生后几天内已经死去的婴儿,统计有可能归入三类。一是胎死腹中(stillbirth),二是出生后死亡(death in postpartum),三是杀婴(infanticide)。1868-1945 年,日本一部分郡的死胎率异乎寻常地高。从下图可以看到,有许多郡都在 10% 以上,少数甚至在部分年份超过 20%。

日本当时的户籍制度很严格,采集的数据大部分比较可靠。不过,死胎这部分是居民自己报告。因此,有可能是新生儿父母杀掉孩子,再用死胎名义上报。这里,死胎这个数据撒谎没有?如果有,怎么找出问题?接下来的分析可能比较繁复冗长,望诸位多一点耐心。

上面这张图把数据画到了日本地图上。颜色越深,死胎比率越高。有三个地方尤其聚集:一是关西兵库县附近,二是关东千叶县附近,三是西本州广岛附近。日本不算大国,这么一块地方,有几个点死胎率比其它地方高 5% 甚至 10%,不寻常。如果数据真实,这几个地方应该有特别之处。

第二个疑点是数据本身高得离谱。上图来自 Drixler 附表的一部分,表中有全球各地大量记录 1578-2010 年死胎率的数据。几乎没有国家这个数字会超过 10%,欧洲迄今为止最高是 1809-1810 年的斯塔拉斯堡,9%。超过 10% 而不属于日本的例子只有三个:1923-1924 年美国 22 个州的非裔、1915-1949 年的毛里求斯、1867-1946 年安提瓜的殖民者。大范围长时段超过 10%,亘古未有。

第三个疑点是性别比。见上图,黑点是除日本外世界各国死胎的性别比,白点是日本死胎的性别比。除日本外所有样本,只有 3.5% 性别比低于 115,每 100 个女胎对应 115 个男胎。而日本超过 50% 的数据低于 115。女孩子消失了。见下图,随时间推移,总死胎率下降,性别比也慢慢恢复正常。

尽管疑点多多,学者传统上还是接受这套数据,并且找了很多很多解释,比如经济差距、营养不良和传染病等。但是,简单的回归就可以瓦解这些解释。把死胎率对人均 GDP、城市化率、10 年后新兵身高、女性维生素 B1 缺乏症患病率、孕产妇死亡率和梅毒死亡率回归,无一显著。

可以进一步做更有力的批评。首先,现有估计表明日本在 1900 年前后人均卡路里日摄入量达 2000 卡。其次,对比其它几次著名饥荒,1866-1868 年芬兰饥荒饿死全国 7% 人口,死胎率从 3% 上升到了 4.3%。1899-1900 年印度饥荒期间死胎率估计是 5.1%,中国三年饥荒期间这个数字不到 2%。

另一种常见的解释是日本妇女干重活。问题在于:首先,大范围研究显示重体力活实际上减轻了死胎率;其次,死胎率高发地区大部分集中于城市,而承担体力活较多的一般是农村妇女。实际上城市整体死胎率比农村要高 1.15 倍。

另一常见解释是环境污染。日光铜矿(the Ashio Copper Mine)恰好与关东地区死胎数目最多地区重合。但是,如果把图画得更细一些,受铜矿污染影响地区与死胎比例最高地区并不重合。对神冈锌矿(the Kamioka Zinc Mine)的类似研究得到了一致的结论。

贫血、梅毒、天花、猩红热、疟疾等疾病也是常见解释。不过,有数据的,做回归都不显著。国际比较也不支持这些解释。以梅毒为例,坦桑尼亚研究显示,患梅毒导致死胎率升高不超过 1%。玻利维亚梅毒产妇,整体死胎率是 2.3%。

也可能是政府编造了数据。但是,死胎率高地区倾向于集聚,边界处死胎率数据变化平滑,数据整体服从本福德法则,各地区编造几无可能同时满足这几点。最后一项可能是个人为了逃避死亡登记麻烦(当时规定出生后死亡要额外报告填表),把出生后几天胎儿报成胎死腹中。这有可能,但这部分数目相比死胎不大。同样有可能的一点是出生后死亡里也掩盖了一部分杀婴。上面这张图显示:死胎率高的地方,婴儿刚出生就死亡的比率也高。这里和前面的误报可以抵消一部分。

因此,所谓的死胎数据很可能骗了人,其中很大一部分可能干脆就是被杀死,然后说成是出生前就死了。作者用国际数据作了推算,按最保守假设,日本这段时间内有 170 万杀婴报成了死胎;按最松的假设,这个数字是 280 万。数据仅供参考,详细步骤见原文。这也是开头第一句话的来源。

最后说一点。尽管拿出了这么多证据,作者是不是真的证明了这个数据在骗人呢?没有,只能说这个数据很可能不靠谱。对杀婴的估计更加只能是参考了。日常生活中,我们可能没有精力,也没有能力去从这么多方面检查我们要用的数据,最好的办法是什么?

我的答案是用博弈的观点看数据,看汇报数据、使用数据的人有没有激励操纵。他们有计策,自己有对策,把数据从偏离方向往回打个折。至于具体打多少,这也算是数据分析大师和菜鸟间的区别之一。如果对面知道你会打折扣,问题就更复杂了。数据有坑的另外一些例子可见知乎专栏

参考文献:Drixler F F. "Hidden in Plain Sight: Stillbirths and Infanticides in Imperial Japan"[J]. The Journal of Economic History, 2016, 76(3):651-696.

补充:

现代化之前杀婴是常见现象,现代也不少。比较常见的两个原因是养不活(没有可靠避孕和流产方法、贫困、缺乏社会救济)和名誉问题。另外前面指出死胎数据里男女比例不对,重男轻女会会导致杀害女婴现象发生。女婴异常死亡是亚洲地区男女比例偏高的所谓 missing woman puzzle 的重要原因。这个答案有很好介绍:有哪些有意思的经济学之「谜」


Viewing all articles
Browse latest Browse all 20608

Trending Articles