日报标题:检方佯谬:警察冤枉我吸毒的概率到底是多大?
本文(除了题图以外的部分)支持付费转载,转载不妨艾特 湄公河行动、宋冬野、Bob Dylan 以及 韩春雨教授
明尼苏达人口在囚罪犯比例 0.17%,美帝各州倒数第二。瘾君子比例则与全国持平,都是 8%。知乎有问:「你认识的吸毒的人后来怎么样了?」——数学不好的文科知友也可以口算出 40 个里头不到 1 个去坐牢(.17% < .2% =)。然而大家从媒体得到的直觉印象完全不是这么回事,比如最近明州律政知友 @王瑞恩 对这个问题的回答就给我带来强烈的视觉冲击:他的办公桌上 27 份量刑意见案卷,有 26 份当事人测得三个月内染过毒品。大部分读到回答的知友第一印象应当和我一样:似乎 的吸毒者后来都犯事坐了牢。其实这个比例的分子没错,分母却错得离谱。这 26 位犯(非吸毒的其它)罪的吸毒者是从超过 ( 26×40 > 25×40 = ) 1000 位吸毒群众中逮出来的。
这个错误的直觉正是统计学中著名的「检方佯谬 / Prosecutor's fallacy」——的镜像。检方佯谬的故事说到,假如在上海这样的千万人口规模大城市,随机抽检 DNA 。您的 DNA 不巧被抽检出阳性,和最近发生的一起刑事案件现场罪证匹配。法医作证:歹徒参加检验 100% 检出阳性报告;其他人只有百万分之一的极端概率误报阳性。公诉的检方于是就要犯一个几乎所有人都会犯的错误,把这个极端小概率直接当作冤枉您的可能性——就是几乎不可能冤枉您。然而一千万群众,平均得有十位误报阳性。冤枉的比率,分子的确是 10,但分母不是一千万群众,而是 11 位阳性报告者—— 10 位倒霉群众外加 1 位真歹徒。
这个错误在统计学中非常有名,主流的频率学派 Neyman-Pearson 假设检验、小众的 Bayesian 学派,都会秀下面这张图。假设检验的教材多数漫不经心地把四块面积画成没有比例意义的田字格,左上格写「一类错误」,右下格写「二类错误」,右上格写「统计功效」,左下格啥都不写。Bayesian 学派精致一些,会画成下图两个高为 1 的阴阳方条,右边的阴阳条宽度写上(被频率学派无视的)「先验概率」。我们把 、、「先验概率」填成具体的数,操作化地演示「假设检验」、「检方佯谬」、「吸毒歧视」和「辩方佯谬」。
- 假设检验
图中数值来自很有真实感的假设检验示例,可以想成一个「没病 vs 有病」的实验效应研究场景。如果没病( )个体抽样误差导致 5% 的小比例 ( ) 误报阳性,这 0.05 画成左边阳方块的高度;如果有病 ( ),则有高达 85% 比例 ( ) 报告阳性,这 0.85 画成右边阳方块的高度,右边的阴方块高度就是二类错误 ( ) 0.15。研究者的论文先通过文字忽悠,让读报告的同行在看到数据结果之前已经相信有病 ( ) 的先验概率不少于 20%,对应右边阴阳条的宽度 0.2。然后论文祭出随机抽样统计得到阳性报告,于是读报告的同行先验概率 0.2 被阳性结果冲击成为后验概率 0.81,等于右阳条占两阳条面积的比例(计算式见上图的图下标注)。论文把对立阵营的死硬分子先旁敲侧击忽悠打动成具有 20% 疑心的不坚定份子,然后用神圣的客观数据致命一击,把不坚定份子说服到己方阵营——有超过 81% 把握相信真有病 ( ) 。
- 检方佯谬
检方佯谬左上阳条藏着 10 位倒霉群众,右阳条宽度只有千万分之一,高度却是 1,里头躲着那个歹徒。「您不是歹徒的后验概率」= 1 -「您是歹徒的后验概率」。检方把这俩后验概率的分母亮条 11 误当成「一类错误率」的分母左条一千万,坚信不可能冤枉您。
- 吸毒歧视
吸毒歧视正相反,见证 27=1+26 份案卷的读者,把 1 写在左亮条,26 写在右亮条。右亮条的宽度是吸毒率 8%,高度其实还不到 ,这个「统计功效」的分母是右阴阳条里超过 1000 位的吸毒者,却被误当成「后验概率」的分母 27 位案卷当事人。所以,检方佯谬更胜任的反义词是吸毒歧视,而不是他的法庭对手「辩方佯谬 / Defense attorney's fallacy」。
- 辩方佯谬
什么是辩方佯谬?假如您不是全上海抽查逮到的,而是在犯罪现场的社区比如复旦大学江湾校区不到 5000 人里头抽查逮到的。然后您的辩护律师援引本文来论证有超过 90%的概率被冤枉,他就犯了篡改先验概率的错误,学名辩方佯谬。同样的参数 ,先验概率从 调到 ,冤枉您的后验概率就只有不到千分之五。
在实际的应用场景,不同立场的利益相关方,先验概率可能相去甚远,原因很简单,大家掌握的数据不同,受到检验结果的冲击当然彼此不同。上一次数据冲击的后验概率,就是新一次试验的先验概率。有的研究组看到阳性结果,有的研究组看到阴性结果,更多的研究组重复试验 ,多次看到阳性结果。有兴趣的读者可以用附注网页或者 Excel 试试,在常见的 = .05,= 0.80 设计下,要把先验概率从 冲击到 0.99,需要连续地重复多少次独立的阳性结果。
附注:
- 比例图和代码详见:http://xiaoxu.lxxm.com/?s=Neyman 这个网页不仅给出图示的 R 代码,而且支持输入先验概率、一类错误、统计功效,在线更新图示算出后验概率
- 本文只限于类似「没病 / 有病」的两水平实验效应情形。不少统计教材给这张图配的例子是「实验组比对照组聪明若干标准差」之类连续实验效应情形,这是不妥的。本文可以用于支持这样的主张:两水平实验效应情形应当报告统计功效,因为不同的统计功效算出的后验概率差别挺大(其实不同的先验概率造成的差别一样很大)。不过,在连续实验效应场合,如果已经报告了效应的置信区间和点估计,再报告统计功效不仅无从估算、而且没有更多解读上的帮助。研究层面的这些讨论可详见 如何看待「Basic and Applied Social Psychology」禁用 p 值事件? - 李晓煦的回答
- Fallacy 在英文中是 Paradox 的一个义项,所以也常常被不精确地翻译为「检方悖论」。更恰当的翻译是「佯谬」,本义指「似假实真」,文献中也常常用来指佯谬命题的否命题「似真实假」。本文内容在复旦《心理统计学(一)》课程讲授,我在雪晴数据网还有个(免费的)在线教学讲座,是后续课程《心理统计学(二)》的一节:反事实因果与回归模型系列佯谬。讲座中的一小部分曾写在:歧视的根源是什么? - 李晓煦的回答。那个回答里「歧视」的操作化意义和本文的「吸毒歧视」正相反。也许两篇要合起来,才更好地解释「歧视」的理性的正确统计根源和直觉的错误统计根源。