Quantcast
Channel: 知乎日报
Viewing all articles
Browse latest Browse all 20608

数据分析会骗人吗?会,而且是花样翻新地骗

$
0
0
邹昕,互联网数据分析

会。

先定义“骗人”:给人提供错误的结果或给人带来误导。

数据来源、分析过程、人的因素都可能带来骗人的效果,比如上过一些基本的统计课的人可能第一节课上就会听到一句话,垃圾进垃圾出(garbage in, garbage out),通常来说形容的是数据来源质量不高,那么从数据中也很难得到有效的信号。从垃圾堆里找信号,很有可能就会把人带进坑里。

这里主要讲讲分析过程中可能遇到的情况,导致有意或者无意带来了“骗”人的后果。

1. 数据可视化骗人

俗话说一图值千言,数据可视化在数据分析中占有举足轻重的地位,而数据可视化也是“骗人”的重灾区。

1.1 更改的坐标轴

有时候是有意的(比如说需要强调自己的某一个看法),有时候是无意的(比如说 Excel 会自动调整)。

以下图为例,乍一看这球员 2013 年跟 2012 年投球速度差得也太多了,掉了一半多不止,这一年发生了什么惊天动地的事情。再仔细看,无非是从 77.5 降到了 75.3,差别小得很。当然做这张图的人还是有点节操的,虽然纵坐标轴弄得很奇葩,但至少把数据标出来了,字体也不算太小。

图片来源:https://blog.heapanalytics.com/wp-content/uploads/2014/04/misleading1_baseball.jpg

这一类的例子数不胜数,包括答主实际工作中也曾无意犯过这样的错误。

再来一波例子:

GDP 趋势图:

胜率对比:

图处来源:A Quick Guide to Spotting Graphics That Lie

1.2 累积分布图

看历年数据趋势的时候,很多时候是既可以看每年的单独分布,也可以看累积分布的,比如说销量、利润等等。有时候碰上今年的销量或者利润不如去年,如果看逐年销量或者利润,则很容易看到下降的趋势。若改成累积分布图,下降的趋势就很容易被抹去了。

比如说 iPhone 2016 年预计销量要比 2015 年低,像下图这样看每一年的话,一眼就看出来销量下降了。

图片来源:The end of the iPhone's amazing eight-year run

反之如果改成累积分布图呢,是不是好看多了?

1.3 颠倒黑白

虽然说同样的数据可以有不同的解读,可以有不同风格的分析方法,然而有一些基本的套路还是要遵守的,比如说饼图(pie chart)用百分比的时候加起来总和为 100%,纵轴往上为正,往下为负。

但是,偏偏有些人就喜欢玩新花样,比如说下面这张图,讲的是美国佛罗里达州通过城堡法之后的命案数。乍一看一个巨大的下降啊,再仔细看左边纵坐标的标识,0 居然在最上面,越往下居然是越大?简直就是坑爹嘛。

图片来源:http://www.businessinsider.com/gun-deaths-in-florida-increased-with-stand-your-ground-2014-2

除了这些数据可视化很容易带来骗人的效果以外,有时候一些简单的数据一不留神也会让人掉进坑里,比如说知乎上最近这个问题:

为什么我国人才流失如此严重? - 社会 - 知乎

现排名第一的解读一针见血:因为算错了。

为什么我国人才流失如此严重? - etesian 的回答 - 知乎

我在另外一个回答里提到了一些数据分析过程中常犯的错误,如果实际生活、工作中不小心犯一这些错误的话,也会带来“骗人”的效果。

数据分析中会常犯哪些错误,如何解决? - 邹昕的回答 - 知乎

其中错把相关性当因果性在工作中比较容易避免,但是在实际生活中中招的机会就大多了,甚至连名校的学者都可能中招。2013 年,一项来自普林斯顿的研究通过对比 'MySpace' 关键词搜索量和 MySpace 的发展趋势的相关性,再联系以 'Facebook' 为关键词的搜索趋势,最后得出结论到 2015 - 2017 年之间,Facebook 将会失去至少 8 亿用户【1】。于是 Facebook 的数据科学家 Mike Develin 利用论文里的方法展开反击,半开玩笑半认真的得出结论,到 2021 年,普林斯顿将会一个学生都没有了。而更为恐怖的是,利用相同的研究方法,到 2060 年,地球的空气将不复存在【2】。原文链接附在本回答最后,考虑到需要翻墙,大致把思路在这里列一下。

首先来看 HPY 三个学校的 Page Likes (类似于页面订阅)的历史趋势。

再来看看 Google Scholar 上以 Princeton 为关键词得到的论文数量:

虽然论文数量本身不代表什么,但是再看看各个学校论文数量跟学生人数的相关性:

再来看看 Google Trends 上以 Princeton 为关键词的搜索量,这么下去,Princeton 到 2020 年就要玩完了啊!

当然了,这还是不最恐怖的,看看 Google Trends 上以 'air' 为关键词的搜索量的历史趋势,到 2060 年,地球上连空气都没人,大家都要玩玩。

【1】Epidemiological modeling of online social network dynamic

s

https://arxiv.org/pdf/1401.4208v1.pdf

【2】 Debunking Princeton https://www.facebook.com/notes/mike-develin/debunking-princeton/10151947421191849


Viewing all articles
Browse latest Browse all 20608

Trending Articles