日报标题:人人都在看「大」数据,费力调查出的数据还有用吗?
想象你面前有一群大学生,你需要了解他们的信息,那么对于信息的要求,不外乎三大类:
1,全面,能够反映这群人的整体情况
2,深入,让你知道一些更多维度且准确的信息
3,及时,你肯定希望这样的信息能尽快到手边来
这三项要求,满足其中一项,还是比较容易的。
你可以成为他们的辅导员,从大家的注册信息、历次考试成绩中,逐渐了解这个群体的大致情况,满足全面性;
你可以成为他们的一员,交几个好朋友,花上几天时间了解部分信息——比如其中某一个贫困生其实并不贫困,满足准确性;
或者你是一个第二天就要提交转系申请的同学,你坐在电脑前一下午,搜索了这个群体中一些人的知乎和微博,大致了解了今后朝夕相处的同学是什么样的人。
但这样的要求提高到两项时,就不是那么容易了,由此派生出了各种方法。比如,要同时满足全面性和准确性,你可能必须开展一次小规模人口普查,让每位同学都做一份问卷,但花去你半个月时间调查,再花一星期时间做数据整理和分析;要同时满足及时性和准确性,你必须从这个群体中设计一项抽样准则,抽取几个有代表性的同学出来,进行准确了解,但必须注意抽样是否科学,信息是否会有偏。这两种数据,事实上就是 census data(普查数据)和 survey data。
中国的 GDP 数据正是在这样的要求下进行的。国家统计局每 5 年进行一次经济普查,确定中国的基本单位情况,但每次普查需要一年时间,数据的清理再要花一年(全面而准确,但不能做到及时);在普查数据的基础上,确定抽样框,每年进行规模以上企业的数据直报和规模以下企业的抽样调查(准确而及时,但不能做到全面)。
将 census 和 sampling survey 两类方法结合在一起,就构成了我们所见的大部分统计数据的基础。这两种方法,每种都至少满足了两个要求,那么两者的结合是否就能同时满足三个要求了呢?
不能。
举个例子(中国的人口数据 - Clean Data - 知乎专栏),上海在全国人口普查的基础上,每年抽样千分之一点五的人口,计算他们的变动,结果在 2010 年低估 289 万人口。
再有,中国在第三次经济普查结束后,中国的 GDP 总量被向上调整,原因是之前的规下企业抽样漏掉了大量服务业企业(马建堂回应 GDP 数据修订:3% 多一点)。
钱花了,时间花了,大量人力也花上去了,为什么没法得到准确结果?原因就在于,我们对总体的了解,对总体的刻画,过于滞后了——每年抽取千分之一点五的人口,哪些人口的千分之一点五?每年抽取规下企业进行调查,可是样本框却是五年前的普查构成的,又如何抽取到新企业?
于是,我们就不得不在 survey data,census data 之外找到第三种选择,Big data,好的 Big data 能够满足全面性和及时性,但在准确性上不能要求太高。大数据的产生和收集过程成本相对较低,但却是基本完整覆盖的。比如,要调查某区域的失业率,你可以让所有的居委会大妈都四处查看,每半年一次报告,谁谁谁在家里蹲了半年啦,看来是工作丢了;或者派出调查队,每个月进行一次入户劳动力动态抽样调查,估算出一个失业率;或者是你可以直接使用这个区域的移动终端数据,计算他们在居住区到楼宇之间的往返移动状况,并在此基础上实时产生这个区域的“失业”情况。
当然,用移动终端的行为来判断失业,肯定有不准确的地方,比如是不是有人搬走啦,是不是有人有三台手机,是不是有人开始在家办公等等。但无论如何,这样的大数据非常及时地向我们揭示了群体中变动的特征,他们全面、及时,却又包含了许多噪音,这样的数据虽然不能直接进行政策研究和学术研究,但他提示了我们下一步的政策和研究方向可能去值得关注。
再比如之前人口和 GDP 的例子,大数据虽然不能直接产生结果,但是通过多种来源的大数据,移动终端数据、网购数据、企业招聘数据等,我们可以用相对较低的成本,较短的时间,了解到总体的变化大致是怎样的,告诉我们需要在哪里进行重点抽样和样本框的扩张。
现在我们知道了,census data、survey data 和 big data 其实都是在数据的三项需求中满足了两项,他们各自有一条短板。将大数据和普查数据、深入的微观调查数据结合起来,相互印证,我们可以得到更加准确的信息。
那么,有没有三项需求全部满足的数据呢?请看下图。