日报标题:以后,用机器处理经济学问题?现在就已经在用了
没有人邀请我,强行来答。
我之前在一家公司兼职,做一些「大数据」与传统银行业相关的事情,在这个问题上还是有很多想法的。当然,由于签了保密协议,具体的业务内容和技术细节恕不透露。
按照我回答问题的一贯风格,在回答问题之前,先把「定义」这个问题搞清楚。什么是大数据?
我想这个问题不同的人有不同的理解,我理解的大数据有这么几个层次:
1、数据量大。这个「大」也有不同层次的理解,要么观测数非常多,要么干脆直接是「全样本」数据。这一点上,对传统的数据存储、计算等都提出了比较高的要求,比如分布式的存储和计算。这是「大数据」的第一个「大」。
2、变量多,维数高。这是一个「幸福的烦恼」。对于每一个观测,我们有很多很多维度可以描述清楚这个个体。对于每个人,在社会经济生活中的一举一动,都有可能被某台服务器忠实的记录着,这个潜在的变量规模是不可想象的。甚至,随着文本挖掘、图像识别等技术的进步,我们可以从各种自己想要的维度来挖掘出需要的变量。这是「大数据」的第二个「大」。
3、围绕着海量数据、高维数据的数据分析方法。包括但不仅限于传统的统计方法、回归、Logistic、SVM、决策树、聚类、PageRank、神经网络......等各种各样正在飞速发展的数据挖掘方法。
以上的理解是我个人的理解,如果有什么不对的地方,欢迎讨论。
题主的问题是机器学习在经济学中的应用,但是在这个答案里面,我想更多的讨论一下,「大数据」与经济学的相互影响。
先说「大数据」对经济学的影响吧。至少现在来看,虽然越来越多的经济学家开始关注机器学习、大数据,但是对经济学的影响其实有限。但是未来呢?不好说。
首先是,机器学习的很多方法本来就是经济学家获得数据的潜在来源。比如文本挖掘的算法,据我所知,已经有人将其应用在了论文中(文章并未公开,所以保密)。这些海量的数据使得经济学的很多领域,比如对社交网络的研究成为了可能。未来当经济学家对某个问题感兴趣的时候,得益于「大数据」的发展,可能更少的受到数据的制约。
与此同时,从方法论的角度来看,大数据无疑也会对经济学形成冲击。如果未来的经济学不得不与「大数据」打交道,那么相应的,方法论上必须有相应的发展。传统的经济学最为关注的莫过于识别问题,在「大数据」的条件下,如何仍然能得到清晰的识别?可能在理论上还存在着大量的空白。比如,在 Chetty 等人的这篇文章:多而无效工具变量下的识别与推断 - EconPaper 中,讨论了当 IV 随着样本量的增加而增加,且 IV 都无效的情况下的识别,其实这两个问题,无论是哪一个,都是「大数据」应用在经济学时很可能出现的问题。「大数据」对经济学方法论的影响可能已经开始了。
其实我的这个兼职经历让我更想谈的,是经济学在「大数据」上的应用。
必须要认识到的是,「大数据」中的很大一部分,都是「人」在社会生活中留下的痕迹,而使用数理框架分析「人」的行为,本来就是经济学的专长。
经济学与「大数据」是有本质区别的,比如,经济学更关注「因果推断」以及「识别」问题,而「大数据」似乎对「因果」推断并不感兴趣。比如,《大数据时代》中提出,「更好:不是因果关系,而是相关关系」。
我的经验和看法并没有那么的偏激,在业界的应用中,「因果关系」与「识别」并没有那么的重要,然而也并非「相关关系」那么简单。我更喜欢的说法,是《信号与噪声》中的说法,重要的是如何剔除数据中的噪声。
噪声可能有很多来源,比较轻微的,比如数据质量问题。很多情况下,在「大数据」与经济学传统的「小数据」之间,存在着一个 quantitative-qualitative tradeoff,也就是数据数量与数据质量之间的 tradeoff。这种 tradeoff 本身就存在于经济学中,比如工业企业数据库量大,但是质量还是上市公司的数据质量高;人口普查数据量大,但是质量还是专门的调查质量高。在「大数据」中,为了解决某个问题,会碰到虽然手头上数据很多,但是其实关键变量是缺失的,而其他变量都有不小的噪声。
另外一个更严重的问题是,如果缺乏严谨的统计、经济学的培训,可能对数据生成过程(DGP)并不理解,导致结构性的失误。这种噪声带来的就是系统性的误差了。这可能不仅仅是「过拟合」,而是「误拟合」了。
举一个再简单不过的例子。有个公司(并非我供职的公司)帮银行做一个甄别理财产品潜在客户的工作,他们使用历史数据,看哪些人更有可能购买理财产品。很简单的,一个 Logistic 回归也许就能解决问题。银行明确告诉他们,存款余额 5w 元以下的不考虑,然而公司做出来的结果是,明明余额在 5w 以下的也有可能购买产品,为啥就不要存款余额 5w 以下的呢?
其实这个问题非常简单,做这个分析的人并没有仔细考虑清楚这个问题的数据生成过程(DGP),并没有真正的理解数据,所以无脑的这样做下来,这样的结果并不奇怪。比如在这里,我们真正关心的变量应该是这个人的「真实财富」,虽然这个人在这家银行的存款余额为 5w 以下,但是可能这个用户之所以在这里开了储蓄卡,仅仅是因为持有这家银行的信用卡。所以 5w 以下的客户的确非常有可能购买产品。所以这里的存款余额变量,本来应该是一个「状态变量」,但是实际上,如果仔细考虑 DGP,应该是一个「结果变量」。如何排除噪声?可能得建模开卡行为、余额行为才可以。
实际上,以上的这些建模思路,都是计量经济学反复培训的,bad control,measurement error, sample selection 等等,无一不是在让我们更仔细的思考数据生成过程。在「大数据」中,虽然不重视因果和识别,但是以上问题如果不重视,虽然得到了相关性,但是得到的更多的是被噪声严重污染过的相关性。
因为关注的是如何去噪声,而非严谨的因果和识别,因而很多计量上常用的方法,可能也就没有太大必要了。但是计量经济学的建模思路和机器学习的方法结合起来,反而可能收到奇效。比如上面的问题,一个简单的解决思路也许就是结合聚类方法与 Logistic 回归,就能将模型做的更好。实际上在我的工作过程中,就有过为了剔除噪声,将传统的机器学习、计量经济学的方法重新加以组合而产生的「新方法」。
其实总结下来,更精炼的说法就是,经济学、计量经济学的方法,可以在原来的模型中加入新的「结构」,结构的加入可以矫正由于人的种种行为而给数据带来的噪声,解决「过拟合」、「误拟合」的问题,提高模型的精度。