大数据：计量经济学的新技巧-香樟经济学术圈的财新博客-财新网

【文献信息】
Big Data: New Tricks for Econometrics,Hal R. Varian, The Journal of Economic Perspectives Vol. 28, No. 2 (Spring 2014),pp. 3-27

【作者介绍】
作者哈尔·瓦里安(Hal Varian),该作者太出名了，故不介绍了。Varian教授在UC伯克利退休后一直担任谷歌的首席经济学家。似乎他退休后非常迷恋机器学习理论。

一、简介

统计学习理论（不太严谨的学科划分也可称为机器学习理论）在过去20年有了巨大的发展，该理论在大数据领域、人工智能领域有非常广泛的应用。该文主要的写作目的是介绍大数据应用领域的技术与计量经济学可能的结合点。作者认为计算机科学和计量经济学应开展更多的合作和交流。
作者认为传统统计学以及基于OLS的计量经济学可能在大数据时代需要利用一些新型的工具进行数据分析，这些数据分析工具应主要来自于机器学习理论。
作者首先认为统计学的数学分析和计量经济学可以主要分为：预测、总结、估计、假设检验。机器学习理论主要是关注预测。而计量经济学、统计学以及数据挖掘专业人士重点关注数据的内部信息。

二、机器学习理论与计量经济学

机器学习理论与计量经济学最大的不同可能在于对数据的理解上。机器学习理论关注预测结果，因此该理论的模型的识别的标准是所构建的模型是否能较好的拟合样本内数据和样本外数据。而计量经济学一般不关注样本外数据的预测。机器学习理论一般采用交叉检验（cross validation）法较多，借此统计方法，进而找到最优的样本内与样本外数据的拟合，而计量经济学几乎不采用这样的方法。虽然机器学习理论和计量经济学都继承了一个科学的基本理念，即：简洁性（parsimony），但二者又有很大差异。机器学习理论对于模型简洁性的处理和计量经济学的思路很不相同。计量经济学的方法是从OLS开始，查看扰动项是否存在异方差，如果存在，则考虑使用GLS以及考察稳健误等方法。如果存在内生性则考虑使用2SLS或GMM。机器学习理论则利用了正则性（regularization）思想，主要是避免过度拟合（Overfitting）。“正则”的思想实质是建模时需考虑模型的复杂度。简而言之，如果模型非常复杂，则在参数估计的目标优化方程中加入涉及复杂成本的惩罚项，而在计量经济学中，计量经济学家是不对复杂模型进行惩罚的，并且也不去思考如何量化模型的惩罚成本。

三、文章主要内容

作者在文章第三部分介绍了机器学习理论的基本研究思路。在第四至第七部分利用四类常见的机器学习理论的模型说明机器学习理论与计量经济学的联系与区别。（推文作者注：纵观整个文章，作者是认为两个学科间的区别是可以通过以后这两个学科间互相合作借鉴相互消除的。必定这两个学科都是基于统计学发展出来的）。
作者介绍的四类机器学习理论的模型包括：
    1、分类与回归树模型（CART）。作者以HMDA数据为例（Munnell,et al）利用决策树研究了和分析了种族是否影响波士顿地区按揭贷款发放问题（推文作者注：该问题在计量经济学界较喜欢用logistic回归进行因果推因）。作者首先对数据进行CART回归，发现“是否发放按揭保险”是最重要的影响因素，而非种族因素（推文作者注：种族这个因素出现在树的最底层）。作者去掉“是否发放按揭保险”因素，再进行CART回归，种族因素仍处在树的最底层，即影响因素仍不明显。此外，作者提到不应认为CART是计算机学的技术，因为最早关于构建决策树理论的作者之一就是一位经济学家。（推文作者注：logistic回归适用于小数据，在大数据下，如果数据存在非线性关系，树模型的预测能力往往表现更好。）
    2、Boosting, bagging(套装法)和bootstrap(自助法)。作者指出自助法是在主流计量经济学界得到认可的方法，而boosting和bagging则较少在计量经济学中所提及。作者指出，机器学习理论认为bagging在处理非线性模型（尤其是树模型）时非常有用。而Boosting可以显著提高模型的预测效果，此外boosting技术可以应用到所有的回归模型，包括logits、probits、树模型等。此外，作者还提到了随机森林（random forests）模型,该模型有较强的预测能力（即：样本外数据拟合能力强）但是因其运行机理有一定的“黑箱”特性，不能阐述清楚数据间的关系，所以很少在计量经济学领域有应用和研究。但是该模型对于变量选择有很强的指导作用，该模型能很好的识别出哪些变量可能对预测能力的提高有明显帮助。
    3、Lasso(least absolute shrinkage & selection operator)。机器学习理论发展出来了大量的解决解释变量共线性的模型，这些思想对计量经济学研究有极大的启示，尤其在大数据时代。在大数据时代，我们往往有大量的候选解释变量需要考虑，对于人工的逐个识别，绝对不现实。但需要注意的是，这些模型往往和传统的计量经济学的思想有一定出入，主要的差异来自于前面所提到的“正则性”问题。机器学习理论的回归模型一般将模型复杂度成本惩罚考虑到参数估计中，即“正则性”。作者还提到了对于计量经济学界非常陌生的机器学习理论视角下的回归算法----Spike and slab回归。作者以Sala-i-Martin(1997)的实证经济增长的理论来演示了Lasso以及其家族模型在实证经济学中的应用。
    4、时间序列。机器学习理论一般假设数据与数据之间是满足IID，且一般无时间效应，属于截面数据，但机器学习理论也可以（已有大量应用）对时间序列进行预测，作者提到了机器学习理论领域的贝叶斯结构时间序列模型（BSTS），该模型最大的应用就是Google Trends。

四、一些有趣的观点

    1、作者建议现在的（经济系的）研究生去计算机系一定要拿一门“机器学习理论”的课程。
    2、机器学习理论（计算机科学）关注预测，而对因果效应的理解不如计量经济学家深刻。
    3、计量经济学家不喜欢做预测，理由是数据样本稀缺，在大数据时代，这可能不能再是计量经济学家的借口。
    4、作者认为机器学习理论的一个思想值得借鉴：机器学习理论研究人员往往整合大量的不同的模型，然后整合的小模型的预测能力往往比模型要强。所以机器学习理论是一直在研究“模型的不确定性”，而计量经济学更多的是关注的是“样本的不确定性”。在大数据时代更多的是该思考“模型的不确定性”问题。
    5、作者提到Angrist的《完全无害计量经济学》提到了Angrist的著名公式：
Observed difference in outcome =averagetreatment effect on the treated + selection bias
但作者认为“好的预测模型”可能比“随机选择的控制组”更好。[推文作者注：这个观点很值得玩味]

此外和各位分享Angrist的大数据计量经济学公开课的网址：

作者余颖丰

话题：