机器学习在经济学的应用

机器学习在经济学的应用

摘要:随着大数据时代的到来,机器学习在经济学中的应用越来越广泛。本文梳理了机器学习的含义、机器学习与计量经济学模型的区别以及机器学习在宏观经济预测以及因果推断中的应用。

关键词:机器学习;经济学;大数据时代

大数据时代的迅猛发展,在全球范围内掀起了前所未有的浪潮。克拉克奖得主SusanAthey断言:我相信机器学习将在短期内对经济学领域产生巨大的影响。事实上,机器学习已经开始对经济学产生影响。目前机器学习方法在经济学中的应用主要包括两部分:预测与政策评估。目前我国对大数据机器学习方法在宏观经济领域的应用研究与国外相比还有较大差距。因此,探索大数据机器学习方法在我国宏观经济实时预测以及因果推断、政策评估中的应用,不仅具有重要的学术价值和应用价值,并且对实时预测我国整体经济运行状况、经济周期转折点的确定以及政府及时准确地选择宏观调控政策也具有重要意义。

一、什么是机器学习

(一)机器学习的含义

人类的学习过程,是通过对经验的归纳总结,从而能够在面对新情况时做出有效的判断或决策。而机器学习研究如何通过计算机模拟或实现人类的学习行为,通过对经验(在计算机系统中以“数据”的形式存在)的利用来改善系统自身的性能。数据中反映事件或对象在某方面的表现或性质的事项,称为“属性”或“特征”,通常用X表示;数据中有关结果变量的信息,称为标记,通常用Y表示。根据数据中是否拥有标记信息,机器学习任务可大致划分为两大类:“有监督学习”和“无监督学习”。有监督学习研究的是预测问题,利用数据集中特征变量X和结果变量Y的信息构建μ(x)=E(Y|X=x)的估计量μ ̂(x),以更好地预测独立数据集中Y的真实值。若结果变量Y是定性变量或分类变量等离散型变量,则称此类学习任务为分类;若结果变量Y是连续性变量,则称此类学习任务为回归。在分类的情况下,目标是准确地分类样本。在无监督学习中没有标记信息Y,目标是通过对无标记样本的学习来解释数据的内在性质与规律,为进一步的数据分析提供基础,常见的无监督学习包括聚类、密度估计、异常检测等。

二、机器学习与普通宏观经济预测模型的区别

(一)机器学习并不涉及识别问题

机器学习方法仅关注预测准确性问题,因而在使用数据来选择函数形式方面具有很大的优势。而宏观经济模型主要关注模型参数的识别问题以及因果推断问题,因此通常对模型形式做一定的假设。

(二)机器学习将经验分析视为估计和比较多个备选模型的“算法”

这一方法与宏观经济学不同,宏观经济学家基于经济理论选定一个模型,且只估计一次。相反,机器学习将“调参”作为算法的一部分。调参实际上就是模型选择,并且在机器学习算法中是数据驱动的。这种方法有很多优点,包括性能的改进,以及使研究人员能够系统和全面地描述他们选择模型的过程。当然,交叉验证在历史上也被用于经济学,例如为核回归选择带宽,但是它被看作是机器学习算法的基础部分。

三、机器学习在宏观经济预测中的应用

实证的政策研究往往侧重于因果推断。由于政策选择依赖于反事实的估计,因果关系和政策的紧密联系似乎是自然的。虽然许多情况下都存在这种联系,但也有许多政策应用,因果推断并不重要,甚至不是必要的。

(一)机器学习在宏观经济预测中的难点

众所周知,大多数机器学习方法均要求样本是独立同分布的,即从总体中简单随机抽样,然而,经济变量,尤其是宏观经济变量通常是时间序列变量,其必然不满足独立同分布要求。这是目前限制机器学习在宏观经济预测中应用的主要难点。

(二)机器学习在宏观经济实时预测中的应用

目前的研究热点为实时预测。实时预测的意思是预测经济变量的当前值,例如,预测当前季度GDP增长率。由于经济数据的具有不同程度的滞后,中央银行与各政府部门经常是在不了解当前经济状态的情况下做出政策决策,有时甚至不知道上一期的经济状态。因此预测当前或前一期的经济状态便成为非常重要的任务。实时预测的关键在于如何处理由于数据时间不同所造成的样本尾部“参差不齐”以及混频问题。国外存在大量应用机器学习方法进行实时预测的文献,例如:Giannoneetal.(2009)开创了大数据动态因子模型在宏观经济预测领域的先河。Chakraborty(2017)研究了机器学习方法在中央银行事务中的应用。其他机器学习用于预测的例子包括:(i)在教育中,预测哪位教师将具有最大的附加价值;(ii)在劳动力市场政策中,预测失业期长度,以帮助工人决定储蓄率和求职策略;(iii)针对健康检查进行监管;(iv)社会政策,预测针对干预措施的最高风险青年;(v)在金融部门,贷款人识别潜在借款人的潜在信誉。

(三)机器学习在政策评估中的应用

自20世纪90年代初以来,潜在结果方法,有时被称为Ru⁃bin因果模型,作为分析因果效应、与政策评估的框架已经获得了普遍接受。在潜在结果方法中,对任一个体i的任一处理水平w,都有一个潜在结果Yi(w),描述此个体i在处理水平w下的结果变量的值。研究者观测给定个体接受的处理变量和相应的结果变量,但是因为我们没有观测到给定个体没有接受其他处理水平的结果,所以我们不能直接观察因果效应,这称此为“因果推断的基本问题”。对政策效果进行推断的黄金标准是随机对照实验。然而,在许多情况下,由于成本、政治或道德原因,或者由于研究总体太小,实验仍然难以实施或不可能实施。例如,为了研究是否上大学对劳动力市场经验的因果效应,阻止潜在的学生上大学是不道德的,通过随机分配最低工资政策给各州来研究最低工资的影响,政治上也不可行的。因此,经济学中关于政策问题的大量实证研究依赖于观测数据,即,以非随机分配的方式确定政策的数据。从观测数据推断政策的因果效应是相当具有挑战性的。在经济学中,研究人员使用各种各样的方法企图从观测数据中得到推断因果关系的策略。这些策略通常被称为识别策略,因为它们是识别因果效应的策略。目前常见的识别策略包括断点回归、双重差分方法和合成控制等。已经有许多成功的机器学习预测方法在政策评估问题上的应用。用于预测的现成机器学习方法是重要的政策和决策问题的关键部分。例如,决定是否该为老年患者做髋关节置换手术的例子:如果能根据个人特征预测他们将在一年内死亡,那么就不应该做手术。越来越多的文献正在解决使用机器学习方法进行因果推断的问题。这些文献采取机器学习方法的许多优点和创新,但将它们应用于因果推断。这样做需要改变目标函数。此外,由于在测试集中没有观察到真实参数值,统计理论在评估模型中起着更重要的作用,因为即使研究者能够得到独立的测试集,也很难以直接评估参数的估计好坏。事实上,这一讨论突出了预测比参数估计简单得多的关键方式之一:对于预测问题,给定个体的预测(给定其协变量)可以概括为单个数值,预测结果和预测质量可以不需要进一步建模假设,就在测试集上进行评估。(1)平均处理效应。近年来,研究人员已经开始使用机器学习方法来控制大量协变量。这些方法中的一部分涉及用于少量协变量情形的方法。例如,采用LASSO和随机森林等机器学习方法来估计倾向得分。这种方法在许多情况下具有相对较差的性质,因为它们不一定强调对估计偏差重要的协变量,也就是那些与结果变量和处理变量相关的混杂因素。更具前景的方法将结合潜在结果和协变量之间的关系进行估计,以及处理变量指标和协变量之间的关系的估计。例如,基于LASSO的两步法。首先使用LASSO回归选择与结果相关的协变量,然后再次选择与处理变量相关的协变量。在最后的普通最小二乘回归中,包括了前面选择的两组协变量并集,这种方法与结果变量对协变量和处理变量的简单正则化回归相比,改进了平均处理效果的估计的性质。(2)异质性处理效应与最优政策。另一个领域涉及估计异质性处理效应,异质性是指观察到的协变量。例如,如果处理变量为是否服用一种药物,我们感兴趣的是药物的功效如何随个体特征而变化。处理效应的异质性可能对基础科学理解(可用于设计新的策略或理解机制)或作为估计从用户特征映射到处理的处理分配策略的手段而引起人们的兴趣。从处理效应的基本科学认识开始,另一个问题涉及我们是否希望发现简单的异质性模式,或者是否需要反映处理效应如何随协变量变化的一个完全非参数的估计量。最后,理解处理效应的一个目标是估计最优政策函数,即从个体的可观测协变量到政策分配的函数。目标是选择一个政策函数,以最大限度地减少不使用理想政策的损失。尽管机器学习文献中缺乏关于因果推断的研究,但最优策略估计的主题已经引起了一些关注。因果树方法是基于回归树的机器学习方法,但它使用不同的标准来建立树,它侧重于处理效应的均方误差。该方法依赖于样本分割,其中一半样本用于确定协变量空间(树结构)的最优划分,而另一半用于估计叶节点的处理效应。该方法的输出是每个子组的处理效应和置信区间。当目标是估计处理效应的异质性而不是结果变量的异质性时,树的构建标准应该不同。毕竟,影响结果变量的因素可能与那些影响处理效应的因素有很大的不同。因果森林是对因果树方法的改进,该方法产生很多不同的树,并对结果进行平均,其与随机森林的区别是,构成森林的树是因果树。相对于识别一种分割且估计每个分割中的因果相应的一棵因果树而言,因果森林的因果效应估计随着协变量更平滑的变化,并且从原则上说,每个个体都有不同的估计。众所周知,随机森林在预测问题上表现得很好,但直到最近对其统计特性也了解不多。最近的研究结果证明,因果森林的预测是渐近正态的,且以每个个体的条件平均处理效应为中心。其他基于机器学习的方法,例如LASSO回归方法,也已经用来估计异质性处理效应。估计一个带有处理变量与协变量交互项的LASSO回归,并将LASSO作为一种变量选择算法,以决定哪些变量是最重要的。在使用这种方法时,可以谨慎地执行一些补充分析,以验证该方法没有过拟合;例如,可以使用样本分裂方法,使用一半的数据来估计LASSO回归,并在另一半数据中的用LASSO选择的变量进行普通最小二乘法,然后将两种结果进行比较。如果结果不一致,这可能表明使用一半的数据不够好,或者它可能表明样本分割是必要的。

作者:高华川 单位:天津财经大学统计学院