Random Utility and Discrete Choice Models-香樟经济学术圈的财新博客-财新网

推文人 | 杨柳

原文信息：Kenneth E. Train (2009). Discrete Choice Methods with Simulation. Cambridge University Press.

在微观计量经济学中，很多时候研究者关心个体的选择机制，例如什么因素影响一个人抽烟还是不抽烟，什么因素会影响消费者对不同品牌的购买行为等等。与线性回归模型不同，此时我们试图去解释的因变量只能取有限个值，而个体在这有限个选项之间进行选择其实是一个效用最大化问题。Train（2009）的这本经典教材提供了一个general framework，将众多离散选择模型囊括其中，这些模型在现实中都有广泛的应用，但很少有人能了解它们之间系统的差别。

假设有J个选项，这些选项之间是互斥和完整的，互斥性要求个体选择A就不能选择B，选择B就不能选择C，完整性要求J各选项已经包含了个体所有可能的选择，个体不可能选择J个选项之外的选项。设个体对j选项的效用为U(j)，我们把它分解为两部分。第一部分是研究者可以从数据中观察到的部分，设为V(j)=f(X(j),S,beta)，它往往依赖于选项j的特征X(j)，个体的特征S以及未知参数beta，而这些特征研究者都是可以观察到的。例如哪些因素会影响人们选择乘公交车的效用呢？乘公交车花费的时间和乘公交车的费用是两个与公交车有关的特征，属于X(j)，而乘客的收入却与公交车无关，但同样会影响乘公交车的效用，属于S。无论是X(j)还是S，研究者都可以从数据中观测到，所以除了未知参数beta外，V(j)是可观测的。函数f可以是线性的，也可以是非线性的，在应用当中，线性的f往往是最常用的选择，即f(X(j),S,beta)=beta1*X(j)+beta2*S。第二部分是研究者不能观测到的效用，是随机的因素，我们用e(j)来表示，比如在乘公交车的那个例子中，如果一个乘客平衡感（sense of balance）太差，容易晕车，那么它乘公交车的效用就会比较低，它可能会选择乘地铁或步行。而乘客的平衡感是不可能被观察到的，只有乘客自己知道自己是不是容易晕车，研究者往往是不知道的。诸如此类的因素即可被包含在e(j)当中。这样，我们就讲U(j)分解为了两部分，即U(j)=V(j)+e(j)，其中V(j)又叫representative utility，而e(j)又叫random utility。

这样个体选择i选项等价于i给他带来的效用是最大的，即U(i)>U(j)，对任意j不等于i。也就是说，V(i)+e(i)>V(j)+e(j)，或者e(j)-e(i)<V(i)-V(j)。给定e=(e(1),e(2),e(3),…,e(J))是J个选项的随机效用，其密度函数是d(e)，这是一个J元的多元密度函数，最常见的J元密度就是J元正态分布，当然还有别的J元密度。给定d(e)，则个体选择i选项的概率为

而这个概率不是别的，正好是multinomial logit模型的选择概率（如果我们继续假设J=2，则这个模型就成了大家熟知的二元选择模型中的logit模型）。由于在这个模型中，我们假设了e(i)是独立的，而且服从极值分布的，上述积分存在显示解。但正是因为独立性假设过强，multinomial logit模型在很多应用场景中并不是最优的选择（比如影响个体乘公交的不可观测因素很有可能也会影响个体自己开车，如果一个人讨厌汽油味，那么他乘公交和自己开车效用都会比较低）。Train（2009）介绍了一种nested logit模型，在这种模型中，不同的选项可以分为少数几个组，比如选项1,2,3是一组，都是同一个公司的不同品牌，选项4,5又是一个组，是另一个公司的不同品牌，nested logit模型假设消费者在同一个公司的不同品牌之间的random utility不是独立的，但不同品牌公司之间的random utility是独立的，即e(1),e(2),e(3)是有关系的，e(4)和e(5)也是有关系的，但e(1)和e(4)却是独立的，等等。继续假设e服从一个J元generalized extreme distribution（GED），那么选择概率P(i)也可以表示成一个显示性函数。当然，nested logit模型比较适合选项之间不是平等的，某些选项可以归类的情形。而一般地，如果我们允许所有J的选项的random utility都有关系的话，那就只能采用别的分布形式，比如假设e服从J元正态分布，该正态分布均值向量为0，协方差矩阵是任意的正定矩阵，此时任意两个e(i)和e(j)都不是独立的，模型能够更一般化地刻画个体的选择行为，这个模型又叫multinomial probit模型。与multinomial logit模型不同的是，probit模型下上述积分不存在显示解，我们不可能将选择概率P(i)表示成V(i)的一个确定性函数，此时我们就需要simulation了。其实，上述积分就是P(e(j)-e(i)<V(i)-V(j),对任意j不等i)，给定了e服从多元正态分布，我们就可以用Monte Carlo的方法从该分布中随机抽出N个样本，记为(u1,u2,u3,…,uN)，然后计算其中有多少个n满足un(i)-un(j)<V(i)-V(j)（对任意j不等于i），即我们可用N个随机样本中，满足un(i)-un(j)<V(i)-V(j)的比率作为选择概率P(i)=P(e(j)-e(i)<V(i)-V(j),对任意j不等i)的估计，根据大数定理，我们知道这样的估计量是一致（consistent），即当N很大时，这个比率是会收敛到真实的选择概率P(i)的。总之，不同的离散选择模型的主要区别在于对random utility的分布假设不一样，有些是独立的，有些是不独立的，有些是正态分布，有些是极值分布，可能还会有别的分布。

其中T是样本量。显然，似然函数通过representative utility依赖于未知参数beta，通过最大化似然函数，即可将beta的极大似然估计求出，记为hat(beta)。如果选择概率P(i)有显示解，hat(beta)就是通常的极大似然估计量（maximum likelihood estimator）；如果P(i)没有显示解，需要用simulation的方法估计，那么hat(beta)就叫极大模拟似然估计量（maximum simulated likelihood estimator）（在产业组织理论中，很多时候都需要用simulation的方法去逼近似然函数，因此，IO是使用MSL最多的经济学领域，参见Pakes and Pollard（1989））。由于在simulation的过程中引入了额外的抽样误差，极大模拟似然估计量的渐进方差需要进行调整，详细可以参阅Train（2009）中有关的说明。

参考文献

Pakes, A. and D. Pollard (1989), ‘Simulation and Asymptoticsof Optimization Estimators’, Econometrica，57, 1027–1057.

推文作者

杨柳，南京大学商学院，，研究方向：计量经济学、宏观经济预测和应用计量经济学

话题：