包含时间、截面两个维度的数据一定是面板数据吗？-香樟经济学术圈的财新博客-财新网

推文作者：姚守宇，天津大学管理与经济学部博士，研究方向：金融工程（）

最近发现身边有很多朋友对于面板数据理解还不是十分透彻，认为既包含时间维度也包含截面维度的数据就是所谓的面板数据，所以“理所当然”的用了面板数据分析方法。然而，包含时间与截面双重维度的数据并不一定是面板数据（panel data)，还有可能是与其相似的第四种数据类型pool data（混合截面数据）。看到这里，很多朋友不禁会产生疑问，神马是pooldata,为什么从来没有听说过，它与panel data到底有嘛区别？包含时间与截面双重维度的数据都能用面板回归吗？pool data 怎样处理才符合规范？各位看官莫着急，且听我细细讲解。

其实，仔细想了想，很多人之所以在这个地方有疑问是因为，大多数中文计量教材在你学习之前就会告诉你，数据类型通常有三种即为：截面数据、时间序列数据、包含时间与截面双重维度的数据就是面板数据（panel data)，然而很多教材却没有突出强调panel data定义中一个非常重要的特征——面板数据追踪的一定是相同样本在不同时间截面上数据。如果不满足相同样本这个前提条件的话，不同样本在多个时间维度上混合数据则称作为pool data(混合截面数据）。举个栗子，连续追踪除港澳台之外全国其它32个行政地区5年内的GDP、CPI等数据，这种每年样本不变的数据才能算做面板数据。如果，每年内调查的样本在不断变化那么这种数据则称作为混合截面数据。总结一下，跟踪同一样本多年的数据叫面板，面板数据里部分有缺失叫非平衡面板，不同样本在多个时间维度的数据叫混合截面数据。

到这里大家应该都明白了panel data 与pool data 的区别了。那么面板数据我可以利用一系列的面板数据回归进行处理，那pooldata 数据类型又该怎样处理呢？其实pool data数据在不同领域也是有着不一样的处理方式。

首先来看经济学研究领域的一些处理方法。我们在处理横截面数据时会认为样本中每一个数据对最终结果的作用都是相同的，而在混合截面数据中，因为受到时间的影响，不同时点上抽样的数据可能对最终回归结果产生不同的影响，所以不同时点但混合在一起的数据在进行OLS时不能“一视同仁”，需要增加时间虚拟变量。如果不单纯考虑时间变化对因变量的影响，而是想要考虑某些解释变量对因变量的作用在一段时间内是否发生了变化，这时就可以添加时间虚拟变量与解释变量的交互项（具体例子可以参见伍德里奇计量经济学教材）。然而，在金融以及财务领域，常用来处理pool data的一种方法为Fama-Macbeth回归。其主要思路为：在每个时间截面上对所有数据做一次横截面回归，然后计算各时间截面回归系数γ的时序平均值作为系数的估计值，同时为减少异方差和序列相关的影响，参照Newey-West方法计算相应的T统计量。其实在常用的事件研究中，如果不选定固定样本的前提下（其实很难选定固定样本），很多数据为pool data，而不是panel data，然而很多人却错用了面板数据回归方法，这一点需要注意。

话题：