电话调研可信吗？——对比面谈和电话访谈的农业调查结果-香樟经济学术圈的财新博客-财新网

图片信息：来源网络

原文信息：Ellen Anderson, Travis J. Lybbert, Ashish Shenoy, Rupika Singh, Daniel Stein, Does survey mode matter? Comparing in-person and phone agricultural surveys in India, Journal of Development Economics, 166, 103199.

引言

家庭调查是经济学研究的标准范式，尤其是在官方数据不完整的发展中国家。传统的调查方法依赖于访员和受访者面对面访谈，科技的进步——尤其是手机的普及，使得远程数据搜集成为可能。虽然电话访谈能够节省成本，但受访者可能在远程访谈和面对面交流时有不同的表现，进而导致数据损耗。因此详细比较电话访谈和面谈的所收集的数据差异是有意义的。

本文探究了印度比哈尔邦农业推广实验中面谈调查和电话访谈等两种调查模式带来的影响。在调查过程中，访员向受访者提出关于农业生产的统一问题，但是一队入户访谈，另一队则通过电话调研。两项调查都来自同一样本，其中有42%的家庭同时参加了面谈和电话访谈，因此调查结果的差异仅来自调查方式的不同。

本文从三个方面扩充了既有文献：第一，重叠的受访者样本允许在家庭内部估计调查方式的影响。第二，以往文献大多检验了样本均值的差异，本文更精确地比较了估计精度和分位数差异。第三，本文探讨了调查方式对农业项目评估的影响。

数据和方法

本文的数据来自印度比哈尔邦促进豆类种植的农业推广计划中两次平行的调查，整个调查根据政策实施和农民收获情况分为三个阶段：

初期，2017年5月，农业政策开始实施。

中期，2017年12月，从6971户家庭的总样本中筛选2346户家庭进行面谈。并进一步从2346户中抽取1100户家庭进行扩展调研。在2346户家庭中，1525户种植了豆类作物。

末期，2018年5、6月，同时采用电话访谈和面谈方式调研农户生产数据，具体分析了四种常见豆类（鹰嘴豆、红扁豆、青豌豆和蚕豆）的产量。电话访谈覆盖更多农户（对象为中期种植了豆类的1525户，共1266户回应），面谈则询问了更多问题（对象为中期参与扩展调研的1100户，共1055户回应）。共711户家庭同时参加了两项调查（其中584户应答）。不论是何种调研方式，有关农业生产的问题都是统一的，同一家庭的受访者也尽量选择了中期调研时的回答人。受访者不会在同一天接受两项调查。

本研究通过两种途径比较面谈和电话访谈的结果：首先，作者比较了每种调查方式下家庭豆类产量的分布，这一分析解释了调查方式带来的样本差异，包括受访者响应导致的数据损耗。接下来，作者将家庭产量分布的差异分解为选择效应和模式效应。已知711户家庭参加了两种调查模式，其中584户家庭做出了应答，且有429个受访者在中期和末期均为同一人，这些重叠样本的产量差异就可以被纯粹归因于调查方式。作者还利用产量的四舍五入情况衡量受访者的参与度。

其次，作者分析了调查模式如何影响项目评估。

β表示故意欺骗（Intention-to-cheat, ITT）效应，被解释变量代表居住在街区b(i)的家庭i的产量，T_i是政策实施的虚拟变量，X_i是家庭的控制变量，则代表街区层面的固定效应，标准误聚类在村庄级别。这一分析并不要求受访者一定种植豆类，因为种植情况内生于政策实施效果。

产出的分布

本小节作者分析了不同调查模式下受访者汇报的产量差异。

下图展示了中期调查时种植了豆类、并参加了末期调查的家庭产量，有些家庭的产量为0是因为受到了自然灾害。结果显示电话访谈所得到的产量比面谈所得到的产量数据更高。平均而言，面谈得到的蚕豆产量低14%，鹰嘴豆产量低68%。除蚕豆以外，其余三种作物产量的方差也在电话访谈中更大。

（一）选择效应和模式效应

作者首先探究调查模式带来的受访者差异。下表展示了种植了豆类的1525家庭的中期调查数据。第1列汇报了所有家庭的均值和方差，第2、3列分别汇报了面谈和电话访谈家庭的情况，第4、5列则汇报了面谈和电话访谈家庭相较于总样本的偏差。表格上半部分为两种调查模式下统一问题的结果，表格下半部分则是展示了扩展性调查的结果。

根据表1数据可以得到，面谈的数据损耗较低，且末期的受访者基本能够代表总样本的结果，与总样本唯一不同的特征在于种姓的分布情况。但电话访谈的受访者则呈现出一定特征，这些受访者受教育程度更高且更富有，很少参与分成耕种，拥有更多固定资产，大多居住于永久性房屋，较少接受政府援助。

尽管电话受访者的人口特征总体上与更高的产量相关，但样本选择不能完全解释不同模式下的产量差异。为了量化受访者损耗的重要性，作者以同时响应面谈和电话访谈的农户为研究对象，首先分析两次参访均为同一人的家庭结果。图2的左半部分包括了两次调查回答人相同的重叠家庭，图中实线代表全样本下不同调查模式的产量差异，反映了选择效应和模式效应。虚线代表重叠家庭的产量差异，仅反映模式效应。由图可知，重叠样本中四种主要豆类作物的百分位产量差异与全样本的结果非常接近，表明模式效应对产量差异具有更强的解释力。

家庭层面的模式效应更具说服力，图2的右半部分包括了全部重叠家庭，相比之下两条折线的轨迹更加接近。总的来说，这些结果表明产量的差异并非来自受访者差异，而是由于不同调查模式下受访者的回答不同。

（二）四舍五入和参与度

作者接下来考虑了不同模式下受访者的参与度。直觉的，电话访谈的受访者可能参与度更低，这是因为远程的访员很难实地确认、面对面比线上更能建立信赖、电话访谈者可能一心二用。较低的参与度会导致调查结果出现测量误差，进而使得结果上偏。

为了衡量受访者参与度，作者绘制了调查数据的末尾数字，认为以0或5为结尾的数字是四舍五入，从而导致结果与平滑分布偏离。从图3可以看到，四舍五入的情况占总样本的64%，过多的回答以0或5结尾，且这种情况在每种调查模式中均存在。44%的产量以0结尾，46%的情况出现在电话访谈，43%出现在面谈中。然而四舍五入几乎不影响调查模式带来的差异。

政策效果评估

目前的结果表明不同调查之间的样本差异会被调查模式带来的系统性差异削减。本节作者探究了调查模式如何影响评估，这一研究有利于学者选择合适的数据搜集方法，或者在使用不同方法时比较经济结果。

由于面谈样本是随机抽取的，因而其结果直接反映了政策估计的结果。而电话访谈的样本则更为复杂，因为电话访谈仅调研了种植豆类的家庭，而未种植豆类的家庭电话响应程度未知。为了评估政策对电话访谈样本的影响，作者将基准回归修正为加权最小二乘回归，对参与了电话访谈的家庭赋权为1；而种植面积为0的家庭权重为0.83（对应电话访谈的响应率），他们的产量也被赋值为0。

图4展示了95%置信区间下的回归系数，并基于样本量对标准误进行调整。政策效应的估计结果在两种调查模式下、所有豆类中获得了基本一致的大小，且通过了t检验。这些结果表明在不同调查模式下政策效果是稳定的，任何调查模式带来的系统性差异都在实验组和控制组中一致出现。

尽管两种调查模式下的回归系数保持稳定，但面谈的标准误相对更小。这说明选择研究方法需要面临权衡：电话访谈相对成本更低，但是会产生更多噪声数据。在本文中，为了得到与面谈一样的鹰嘴豆产量分析精度，电话访谈需要10.7倍的样本量。换句话说，只有当电话访谈比面谈的成本低10.7倍时，电话访谈才是面谈的可靠替代。

结论

总而言之，本文研究了不同调查模式下农业产出的分布，结果发现电话访谈得到的结果相对更高，这一现象可能导致地区产出的估计偏误。调查模式之间的结果差异与电话受访者更大的社会期望偏差一致：调查本身是推广豆类种植的一部分，所有家庭都理解这一政策目标，而政策所极力推广的两种豆类中模式效应最显著。

这篇文章同时强调了维护长期数据库（如国家统计局数据库）的潜在挑战，即时间序列的人口数据可能会受到技术进步的干扰，尤其是调查模式带来的干扰，例如新冠疫情期间不得不采取远程数据搜集。因而调查方案的设计必须使得研究人员能够协调新旧数据、消除数据搜集方法的影响。

所幸调查模式并未对政策效果的评估带来影响，但调查模式的确会影响政策效果估计精度。总而言之，如果需要更大的样本量来达到相同的精度，那么电话访谈可能无法节约成本。

Abstract

Ubiquitous mobile phone ownership makes phone surveying an attractive method of low-cost data collection. We explore differences between in-person and phone survey measures of agricultural production collected for an impact evaluation in India. Phone responses have greater mean and variance, a difference that persists even within a subset of respondents that answered the same question over both modes. Treatment effect estimation remains stable across survey mode, but estimates are less precise when using phone data. These patterns are informative for cost and sample size considerations in study design and for aggregating evidence across study sites or time periods.

推文作者：张美琳，中央财经大学硕博连读生

声明：推文仅代表文章原作者观点，以及推文作者的评论观点，并不代表香樟经济学术圈公众号平台的观点。

话题：