阅读:0
听报道
推文人 | 张研
原文信息:Elshendy, M. , & Fronzetti Colladon, A. . (2017). Big data analysis of economic news: hints to forecast macroeconomic indicators. International Journal of Engineering Business Management, 9, 1-12.
01 文章背景
大数据为宏观经济研究的一些老问题提供了新方法。过去对于新闻数据,收集过程通常包括对纸质文档的深度搜索或手动提取。现在,计算机和文本挖掘算法允许研究者提取许多与文档相关的变量。此外随着数据和网络技术的兴起,对企业内部和外部网络互动的研究证明了大数据的重要性。按照社会网络学,在企业网络中,较高的中心度预测较高的市场绩效,而较高的网络约束值与较低的绩效相关。这篇论文遵循社会网络分析(SNA)方法以确定这些网络中的哪些元素可以对宏观经济指标的预测做出贡献。社会经济网络可以提供经济、政治和社会互动的图形表示。
02 数据来源
文章使用了Google BigQuery(https://cloud.google.com/bigquery/)服务,在GDELT上抓取了大量数据.这些新闻数据是在2010年1月1日至2016年3月31日期间世界上每天每个国家经营的公司的商业事件的新闻,包括涉及的国家,数据集包含了一百七十万个条目。并利用这些数据建立一个预测GDP、BCI和CCI指数的模型。
03 构建网络
文章首先在这些新闻中筛选了相关类别中的商业事件,以及专门考虑了以下三个变量可以明确定义的文章:(a)参与者国家代码,(b)东道国代码和(c)操作类型代码。这些变量如表1所示。
对于这些文章中出现的事件,每一次互动都有三个参与者参与:两个参与国和一个发生所在国,这三个参与者可以是重复的。
文章从三个不同的层面分析数据:第一,只考虑参与国之间的联系;第二,参与国和发生国的联系;第三,合并前两个网络。网络构建技术如图1所示。
在每个图中,不同的国家被表示为节点,它们之间的交互作用被表示为连接节点对的边。
这些节点根据下面描述的规则进行交互,1,互动网络:在这张图中,为每一笔交易在缔约国之间建立了联系,而不考虑东道国的代表性。例如,如果一家德国公司与一家在意大利的西班牙公司达成协议,交易将由两个节点表示,德国和西班牙通过一个链接连接起来,而忽略了意大利的作用。2,定位网络。在这个网络中,强调东道国的作用,忽视了承包者国家之间的联系。用同样的例子,如果一家德国公司与一家在意大利的西班牙公司达成协议,则交易将由两个纽带表示:一个连接意大利和德国,另一个连接意大利和西班牙。因此,每个事务由三个节点和两个链路表示。该网络在确定发生商业活动的相关国家方面起着重要作用。3,联合网络。这最后一个网络只是前两者的结合。因此,该网络通过三个节点和三个链路来映射每个事务,连接一个事务的所有参与方。
04 指标选取
文章考虑了社会网络分析中的中心度指标,这些指标通常用于评估网络中节点的影响力和位置力。尤其是,中心性解释了某个行为体的位置在连通性方面的战略意义,以及处于将其他社会行为体联系在一起的模式之间的可能性。因此,中心性表示了参与者的默契排名。在以前的文献中发展和讨论了大量的中心性度量。这篇文章中研究的是一些最常见和被广泛接受的度中心性、中间性中心性和紧密性中心性的度量。
1、度中心性。节点的度中心度是指连接到该节点的边的数量。一些研究将度中心性解释为一种密度度量,因为高度代表大量直接连接,并且通常与较高的活动水平相关联。
2、接近中心。紧密度中心度是一种定义了一个节点与所有其他节点之间的距离的度量,即网络距离。它不仅依赖于直接联系,还考虑了间接联系,被计算为一个节点与所有其他节点的距离的倒数。
3、中间性中心。与封闭中心性相似,中间性中心度是一种路径依赖性的中心度度量。它测量一个节点在互连其他节点的最短路径中的次数(即允许两个通用节点之间连接的路径,通过尽可能少的边)。节点之间的距离越大,其社会地位就越相关。
4、中间中心度振荡。中间性中心性振荡统计每个节点在特定时间帧内中间性中心性的显著变化数。如果一个节点之间的中心度保持不变,观察不到任何变化;另一方面,如果它达到局部极大值或极小值,则将变动计算在内。这一指标也被称为“轮值领导”,并被证明是评估个人和企业创新能力的重要指标。
5、网络约束。网络约束表示一个节点的直接链路在多大程度上集中在相互连接的节点组中或分布到不同的非互连节点组。具有更开放的ego网络的节点有更高的机会调解对等点之间的连接,因为它们不受预先存在的链接的约束。这些被证明与积极的绩效评估、晋升和良好的想法有关。网络约束的价值是按照伯特的建议计算.
最后,文章考虑了一组控制变量,这些变量在以前的研究中通常用于宏观经济预测。对于BCI和CCI,使用名义GDP、通货膨胀率和利率作为控制变量。对于GDP,使用通货膨胀率和利率以及国家人口,文章进行了探索性研究,以检验上述变量的相关性,从而做出宏观经济预测。
05 结论预测
通过研究变量的相关系数,文章得到的初步结果可以看出国民账户体系可以帮助解释宏观经济指标。
度中心性对所有网络中的三个宏观经济变量都表现出很强的正相关关系。这似乎表明,与不同组织的更多经济互动是国民经济的健康指标。中间性中心度与交互网络中的GDP和所有图中的BCI和CCI呈正相关。似乎一个国家越是走在与其他国家相互联系的经济道路上,其国内生产总值(GDP)和企业和消费者表达的信心水平就越高。相比之下,封闭中心性与因变量之间没有任何显著的关联:这可能是由于这些网络的规模相对较小,并且大多数节点可能以较短的路径快速到达其他节点。至于位置网络中的中心振荡,这似乎是最重要的预测因子之一,在所有的网络中,它与所有的指标都有显著的正相关。最后,网络约束与交互网络中的因变量呈负相关。这一发现与以下观点一致:一个更开放、更少约束的网络位置有利于商业互动.
从GDELT中提取的其他指标发现,一个特定国家的新闻文章数量与其GDP、BCI和CCI呈正相关。不管文章中使用的平均语气如何,这种关系似乎仍然有效。事实上,我们没有发现语气与GDP和BCI有显著的联系;唯一的例外是CCI,我们发现语气与消费者的乐观有积极的联系。此外,研究结果显示,控制变量与几乎所有社会网络指标之间存在显著相关性,这意味着这些变量甚至可以被视为潜在的预测因子,可以预测GDP、通货膨胀和利率。
随后,运行进一步的模型来评估每个区块自身的预测能力,然后在最终模型中一起测试所有显著的预测因子,用于方差减少的评估。BCI、CCI和GDPCapita的ICC分别为46.4%、39.5%和37.8%,这表明每个样本方差中至少有三分之一取决于国家层面的差异。模型表明,每个宏观经济变量都可以通过一组特定的自变量进行更好的预测。具体说,位置网络中的中心振荡和平均语气有助于解释因变量BCI变化。另一方面,CCI似乎更受交互网络中国家间的中心振荡、新闻数量和联合图中网络约束值的影响。最后,GDP可以通过包含一组更大的显著性度量进行预测,从而获得更大的方差缩减:交互网络中的中心振荡和网络约束、位置网络中的网络约束、文章数量和Goldstein指数。
总的来说,提出的变量的加入使得预测模型在与空模型和仅包含控制变量的模型相比时得到了公平的改进。
Abstract
We propose a novel method to improve the forecast of macroeconomic indicators based on social network and semantic analysis techniques. In particular, we explore variables extracted from the Global Database of Events, Language, and Tone, which monitors the world’s broadcast, print and web news. We investigate the locations and the countries involved in economic events (such as business or economic agreements), as well as the tone and the Goldstein scale of the news where the events are reported. We connect these elements to build three different social networks and to extract new network metrics, which prove their value in extending the predictive power of models only based on the inclusion of other economic or demographic indices. We find that the number of news, their tone, the network constraint of nations and their betweenness centrality oscillations are important predictors of the Gross Domestic Product per Capita and of the Business and Consumer Confidence indices.
话题:
0
推荐
财新博客版权声明:财新博客所发布文章及图片之版权属博主本人及/或相关权利人所有,未经博主及/或相关权利人单独授权,任何网站、平面媒体不得予以转载。财新网对相关媒体的网站信息内容转载授权并不包括财新博客的文章及图片。博客文章均为作者个人观点,不代表财新网的立场和观点。