1、第 46 卷 第 1 期2023 年 1 月测绘与空间地理信息GEOMATICS&SPATIAL INFORMATION TECHNOLOGYVol.46,No.1Jan.,2023收稿日期:2021-12-26基金项目:省级创新专项资金项目(YC2020-S437)资助作者简介:孙长青(1995-),男,内蒙古人,地理学专业硕士研究生,主要研究方向为大数据网络舆情和地理时空演变。GDELT 大数据下的 COVID-19 事件关注度时空演变特征分析孙长青(江西理工大学 土木与测绘工程学院,江西 赣州 341000)摘要:基于 GDELT 事件报道,将全球 248 个国家新闻报道数据作为研究对象
2、,首先建立分类模型评估在合作和冲突事件类型下的网络关注度变化,然后通过空间自相关和空间核密度分析并结合网络化挖掘方法对疫情事件进行时空可视化,揭示了疫情下世界各国网络关注度变化特征。结果表明:本文提出的方法有助于掌握各国新冠肺炎疫情网络关注度的发展状况和趋势,发现全球疫情网络关注度的变化规律和特点,对于判断疫情下的舆情变化具有重要意义。同时完善了以大数据为支撑的国际视角下网络关注度的研究,可为日后的世界舆情事件研究提供借鉴。关键词:GDELT;新冠肺炎疫情;网络关注度;网络化;时空演变中图分类号:P208 文献标识码:A 文章编号:1672-5867(2023)01-0056-04Spatio
3、-temporal Evolution Characteristics of Global Attention toCOVID-19 Supported by GDELT Big DataSUN Changqing(School of Civil and Surveying Mapping Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,China)Abstract:The Global Database of Events,Language,and Tone(GDELT)Database coll
4、ects hundreds of thousands of news media re-ports around the world and observes world dynamics in real time.Based on GDELT event reports,classification model is established by the assessment under the cooperation and conflict event types of network awareness,making the news report data of 248 countr
5、ies a-round the world as the research object,and then it is spatio-temporal visualization of outbreak events through the analysis of the spa-tial autocorrelation and kernel density combined with network mining method.It reveals the changing characteristics of online attention in countries around the
6、 world under the epidemic.The results show that:the method proposed in this paper is helpful to understand the development status and trend of online attention to COVID-19 in various countries,and to discover the changing rules and charac-teristics of online attention to COVID-19 in the world,which
7、is of great significance to judge the change of public opinion under the epidemic situation.At the same time,the research on network attention from the international perspective supported by big data is im-proved,and it provides reference for the future research on world public opinion events.Key wo
8、rds:GDELT;COVID-19;online attention;networking;spatio-temporal evolution0 引 言新冠肺炎(COVID-19)疫情的迅速蔓延,使得无数人饱受病痛折磨,严重威胁着人们的生命安全。截至 2021年 8 月 5 日,世界各国已累计确诊 200 939 634 例,累计死亡 4 265 679 例。世界各国都在采取措施来应对这一突发疫情,由此也引发了社会各界的广泛关注。国内外对于网络关注度有许多研究,国内学者对于网络关注度的研究多是通过搜集百度指数,对旅游景区进行空间格局分析1、景区游客时空特征分析2-4、时空演变5分析,以及利用
9、模型研究新冠肺炎疫情关注度变化6。国外学者多通过 Google 趋势进行分析,在信息流行病学和信息监测方面的趋势分析7,卫生及卫生政策的机遇和限制8,预测新冠肺炎的发病率9等。在研究尺度上,主要有市域尺度、省域尺度和国家尺度1,3,10。而 GDELT(Global Database of Events,Language,and Tone)的研究多集中于国家尺度上,在国家政治关系和公共舆情分析上较多。如秦昆对 GDELT 数据网络化挖掘及国际关系的分析11,池志培通过 GDELT 进行中美双边关系的量化研究12,还有程盈莹对中国引进外资的国际舆论影响研究13。新冠肺炎疫情的爆发引起了世界的注目
10、,对于新冠肺炎的研究国内外多集中于医学、病毒学、病理学研究15,地理学者们关注的重点则是疫情时空演变特征分析16、疫情风险评估17,以及疫情对我国经济、环境、社会舆情的影响上18-20。可见,国内外学者对于新冠疫情研究已较为全面,无论是对发病机理、传播途径还是时空变化、风险评估,或是疫情影响、传播趋势都有大量研究,但对于全球公共媒体视角对疫情的关注度的研究相对较少。基于媒体报道的疫情关注度时空演变态势,能够有效反映出疫情期间各国对于疫情认知和需求变化,对于国际疫情的防控有重要作用。1 数据来源与研究方法1.1 数据来源与处理GDELT 数据库网罗了全球的各种报道信息,并建立定性评价,将事件分为
11、合作和冲突 2 类。它根据每个事件记录的戈德斯坦分数、文本语言中的关键词、新闻评论的语气等信息定量描述了事件的影响力,获取的数据可以描述事件的特点,然后通过数据提取分析疫情事件的关注度。在 GDELT 官方提供的下载地址中将所有 Event 表的csv 格式文件提取出来,利用它的免费下载路径14,下载了从 2019 年 12 月 15 日到 2021 年 3 月 31 日的 Event 表数据。利用 Mapreduce 数据清洗技术,选取所有的新冠肺炎事件,将 url 字段下所有包含“COVID-19”“covid”“coronavirus”“pneumonia”“Wuhan”“2019-nC
12、ov”“NCP”“Novel coronavirus pneumonia”等字符的事件筛选出来,筛选出的事件信息按月将处理结果整合,再使用 Python 的pandas 等数据处理框架对数据进行分析。1.2 研究方法1.2.1 全局空间自相关空间自相关是判断某一变量是否在空间上存在关联性的一种方法。全局空间自相关是分析地理要素观测值在整体研究区上的空间特征3。本文利用 Morans I 值对疫情网络关注度的全局空间演变特征进行分析,选取Rook contiguity 准则构建空间权重矩阵。1.2.2 局部空间自相关局部空间自相关是分析地理要素观测值在局部研究区域上空间分布的异质性3。选取 Ge
13、tis-OrdGi指数,通过地理要素的空间冷热点区域变化来分析疫情网络关注度的局部空间演变特征。1.2.3 核密度估计方法核密度估计方法是空间分析中常用的一种方法1,依据输入的样本数据用以计算在某区域内数据的集聚程度。使用该方法可以清晰地表现出不同国家的媒体网络关注度,能够较好地反映出各国家之间存在的差异,因而本文采用核密度分析方法对不同时间段内全球各国的网络关注度进行对比分析。1.2.4 关注度分类模型GDELT 数据库中的 Events 表将事件分为合作类事件和冲突类事件,因此,需要分别对其相应关注度进行描述。首先建立事件的权重值 Li:Li=log2(Nin=1MnNi)(1)建立关注度
14、计算公式为:C1=N1n=1InLiN1;C2=N2n=1InLiN2(2)式中,C1表示合作指数,C2表示冲突指数。式(1)用Li表示提及次数权重,每条事件都有相对应的提及次数Mn,Ni表示当前事件类型的事件总数。式(2)中,In表示每条事件的强度值,N1、N2分别表示当前合作类和冲突类事件总数。1.2.5 国家疫情事件交互网络若两国同时对一个疫情事件表示关注,则定义 2 个国家共同参与 1 个新冠肺炎事件为 1 次交互,记交互次数为1。根据 GDELT 事件表构建 1 个无向有权的国家关注度交互网络,表示为 G=(V,e,g,w),集合 V 表示交互的国家集合,e 表示国家的交互边集,g
15、表示某个国家节点标识,并且用 ISO 国家编码来表示国家,w 表示权重,本文用事件出现的次数来代表边权重11。2 新冠肺炎疫情全球媒体网络关注度时空特征分析2.1 时序演变特征分析对 GDELT 疫情报道数进行时序统计,得到从 2020 年1 月到 2021 年 3 月全球、各大洲及报道量前十国家的时序分布。如图 1 所示,亚洲、欧洲、非洲、大洋洲、拉丁美洲、北美洲以及全球各个范围内的新冠肺炎疫情网络关注度均呈现先升后降的演变趋势。对各国报道疫情事件数进行分类后(如图 2 所示),以合作类为例,疫情事件关注度在疫情爆发第一个月报道量较低,处于低峰期;26 月,新冠肺炎疫情开始向全球蔓延,疫情事
16、件的关注度呈先增大后减小的趋势;第 3月的报道量达到顶峰,是全球疫情事件报道的高峰期,其后报道量基本处于稳定状态仅有较小波动。15 个月内美国的疫情报道数量最高,并在 7 月和 12 月有 2 个波峰,呈现一峰多岭态势;中国在第 2 个月报道量达到顶峰;德国(GBR)、意大利(ITA)、加拿大(CAN)、澳大利亚(AUS)、印度(IND)、法国(FRA)这些国家第 3 个月达到高峰,尼日利亚(NGA)第 4 个月达到高峰,此后关注度持续降低;75第 1 期孙长青:GDELT 大数据下的 COVID-19 事件关注度时空演变特征分析德国在第 12 个月和第 13 个月有一个较缓的波峰,对疫情的关注度又有所上升。冲突类报道和合作类报道相似,只在部分月份国家排名上有所差异,第 3 个月中国报道数量要高于德国。图 1 全球及亚洲、非洲、欧洲、拉丁洲、北美洲、大洋洲各大洲 新冠肺炎疫情网络关注度的时序演变图Fig.1 A chronological map of the evolution of online attention to COVID-19 by continents图 2 报道量前