查看原文
其他

华中科技大学石宣化等 | 外媒眼中的中国:以COVID-19为例(新闻数据集开源下载)

​黄宏,石宣化等 信息与电子工程前沿FITEE 2022-10-01
【COVID-19疫情早期,外媒在关注什么?外媒报道中国的立场是什么?外媒在谈论中国时是什么态度?FITEE通讯专家石宣化教授团队从22个国家的57家主流媒体机构爬取了28万多条与中国疫情有关的新闻,得到一些有趣结论,如对中国的新闻情绪方面,古巴、马来西亚和委内瑞拉持积极态度,而法国、加拿大和英国则持消极态度。本文已在线出版,详见https://doi.org/10.1631/FITEE.2000689。新闻数据集开源下载地址:http://203.195.140.107/dataset/download】

外媒眼中的中国:以COVID-19为例

黄宏1,陈哲学1,石宣化1,王晨旭1,何泽鹏1,金海1,张明新2,李宗亚2

1大数据技术与系统国家地方联合工程研究中心,服务计算技术与系统教育部重点实验室,集群与网格计算湖北省重点实验室,计算机科学与技术学院,华中科技大学,武汉,430074

2新闻与信息传播学院,华中科技大学,武汉,430074


【论文信息】

Hong Huang, Zhexue Chen, Xuanhua Shi*, Chenxu Wang, Zepeng He, Hai Jin,  Mingxin Zhang, Zongya Li, 2021. China in the eyes of news media: a case study under COVID-19 epidemic. Front Inform Technol Electron Eng, online. 

https://doi.org/10.1631/FITEE.2000689


01

研究背景


作为早期COVID-19疫情爆发地区之一,中国吸引了全球新闻媒体的关注。2020年初疫情期间,中国人民团结一致,积极抗击疫情。然而,在国际舆论场中,对华报道的情况却不容乐观。为更好了解外媒如何描绘中国,我们运用大数据技术做了一个案例分析。我们主要关注3个问题:(1)COVID-19疫情早期,外媒在关注什么?(2)外媒报道中国的立场是什么?(3)外媒在谈论中国时是什么态度?


02

研究内容


为研究上面3个问题,我们从3个层面探索媒体的聚焦点:实体层面、粗粒度主题层面和细粒度主题层面。在实体层面,我们主要关注外媒报道时所关注的实体,即现实世界的对象,例如人、组织等。在粗粒度主题层面,我们主要关注外媒对社会、政治等不同话题类别的新闻报道情况。进一步,在细粒度的主题层面,我们关注更具体的一些话题中外媒的报道看法,比如“武汉封城”、“疫苗进展”等。而针对外媒对中国的立场问题,我们分别研究了不同国家、不同主题、不同时期下的新闻立场。对于外媒在报道时对中国的态度问题,我们设计了两种方法来分析其对中国情绪的表达:一是用情感强度定量衡量一篇新闻对中国的情感温度,一是用情绪标签定性地检验情绪的类别。
具体地,我们从 22 个国家的 57 家主流媒体机构中爬取了 280,000 多条和中国疫情有关的新闻,并得到一些有趣的观察。例如,从一段时间内的话题分布分析中看到,2020年3月至4月期间,“中国疫苗进展”、“特定药物和治疗方法”、“美国病毒爆发”成为媒体关注最多的话题。在对中国的新闻情绪方面,古巴、马来西亚和委内瑞拉对中国持积极态度,而法国、加拿大和英国则持消极态度。我们的研究有助于了解中国在国际媒体眼中的形象,为研究中国的形象分析提供良好的基础。


03

原型系统


我们开发并部署了一个可视化系统(http://203.195.140.107)来展示本研究中的整个新闻分析过程。图1显示了系统框架。它由5个模块组成:
数据收集: 从22个国家的57个主流新闻网站爬取新闻,每天自动更新数据。
数据预处理:按照严格的标准对抓取的数据进行清理,并将多语种新闻翻译成英文。
数据分析:通过实体抽取、话题检测和追溯、事件抽取、话题分类、情感分析、基调检测、新闻推荐、摘要抽取8大模块,分析挖掘海量新闻。
数据可视化: 如图2所示,通过实体图谱、话题图谱、事件图谱、立场地图、情感地图和图表等形式来展示分析结果。
存储服务:使用MongoDB存储新闻数据,利用 TripletBit 来存储实体、主题、事件等知识图谱数据。


图1  系统框架


图2  系统可视化


04

开源数据集


我们为国家形象研究和NLP等任务构建了高质量的数据集,并为其中4115篇新闻通过众包技术进行标注,其中每篇新闻包含情感标签(Emotion)、基调标签(Tone against China)、主题标签(Subject)、话题标签(Topic)和类型标签(Type),其详细标注信息如表1所示。数据集下载链接为http://203.195.140.107/dataset/download。

表1  标注字段和标签


附:本文数据来源——22个国家的57个主流新闻网站



【主要作者简介】

黄宏:华中科技大学计算机科学与技术学院副教授,2016 年获得德国哥廷根大学计算机科学博士学位,2012年获得清华大学电子工程硕士学位,主要研究方向包括社交网络分析和数据挖掘。

石宣化:华中科技大学计算机科学与技术学院教授、副院长,大数据技术与系统国家地方联合工程研究中心副主任。2005年在华中科技大学获得工学博士学位,2016-2017年在法国国家信息与自动化研究所从事博士后研究。在ASPLOSVLDBACM Trans Comput Syst IEEE Trans Parall Distr Syst等会议和期刊上发表了40多篇论文,研究得到中国国家自然科学基金委、科技部、教育部、欧盟、字节跳动、阿里巴巴等机构与企业支持,主要研究方向包括云计算、大数据处理和异构计算。2019年7月起担任FITEE通讯专家。

金海:博士,华中科技大学教授、博士生导师,长江学者特聘教授,国家杰出青年基金获得者,中国计算机学会会士,IEEE Fellow,ACM终身会员,武汉网络安全战略与发展研究院院长,华中科技大学“大数据技术与系统国家地方联合工程研究中心”主任,“服务计算技术与系统教育部重点实验室”主任,“集群与网格计算湖北省重点实验室”主任,“大数据安全湖北省工程研究中心”主任。金海1994年毕业于原华中理工大学计算机系计算机系统结构专业,获工学博士学位。1996年5月至1996年8月获德国DAAD交换学者奖学金,在德国Chemnitz大学从事有关SCI互连的SMP集群计算机的科研合作。1998年4月至2000年12月赴香港大学从事博士后研究,期间于1999年1月至2000年12月赴美国南加州大学继续从事博士后研究工作。2000年底回国工作至今。主要研究领域为计算机系统结构、并行与分布式处理、云计算与大数据、网络空间安全等。2019年1月起担任FITEE编委。





关于本刊

Frontiers of Information Technology & Electronic Engineering(简称FITEE,中文名《信息与电子工程前沿(英文)》,ISSN 2095-9184,CN 33-1389/TP)是信息电子类综合性英文学术月刊,SCI-E、EI收录,最新影响因子1.604,进入JCR Q2分区。前身为2010年创办的《浙江大学学报英文版C辑:计算机与电子》,2015年更为现名,现为中国工程院信息与电子工程学部唯一院刊。覆盖计算机、信息与通信、控制、电子、光学等领域。文章类型包括研究论文、综述、个人视点、评述等。现任主编为中国工程院院士潘云鹤、卢锡城。实行国际同行评审制,初次转达意见一般在2~3个月内。文章一经录用将快速在线。

2019年,荣获中国科协等七部委推出的中国科技期刊卓越行动计划项目资助(梯队期刊)。


官网http://www.jzus.zju.edu.cn

期刊Springer主页

http://www.springer.com/computer/journal/11714

在线投稿

http://www.editorialmanager.com/zusc


更多信息,请见:FITEE影响因子提升55%,首次跨入Q2区


微信加群
为方便广大科研人员交流讨论,本平台建有以下学科微信群。有需要加群的用户,请加小编个人微信号fitee_xb,并留言想要加入的群,小编会拉您进群。营销广告人员请勿扰。

计算机科学与技术学术群

光学工程与技术学术群

控制科学与技术学术群

信息与通信学术群

电力电子学术群

人工智能学术


加关注  ID: fitee_cae

本公众号为中国工程院院刊《信息与电子工程前沿(英文)》(SCI-E、EI检索期刊)官方微信,功能包括:传播期刊的学术文章;为刊物关联学人(读者、作者、评审人、编委,等)提供便捷服务;发布学术写作、评审、编辑、出版等相关资讯;介绍信息与电子工程领域学术人物、学术思想、学术成果,展示该领域科学研究前沿进展;为该领域海内外学者提供友好互动平台。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存