1、收稿日期:20221205*本文系国家社科基金重点项目“大数据环境下领域知识加工与组织模式研究”(项目编号:20ATQ006)成果之一。作者简介:潘苏楠(1997),女,2020 级硕士研究生,研究方向为自然语言处理;邓三鸿(1975),男,博士,教授,博士生导师,信息处理与数据挖掘研究,发表论文 160 余篇;王蔚萍(1969),女,本科,研究方向为数据分析与处理、数据通信技术应用等,发表论文 10 余篇。融合母评论文本信息的评论短文本情感分析研究*以短视频评论文本为例潘苏楠1,2邓三鸿1,2王蔚萍3(1 南京大学信息管理学院江苏南京210023)(2 江苏省数据工程与知识服务重点实验室江苏
2、南京210023)(3 江苏蚂蚁云数据技术有限公司江苏南京210008)摘要:目的/意义 提出融合母评论文本信息的评论短文本情感分类模型以提高互联网环境下短文本评论情感分析效果,适应舆情工作中的实际应用需求。方法/过程 以短视频平台舆情事件的评论数据为实验对象,利用 GU 提取母评论文本特征和直接提取评论区特征,分别将这些特征与 CNN 提取原评论文本特征并行融合进行情感分类。结果/结论相较于传统深度学习方法,引入的母评论文本特征使两个数据集的情感分类效果都获得了一定提升,F1 值等均分别提升了 2%和 1%,说明本文提出的特征引入方案能够提升评论短文本的分类效果,为舆情工作中的情感监测实际应
3、用提供了思路,验证了舆情相关理论研究对实际技术应用有借鉴和指导意义。关键词:情感分析;短文本;沉默的螺旋理论中图分类号:G353文献标识码:Adoi:103969/jissn10058095202304001esearch on the Short Text Sentiment Analysis with the Text of Parentcomment:A Case Study of Short Video CommentsPan Sunan1,2Deng Sanhong1,2Wang Weiping3(1 School of Information Management Nanjing
4、University Nanjing Jiangsu 210023)(2 Jiangsu Key Laboratory of Data Engineering Knowledge Service Nanjing Jiangsu 210023)(3Jiangsu Ant Cloud Data Technology CoLtd Nanjing Jiangsu 210008)Abstract:Purpose/significanceThe paper proposes an emotional classification model of short text comments that inte
5、grates theinformation of parentcomment to improve the performance of emotional analysis of short text reviews in the Internet environment and a-dapt to the practical application in public opinion work Method/processTaking the comment of public opinion events on short videoplatform as the experimenta
6、l object GU is used to extract the features of parentcomment text and the features of comment area Thesefeatures are fused with the features CNN extracted from original comment text for emotional classification esult/conclusionCom-pared with the traditional deep learning method the introduction of p
7、arentcomment text features has improved the emotional classifica-tion effect of both datasets to a certain extent and the F1 value has increased by 2%and 1%respectively This shows that the feature in-troduction scheme proposed in this paper can improve the classification effect of short text comment
8、s which provides ideas for the practi-cal application of emotional monitoring in public opinion work and verifies that the theoretical research on public opinion has referenceand guidance significance for practical technical applicationKeywords:sentiment analysis;short text;silence spiral theory1202
9、3 年 4 月Apr 2023情报探索Information esearch第 4 期(总 306 期)No 4(Serial No 306)近年来,随着移动设备的普及和移动互联网技术的提升1,短视频平台作为一种新型社交2 媒体平台逐渐为大众所接受和使用,以抖音、快手为代表的各短视频平台用户下沉效果显著,用户数量呈现爆发式增长。根据中国互联网信息中心(CNNIC)2022 年 8 月 31 日发布的第 50 次中国互联网络发展状况统计报告,截至 2022 年 6 月,我国全国网民达 1051 亿户,网络普及率达 744%,其中网络视频(含短视频)用户规模达 995 亿户,短视频用户规模为 96
10、2 亿户,较 2021 年 12 月增长 2805 万户,占网民整体的 915%。3 短视频具有信息4 直观、发布门槛低、发布难度小的特点,相较于以往网络5 社交平台以文字图片为主,短视频更加丰富、全面,包含更多信息,网民能够随时随地通过移动互联网爆料、参与突发事件的信息传播和讨论。基于此,社会热点事件很容易在短视频平台上迅速发酵,产生大量相关视频和讨论,极易引发网络舆情。例如 2022 年 6 月唐山暴力打人事件,4 分多钟的现场监控全程记录将暴力犯罪全过程赤裸裸地6 暴露在了大众面前,引发了全网激烈讨论,最终成为网民持续关注的重大舆情事件乃至后续引发了次生舆情。由此可见,网络舆情环境较以前
11、发生变化,短视频是舆情发酵新兴7 场所。短视频舆情的监测治理需要对视频内容、评论等数据进行分析,对评论的情感极性判断在舆情防治中必不可少。然而短视频舆情监测工作中的短文本情感分析任务有时间短和样本量小的特点,虽然深度学习方法在短文本情感分析任务中取得了新的突破,向着计算更快、分类效率更高、可移植性更好发展,但同时也面临着数据特征稀疏问题1。由此本文提出引入除评论文本本身的其他特征以期提升分析效果。1相关研究与问题提出11短文本情感分析短文本是指字符数量较少的文本,长度通常小于 160 字2,包含的语义信息有限。与长文本不同,短文本分析8 主要难点在于短文本的关键特征非常稀疏、高噪声和上下文依赖
12、性强3。由于参与者众多且信息发布门槛低,互联网上存在海量的短文本信息且增长迅速,例如微博、Twitter 等社交平台的发帖和评论,淘宝、亚马逊等电商平台的商品评论等。短视频平台对标题(内容描述)和评论有字数限制,也属于短文本范畴。这些海量短文本信息中蕴含着许多有价值的内容有待挖掘,短文本分析具有广泛的应用需求46。短文本9 研究因其特殊性和广泛的应用需求,吸引了越来越多的学者。短文本本身长度导致特征向量的维度过少,对整体数据进行分析时会出现特征矩阵稀疏问题10,语义信息有限也导致对评论、聊天等短文本的理解依赖于其上下文背景信息。丰富特征可以一定程度上改善这些问题。LADa 等创建了中文网络用语
13、和表情词典用于细粒度情感分析7。11 也有学者利用中文情感词本体数据库构建情感词典,实现舆情评论情感价值量化模型8。范昊等通过对比 FastText算法生成的词向量与字向量在双向 GU(Gate e-current Unit,循环门单元)12 循环神经网络的训练效果发现,使用字向量训练可以降低模型过拟合的风险9。邓钰等提出一种多头注意力记忆网络(MAMN)用于情感分类,利用 ngram 特征和有序神经元长短时记忆(ONLSTM)网络对文本情感语义特征进行充分提取,使模型可以获得更丰富的文本特征信息10。除了基于文本本身,在分析时引入上下文及背景信息也是解决短文本表示稀疏性问题的一个方法。网络信
14、息的情感分析不能脱离其上下文环境11。M Xuanyuan 等在对微博评论进行情感分析时,引入评论用户的用户属性,模型分类准确率取得了短期小规模数据情感分类领域的领先水平12。张林等通过实验发现情感分类效果随着评论长度的增加而下降,借助短评论特征分析轻型评论中较长评论,即增加长评论中与短评论共现的特征,可以有效地提高较长评论的分类效果13。12沉默的螺旋理论早期网络13 文本分析大多关注于文本和技术本身,而短文本自身语义有限等特点使得对短文本进行分析时14 有必要丰富特征,那么在舆情场景下可以依据社科中的舆情相关理论研究来探索和选择强关联、易获取的信息,并在模型设计过程中注意特征提取所导致的训
15、练时间延长问题,进行平衡,更加适应实际应用需求。基于以上考量,本文选择着眼于舆情研究中一个经典理论:沉默的螺旋理论。沉默的螺旋理论(the spiral of silence)是由德国学者伊丽莎白诺尔诺伊曼提出。该理论强调人的社会性,寻求认同感,防止被群体和社会孤立。在互联网中该理论体现为如果网民在发布言论前认为或观察到外界观点立场与其观点立场相似,则会更乐于将其观点表达出来,但是如果网民在发布言论22023 年 4 月情报探索第 4 期(总 306 期)前认为或观察到外界观点与其观点立场不一致时,他们则倾向于沉默以避免被孤立。一方意见的沉默会进一步促进另一方意见的发声,循环往复,螺旋发展,最
16、终导致一方声量越来越大而另一方越来越沉默。如此发展,群体较易达成最终一致性意见,形成群体极化。早在 2003 年,谢新洲就通过调查问卷形式15 进行实证研究,结果显示网络中存在“沉默的螺旋”14。李琪等通过分组实验进行实证分析,发现社交媒体环境下沉默螺旋效应依然存在但与传统线下环境存在一定差异15。许多学者16 针对互联网环境中沉默的螺旋理论探索其奏效条件17。MDuncan 等学者通过实验研究发现新闻的评论氛围影响了参与者的意见和评论,佐证了那些持有强烈意见的人在他们认为意见氛围是反对而不是支持他们的观点时更有可能发表评论16。HTChen 的研究发现更高程度的分歧和公开性会促进沉默的螺旋17。由以上研究可以看出“沉默螺旋”现象在网络舆情事件中还是有一定条件发生的,特别是用户下沉显著的短视频平台,容易存在评论情感表达较为强烈的情况。13基于深度学习的短文本情感分类问题的特征引入方案舆情分析任务需要在短时间对相对规模小的数据进行分析12,18。短时间内的实际需求导致此类任务中通常选用层次较少的深层神经模型,而短视频评论通常又有字数限制,为短文本,单条评论包含的特征信息少,导致其情感分类