1、科学技术创新 2023.21基于 TextCNN 融合模型的离散情感分析程钢1,陈秀明1*,于翔2(1.阜阳师范大学 计算机与信息工程学院,安徽 阜阳;2.台州学院 电子与信息工程学院,浙江 台州)引言文本情感分析是自然语言处理中的热门研究方向,又称作文本挖掘。它的主要工作,是对网络各种媒体消息材料、社会媒体文章,尤其是对带有情感色彩的主观性信息,进行提取、分析处理、整合和判断。情感表达由观点持有者、评论对象、情感种类及评论时间等四要素构成。其中评论时间和文字发布时间保持一致,通常按网页发布时间来确定文章持有者与评论对象的提取通常由命名实体抽取和语义角色分析等方式在文章中获取;而对于文字中所表
2、达的情感种类分析,根据其目的内涵的不同而选取为不同的情感类种类,在体系上一般包括褒贬、喜怒哀乐悲恐惊、情感评分(列如 1-5 分)等类型。情感分析领域在国外已经有了十几年的历程,但是我国的研究却刚刚起步。由于语言的差异,部分国外的研究技术无法转化到中文处理中。所以,对于中文处理领域的专家们来说,如何针对中文语言的特点将某些较为娴熟的技巧与手段应用到中文情感研究领域,是一个值得积极探索的任务。1方法介绍1.1Jieba 分词与隐马尔可夫模型Jieba 库的主要作用为分词、关键词提取、添加自定义词典和词性标注,并有精确模式、搜索引擎模式和全模式三种分词模式。隐马尔可夫模型是一种概率转化模型,如表
3、1 所示:一个人换下一份工作的转换可能性1。表 1隐马尔可夫模型转化举例说明1.2LDA 模型LDA 主题分类法主要是用于预测文章的主题状况,LDA 认为文章可根据主题这么表示:美妆日记 美妆:0.8,美食:0.1,其他:0.1基金项目:浙江省教育厅一般项目 Y202249832;教育部产学合作协同育人项目 220606030222351。作者简介:程钢(1996-),男,硕士,主要研究方向:大数据、大数据挖掘及自然语言处理,splunk 数据分析师。通讯作者:陈秀明(1972-),男,博士,副教授,阜阳师范大学硕士研究生导师,主要研究领域:数据挖掘、大数据分析、个性化推荐系统、模糊决策。摘要
4、:在自然语言分析中,情感分析通常是在分析一段文字所表现的情感状况。情感分析的使用场景非常宽泛,比如旅行平台、电影评论平台等所进行的评价,分为积极评论与消极评价;又或者为了研究客户对某一商品的总体使用感觉,对商品的整体使用评价并做出情感判断等。本文数据使用的是阿里云天池的电商评论的数据,分为积极消极两种情感,并将它改成 6 种情感,本文使用 Jieba 分词,决策树,lda 主题模型,对文本进行挖掘,深入挖掘评论背后隐藏的问题。使用 TextCNN,TextRCNN,TextRCNN-Attention 模型对情感进行分类,并对模型进行对比。关键词:自然语言处理;情感分析;Jieba 分词;决策
5、树;LDA 主题模型;TextCNN;TextRCNN;TextRCNN-At原tention中图分类号院TP391文献标识码院A文章编号院2096-4390渊2023冤21-0124-04岗位 1 岗位 2 转换概率 数据挖掘工程师 数据挖掘工程师 0.7 数据挖掘工程师 教师 0.1 124-2023.21 科学技术创新假设我们要制作一个文本,它里边的所有单词产生的概率是2:1.3TextCNN 模型与传统图像的 CNN 网络相比,TextCNN 在网络结构上几乎没有任何变化(甚至更加简单了),TextCNN 其实是一层卷积,就是一个 max-pooling,然后再把图像进行外接 soft
6、max 来 n 分类3。1.4改进算法 TextRCNN 模型在 TextCNN 系统中,整体网路架构使用了卷积层+池化层的架构,在 RCNN 中,基于卷积层的特征提取的功能逐渐被 RNN 所替代,导致整体架构设计上成为了双向的 RNN+池化层架构,又称为 RCNN4-5。1.5多头注意力机制多头注意力机制即将输入数据进行多次映射,每次使用不同的作为注意力机制输入的查询,以捕捉不同的表示子空间的特征,从而可获得更全面、更富有表现力的表示结果,如图 1 所示。图 1多头注意力2 实验过程2.1数据来源这里使用了阿里天池上的语料库。共获取了2500 条数据,并将原来的两种情感,变为 6 种情感:其
7、中 pos:开心 pos1:信任 neg:难受 neg1:疑惑 neg2:愤怒 neg12:疑惑又愤怒,并将文件以纯文字文档进行保存。将其中的 4/5 划分为训练数据,1/5 划分为测试数据,表 2 展示的是数据具体的分布情况6-7。2.2数据预处理去除数字,字母,分词,去除停用词。由于数据集的内容经常会出现一些非中文与不用的字符以及标点符号等8。文本数据预处理后结果如表 3 所示。表 3数据预处理展示2.3举例说明构建开心和疑惑又愤怒的情感的词云图6快乐情感词云见图 2,疑惑又愤怒词云见图 3。图 2快乐情感词云图 3疑惑又愤怒词云2.4从每种情感的词云图中挖掘主题各种情感的主体见表 4。通
8、过对比:开心的主题是价格和快递方面,信赖的主题是物流价格与产品不错,难受的主要主题是售 开心评论数据 信任评论数据 难受评论数据 疑惑评论数据 愤怒评论数据 疑惑又愤怒评论数据 数据总量 训练数据 881 119 634 166 200 61 2000 测试数据 220 30 158 42 50 15 500 表 2数据分布情况(|)(|)(|)ppp主题词语文档词语 主题主题文档评论数据预处理 文本展示 处理前 物美价廉啊,特别划算的,而且加热速度快。家里用着不错特别方便 处理后 物美价廉特别划算加热速度家里不错 125-科学技术创新 2023.21后没有免费,只免费了材料费,疑惑的主要主题
9、是售后的态度比较差,愤怒的主要主题是安装费,愤怒疑惑混合的主要主题是安装收费这方面,因为这种情绪最为强烈,所以这种情感反应的问题也是最急切的。2.5实验依据采用分类精确率 precision、召回率 recall、平衡 F分数 f1-score 作为评价实验好坏的指标,其表示方法如下:TP:将正类预测为正类数;TN:将负类预测为负类数;FP:将负类预测为正类数误报;FN:将正类预测为负类数,如下依次表示为精确率 P,召回率 R,平衡 F分数 F19-10。2.6实验结果TextCNN 各情感效果对比见表 5,TextRCNN 各情感效果对比见表 6,TextRCNN-Attention 各情感
10、效果对比见表 7。通过观察 TextRCNN-Attention 的预测效果较好。结束语为了数据背后的故事,对文本做情感分析是一种可行的方式,但它还是不能完全挖掘数据背后的故事。我国汉字博大精深,一词能代表许多的意思,它涉及对词汇、句法和语义规则的深刻理解,所以对情感的准确分析还有很长的一段路要走。在大数据背景下,自然语言的广度和复杂度得到进一步的发展,同时也带来了更大的挑战,其发展仍需要很长一段时间,望砥砺前行。参考文献1杜永萍,赵晓铮,裴兵兵.基于 CNN-LSTM 模型的短文本情感分类J.北京工业大学学报,2019(7):662-670.2刘丽夏.国内外运动品牌的电商评论情感分析及主题提
11、取研究D.大连:东北财经大学,2022.3张家波.融合 emoji 表情的中文微博文本情感分析D.成都:西华大学,2020.4李杨,徐泽水,王新鑫.基于在线评论的情感分析方法及应用J.控制与决策,2023(2):304-317.5王颖洁,朱久祺,汪祖民,等.自然语言处理在文本情感分析领域应用综述J.计算机应用,2022(4):1011-1020.各种情感的主题 Pos 0.038*送货+0.025*东西+0.018*快递+0.017*力+0.017*产品+0.015*赞+0.013*购物+0.011*热水+0.011*品牌 Pos1 0.071*不错+0.029*满意+0.026*东西+0.0
12、21*收到+0.020*速度+0.018*信赖+0.015*家里+0.015*购买+0.014*赞+0.011*很快 Neg 0.049*差+0.032*售后+0.028*师傅+0.025*评+0.019*收费+0.018*垃圾+0.016*服务+0.015*打电话+0.013*免费+0.013*烧水 Neg1 0.024*差+0.019*售后+0.016*安装费+0.015*东西+0.009*问+0.009*不行+0.008*服务态度+0.008*本来+0.008*活动+0.008*天 Neg2 0.077*超级+0.039*太+0.022*评+0.018*安装费+0.017*垃圾+0.01
13、7*东西+0.014*加热+0.013*打电话+0.013*坏+0.012*电话 Neg12 0.138*服务+0.137*收+0.097*三 十 天+0.097*差 劲+0.097*价保+0.011*安装+0.004*产品+0.004*收费+0.003*配件+0.003*打电话 表 4各种情感的主题表 5TextCNN 各情感效果对比表 6TextRCNN 各情感效果对比 precision recall f1-score Pos 1.0000 1.0000 1.0000 Pos1 1.0000 1.0000 1.0000 Neg 1.0000 1.0000 1.0000 Neg1 1.00
14、00 1.0000 1.0000 Neg2 1.0000 1.0000 1.0000 Neg12 1.0000 1.0000 1.0000 表 7TextRCNN-Attention 各情感效果对比 precision recall f1-score precision recall f1-score Pos 0.9552 0.9552 0.9552 Pos 0.9851 0.9851 0.9851 Pos1 0.8333 0.8333 0.8333 Pos1 0.9167 0.9167 0.9167 Neg 0.9516 0.9219 0.9365 Neg 1.0000 1.0000 1.0
15、000 Neg1 1.0000 0.9167 0.9565 Neg1 1.0000 1.0000 1.0000 Neg2 0.7368 0.9333 0.8235 Neg2 1.0000 1.0000 1.0000 Neg12 1.0000 0.6667 0.8000 Neg12 1.0000 1.0000 1.0000 126-2023.21 科学技术创新6贾若雨.基于情感词典的文本情感倾向分析及可视化J.现代计算机(专业版),2017(9):38-40.7孙艳,周学广,付伟.基于主题情感混合模型的无监督文本情感分析J.北京大学学报(自然科学版),2013(1):102-108.8史伟,付月
16、.考虑语境的微博短文本挖掘:情感分析的方法J.计算机科学,2021(S1):158-164.9孔繁钰,陈纲.基于改进双向 LSTM 的评教文本情感分析J.计算机工程与设计,2022(12):3580-3587.10程艳芬,吴家俊,何凡.基于关系门控图卷积网络的方面级情感分析J.浙江大学学报(工学版),2023(3):437-445.Discrete Emotion Analysis Based onTextCNN-BERT Fusion ModelCheng Gang1,Chen Xiuming1*,Yu Xiang2(1.College of Computer and Information
17、 Engineering,Fuyang Normal University,Fuyang,China;2.School of Electronics and Information Engineering,Taizhou University,Taizhou,China)Abstract:In natural language analysis,sentiment analysis is usually the analysis of the emotional state ofa piece of text.Sentiment analysis can be used in a wide r
18、ange of scenarios,such as the evaluation of travelplatforms and movie review platforms,which can be divided into positive and negative comments.Or in orderto study the customers overall feeling of using a certain product,evaluate the overall use of the product andmake emotional judgments.This paper
19、uses the data of Alibaba Cloud Tianchis e-commerce comments,whichis divided into positive and negative emotions,and changes it into 6 emotions.This paper uses Jiebasegmentation,decision tree and lda topic model to dig the text and dig deeper into the hidden problemsbehind the comments.Use TextCNN,TextRCNN,TextrCNn-attention models to classify the emotions andcompare the models.Keywords:naturallanguageprocessing;emotionanalysis;Jieba;Decisiontree;LDAtopicmodel;TextCNN;TextRCNN;TextRCNN-Attention127-