基于词极性算法及一维卷积词...技术的商品评论情感分类研究

资源描述

1、SOFTWARE软件2022第 43 卷第 12 期2022 年Vol.43,No.12作者简介：李昕昊（1995）,男,陕西西安人,硕士研究生,研究方向：系统工程。基于词极性算法及一维卷积词向量技术的商品评论情感分类研究李昕昊（上海理工大学，上海 200093）摘要：在不同的电商平台中,部分用户购买商品后会发表评论信息,以此来反馈购买商品的态度。对用户的商品评论数据进行挖掘与分析,有利于商户与生产企业预估商品销量、改进商品品质而言具有潜在的应用价值。因此本文主要工作是采用改进的 Word2Vec 词嵌入模型,将整个情感词典进行扩展分析,以改进情感词典的电商平台适用性,确定用户真实的情感

2、倾向,再将其与情感词极性分类算法有效结合,最终提升整体算法的情感分类性能,实验结果表明,所提 Conv1d-Word2Vec 模型相较于传统模型具有更优的情感识别效果。关键词：词嵌入；情感分类；一维卷积；词极性算法中图分类号：TP391.1文献标识码：ADOI：10.3969/j.issn.1003-6970.2022.12.025本文著录格式：李昕昊.基于词极性算法及一维卷积词向量技术的商品评论情感分类研究J.软件,2022,43(12):100-104Research on Emotion Classification of Product Reviews Based on Word Po

3、larity Algorithm and One-dimensional Convolution Word Vector TechnologyLI Xinhao(University of Shanghai for Science and Technology,Shanghai 200093)【Abstract】：Indifferente-commerceplatforms,someuserswillpostcommentsafterpurchasingproductstofeedbacktheirattitudetowardstheproducts.Miningandanalyzingpro

4、ductreviewdataofusershasgoodpracticalvalueforenterprises.Inthiscontext,themainworkofthispaperistousetheimprovedWord2Vecwordembeddingmodel,toexpandandanalyzetheentiresentimentdictionary,buildingagoodsentimentdictionaryofe-commercebusinessplatform,anddeterminingusersrealemotionaltendencies,itiscombine

5、dwithwordpolarityalgorithmeffectively.Finally,theemotionanalysisandimprovementofthewholealgorithmarecarriedout.TheexperimentalresultsthatConv1d-Word2Vecmodelhasbettereffectonemotionrecognitionthantraditionalmodel.【Key words】：Word2Vec;sentimentclassification;conv1d;wordpolarityalgorithm设计研究与应用0 引言信息时

6、代促进了互联网的高速发展,相继出现的大型网络电商平台提升了消费者购物的便利性,如果能使用机器学习方法对商品评价文本进行有效的情感分类,就能提升整体电子商务的生态质量,可见情感分类是当前人工智能自然语言处理领域中的研究热点。现有情感分类方法主要为 3 类：半监督分类、有监督分类和无监督的分类方法。其中无监督分类主要采用固定句法模式1或者预制情感词典2来分析商品的评论数据集,例如 Turney 等学者通过评论语句之中的词性来完成固定句法模式的挖掘,但是相似句法的识别准确率还不够理想3,Ohaha 等学者采用了 SentiWordNet情感词典,该词典具有包含了一系列将常识推理、语言学和机器学习相结

7、合的情感分析工具,但受限于无监督分类的特点,分析精度还有欠缺4。相比于无监督法,有监督分类处理的准确率普遍较高,原因在于其使用的机器学习分类器是带有标签的训练样本优化生成的,所以具有完整的情感分类指向。有监督的情感分类处理算法通常在操作的初始会利用向量空间模型、将已标注的词语作为模型的输入训练,通过特征函数选取最具区分性的特征等方法来将评论文本转化为标准向量,然后训练机器学习的分类模型完成具体101李昕昊：基于词极性算法及一维卷积词向量技术的商品评论情感分类研究评论向量的分类,徐琳宏等人将文本特征划定为情感倾向强烈的词语,从而提升了数据的识别分辨率5。可见有监督分类方法主要难点在于测试样本特征

8、的提取难度较高,导致算法的跨行业迁移应用较难。半监督分类介于有、无监督方法之间,理论上能吸收两种算法各自的优势,但是融合难度较高,不利于实际应用。综上分析,有监督学习还存在如下诸多问题：首先情感词的特征极性不明显；其次机器学习分类器对上下文的关联性还有不足,即不能充分考虑情感词的原极性,从而会导致算法迁移扩展性较差。针对上述问题,本文提出一种基于融入 Conv1d 的 Word2Vec 词嵌入情感分类处理模型,构建适应网络电商评论的情感词典,并进一步在扩充情感词典基础上,利用改进词极性算法6来分析真实商品评论的情感性。1 词嵌入情感分类方法1.1 基本词嵌入网络结构词嵌入是一种重要的使用方式,

9、每一个词语都可以作为一个实数向量来进行分析,例如评论文本中经常出现的“一般、喜欢、不喜欢”进行向量空间的映射,此时可以将不喜欢的词语映射为（-0.1-0.2-0.3）,喜欢的词语映射为（0.10.20.3）,一般的词语映射为(0.20.40.6）,后续不同的词语转化为各自的向量空间。在 NLP 中存在多种神经网络的词向量计算方法,例如 NNLM、Word2vec 等,其中被广泛运用在词向量中的 Word2vec 是由Miko-lov 在 2013 年提出的7。在整个词嵌入模型分析之中,常用的模型为 Word2vec,此模型由谷歌公司进行编码完成,主要通过深度学习与分析的思想来进行训练,能够将整

10、个不同的词表进行实数值量的高效转化,通过这样的处理之后,文本数据信息能够处理为高维空间的向量运算,同时文本语义的相似度就转化为向量空间的相似度来进行表示。Word2vec 词嵌入技术包含 2 种词向量计算模型,分别是 Skip-gram模型和 CBOW（ContinuousBag-of-Words）模型。Skip-gram 模型的预测次数较多,训练时间较长,比较适合计算数据较少的词向量,而对于文本量较大的数据,Skip-gram 模型计算时复杂度较高。相反,此情况适用于 CBOW 模型,该模型具有较高较准确的计算精度,其主要思想是根据上下文内容来预测句中文字出现的位置8。Word2vec 技术

11、主要是依据句中词语间的相互作用,得出语句中第 n 个单词的出现概率,以及受之前n-1 个单词的影响情况,具体如公式（1）所示：1,2.1|()()nnnw wpwwwp=（1）1.2 Word2Vec 模型原理根据上下文单词出现的频率,继而组成的词向量矩阵,可以计算出词典中两个词之间的相似度,得到一个相似矩阵是由相似度为 0-1 间的一个值组成。Word2Vec 模型输入层是把 N 个上下文的词,经过嵌入层将结果沿着输出层达到目标词所在的节点,最终得出与目标词之间的相似性,将相似性保留在词向量中。如图 1 所示即为该模型。.y1y2yS W(NS）输入层隐藏层W(SV）输出层Y=WTX.f1f

12、2f3fv.x1x2x3xN图 1 Word2Vec 模型Fig.1 Word2Vec model在 Word2Vec 模型中,其中输入层是一个 one-hot向量（考虑一个词表 N,里面的每一个词,都有一个编号 i 1,.,|N|,那么例如词 i 的 one-hot 即表示就是一个维度为|N|的向量,其中第 i 个元素值非零,其余元素全为 0,即为0,1,0.,0T）,而隐藏层是一个 S 维稠密向量,输出层是一个 V 维稠密向量,W 表示词典的向量化矩阵,也是输入到隐藏层以及隐藏层到输出的权重参数；因此输入层到隐藏层表示对上下文词进行向量化,而隐藏层到输出层,表示计算上下文词与词典的每个目标

13、词进行点乘计算,例如输入的向量 X 是 0,0,2,0,0,0,W 矩阵是 2,1,3,则 W 的转置乘上 X得到 4,2,6 即作为隐藏层的值。隐藏层到输出层也有一个权重矩阵 W,因此,输出层向量 y 的每一个值,其实就是隐藏层的向量点乘权重向量 W 的每一列,比如权重矩阵列向量为 1,0,1,最终输出就是向量 4,2,6 和列向量 1,0,1 点乘之后的结果为 10；最终的输出经过 Softmax 函数,将输出向量中的每一个元素归一化到 0-1 之间的概率,概率最大的,就是预测的词。Word2Vec 模型在对词向量矩阵进行处理时主要采用连续词袋进行,后续通过处理共现矩阵来获取平均上下文的词

14、向量,但是 Word2Vec 模型也存在不足,例如其无法对结果进行动态优化,以及 Word2Vec 模型解决词类转换是一对一的关系,对多义词的样本没有办法更好的解决。102软件第 43 卷第 12 期SOFTWARE针对上述问题,在此提出在原有模型结构的隐藏层中融入 Conv1d 一维卷积层加固化过滤器进行改进优化。1.3 Conv1d 一维卷积层原理如图 2 结构举例所示,对于一个样本而言,假如句子长度为“Iwillgoforawalk”6 个词,词向量的维度为 8,filters=5,kernel_size=3,所以卷积核的维度为（38）,那么输入（68）的矩阵经过（38）的卷积核卷积

15、后得到的是（41）的一个向量,又因为有5 个过滤器,所以最终是得到 5 个（41）的向量。具体运算公式如公式(2)和公式(3)所示：卷积后的维度：(2)/1nfps+（2）池化后的维度：()/1nfs+（3）其中 f 表示卷积核的大小,p 使表示用边界填充,s表示歩长。Iwillgoforawalk W1（68）W1（38）W2（38）W3（38）W4（38）W5（38）(41）.(41）池化图 2 Conv1d 原理图Fig.2 Schematic diagram of Conv1d1.4 情感分类具体工作过程其中具体步骤所需文本数据预处理和预训练模型（预训练模型是一个已经训练好的保存下来

16、的网络,该网络之前在一个大型的数据集上进行了训练,其作用可以将预训练模型当特征提取装置使用,用于迁移学习,当其学习到的特征容易泛化的时候,迁移学习才能得到有效的使用,现使用较多的例如 Bert 模型等）。在分类过程中需要用到机器学习较为常见的分类器：（1）线性回归：根据给出的数据拟合出一条直线或曲线,反应数据的分布；评判的准则或损失函数：统计所有预测值以及对应实际值 y 之间的距离之和,使其最小化。（2）逻辑(Logistic)回归：可以把输出的值映射到0-1之间表示概率问题,如果中间设定某一阈值（比如0.5）,大于0.5表示正类,小于0.5表示分类,即二分类问题。（3）Softmax回归：跟逻辑回归一样,只不过Softmax针对的是多分类。（4）SVM 支持向量机：定义在特征空间上的线性分类器,是一种二分类模型。在本文多分类任务中,将最终的网络输出多个值,分别代表不同种类的值,再将神经网络的输出值转化为对应每种类别的概率,此时我们需要一个 Softmax 激活函数公式如公式（4）所示：1lzliinijtteat=（4）t 是我们引入的临时变量,相当于每个输出值都做操作,再将其归一化

展开阅读全文

基于词极性算法及一维卷积词...技术的商品评论情感分类研究_李昕昊.pdf