1、Computer Era No.9 20230 引言随着互联网技术及购物平台快速发展,线上购物逐渐成为人们交易商品最为主要的渠道。根据中国互联网信息中心(CNNIC)发布的第50次 中国互联网络发展状况统计报告,截至2022年6月,我国网络支付用户规模达9.04亿,较2021年12月增长81万,占网民整体的86.0%。用户们更多地在购物平台上发表对于购物的体验以及产品的个性化看法。用户需求挖掘方法可以分为两大类:基于问卷调研的传统需求获取方法1-3和基于文本挖掘算法的自动化需求提取方法。数据激增背景下,基于在线评论的各类文本挖掘算法/方法应用广泛,如何从用户的在线评论中挖掘需求,成为热点问题。
2、研究者采用关键词提取算法来提取评论中的主题,获取用户关注的产品特征,典型算法如隐含狄利克主题模型4、词频逆文档频率5和TextRank6等;一些研究者进一步结合情感词典来分析用户对于产品特征的情感倾向,进而分析用户的消费需求7-11。现有方法能够快速、低成本地处理大规模用户评论,但仍面临频数不突出的特征内容容易被忽略、产品特征被过分切分等问题。在客户细分方面,现有的在线评论尚未涉及。有鉴于此,本文在爬取四款智能手机的在线评论后,挖掘出了产品的潜在特征,并且在此基础上进行了客户细分,最终不仅得到了用户对DOI:10.16644/33-1094/tp.2023.09.028基于在线评论的智能手机需
3、求偏好判别及客户细分模型构建研究朱韦光(江南大学商学院,江苏 无锡 214028)摘要:为了帮助商家从在线评论中挖掘产品的需求偏好及客户构成,构建了基于LDA主题模型、情感分析,以及改进的K均值聚类算法等方法的产品需求偏好判别及客户细分模型。通过LDA模型挖掘用户需求偏好,利用情感分析进行情感打分,再用改进的聚类算法得到客户细分群体。最终得到用户对于手机的需求偏好以及客户细分群体构成,帮助商家更好地作出经营决策。关键词:在线评论;需求偏好;LDA模型;情感分析;聚类算法中图分类号:TP391文献标识码:A文章编号:1006-8228(2023)09-132-04Research on the
4、construction of smart phone demand preferencediscrimination model based on online reviewZhu Weiguang(School of Business,Jiangnan University,Wuxi,Jiangsu 214122,China)Abstract:In order to help merchants mine product demand preferences and customer composition from online reviews,a productdemand prefe
5、rence discrimination and customer segmentation model is constructed based on LDA topic model,sentiment analysisand improved K-means clustering algorithm.The LDA model is used to mine user needs and preferences,sentiment analysis isused to score sentiment,and the improved clustering algorithm is used
6、 to obtain customer segmentation groups.Finally,usersdemand preferences for smart phones and the composition of customer segments are obtained,which helps merchants make betterbusiness decisions.Key words:online comments;demand preference;LDA model;sentiment analysis;clustering algorithm收稿日期:2023-03
7、-01作者简介:朱韦光(1998-),男,江西瑞金人,江南大学商学院硕士研究生,主要研究方向:数据分析。132计算机时代 2023年 第9期产品的需求偏好,还将客户群体进行了分组,帮助商家更加有的放矢地去改进产品、采取经营策略,提升了决策效率。1 模型构建基于在线评论构建的主题发掘、情感分析及其聚类模型主要分为五个步骤,分别为数据获取及预处理、Word2Vec 近似词识别、LDA 主题挖掘及词向量聚类分析,以及主题细粒度情感分析比较。1.1 数据获取及预处理本文的数据来自于京东电商平台的在线评论。运用Python爬虫技术,共获得四款智能手机的在线评论。本次爬取的数据包括产品名称、用户名称、评论
8、内容、评论时间。对四款智能手机的评论文本进行去重、去除部分评论内容,运用Jieba分词对评论文本进行分词,通过知网停用词表去除停用词及表情图案。考虑到主题挖掘和分析的效果,将名词和形容词搭配组成的词语中的形容词从用于主题挖掘的文本数据中去除。1.2 基于Word2Vec的词意相似度判别由于存在多个特征词在多个主题中重复出现、多个特征词之间词义相近等问题,另一种是不同形容词和形容词表达含义相同,含义相近词汇会影响主题挖掘效果。而Word2Vec可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,表示文本语义上的相似度,从而识别出近似词。本文选用Skipgram模型进行训练
9、,该模型通过随机梯度下降算法训练目标函数。根据当前词语预测上下文的信息,提取的名词和形容词作为输入语料,借助Word2vec函数训练生成词向量文件,利用相似度函数公式,计算词语的相似特征词,将表达相同含义的相似词设置为同一个词。Similarity=u.v u v其中,u和v分别表示两个词汇的词向量。1.3 于LDA主题模型的产品特征挖掘根据 Word2Vec 近似词识别中的 Similarity 的大小,将相似度高的产品特征词归到一起之后,采用隐含狄利克雷分布。从评论文本数据中提取潜在主题。在使用主题模型对评论文本进行分析时,确定最佳主题数以及主题的命名非常重要,本文采用网格搜索法,利用一致
10、性评分来确定最佳主题数,通过主题整合得到了不同的用户关注的产品特征维度。1.4 情感倾向分析基于LDA主题特征词挖掘结果,运用词典分析方法进行情感分析,计算各主题属性的情感值。本文所用情感词典是HowNet词典,并根据电子数码产品评论文本内容特征,添加人工自定义词典。分离出文本单元。将评论文本原始数据按照标点符号和连接词分成独立的文本单元,对所有文本单元进行分词,将含有两个或两个以上特征词的文本单元进一步分离,使每个文本单元仅含有一个特征词。标记情感词。将分词后的文本单元与完善后的情感词典进行匹配,标记每个文本单元中情感词的位置及其情感权重,每个正面情感词得分+1,每个消极情感得分-1。得出每
11、个文本单元的情感得分。考虑否定词。若情感词前有奇数个否定词,则情感倾向改变;若短句中有偶数个否定词,则情感倾向不变。考虑程度副词。建立程度副词词典,并赋予相应的权重,确保计算所得情感值的准确性。参照HowNet程度副词词典,依据相关文献和消费者对程度副词的实际使用和区分情况,对程度副词词典进行扩充和赋值如表1。修改情感得分。依据文本单元中否定词词表和程度副词词典,对各个文本单元情感得分进行修改,假设文本集合D=d1,dm,dM,其中dm是第m个文本单元,M是文本单元数量,m=1,2,M:score()dm=(-1)ii=1kPtj=1nDj其中,j、n和k分别表示第m个文本单元中否定词、程度副
12、词和情感词的数量,Dj表示第m个文本单元中第m个程度副词的权重值,Pt表示第m个文本单元中第t个情感词的值。计算各主题情感得分。假设特征词集合为Wij=w11,w12,wij,其中wij表示第i个主题的第j个特征词。将特征词与文本单元进行匹配得出每个特征词所在的文本单元及其出现次数aij,则每个特征词的情感得分为:score()wij=score(dm)aijwij dm则各主题的情感得分为:133Computer Era No.9 2023score()zk=i=ksore(wij)aiji=kaij1.5 于K-means聚类分析的用户分类本文将上文得到的每个用户的产品需求偏好的多维分值向
13、量作为数据基础,利用K-means聚类算法来进行用户群组的分类。用轮廓系数来评判聚类效果,以此来确定聚类的个数。计算样本i到同簇其他样本的平均距离a(i)值,该值越大,说明样本i越应该被聚类到该簇。将a()i称为样本i的簇内不相似度。计算样本i到其他某簇Cj的所有样本的平均距离bij,称为样本i与簇Cj的不相似度。定义为样本i的簇间不相似度:b(i)=minb(i1),b(ik)。该值越大说明样本越不属于其他簇。根据样本i的簇内不相似度a(i)和簇间不相似度b(i)定义样本i的轮廓系数:S()i=b()i-a(i)max a()i,b(i)当S(i)接近1时,则说明样本i合理;S(i)接近-1
14、,则说明样本 i 该分类到其他的簇;当S(i)近似为 0,则说明样本i在两个簇的边界上。所有样本的S(i)的均值称为聚类结果的轮廓系数,S(i)越大,说明聚类效果越好。2 实证分析2.1 数据来源本文选取的研究对象是四款智能手机。京东在数码产品方面具有更好的口碑,因此选用京东商城作为数据获取平台。运用了Python爬虫技术在京东商城上获取了这四款手机在不同店铺的共17723条有效在线评论。评论时间在 2020 年 5 月 15 日到 2021 年3月15日。2.2 智能手机主题发掘及产品需求判别根据主题一致性得分确定最佳主题数。实验结果表明,四款智能手机京东平台的在线评论最佳主题数 为 6,此
15、 时 一 致 性 得 分 最 高(Coherence Score=0.945)。通过不断调试迭代,将每个主题中词频超过30的特征词进行保留。最终得到了六个主题组为性价比组、娱乐体验组、软硬件组、外观组、物流服务组以及拍照组以及47个产品特征词。如表1所示。主题主题性价比组娱乐体验组软硬件组外观组物流服务组拍照组产品特征词产品特征词性价比、价格流畅、运行、速度、待机时间、充电、质量、音质、舒服、游戏处理器、指纹、系统、屏幕、手感、内存、耳机、质感、电池、屏幕显示、通讯颜值、好看、漂亮、外形、轻薄、颜色、包装、设计、做工速度、物流、快递、客服、售后、发货、运输、卖家、送货像素、前置、拍照、摄像头、
16、清晰度、图片、照片表1LDA主题分类2.3 情感分析及词向量各维度分值的确定本文针对每一条智能手机产品评论中涉及的一种或多种主题特征的偏好程度进行打分。基于LDA挖掘得出的主题-特征词结果,通过领域词典的方法进行情感分析判断评论文本正面、负面和中立三元情感态度,并得出情感得分,情感倾向和情感得分结果如表2所示。从情感得分情况来看,这四款智能手机的用户对于各个主题的关注度由高到低分别是软硬件组、娱乐体验组、性价比组、物流服务组、外观组、拍照组。根据每个主题的情感得分情况。进一步地,本文将每个智能手机的用户用一个六维向量来。其中,每个维度为该用户在各个主题特征上的分值。最终确定得到17723个词向
17、量。主题主题性价比组娱乐体验组软硬件组外观组物流服务组拍照组情感得分情感得分1.01831.11741.12051.00751.00840.9984正面正面0.99250.99840.97650.95640.96520.9435负面负面0.00370.00140.03210.00420.00390.0025中立中立0.00370.00540.00490.00340.00250.0042表2主题特征情感得分情况134计算机时代 2023年 第9期2.4 消费群体聚类分析本文将上文中得到的17723个词向量作为数据基础,基于Python对这些用户进行了聚类分析。首先,根据实验结果该组评论数据在聚类
18、个数为7时,轮廓系数最大为0.956,此时聚类效果最好。因此最佳聚类个数为7。即可以将智能手机用户划分成七个分组。对消费者进行K-means算法聚类,设定聚类个数为7,最大迭代次数为10。得到结果如表3所示。聚类一聚类二聚类三聚类四聚类五聚类六聚类七性价比80.7613.5813.48334.5538.3734.7222.6性能体验199.67176.1652.74147.55639.74152.37637.62软硬件185.44142.7658.64157.68786.84100.29237.68外观237.81490.5650.5191.89175.2364.25152.02物流服务133
19、.7441.9117.4446.8374.23311.46229.69拍照72.5875.0231.1940.49122.5926.91277.39由表3可知,可以将四款智能手机的消费者分为七个群组。第一个消费者群组有3135人,占比17.69%。这个群组的消费者注重的手机品质比较全面,在性价比、性能体验、软硬件、外观、物流服务以及拍照六个维度上表现的关注没有非常高也不没有很低。该为均衡体验组。第二个消费者群组有2160人,占比12.19%。这个群组的消费者对于手机的性价比以及物流服务上的关注程度不高,而对手机的外观具有最高的重视程度。该组是外观偏好组。第三个消费者群组有616人,占比3.48
20、%。这个群组里都消费者对这四款手机的六个维度都没有什么关注程度。该组是差评组。第四个消费者群组有1931人,占比10.90%。这个群组的消费者最看重手机的性价比,而对手机其他的方面都有差不多的关注程度。该组为性价比组。第五个消费者群组有4407人,占比24.87%。这个群组的消费者最注重手机的性能体验和软硬件,同时也对手机的拍照有着较高的关注程度。该组为品质功能组。第六个消费者群组有1756人,占比9.91%。这个群组的消费者则最看重手机的物流服务,对手机的性价比和拍照关注程度很低。该组为购物体验组。第七个消费者群组有3718人,占比20.98%。这个群组的消费者非常注重手机的性能体验、物流服
21、务以及拍照。对手机的软硬件有较高的关注度,而对手机的性价比关注程度很低,看重物流服务这方面的购物体验。该组为综合性能组。3 结论本文对商家在识别用户对于产品偏好需求以及消费者分组领域进行了研究,构建了基于在线评论的产品需求偏好判别以及客户细分的模型,帮助手机商家更精准地识别用户需求以及确定客户细分的构成。区别于一般评论影响产品的研究方向,本文以结果作为出发点,来分析用户对于产品的需求诉求,并为在线评论在客户细分领域的研究拓宽了思路。为在线评论挖掘产品特征的探索提供现实数据参考,同时对评论文本挖掘模型进行了优化并验证了可行性。本研究不足之处主要在于选取的研究对象具有行业局限性,此外,所提模型对于
22、其他行业的产品的适用性还需要进一步验证。参考文献(References):1 CHEN LIU,ALEJANDRO RAMIREZ-SERRANO,GUOFUYIN.AnoptimumdesignselectionapproachforproductcustomizationdevelopmentJ.JournalofIntelligent Manufacturing,2012,23(4):1433-1443.2 SANJAY R.GANGURDE,MILIND M.AKARTE.Customerpreference oriented productdesign using AHP-modif
23、iedTOPSIS approachJ.Benchmarking,2013,20(4):549-564.3 FELIX GEYER,JENS LEHNEN,CORNELIUS HERSTATT.Customer Need Identification Methods in New ProductDevelopment:WhatWorksBest?J.Internationaljournalofinnovationandtechnologymanagement,2018,15(1):1850008.1-185000.26.4 阮光册.基于LDA的网络评论主题发现研究J.情报杂志,2014(3):
24、161-164.5 JONES KS.A statistical interpretation of term specificity表3聚类结果(下转第141页)135计算机时代 2023年 第9期3 杨妮,宋歌玛.土家摆手舞文化内涵及价值探析J.艺术科技,2021,34(5):2.4 欧光艳.浅析贵州苗族原生态舞蹈“锦鸡舞”的艺术特征J.大众文艺:学术版,2011(14):2.5 Xie S,Sun C,Huang J,et al.Rethinking spatiotemporalfeaturelearning:Speed-accuracytrade-offsinvideoclassifi
25、cationC/(ECCV),2018:305-321.6 Diba A,Fayyaz M,Sharma V,et al.Temporal 3DConvNets:New Architecture and Transfer Learning forVideo ClassificationJ,2017.7 Shi X,Chen Z,Wang H,et al.Convolutional LSTMNetwork:A Machine Learning Approach for Precipita-tion NowcastingJ,2015,28:802-810.8QiuZ,YaoT,MeiT.Learn
26、ingSpatio-TemporalRepresentation with Pseudo-3D Residual NetworksC.IEEE,2017:5534.9 Ji S,Xu W,Yang M,et al.3D Convolutional NeuralNetworksforHumanActionRecognitionJ.IEEETransactionsonPatternAnalysis&MachineIntelligence,2013,35(1):221-231.10TranD,BourdevL,FergusR,etal.Learningspatiotemporalfeatureswi
27、th3DconvolutionalnetworksC.Proceedingsof2015IEEEInternationalConferenceonComputerVision.Santiago,Chile,2015:4489-4497.集中的样本量相对较少。未来研究将进一步统计更多数据,优化所构建的网络,以提高物价预测模型的准确度,让已经取得的社情民生数据发挥出更大的价值,形成网络舆情评估新方法,并在社情民生相关政策的设计和实施中得到更多应用。参考文献(References):1 Gale F.Chinas Pork Imports Rise Along with ProductionCost
28、sM.United States Department of Agriculture,2017.2 张真,马梅.传统服饰文化节目的受众满足与发展可能基于 衣尚中国 弹幕文本的研究J.视听界,2022(1):71-74.3 邵小彧,李冬梅,刘云强.新冠肺炎疫情阶段特征、公众情绪与农产品价格基于微博文本挖掘的实证研究J.四川农业大学学报,2021,39(5):688-696,704.4 刘苗,李蔚,朱述政,等.基于互联网文本情感分析的消费情感指数构建J.统计与信息论坛,2018,33(8):31-38.5 戴又有,蔡定洪,张翼.网络搜索与居民通货膨胀预期的关系研究基于储户问卷与百度指数的实证分析J
29、.上海金融,2020,484(11):42-51.6 郭秀峰.政府消费、物价波动与居民消费棘轮效应分析J.商业经济研究,2020,805(18):54-56.7 Popescu II.Word frequency studiesM.De Gruyter Mouton,2009.8 杨嘉怡,李晓英,何首武.基于手机评论文本的用户情感分析研究J.大众科技,2022,24(9):22-24,21.(上接第131页)CECEanditsapplicationinretrievalJ.TheJournalofDocumentation,2004,60(5):493-502.6 宛艳萍,张芳,谷佳真.基于
30、双窗口TextRank关键句提取的文本情感分析J.计算机应用与软件,2022,39(4):242-248.7 ZHANG,LEI,CHU,XUENING,XUE,DEYI.Identificationoftheto-be-improvedproductfeaturesbasedononlinereviewsforproductredesignJ.Internationaljournalofproductionresearch,2019,57(7/8):2464-2479.8 LAI,XINJUN,ZHANG,QIXIANG,CHEN,QINGXIN,et al.Theanalyticsofpr
31、oduct-designrequirementsusingdynamic internet data:application to Chinese smart-phonemarketJ.Internationaljournalofproductionresearch,2019,57(17/18):5660-5684.9 李贺,曹阳,沈旺,等.基于LDA主题识别与Kano模型分析的用户需求研究J.情报科学,2021,39(8):3-11,36.10 GUAN,XINYU,CHENG,ZHIYONG,HE,XIANGNAN,et al.Attentive Aspect Modeling for Review-AwareRecommendationJ.ACM transactions on informationsystems,2019,37(3):28.1-28.27.11 Turney P D.Learning algorithms for keyphrase extrac-tionJ.Information Retrieval,2000,2(4):303-336.(上接第135页)CE141