1、doi:10.3969/j.issn.1007-7375.2023.03.010基于两视图半监督学习的产品质量问题识别方法姚池1,2,潘尔顺1,2(上海交通大学 1.机械与动力工程学院 2.中国质量发展研究院,上海 200240)摘要:针对电商网站中的大量非结构化、无标注的用户评论文本,运用两视图半监督学习方法对其进行分类,识别出涉及产品质量问题的内容,从而挖掘出其中隐含的产品质量缺陷与隐患。综合考虑词汇、情感、领域等多方面特征,构建文本特征视图和非文本特征视图,采用Co-training协同训练算法,依据是否涉及质量问题对评论进行分类。以电热水壶为例,爬取电商网站的评论数据进行实证分析。结果
2、显示,本文方法的分类F1值和AUC值分别为82.18%和86.24%,相比于单视图监督学习分类器具有显著提升。关键词:评论分类;多视图学习;半监督学习;协同训练;质量问题识别中图分类号:TP393文献标志码:A文章编号:1007-7375(2023)03-0086-09Identification Method of Product Quality Problems Based onTwo-view Semi-supervised LearningYAOChi1,2,PANErshun1,2(1.SchoolofMechanicalEngineering;2.ChineseInstitutef
3、orQualityResearch,ShanghaiJiaoTongUniversity,Shanghai200240,China)Abstract:Basedontheabundantunstructuredandunlabeledtextsofconsumerreviewsine-commercewebsites,atwo-viewsemi-supervisedlearningmethodisproposedtoclassifythereviewsandidentifythecontentrelatedtoproductqualityproblems,soastominethehidden
4、qualitydefectsanddangersofproducts.Comprehensivelyconsideringthecharacteristicsof vocabulary,emotion,domain and so on,the text view and non-text view are constructed,and the Co-trainingcollaborativetrainingalgorithmisadoptedtoclassifythereviewsaccordingtowhetherqualityproblemsareinvolved.Takingtheel
5、ectrickettleasanexample,theconsumerreviewswerecrawledfromane-commercewebsiteforempiricalanalysis.ResultsshowthatF1scoreandAUCoftheproposedmethodare82.18%and86.24%,respectively,whichissignificantlyimprovedcomparedwiththesingleviewsupervisedlearningclassifier.Key words:reviews classification;multi-vie
6、w learning;semi-supervised learning;collaborative training;qualityproblemsidentification传统的产品质量问题发现渠道为出厂前的检测、测试以及产品出厂后的用户问卷调查、保险公司反馈等,存在成本高、反映迟缓和样本不足等缺点1。随着电子商务的蓬勃发展,海量的产品评论数据为我们提供了大量来自顾客实际体验的反馈信息,而这些信息中又包含了大量涉及产品质量问题的内容。通过对这些在线数据进行收集、分类和挖掘,产品制造商可以在早期阶段就获取到产品的缺陷信息,从而做好风险管理,并制定合理的营销策略2。因此,如果充分利用好网络评论
7、数据,从中挖掘出产品质量方面的负面信息,将使得相关方能够尽早发现产品在质量方面的缺陷与隐患,对于消费品质量监管和促进消费品质量提升将带来极大的帮助。考虑到网络评论具有数据量大、信息稀疏、第26卷第3期工 业 工 程Vol.26No.32023年6月Industrial Engineering JournalJune2023收稿日期:2021-10-11基金项目:中国工程院重大咨询资助项目(2021-HYZD-7-3)作者简介:姚池(1997),女,四川省人,硕士研究生,主要研究方向为质量管理与文本挖掘。通讯作者:潘尔顺(1972),男,江苏省人,教授,博士,主要研究方向为可靠性工程与宏观质量研
8、究。表达不规范和非结构化等特点,为了从中提取出产品质量问题相关的信息,可以采用文本分类的方法,从海量评论数据中识别出涉及产品质量问题的评论(reviewsrelatedtoqualityproblems,RRQP),从而挖掘出其中隐含的产品质量问题与缺陷。以往不少学者通过情感分析(sentimentanalysis)识别产品质量问题。情感分析又称为态度挖掘(opin-ionmining),是根据主体各方面的属性来获得人的看法和情绪3。Zhang等4通过情感分析方法,对在线评论的态度极性进行挖掘,计算得到产品各类属性的情感得分,并在此基础上识别出产品的缺陷与问题。Li等5基于系统设计思想,通过情
9、感分析和社交网络分析实现社交智能的构建,对在线评论中可能提及的产品缺陷相关信息进行挖掘,为后续产品的改进提供参考。情感分析的方法原理简单,操作方便,其前提是假定评论的情感极性与产品质量优劣密切相关,但实际上负面评论不一定针对产品本身,因此运用情感分析来挖掘产品质量问题的方法存在较大的局限性6。随着文本挖掘技术的进一步发展,学者们越来越多地从文本特征分析的角度出发识别产品的质量状况,即基于文本特征对评论进行分类,进而划分出涉及质量问题的在线评论。英文语境下的研究开始得相对较早。如Abbasi等7将词汇、句法、语法以及结构方面的特征相结合,并构建了相应的文本特征集,实现对产品质量问题的识别。Abr
10、ahams等8构建面向网络论坛的社交媒体分析框架,综合考虑词汇、语法等7方面的文本特征,将定量分析运用于产品缺陷与质量问题的识别,并在疼痛治疗9、厨房洗碗机10等产品领域也进行了探究。Zhang等11提出一种针对产品缺陷的潜在狄利克雷分配模型(productdefectlatentDirichletallocation,PDLDA),利用相互依赖的三类主题从在线论坛里用户发表的大量帖子中识别出产品缺陷。Zheng等12通过构建概率图模型从社交媒体数据中识别出包含产品缺陷的内容,并对缺陷类型、部位以及问题等信息进行了挖掘。近年来逐渐有学者在中文语境下展开研究。如蒋翠清13从中文网络文本的特点出发
11、,综合考虑词汇、社会等多方面的特征,基于Tri-training半监督分类方法对论坛文本进行分类,挖掘出汽车质量问题与缺陷。张嵩等14提出基于在线评论的手机缺陷识别研究方法,利用监督学习方法进行文本分类,但该方法需要大量的人工标注。Jiang等15考虑中文论坛数据不平衡的特点,综合考虑语言、社会等多方面特征并构建质量相关文本挖掘模型(helpfulquality-relatedreviews,HQRM),利用一对多二叉树识别出汽车质量问题相关的内容。刘丹等16提出面向在线评论的产品缺陷识别框架,通过半监督学习对评论进行分类,并以除湿机为例开展实证研究。王海杰等17采用基于朴素贝叶斯的最大期望算
12、法实现了半监督分类,从在线汽车论坛中识别出指定类别的汽车缺陷。王余行等18针对论坛数据和用户体验的特点,选取词汇、文体等7方面特征,通过监督学习方法对涉及汽车质量问题的文本进行识别。综上所述,运用文本挖掘方法对社交媒体上的内容进行分析有利于发现产品质量问题,但现有研究大多都是通过情感分析或者构建特征框架等方式对文本进行分类,多采用基于单一视图的监督学习方法,需要人工标注大量语料,效率低,成本高,并且迁移性差。虽然有学者尝试运用Tri-training等半监督学习方法,但由于单视图特征下各个基分类器的差异性不足,对分类效果的提升作用有限。因此,本文针对用户评论本身的特点,提出基于Co-train
13、ing协同训练算法的两视图半监督文本分类方法TV-CoT(two-viewco-training),对涉及产品质量问题的评论(RRQP)进行识别,并运用真实评论数据对该方法的有效性进行验证。1 基于两视图半监督学习的用户评论文本分类方法基于上述分析,本文综合考虑词汇、情感、领域等多方面特征,采用Co-training协同训练算法构建两视图半监督分类模型,依据是否涉及产品质量问题对用户评论进行分类,对电商产品评论中的RRQP进行识别。对于同一评论,本文构建文本特征视图和非文本特征视图两个特征视图,基于少数标注样本分别训练支持向量机(supportvectormachine,SVM)和逻辑回归(l
14、ogisticregression,LR)分类器,并通过多次迭代,不断地对未标记样本进行分类和标记,以扩大训练集以及对分类器进行更新。构建的TV-CoT模型框架如图1所示,包括5个主要步骤。第3期姚池,潘尔顺:基于两视图半监督学习的产品质量问题识别方法871)将采集的评论数据经过数据清洗、分词、去停用词以及类别标注等数据预处理操作后,分成训练集、未标注集、验证集和测试集。2)对评论进行两视图特征构建。考虑传统的文本特征提取方法,通过LDA(隐含狄利克雷分布)主题模型和TF-IDF(词频逆文档频率)算法提取主题特征和统计特征,得到文本视图特征向量;考虑在线评论自身的特点和属性,通过构建领域特征、
15、属性特征、情感特征得到非文本视图特征向量。3)将训练集中的两视图特征向量分别输入到SVM和LR分类器中,对分类器进行训练,然后基于训练后的分类器对未标注集中的评论进行分类和类别标注,并从中选取一定数量的评论加入训练集,对训练集进行扩充。4)重复上面两个步骤,不断扩充训练集和更新分类器,直至达到终止条件,即迭代次数达到给定值。5)将经过上述步骤后所得到的两个分类器进行融合,最后输入测试集得到最终分类结果。2 两视图特征构建传统的短文本分类方法多是从文本本身的角度出发进行特征构建,获得的特征向量较为稀疏,并且往往不能充分挖掘在线评论所涵盖的信息。在评论挖掘领域,有学者证实词汇、文体、句法、情感等方
16、面的特征在文本分类中具有显著作用19。因此,针对电商平台在线评论数据的特点,本文在现有的研究基础上将评论特征分为文本视图(textview,TV)和非文本视图(non-textview,NTV),并分别进行特征构建,获得Co-training协同训练所需的两视图特征向量。2.1 文本视图特征构建用于分类的评论数据由于文本长度短,包含有效信息较少,采用单一的特征提取方法获得的样本特征有限。因此本文选取短文本分类中常用的TF-IDF算法和LDA主题模型分别提取评论文本的统计特征和主题特征,并将两种特征向量进行拼接,得到融合后的文本视图特征向量。2.1.1TF-IDF特征提取TF-IDF是用于评估文档中词语重要程度的经典统计方法,其中TF(termfrequency)表示词频,IDF(inversedocumentfrequency)表示逆文本频率指数,它能够表征某个词语在某篇文档中的区分度,TF-IDF值由TF值和IDF值相乘得到。和简单的词频统计相比,TF-IDF倾向于过滤掉区分度低的高频词,文本预处理训练集TF-IDF 统计特征LDA 主题特征文本视图特征(TV)属性特征情感特征非文本