1、第 38 卷第 4 期2022 年 11 月 广东农工商职业技术学院学报JournalofGuangdongAgricultureIndustryBusinessPolytechnicVol.38 No.4Nov.2022基于 Group Lasso 对数线性回归的智能手环评论数影响因素分析王黎明1,2,沈梦琦1(1.南京财经大学红山学院,江苏南京210003;2.南京信息工程大学数学与统计学院,江苏南京210044)摘要:本文基于 GroupLasso对数线性回归构建智能手环评论数的影响因素模型,通过八爪鱼采集器抓取智能手环的详细信息进行实证量化研究。首先,对智能手环详细信息进行描述性分析,
2、初步分析智能手环自身属性、功能属性、所属店铺属性三方面对评论量的影响。在建立虚拟变量的基础上,利用 GroupLasso 建立对数线性回归模型来探究影响智能手环评论量因素的具体数值关系,并推广应用。研究结果有助于改善智能手环的有关属性,利于商品的推广和销售。关键词:智能手环;GroupLasso;对数线性回归;变量选择中图分类号:F274文献标识码:A文章编号:1009-931X(2022)04-0015-06投稿日期:2022-07-28基金项目:江苏省高校哲学社会科学研究项目(2019SJA2093);江苏省“青蓝工程”资助项目(2022)作者简介:王黎明(1993),女,江苏淮安人,博士
3、,讲师。研究方向:经济统计和分布式统计推断。随着智能化商品越来越受社会各界关注,出于对自身健康、生活以及娱乐的关注,智能穿戴市场发展迅速。据 IDC 数据显示,近几年,智能穿戴设备仍将保持高速度发展。截止到 2021 年,智能穿戴设备的出货量达 2.82 亿只,2022 年到 2026 年智能手环的 CAGR(复合增长率)将达 21%,市场容量达到462 亿美元。智能手环具有健康管理、运动记录等强大的系统支持功能,凭借其大众化的定位和高性价比,占据智能穿戴设备的主要市场份额。然而,据百度搜索指数显示,智能手环的新闻头条量在近几年一直保持下降趋势,表明人们对智能手环的关注度降低。智能手环也面临着
4、严峻的挑战:首先,同质化严重,缺少创意亮点;其次,进入市场壁垒低,导致竞争对手过多;最后,情感化缺失、定位模糊和功能堆砌,易导致放弃使用智能手环的流失率提高。面对智能穿戴产品竞争激烈的市场环境,提高商品的评论量和审视智能手环的真正用户偏好显得尤为重要。随着我国电商行业发展迅速,消费模式逐步由线下转为线上,线上消费者的购物决策主要依据产品的功能介绍和评论内容。为此,本文以京东商城为平台,进行智能手环评论量的因素分析,以期为企业研发人员提供可靠的参考指标,提升用户体验,提高企业的市场竞争力。一、文献综述关于智能手环,金英伟(2017)、刘丰(2020)、张琰(2017)对智能手环的创新技术方面进行
5、研究,认为商品内在属性和创新感知价值两个方面的设计更能吸引消费者的目光1-3。王林(2017)、何晓龙(2016)、蒿莹莹(2019)、苏水军(2018)从运动功能角度分析,采用实验法、数理统计等方法检测数据的有效性,发现智能手环监测结果具有不同范围的误差4-7。杨梅(2020)、姚湘(2018)等以老年人的角度去研究智能手环的设计,大致从商品设计、用户体验、人机交互和实际生产四个方面,有针对性的提出在智能手环设计方面要有操作简便易懂、具有轻巧实用性、字体要清晰等特点8,9。随着研究深入,学者们对智能手环购买意愿进行分析,并对评论进行在线挖掘。吴江等(2017)通过 LDA 在线评论主题挖掘,
6、分析得出用户更关注智能手环的功能与外观设计10。李奕等(2018)采用联合分析法构建用户偏好量化模型,对智能手环的造型要素、功能要素和交互方式方面提出改进意见11。赵杨(2017)研究网站界面设计对消费者购买可穿戴设备意愿的影响,发现网站界面的信息丰富度对消费者购买意愿有正向影响12。MeiyuanJENG 等(2020)通过手段目的链(MEC)和阶梯式访谈法,构建“等级价值地图”,分析老年人的感知价值,认为在功能和社会价值方面有提升空间13。LianghongWU(2016)等发放问卷的形式进行用户满意度调查,发现品牌和功能最受用户关注,同时价格和评价是影响用户使用意愿的重要因素14,15。
7、应用研究16第 38 卷广东农工商职业技术学院学报综合以上研究,本文以智能手环评论数为研究对象,建立基于 GroupLasso 的对数线性回归模型,预估该类产品的未来市场情形。本文创新之处主要表现在:(1)以评论量为因变量,作为衡量智能手环发展的一个重要指标,分析市场上的主要智能手环产品评论量的影响因素并建模预测,可更好把握智能手环市场的发展方向。(2)使用变量选择方法GroupLasso 来选取评论量的重要影响因素可将智能手环的类别变量所有属性作为整体进行选择。二、模型构建(一)研究数据变量类别变量名变量描述因变量评论数量取值 0-60000 条价格取值 50-5000 元品牌小米、华为、荣
8、耀、普利邦、ZPPSN、dido、其他商品自身属性附加服务无、其他、APP 会员卡、健康咨询防水等级不防水、生活防水、30 米防水、50 米防水、50 米以上防水充电方式磁吸充电线、座式充电器、USB 直插、其他触控方式单点、多点、其他屏幕类型AMOLED、LED、TFT、LCD、OLED、其他续航时间7 天以下、7-14 天、15-20 天、21 天以上亮度调节手动、自动、不可调节表 1变量说明商品功能属性血压监测不支持、实时、手动监测、都可血氧监测不支持、实时、手动监测心率监测不支持、实时、手动监测、都可健康功能睡眠监测、久坐提醒、心电图、心脏健康管理通讯功能来电提醒、消息提醒、可拆卸为蓝
9、牙耳机、来电接听AI 语音功能不支持、支持 AI 语音功能NFC 功能不支持、支持运动模式10 种以下、11-12 种、21-50 种支付功能不支付、支持扫码支付所属店铺属性店铺星级有星级评价、无星级评价商品评价有评价、无评价物流履约有评价、无评价售后服务有评价、无评价本文通过八爪鱼采集器工具,爬取京东商城智能手环商品的数据信息来研究电商客户需求。去除无效数据信息后,共 509 条有效数据。评论数量是智能手环商品的重要属性,直观上可以看出用户对该类智能手环商品的关注程度,因此,本文将评论数量作为因变量。自变量由三方构成,分别为:商品自身属性、商品功能属性以及所属店铺属性,具体变量说明见表 1。
10、(二)研究方法本研究建立基于 GroupLasso 的对数线性回归模型对智能手环信息进行挖掘,分析智能手环评论量的影响因素,具体研究框架见图 1。描述性分析数据整理模型分析评论量分类变量连续变量散点图数据清洗数据预处理变量选择回归模型虚拟变量处理对数线性回归Group LassoYX变量属性识别京东商城智能手环数据八爪鱼采集器箱线图栅栏图图 1 研究框架示意图先用八爪鱼采集器收集智能手环数据信息,删除缺失数据。将评论量作为因变量,商品自身属性、功能属性和店铺属性作为自变量,识别自变量的标签属性。描述性分析对评论量的因素影响,绘制箱线图和栅栏图等直观地表现自变量和评论量的关系。最后,进行模型分析
11、。将自变量中的分类变量转变为虚拟变量,形成新的自变量集合。利用 GroupLosso 筛选出影响评论量的重要组变量,将 GroupLasso选择出的重要组变量带入对数线性回归模型探究影响智能手环评论量因素的具体数值关系。模型分析具体方法如下:1.数据预处理在本文自变量中,除为连续变量外,均为分类变量,对分类变量进行虚拟变量处理。假设有 个类别信息,先分别将变量的类别属性转为数字标签,分别为。接着对做虚拟变量处理:2.基于 GroupLasso 的对数线性回归模型虚拟变量处理后,如将所有自变量代入对数线性回归模型,可解释性差。我们考虑采用 GroupLasso 进行变量选择。GroupLasso
12、 估计方法针对系17第 4 期王黎明,等:基于 Group Lasso 对数线性回归的智能手环评论数影响因素分析图 2 智能手环评论量频数分布图图3 智能手环价格对评论量的影响(左:箱线图;右:散点图)1.商品自身属性(1)价格、品牌与评论量关系由图 3 箱线图可知,智能手环的价格主要集中在本文选择了六个具有代表性的品牌,其他的品牌都归在“其他”类中。从图 4 看出,小米、华为、荣耀和 dido 的评论量相对较大。其他几个品牌的评论量差异较小,间接反映智能手环商品存在较严重的同质化现象。从评论量的分布状态来看,dido 和荣耀等品牌评论量分布两极化,可见同一品牌的智能手环商品之间也有着明显的差
13、异。其中 Y 为评论数,log(X1)表示价格的对数,表示第个自变量的组变量向量,表示第个变量的类别个数,使用最小二乘估计回归系数。三、结果与分析(一)描述性分析从图 2 中可以看出智能手环的评论量主要分布在 60000 条之内。另外,图中存在少量“高评论,低频数”的智能手环,可能是一些性价比很高的商品。根据智能手环评论量呈右偏特点,对评论量取对数,为后续的图表分析和建模起到重要作用。为分析影响智能手环评论数的因素,先描述性分析智能手环自身属性、功能属性和所属店铺属性对评论量的对数影响。其中为惩罚参数。通过惩罚,实现特征选择的目的。如,说明未被选入模型,反之时,则该组变量均选入模型。将已选择的
14、组变量代入对数线性回归模型数组创新性地提出了二范数惩罚,可将虚拟变量组作为整体选取出来16。在线性回归模型中,Y是因变量,X是解释变量,则 GroupLasso 估计为图 4 品牌对评论量的影响(2)防水等级、充电方式、触控方式、屏幕类型与评论量的关系从图 5 中发现:防水等级越高,商品评论量就随之增高(50 米以上防水的商品数量少,参考意义不大);使用传统座式充电器的智能手环的评论量比较高,主要是目前商品多数采用座式充电器,符合消费者的充电行为习惯;具有多点触控的智能手环评论量大,因为多点触控操作更便利;具有AMOLED 屏幕类型的智能手环评论量最高且商品数量最多;相比之下,具有 TFT 和
15、 LED 屏幕类型的商品的数量少且评论量很低,可能因为该类型屏幕厚,需要背光,较为费电。500 元以下;从评论量来看,300 元以下的智能手环的评论量最多。散点图显示,智能手环价格越高,评论量就越低(价格和评论量对数的相关系数为-0.49,p 都可 手动检测 不支持”的特征,反映消费者更喜欢具有实时监测功能的智能手环。图 8 显示在同价格区间的智能手环当中,健康功能有 3 种的智能手环的评论量更高,更容易获得消费者的喜爱。以心率监测和健康功能为条件,总体上价格和评论量对数呈负相关,说明消费者在选购商品时,价格是重要因素。当健康功能为“4 种”时,价格和评论量不相关,表明当消费者注重高端体验时,
16、价格因素的影响会弱化。图 7 以心率监测为条件的价格和评论量对数的栅栏图图 8 以健康功能为条件的价格和评论量对数的栅栏图不支持实时监测手动监测都可1 种2 种3 种4 种3.所属店铺属性由于商品评价、物流履约和售后服务三者分布相似,以商品评价为例分析,有评价的商品数量较多且评论量分布较分散,而无评价的商品虽少但评论量稍高(见图 9)。产生该现象的主要原因可能是有评论的店铺没有将评论进行高评价、中评价和低评价的区分,使消费者不易区分商品好坏,从而产生不同的购物欲望。图 9 店铺商品评价属性对评论量的影响(二)模型分析1.数据预处理在建立模型之前,因变量 Y 是评论量的对数,首先对自变量数据进行处理。所属店铺属性中物流履约、售后服务与商品评价的数据是一致的,因此只需分析商品评价即可。除价格是连续型变量外,其19第 4 期王黎明,等:基于 Group Lasso 对数线性回归的智能手环评论数影响因素分析变量名估计值P|t|基准组Intercept12.5998.13e-16*价格的对数-0.7642e-16*触控方式单点-0.1760.486其他多点-0.6750.000*血压监测不支持0