1、第 卷 第 期运筹与 管理,年 月 收稿日期:基金项目:辽宁省社科基金资助项目()作者简介:魏瑾瑞(),男,河北武安人,博士,副教授,研究方向:数据挖掘;王若彤(),女,内蒙古巴彦淖尔人,硕士研究生,研究方向:经济与金融统计;王晗(),男,安徽铜陵人,硕士研究生,研究方向:数据挖掘。基于网络结构特征的大规模虚假评论群组识别魏瑾瑞,王若彤,王 晗(东北财经大学 统计学院,辽宁 大连;北京师范大学 统计学院,北京)摘 要:目前识别虚假评论的方法主要基于评论内容的文本特征和评论者的行为特征,然而评论文本与评论者行为容易被伪造和模仿,且这两类方法只能对虚假评论逐个识别,本文考虑了虚假评论的网络结构特征
2、,通过分析评论者的网络行为及评论者节点间的网络结构特征定义相邻节点多样性与自相似性,利用累积分布函数估计其概率并合成网络行为得分,以得分高的可疑产品为种子建立 子图,筛选子图中高度相似的虚假评论候选群组,利用、等算法对其进行聚类合并,以发现隐藏的虚假评论群组。以亚马逊四类最畅销的产品数据集为样本进行实证分析的结果表明,文中提出的方法能够有效识别隐藏较深的大规模虚假评论群组,综合群组内容的统计特征分析发现,虚假评论群组对目标产品的攻击模式存在产品类别差异,虚假评论群组比真实评论者对目标产品具有更强的集中度,但同时也会利用其它非目标产品对自身进行伪装以弱化其可疑性。关键词:评论网络结构;虚假评论群
3、组;网络行为得分中图分类号:文章标识码:文章编号:():,(,;,):,:;引言近年来,随着电子商务的迅速发展,虚假评论的规模越发壮大,甚至形成虚假评论群组协同作案,因此,如何恰当识别虚假评论具有重要的现实意义。李璐旸等系统综述了国内外虚假评论识别的现状,对比总结了特征设计、模型方法、数据集合评价指标等方面,探讨与展望了未来的识别研究方向。虚假评论群组是指以共同目的协同发布虚假评论的个体组成的群体,相比虚假评论者个体影响力更大、隐蔽性更强,对检测方法的要求更高。目前识别虚假评论的方法主要是参照评论内容的文本特征,和评论者的行为特征,但是文本特征的模仿成本较低,单纯依靠文本特征的识别已被证明效果
4、有限;而依靠评论者行为特征的识别则需要有大量的历史行为数据支撑,对于只发表一条评价的用户,传统模型不能有效解决冷启动问题。事实上,大量虚假评论并非个体行为,而是有潜在组织的集体行为,评论者、目标商品和关联商品构成一个巨大的网络,因此,有不少研究开始转向对虚假评论群组的识别。按识别方法的不同,可以区分为监督识别方法和非监督识别方法,其中,监督识别方法主要采用基于评论内容特征的识别方法,而非监督识别方法则根据识别特征不同可以分为单个虚假评论者特征、虚假评论群组特征,、时间序列特征、评论模式特征、行为分布特征等。传统识别虚假评论群组主 要 利 用 评 论 内 容 的 相 似 性 和 文 本 特征,也
5、有学者开始转向结合群组结构分析的虚假评论群组检测,。例如,利用虚假评论者的网络足迹选择目标产品,进而通过挖掘目标产品背后所有评论者的评论信息来达到检测虚假评论群组的目的。事实上,虚假评论群组与目标产品之间已然形成了一定的特殊关系,对于目标产品的选择并不是随机的,而是虚假评论群组背后的组织者经过深思熟虑后的决策。因此,尽管现实中很多评论内容和行为都可以伪造与模仿,但是用户之间的关系以及用户与产品之间的关系都存在某种确定的联系,本文尝试通过分析评论者的网络行为发现目标产品背后的虚假评论群组。本文的改进之处在于:()基于评论者与产品之间的网络结构特征挖掘评论者的行为轨迹,通过构造 子图生成模型识别虚
6、假评论群组。()利用多次迭代的方式将相似性满足阈值的评论者放入对应的候选群组,从而在有效固定网络结构的动态变化的同时更加准确地识别潜藏较深的虚假评论群组。()采用两步探测方法,先筛选可疑目标产品所对应的高度相似的虚假评论者,再对剩余评论者聚类合并识别潜藏较深的虚假评论群组,这种做法在提高虚假评论识别精度的同时可以有效减少识别时长与复杂度。网络结构特征完美的虚假评论与真实评论无限接近,令反虚假系统无法识别。最新研究发现真假评论最大的区别在于网络层面的关系模式。虚假评论由于其有组织性会呈现出一定的统计规律。本文重点研究评论者产品组成的评论网络中虚假评论者的网络结构特征,通过构造网络行为得分()识别
7、虚假评论群组,基于评论者与产品的关系计算 值,根据得分高低识别无向图中节点之间的异常行为。本文提到的节点中心性是基于 度 中 心 性()和中心性()的度量方式得出的结果,目的是利用这两项指标分别使用局部和全局信息量化无向图中各个节点的重要程度,进一步通过信息熵与散度量化评论者及评论产品的可疑性。相邻节点的多样性评论者产品评论网络 包含了 个评论者节点,个产品节点 及连接它们的评论关系,即 (,)。评论者包括真实评论者和虚假评论者,产品包括目标产品和非目标产品,二者通过评论文本进行边的建立。假定一个评论者以文本方式对多个产品进行评论,不论是否真实均为有效评论。即在真实评论网络中,一个评论者可以对
8、多种产品进行同一评论,也可以对一个产品进行多种评论,评论者与产品之间行为和对应关系是交错的,真实评论网络的相邻节点不应过分彼此依赖,基于相邻节点多样性可以分析评论者的相似性。当一组评论者的中心性值骤降至一个极小的区间时是非常可疑的。对于一组给定的产品,为了量化它们相邻节点多样性的中心性,先将产品对应的评论者所有中心性的值分解,然后通过直方图来创建其密度的非参数估计,最后采用信息熵计算直方图的偏度,信息熵的计算公式为:()()()()其中,表示中心性的类型,表示产品索引号,为创建的存储桶列表,即 ,()表示产品 在存储桶 对应评论者网络中的离散概率分布。因此,一个产品 会得到两个相邻节点多样性的
9、得分指标来分别表示度中心性和 中心性,即()和()。得分指标的分数越低,对应产品是目标产品的概率越大,相应的评论者也越可疑。网络结构的自相似性真实评论网络本身的自相似性决定了评论网络的部分内容往往拥有整个评论网络的相似属性。第 期 魏瑾瑞,等:基于网络结构特征的大规模虚假评论群组识别因此,可以利用这一结构特征测量虚假评论造成的分布失真。评论者中心性的直方图密度之间的 散度可以表示为:()()()()其中,()表示产品的评论者的中心直方图分布,表示所有评论者的中心直方图分布。使用计算()的方式来计算,通过自相似性结构特征指标中得到评论者的两个得分指标来分别表示中心性,分别为()和()。分数越高,
10、对应产品越可能是虚假评论的目标产品。构造网络行为得分为了量化产品受到虚假评论攻击的影响,利用累积分布函数整合()、()、()和()等四个得分指标。假设一组产品中心性的信息熵得分为,则一个特定的()经验累积分布函数可以表示成:()()()同理有,()()()进而有,()()()()()()()()()()()()该函数表示产品被虚假评论攻击的可能性、评论者的可疑性和值的大小成正比。为保证中心直方图分布()和()有意义,设置阈值 。对于特定产品 的评论数不小于阈值,再创建一组存储桶 ,重复上述步骤使每个存储桶中都存在一定量的评论者,进而得到特定产品 的评论者中心直方图分布()。最后计算每个存储桶中
11、特定产品 的评论者中心直方图分布()的信息熵(),通过验证()和 是否为 对其再一次标准化,计算()和 的 散度及每个产品的网络行为得分。虚假评论群组识别前一节通过计算一组产品 的网络行为得分来测量可疑目标产品的异常性。为了进一步反向识别虚假评论群组,我们建立一个包括最高网络行为得分的顶级产品、对应的评论者 及其评论的产品 的子网,通过诱导以上 个可疑目标产品的所有评论者及其评论的产品得到一个 子图。该 子图可以用一个 的邻接矩阵 来表示,其中 ,。在判断虚假评论群组的存在性后,采用 算法识别虚假评论群组。该算法通过重新组织所有成员识别虚假评论群组,能够有效降低识别失误率。值得注意的是,为了在
12、提高识别精度的同时减少聚类算法负荷,我们先筛选出高度相似的虚假评论群组再进行聚类。由于整个识别过程中虚假评论群组数目未知,我们借助层次聚类方法将评论者反复迭代后合并成更大的群组并得到其嵌套层次结构。朴素层次聚类方法在每次迭代只能合并两个评论者,分析大规模评论数据效率低,因此采用局部敏感哈希算法()提高迭代过程的效率。本文通过选择多种哈希函数进行映射变换将数据点散列成签名矩阵,接着再散列签名矩阵,得到每个数据点被最终散列到相应的存储桶中,这样既能够确保原始数据点之间的相似性与他们签名相等的可能性成正比,也能够完全控制这种状况发生的概率。因此,两个数据点之间相似性越高,生成的签名匹配的可能性越大,
13、被分散到相同存储桶中的概率也就越大。对于不同的相似性函数,局部敏感哈希算法会使用不同且适当的哈希函数。为减少哈希表的空间储存,运用 相似度的最小散列法和 相似度的随机投影法。实验与评价 实验设置为了客观评估上述虚假评论群组识别算法的效果,采用亚马逊数据集进行实验分析。该数据集来源于大型电子商务平台亚马逊(:)在中国市场的实际评论,采集窗口是 年 月 日至 年 月 日,包括 个一级产品类别的 个产品的产品信息、个评评论者信息以及 条评论的评论信息。该数据集的每条评论样本都包含以下 个字段:评论者、产品、评论等级、一级类别、一级类别名称、二级类别、二级类别名称、评论日期、产品名称、评论标题、评论内
14、容、评论标题长度和评论内容长度。实验分析数据采集窗口期内前四类最畅销的产品,包括图书音像类、手机数码类、美妆个护类和家居生活类等四类。数据清洗时,如果原始数据中的评论者、评论等级、产品名称、评论标题和评运 筹 与 管 理 年第 卷论内容等这些关键字段有缺失、含异常值或为重复样本,则将其剔除。将上述两类算法分别应用于四个数据集,计算对应所有产品的网络行为得分,根据网络行为得分的大小可以判断该产品是否为虚假评论群组所攻击的目标产品。以目标产品为种子诱导出评论网络的 子图,再通过 算法识别评论网络中的虚假评论群组。对比实验为量化虚假评论群组的评论行为,引入虚假评论者共谋得分()和虚假评论者共谋平均得
15、分():(,)()()()()()(),(,)()其中,表示数据集中的一个虚假评论群组,分别为群组 中的两个虚假评论者,(),()分别表示虚假评论者 和 攻击的目标产品,为群组中虚假评论者的总数。虚假评论群组的共谋平均得分 越高时,该群组的成员之间共谋性越强。为了使实验更具说服力,本文使用 算法,、算法,、算法以及 算法进行对比实验,结果表明四种聚类算法识别出的虚假评论群组个数以及共谋均分变化趋同,说明识别结果具有较好的稳健性。图 展示了四类产品数据集在四种不同方法下识别出的虚假评论群组个数以及各个产品数据集的共谋平均得分。以 算法的实验结果为例,四个数据集中隐藏的虚假评论群组的数量分别为 个
16、、个、个和 个。从各个产品类别的群组个数上来看,图书音像类产品是亚马逊平台的主导产品,评论者以及评论数量是最多的,但是虚假评论群组的数量却是最少的;相比较而言,美妆个护类产品的虚假评论群组反而是数量最多的,该类产品作为日耗品,主要面向女性消费群体,具有种类多、更换频率快、使用周期短等特征,因而其潜在市场价值高于图书音像类产品。同时,真实评论数量明显多于虚假评论,这符合我们对网络评论中虚假评论行为的基本预期:大多数评论还是真实可靠的。图 四种聚类算法的比较 图 为四个数据集中产品信息熵与散度的关系,方框内为正常点,圆圈内为异常点,点与产品一一对应。以图书音像类产品为例,图()和()分别表示其度中心性和 中心性的信息熵与散度的关系,当 散度越大且信息熵越小时,对应产品月的可疑性越高。同理,图()和()、()和()、()和()分别为手机数码类、美妆个护类和家居生活类产品的信息熵与 散度的关系。综合来看,图书音像类与手机数码类产品中异常点明显多于其他两类产品,出于隐藏虚假评论行为的考虑,产品数量更多的类别可能存在更多可疑目标产品。进一步,以顶级产品 为种子从前文建立的子网中诱导出 子图。图书音