1、第 卷第期复 杂 系 统 与 复 杂 性 科 学 年 月 文章编号:();:融合文本和表情符号特征的社交网络用户性别识别王浩,许小可(大连民族大学信息与通信工程学院,辽宁 大连 )摘要:为了提升社交网络用户性别识别的准确性,先将单用户的文本特征和表情符号特征进行融合识别用户性别,然后提取多用户的交互特征信息进一步提升性别识别的准确性。实验结果表明融合多用户交互特征后用户性别识别准确率提升了。说明表情符号和多用户交互特征对提升用户性别识别准确性有很大帮助,提高了社交网络用户性别信息识别的准确率。关键词:社交网络;表情符号;性别识别;交互特征中图分类号:文献标识码:收稿日期:;修回日期:基金项目:
2、国家自然科学基金(,);辽宁省自然科学基金();辽宁省“兴辽英才”计划项目()第一作者:王浩(),男,山东青岛人,硕士研究生,主要研究方向为社交网络上信息传播。通信作者:许小可(),男,辽宁庄河人,博士,教授,主要研究方向为网络科学和社交网络大数据。,(,):,:;引言近几年来,随着社交网络的迅猛发展,越来越多的用户通过微博、微信等社交软件进行信息交流。社交网络涵盖以用户社交为核心的所有网络服务形式,互联网是一个能够让用户相互交流、相互参与的互动平台。截止到 年,全球社交网络用户规模达到 亿人,在互联网用户的比例达到 ,用户平均每天在社交网络和即时通讯应用上花费小时 分钟。因此,社交网络数据引
3、起了大量研究者的研究兴趣。在社交网络的数据挖掘中,用户性别识别是受到关注的研究方向之一。研究用户属性,准确进行用户性别识别可以更好地进行智能营销、个性化预测及虚假信息识别等研究。用户性别信息在个性化服务,定向广告,推荐系统等方面具有巨大的价值。但是,用户性别是一种个人隐私信息,部分用户不愿意公开自己的真实性别,在注册性别信息时故意使用假信息或者不填写。在无法通过直接手段获得用户真实性别的情况下,通过特征工程复 杂 系 统 与 复 杂 性 科 学 年 月结合机器学习方法对用户的性别进行识别就很有必要。性别识别的主流方法是分析用户文本中体现出的语言特征,如习惯使用的词语类别,使用词语的频次统计以及
4、文本中隐含的情感特征等。目前,宋巍等根据用户兴趣偏好和文本词特征对微博用户性别识别准确率为,刘宝芹等利用微博情感特征和文本词特征对用户性别进行识别的准确率为 ,用户性别识别准确率还有待提升。主流的性别识别方法主要是基于单个用户的文本内容,忽略了用户使用的表情符号以及多用户之间的交互信息。目前表情符号已经成为各种社交媒体中必不可少的元素,与传统的文字相比,表情符号更加生动形象,可以更加直观地表现出高兴、悲伤、愤怒等情感 。研究表明,男性用户和女性用户在社交媒体中使用表情符号的喜好上存在差异,且不同性别用户往往使用不同情感种类的表情符号。此外,社交网络最大的特点是多用户之间可以进行交互,多用户之间
5、的交互信息可以用来识别用户性别。例如,某条微博的评论中使用了“美女”,“漂亮”等词语,可以判断出发布微博的用户为女性用户。因此,基于用户文本特征,融合表情符号和交互特征能否提升用户性别识别准确性是有价值的研究问题。目前,关于社交网络用户的性别识别工作主要是在脸书、推特、博客等平台上进行研究。大多数性别识别研究工作是借助用户信息以及用户发表的博客文本。例如,等 根据不同性别用户的博客文本在写作风格上的差异,对用户的性别进行识别;等 从用户发表的博客文本中,挖掘出用户的情感信息,利用情感特征对用户进行性别识别。其他的研究者通过用户的用户名等个人信息识别用户的性别。例如,等 利用 的用户账户名、用户
6、全名以及用户个人描述三项资料来识别用户的性别。由于微博等社交网络媒体的迅速发展,国内研究者开始将目光转向中文微博用户的性别识别。宋巍等根据用户兴趣偏好对微博用户性别进行识别。刘宝芹等针对两性用户中文微博文本情绪上的差异,提取情绪词特征和情绪相关的语言风格特征识别用户性别。王晶晶等 分别利用用户名特征和文本特征对用户性别进行识别,然后将用户名和文本特征进行融合识别用户的性别。表情符号的研究大多是关于表情符号在用户交流中的作用以及表情符号的情感倾向性分析,等 研究表情符号对用户的影响力,发现表情符号的出现会增加用户对话题的参与度;等 研究表情符号如何影响朋友之间的人际关系。此外,等 关注不同性别的
7、用户在表情符号使用习惯上的不同;也通过实验证明,女性使用表情符号的频率更高,对表情符号的使用态度也更积极。本文的创新和主要贡献包括两个方面:)提出了利用表情符号特征识别用户性别的新思路,并融合文本和表情符号特征对用户性别进行识别。实验表明利用表情符号特征进行用户性别识别是一种有效的方法,且融合表情符号特征后用户性别识别的性能得到提升。)提取交互信息中的文本和表情符号作为交互特征识别用户性别,并在单个用户特征基础上融合交互特征识别用户性别。实验结果表明融合交互特征提高了用户性别识别的精度。数据描述本实验使用新浪微博微热点大数据研究院提供的单个用户微博数据集和用户交互数据集。单个用户微博数据集的用
8、户多为明星用户以及粉丝量多的大 用户,如黄渤、何炅等,微博内容大多是对生活的分享,用户交互数据集中的用户基本是粉丝较少的普通用户,且微博内容多是某些话题的讨论。单个用户微博数据集共有 万条微博数据。为了保证实验的准确性,去除原始数据中的重复微博内容以及使用表情数量较少的用户,最终选取男性用户和女性用户各 个,每个用户的微博数量为 条,单个用户数据中包含用户姓名、认证类型、用户性别、微博内容等属性。用户交互数据集共有 万条数据,过滤后选取 个男性用户和 个女性用户,用户交互数据包括原创微博用户名、用户认证类型、原创微博用户性别、微博转发评论内容以及评论用户的性别等。新浪微博将用户分为“普通用户”
9、、“橙 用户”、“蓝 用户”、“达人用户”和“金 用户”,“普通用户”是指没有经过认证的个人用户和企业用户。为保证实验结果的可靠性,本实验数据中使用的所有微博用户数据都是经过新浪微博官方认证的个人用户数据。用户性别识别单个用户文本和表情符号特征的性别识别基于文本特征的用户性别识别目前通过文本识别用户性别的主流方法有两种,一种是通过文本中词语的使用频率来识别用户性别,另一种第 卷第期王浩,等:融合文本和表情符号特征的社交网络用户性别识别挖掘文本中的情感信息进行用户性别识别,本文通过文本识别用户性别也使用了这两种常用方法。分析用户的微博文本,发现文本中有高性别区分性的词语可以用来识别用户性别,例如
10、“兄弟”、“女朋友”、“足球”等词语往往来自于男性用户,“丈夫”、“姐妹”、“高跟鞋”等词语更可能被女性用户使用。因此,本文计算微博文本中每个词的使用频次作为特征识别用户性别。不同性别用户在微博中表达的情感存在着差异,女性用户使用情绪词的数量以及表达正向情绪的频率都高于男性用户,且女性比男性表达某种情感更加强烈。因此,本文使用大连理工大学的情感词汇本体库和情感词典统计用户微博文本中使用的情感词种类个数以及乐、好、哀、怒、惧、恶、惊七类情感每类情感词的个数作为特征,并把七类情感词分为积极情感和负面情感两大类,按照文献 提到的公式计算微博文本的情感词多样性。()()()其中,和分别代表一个用户微博
11、文本中出现的情绪词种类个数和情绪词总个数,表示某类情感词相对频率,表示文本中某类情感词的个数,表示微博文本单词总长度,代表文本中积极情绪与所有情绪的比率,和 由公式()给出。本文采用的单个用户的性别识别文本特征如表所示。其中,文本词特征指的是利用信息增益的特征选择方法计算文本中每个一元词的 值,值反映了一个特征对整个分类的重要程度,词特征 值越大表示这个词特征越重要,本文选取 值最高的前 个一元词作为文本词特征。表单个用户文本特征 特征特征描述特征权重文本特征文本词每个文本一元词作为一个特征每个词在用户微博中出现的频率文本情感每类情感词的数量作为特征用户微博中每类情感词的使用数量 ,由公式()
12、()()给出基于表情符号特征的用户性别识别与文本相同,本文通过表情符号识别用户使用了两种方法,一种是微博中表情符号的使用频率来识别用户性别,另一种是利用表情符号的情感特征识别用户性别。表使用频率前十的表情符号 男女计算数据中不同性别用户中使用频率前十的表情符号,如表所示,可以发现女性用户和男性用户在使用表情符号的喜好上有所不同,男性用户更喜欢使用和等表情符号,女性用户喜欢在微博中使用和等表情符号。因此,通过不同性别用户使用表情符号的差异可以识别用户性别,本文计算每个表情符号的使用频率作为特征识别用户性别。从用户微博所表达的情感方面考虑,表情符号能生动形象地表达用户的情绪,用户在表达自己积极的情
13、绪时,往往使用和等表示积极意义的表情符号。目前学界普遍将表情符号情绪划分为正面(高兴、喜爱、惊讶)、负面(悲伤、愤怒、恐惧、厌恶)、中性和其他情绪,如表所示。本文统计了单个用户数据中不同性别用户每类情感的表情符号使用数量,如表所示,可以看出女性用户比男性用户使用积极表情符号数量多,男性用户使用消极、中性和其他三类表情符号的数量比女性用户多。图表明男性用户使用的表情符号中积极表情占 ,消极表情、中性表情和其他表情分别占了 ,和 ,而女性用户使用积极表情占比达到 ,远远超过其他三类表情的使用率。因此,本文计算每个用户微博中使用的表情符号种类个数以及积极、消极、中性、其他四类表情每类表情符号的个数作
14、为特征。根据文本情感词丰富性的计算公式,计算 ,来表示表情符号情感丰富性,计算公式如式(),()所示。()复 杂 系 统 与 复 杂 性 科 学 年 月 ()其中,和 分别代表一个用户微博中出现的表情符号种类个数和表情符号总个数,表示微博中某类表情符号的个数,表示微博中使用的表情符号总个数,表示某类表情符号的相对频率。表表情分类 积极表情消极表情中性表情其他表不同性别用户表情符号使用情况 性别积极表情消极表情中性表情其他表情男 女 图不同性别用户表情使用数量比例 本文采用的单个用户的表情符号特征如表所示。其中,表情词特征指的是利用信息增益的特征选择方法计算微博中每个表情符号的 值,选取 值最高
15、的前 个表情符号作为表情词特征。表单个用户表情符号特征 特征特征描述特征权重表情符号特征表情词每个表情符号作为一个特征每个表情符号在用户微博中出现的频率表情情感表情类别个数以及每类表情作为一个特征微博中含有几类表情以及微博中含某种表情的个数 ,由公式()()给出多用户交互特征的性别识别由于用户在社交网络中不是单个存在的,交互是社交最本质的核心。因此,微博提供了转发、评论和等机制让用户之间进行交流沟通。多个用户在交互时会产生交互文本,这些交互文本会提供一些重要信息来识别用户的性别。例如,一名女性用户说:“周末快乐,准备出去看电影了”,一名男性用户评论:“一起去呀,美女”。仅通过单个用户微博并不容
16、易判断发博用户的性别,而通过评论中的“美女”则可以判断出发博用户性别为女性。因此,本文将提取交互文本的词特征对用户性别进行识别。多用户的交互文本形成了简短的对话,特征已经被证实可以应用于区分两性在上下文表达中的差异。因此,在交互中对男性用户和女性用户具有较好的区分度,本文将 特征加入交互特征空间。该特征可以根据式()来获得:()()()第 卷第期王浩,等:融合文本和表情符号特征的社交网络用户性别识别其中,分别表示文本中名词、形容词、介词、冠词、代词、动词、副词和感叹词的频率。表情符号是用户交互中常用的符号,对于人际交流有重要的作用。研究表明,用户与不同性别的用户交互中使用的表情符号存在差异。例如,男性用户在交互时经常使用和等表情符号,而女性用户在交互时更喜欢使用和等表情符号。此外,评论用户的性别也是帮助我们识别用户性别的重要信息,为了更好地挖掘不同性别用户交互中表情符号使用的差异,提高用户性别识别的性能,本文将提取用户交互信息中的表情符号和评论用户的性别进行组合作为特征来识别用户性别。表给出了提取表情符号和性别进行组合作为特征的例子。本文采用的多用户之间的交互特征如表所示。交互文本特征