1、收稿日期:作者简介:王晓璎(),女,级硕士研究生,主要研究方向为信息计量学;李秀霞(),女,硕士研究生,教授,硕士生导师,主要研究方向为信息处理与数据挖掘,已发表论文 篇;邹洋杰(),女,级硕士研究生,主要研究方向为信息计量学。基于演化度指数的情报学“用户研究”主题演化分析王晓璎 李秀霞 邹洋杰(曲阜师范大学传媒学院 山东日照)摘 要:目的 意义旨在分析用户研究主题的演化趋势,以帮助科研人员把握主题研究现状。方法 过程通过 自编抽取规则程序,建立知识元库,并以此作为词典利用 提取主题,基于 和信息熵设计主题贡献度指数(,)、演化度指数(,),据此计算不同时间段内用户研究主题的、值,在此基础上分
2、析用户研究主题的演化趋势。结果 结论结合 和 识别出了用户研究中主题的发展态势,用户画像和用户标签具有强劲的发展势头;用户兴趣、用户体验、用户隐私保护是该领域持续研究的主题;学科服务主题研究热度呈衰减态势。本研究提供了一种细粒度揭示研究主题及子主题演化分析的新方法,结果可为相关人员提供研究选题依据。关键词:;知识元;信息熵;用户研究;主题演化中图分类号:文献标识码:(,):,()(),:;引言用户研究是从挖掘用户的真实需求出发,获取用户的浏览行为特征、兴趣特征、认知心理特征等,实现精准服务。实时关注并把握用户需求,充分利用用户产生的信息,是信息科学领域积极应对时代变化和社会发展的重要决策。在大
3、数据时代,人工智能、互联网等技术渗透到各行各业,用户数据呈多层次、动态化、多样化特点,由此,用户研究内容不断丰富,已形成一个成熟的研究方向。目前,相关研究有信息服务、用户画像、用户体验、用户隐私保护等,但尚未发现有针对该主题研究趋势的定量分析。为细粒度梳理相关研究的演化态势,本文基于问题、方法的抽取,结合时间信息,从知识元粒度探析用户研究的主题类型和当前研究热点,分析用户研究主题的演化趋势,以帮助科研人员把握用户研究的研究现状,正确选择研究方向。主题演化相关研究目前,国内外学者就不同学科方向的主题演化 年 月 情报探索 第 期(总 期)()进行了大量研究,取得了丰富成果,主要从以下角度进行阐述
4、。基于关键词分析主题演化,例如:等使用共词分析和文本挖掘分析 杂志上科学计量学知识结构和主题的动态变化;张敏等从关键词时序角度出发研究国际大数据领域的发展脉络和趋势。基于共引分析主题演化,例如:等基于关键词采用共引分析和引文分析探讨关系学中的知识基础和演化;刘艳华等采用共引分析和聚类分析方法分析青少年阅读主题的演化。基于主题模型分析主题演化,例如:等借助 和相似度算法,分析主题之间的演化关系和演化强度;周国韬等通过 模型提取知乎平台关于养生的问答数据,分析用户养生健康信息需求话题的关注度和关注热点。综上可知,学者们主要基于关键词、共引分析、主题提取揭示领域研究现状、研究热点分析主题演化趋势,产
5、出较多具有理论价值和实践价值的研究成果,研究成果丰富,但成果尚未发现有基于特定领域知识元抽取分析主题演化趋势的相关研究。因此,本文借鉴上述研究方法和研究思路,以用户研究为主题,提出基于 和 的主题演化分析方法,根据不同时间窗口用户研究主题的、,分析用户研究主题随时间变化的演化趋势。研究方法 模型本研究选取广泛应用于文本分析的隐含狄利克雷分布模型(,)提取不同时间段的论文主题,挖掘词间的语义信息。是一种无监督机器学习方法,可以对大量文本信息的潜在语义做自动归类,并给出每类潜在语义的概率分布,有助于快速识别论文主题,区分热点主题。其核心原理如图 所示。数据集中每篇文档 都与 个主题的多项式分布相对
6、应,记为多项式分布;每个主题都与特征词表中 个单词的多项式分布对应,记为多项式,并且 和 均存在一个带超参数的 和 的狄利克雷先验分布。图 隐含狄利克雷分布模型在利用 进行主题识别时,需要预先设定主体个数,主题稀疏或宽泛都会造成论文核心内容无法呈现,且由于不同时间段论文数量不同,因此主题数也不尽相同。本文采用困惑度和 可视化相结合的方式进行研究。困惑度()是通过计算公式,来衡量模型的不确定性,困惑度越小,模型越好,主题数目最优,但缺点是根据困惑度公式计算的主题数往往偏多。可视化通过主题密度分布观察主题间的相似程度,主题密度分布越散,说明各主题间相似程度越小,主题识别效果越好,缺点是需要预先设置
7、一个主题数,因此本文将困惑度和 可视化结合使用,动态确定各时间段的最优主题数。主题贡献度指数和演化度指数信息量的大小取决于信息内容消除的不确定程度,因此主题信息量分布的均匀程度与其发展状态是相关的,随着时间的发展变化,信息在过程中不断被发现提取的,主题逐渐变得有序、均与、稳定性。熵表示一个系统的混乱程度,可用于衡量信息的随机性、无序性、分散性和可变性,本文利用信息熵表示主题信息量在不同时间段分布的均匀程度。()信息熵。“信息熵”由信息论创始人 于 年提出,用来描述信息源的不确定性,不确定性与信息源中所含的信息量呈正相关。信息的不确定性越大,信息量越大;反之,信息量越小。若信息源为 ,为不同的离
8、散 随 机 变 量 数,对 应 的 概 率 为,则信息源的信息熵为:()()()()其中:()的取值范围在,熵值越大,表明研究主题分布越不均衡,主题内容越丰富;反之,熵值越小,表明研究主题分布均衡,研究内容单一。()贡献度和演化度指数。借鉴孙震等提出的贡献度指数和迁移度指数,本文提出贡献度指数(,)和演化度指数(,)。某一主题在某个时间段内贡献度越大,在该时间段学者对其关注度越高,该主题越可能成为研究热点。主题在不同时间段内贡献度的变化,代表学者对其研究热度的变化,其值用每个主题下主题词分布的权重值()累加计算,即 ()借鉴文献中迁移度指数的测度方法,定义演化度指数:年 月王晓璎等:基于演化度
9、指数的情报学“用户研究”主题演化分析第 期(总 期)()其中,为前一个时间段研究主题的信息熵,为后一个时间段研究主题的信息熵,为研究主题在前后两个时间段中熵的演化程度。演化度越大,表明学者对主题的相对关注变化速率越大,该主题越可能成为该阶段的关键点,对该阶段的创新越具有重要意义。用户研究主题演化分析 数据来源与处理()构建知识元库数据来源与处理一般来讲,学科领域的顶尖期刊更能反映学科研究的主题。为提高数据的可靠性和代表性,本文选取情报学领域中 种重要核心期刊:情报学报情报理论与实践情报科学情报杂志数据分析与知识发现现代情报情报资料工作,在中国知网中分别以期刊名称作为文献来源进行检索,以 格式下
10、载期刊中所有论文近 年的摘要,作为规则抽取的语料。()主题识别数据来源与处理以“用户研究”为检索主题,文献来源为中文核心期刊,学科限制为图书情报与数字图书馆,获取时间跨度为 年 月 日至 年 月 日的全部文献信息,通过数据清洗去除导读、卷首语、征稿启事、会议通知等非学术文献,最终保留有效文献 篇,年以来用户研究论文量呈先增后减的趋势,在 年达到最高值 篇,整体发文数量均在 篇以上,呈现出繁荣的发展态势。考虑到主题一般从出现到发展需要一到两年的时间,所以基于固定时间窗原则,以两年为单位共划分 个时间段,抽取不同时间段的论文摘要,作为主题建模的语料库。知识元库构建目前学术文献呈指数级增加,以文献为
11、单元的知识组织方式已经不能满足用户的知识需求,以文献为单位的知识服务逐渐转向基于知识元的知识服务。知识元是语义上相对完整地表达特定知识的最小内容单元。问题知识元和方法知识元代表论文的知识要素,为有效抽取论文的研究主题,有必要构建针对情报学领域的问题、方法知识元库。本文采用基于规则的方法构建知识元库,通过规则与摘要进行匹配抽取知识元。包含两个过程:()构建规则库;()构建知识元库。()由于期刊第一期论文中包含导读、卷首语、专家推荐等非学术文献,因此筛选出 个核心期刊每年第二期的论文摘要,对其进行内容识别和特征抽取,根据摘要中问题、方法的描述特点,将规则归纳为“动词特征词副词”或者动词特征词”两种
12、。例如在研究问题的描述中,常用“为探究问题”“揭示的内在机理”“研究关注”等框架来描述问题,“”代表待抽取的问题知识元。为了提高规则的包容性,本文构建正则表达式(?)抽取知识元。()完成规则库构建后,进一步构建知识元库。通过 自编程序遍历各期刊论文的摘要,以逗号、句号、分号、冒号为分割点进行分句,规则遍历每一句时利用字符串匹配,进行知识元抽取,设置输出长度为(?),目的是限制过短或过长的知识元,通过去重处理,将知识元保存到 文本中。为保证知识元的准确性,由人工干预修改抽取不当的知识元,不断优化形成最终的知识元库。基于知识元库的主题建模()主题提取借助于 自编代码,分别与问题知识库、方法知识元库
13、为词典,利用 抽取摘要中的问题知识元、方法知识元,将结果保存到 文档中。采用困惑度和 可视化结合的方式确定主题数目。如图 所示,给出第一个时间段主题困惑度与主题数目的关系。模型在主题数为 和 时出现拐点,暂定主题数为、。如图 所示,给出了 可视化密度分布图,图中圆圈数量代表主题数目,各圆圈的距离表示主题间的相似程度,圆圈间距离越大,主题间相似程度越小,主题识别效果越好。当 、时,主题密度分布密集,圆圈之间有交叉且距离小,主题相似度较大,主题效果识别较差;当 时,主题密度分布稀疏,效果最好。因此,最后确定该时间段的主题数目为。利用同样的方法计算出其他时间段的主题数,年的主题数为,年的主题数为,年
14、的主题数为,年的主题数为。()主题命名通过百度和 搜索引擎查询、专家咨询、参考与“国际图书情报领域近年研究热点”相关的文献和相关专家报告等途径对各主题进行主题命名。例如,第一个时间段:中,用户兴趣、数字图书 年 月情报探索第 期(总 期)图 年困惑度随主题数变化情况图 可视化密度分布图馆、用户生成内容、个性化推荐、知识发现、虚拟社区、用户个性化、资源共享、语义信息、知识推荐等,通过分析这些主题词,发现主题的内容均与用户兴趣具有相关性,由此确定将该主题命名为用户兴趣,类似的对其他主题进行命名(见表)。表 不同时间段的主题命名主题 年 年 年 年 年用户隐私保护用户信息检索用户画像移动图书馆知识管
15、理知识管理统计分析用户隐私保护用户隐私保护用户体验问卷调查数字图书馆用户标签个性化推荐知识服务用户兴趣用户兴趣信息服务数据分析评价分析学科服务图书馆服务信息检索用户体验用户信息搜寻个性化推荐个性化推荐学科服务数字图书馆信息传播统计分析信息传播问卷调查文本挖掘数据分析用户需求用户体验个性化推荐问卷调查用户画像用户检索行为问卷调查信息扩散用户画像问卷调查个性化信息服务学科服务数据分析用户兴趣个性化推荐用户体验信息服务用户兴趣信息扩散用户标签用户隐私保护学术信息交流用户隐私保护知识组织知识获取用户信息服务用户标签用户兴趣信息服务 用户研究主题演化分析五个时间段的间隔分别是:(年至 年);(年至 年)
16、;(年至 年);(年至 年),根据公式()、()、(),分别计算个时间段的主题信息熵、。根据主题模型抽取结果,将用户研究主题按演化趋势的不同分为三种类型:持续发展主题、衰弱趋势主题、新兴主题,并以用户兴趣、用户隐私保护、学科服务、用户画像、用户标签主题为例。不同时间窗口各指标的对比结果如图、图 所示。图 各子主题的 年 月王晓璎等:基于演化度指数的情报学“用户研究”主题演化分析第 期(总 期)图 各子主题的信息熵和 ()持续发展趋势主题分析由图 可知,呈平稳发展的主题有用户兴趣、用户隐私保护、用户体验。在 年之间,用户兴趣的 最大,说明在此时间段其研究较热点。虽然在 年此时间段 有所下降,但 仍高于其他几个主题,在 年,研究热度开始下降,处于中间位置,不再是高热度主题。信息时代和经济的发展影响对用户兴趣的研究。物联网、云计算、大数据技术的兴起,以及微博、知乎、电商等平台的不断涌现和手机、平板的普及化,用户热衷于在各种平台分享和相互交流,更易接触到感兴趣的信息;以及国民人均收入的提高,用户从满足温饱状态转移到了精神方面。用户兴趣研究在 年整体信息熵幅度相对而言未产生大幅度变化,说明研究比