1、1432022年第6期/第39卷/总第210期图情领域LDA主题模型应用研究进展述评A Review on Application Studies of LDA Topic Models inLibrary and Information Science Field张东鑫1 张敏2ZHANG Dongxin ZHANG Min(1.西南大学计算机与信息科学学院,重庆,400715;2.华中师范大学信息管理学院,武汉,430079)摘要:目的/意义 系统归纳梳理 LDA 模型的应用过程与应用领域,为图情领域 LDA 模型研究提供参考。研究设计/方法 以 Web of Science 核心集、LI
2、SA、Google Scholar、中国知网、维普和万方等为数据源,检索图情领域 LDA 模型的研究文献,通过内容分析构建了 LDA 模型应用研究分析框架,从模型应用过程的视角对国内外研究现状进行系统地总结归纳。结论/发现 LDA 主题模型研究已经形成较为成熟的分析流程,已应用在主题探索、知识组织、学术评价、情感分析等很多领域,但是在应对大数据、多模态数据等复杂处理任务,提升建模结果的语义质量,扩展模型应用等方面还亟待加强。创新/价值 基于 LDA 模型的应用过程,细致揭示了图情领域 LDA 模型应用研究存在的问题和发展方向。关键词:LDA;主题建模;文本挖掘;图书情报领域中图分类号:G250
3、DOI:10.13366/j.dik.2022.06.143引用本文:张东鑫,张敏.图情领域 LDA 主题模型应用研究进展述评 J.图书情报知识,2022,39(6):143-157.(Zhang Dongxin,Zhang Min.A Review on Application Studies of LDA Topic Models in Library and Information Science FieldJ.Documentation,Information&Knowledge,2022,39(6):143-157.)Abstract:Purpose/Significance Acc
4、ording to previous work,this paper aims to summarize and sorte out the applied process and applied fields of LDA model to provide reference for the research of LDA model in library and information science(LIS)field.Design/Methodology We selected Web of Science Core Collection、LISA、Google Scholar、CNK
5、I、VIP and WANFANG Database as data source,retrieved literature about the LDA model in the field of LIS,constructed the analytical framework of LDA model application research through content analysis,from the perspective of the applied process of these models,carefully analyzed the current research a
6、t home and abroad Findings/Conclusion The results show that a more mature analysis process has been formed for the research of LDA topic models in LIS field,it has been applied in rich fields such as topic exploration,knowledge organization,academic evaluation,sentiment analysis,but the research sti
7、ll need to be strengthened in the future in dealing with complex tasks such as processing big data and multimodal data,improving the semantic quality of modeling results and the application of extended model Originality/Value Based on the applied process of LDA model,the existing problems and develo
8、pment direction of LDA model research in the field of LIS are revealed in detail.Keywords:LDA;Topic modeling;Text mining;LIS field 基金项目 本文系国家社会科学基金项目“政务社交媒体用户信息获取中的情感体验及效用研究”(20BTQ048)的研究成果之一。(This is an outcome of the project Research on the Users Emotional Experience and Utility of Information Acq
9、uisition in Government Social Media(20BTQ048)supported by National Social Science Foundation of China.)通讯作者 张敏(ORCID:0000-0003-4534-757X),博士,教授,研究方向:人机交互与信息行为,Email:。(Correspondence should be addressed to ZHANG Min,Email:,ORCID:0000-0003-4534-757X)作者简介 张东鑫(ORCID:0000-0003-3974-6654),硕士研究生,研究方向:网络信息资
10、源管理,Email:。1引言潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种对文本主题进行建模挖掘的三层贝叶斯产生式概率模型1,该模型通过无监督学习,生成“文档-主题”和“主题-词”概率分布,被用于识别大规模文档集中潜藏的主题信息。LDA具有良好的数据降维能力和模型扩展性,被广泛应用于各种文本分析任务。目前,计算机学科的相关研究主要围绕LDA扩展模型的分类、算法改进2,3,尤其是深度学习主题模型4展开了较多探讨,相关研究强调主题模型对于文本挖掘及自然语言处理的重要作用,聚焦于LDA主题模型原理、参数估计及训练方法的总结归纳,注重不同主题建模技术之间性能的
11、对比5,少数研究归纳了主题模型在语言、政治、生物医学、地理等学科领域应用,指出LDA主题模型在多媒体信息加工处理等文本挖掘任务中存在的挑战及问题2。图情领域的学者则较多针对特定的文本挖掘任务6展开分析研究,已有部分综述针对某一应用场景7或某一类扩展模型8进行了归纳总结。总体而言,现有研究针对LDA模型完整应用过图情领域LDA主题模型应用研究进展述评A Review on Application Studies of LDA Topic Models in Library and Information Science Field144程的梳理还较为缺乏。本研究聚焦图情领域LDA模型整体应用研究
12、现状,细致剖析其应用过程关键环节和应用领域,以期为相关领域的理论研究和实践应用提供参考。本研究梳理了LDA模型应用的现存问题和创新发展,有助于更好应对多维度场景的复杂文本处理任务,增强LDA模型的泛化能力以及建模结果的准确性和可解释性,实现更精准的主题挖掘和识别。2文献调研概述本研究以Web of Science核心集、LISA、Google Scholar为英文数据源进行文献检索,以中国知网、维普、万方数据库为中文数据源进行文献检索。英文文献以 主 题=“Latent Dirichlet Allocation”OR“Topic Model*”为检索式进行检索,中文文献以主题“LDA”OR“潜
13、在狄利克雷分布”OR“概率主题模型”为检索式进行检索。中英文数据源均限定为图书情报领域期刊(中文进一步限定为CSSCI来源期刊),检索时段设置为近十年(2012年1月1日到 2022年1月31日)。基于文献标题、关键词与摘要,辅以内容审读,选取符合研究主题的文献,最终筛选得到369篇英文文献和426篇中文文献。文献分布如图1所示,近十年国内外研究发文量均处于持续增长的态势,且国内研究的发文量远高于国外。可以看出,LDA相关研究引起国内外图情领域学者的高度关注,研究成果较为丰硕。进一步,本研究深度研读代表性文献,基于应用过程的关键环节梳理构建了LDA模型应用研究分析框架(见图2)。LDA模型应用
14、过程主要包括:在文本预处理环节,对主题建模所涉及的数据源进行预处理操作,获得模型所需的格式化数据;在模型构建环节,先依据研究情境选定合适的主题模型,然后结合相关模型评价方法确定最优主题数;在模型求解环节,采用201274412182329303446601425384361658190932013201420152016201720182019202020211101009080706050403020100发文量篇国内国外年代图1 国内外发文量年代分布Fig.1 The Chronological Distribution of Published Papers at Home and Ab
15、road图2 图情领域 LDA 主题模型应用研究分析框架Fig.2 The Analytical Framework for the Application Studies of LDA Topic Models in LIS field针对稀疏、动态短文本,如何保障主题建模结果的质量如何保障特征词表达主题语义时的有效性文本预处理模型构建主题模型选择最优主题数选择模型求解模型应用无需人工标注数据处理长文本数据性能稳定应用工具和流程较成熟Java语言:Stanford TMTJGibbLDAMalletR语言:LdaTopicmodelsPython语言GensimSikit-learn处理动态
16、短文本效果差处理大规模数据效率低无法识别主题之间的关系算法复杂度高领域通用性差稳定性有待提高应对复杂数据处理任务提升建模结果的语义质量构建模型质量评估体系丰富LDA的应用方式主题确定方法不一致,如何客观评估建模结果的有效性主题探索、知识组织、学术评价、情感分析、推荐研究LDA模型扩展模型主题数确定方法模型改进优点缺点不足问题参数设置未来需要重视的问题模型选择问题常用工具应用领域1452022年第6期/第39卷/总第210期合适的主题建模工具完成模型求解;最后,依据实际研究情境,结合相关方法与工具解决具体应用领域问题7。当前,LDA模型的应用涵盖主题探索、知识组织、学术评价、情感分析、推荐研究等诸多领域。本文将基于上述流程对现有应用研究现状进行归纳总结。3LDA 主题建模的应用过程3.1 文本预处理文本预处理的过程针对不同的数据源,通过分词、去停用词以及特征选择等预处理技术获取模型所需的格式化数据。该环节可实现文档内容初步降维,降低模型推理时间,是LDA主题建模的基础。其中,所获取表达文本主题语义的特征词对主题建模结果的可解释性具有重要影响。在主题建模的数据源方面,基于微博、Twitte