收藏 分享(赏)

面向海量科技文献数据的主题模型浅析_程豪.pdf

上传人:哎呦****中 文档编号:2569669 上传时间:2023-07-24 格式:PDF 页数:3 大小:31.05MB
下载 相关 举报
面向海量科技文献数据的主题模型浅析_程豪.pdf_第1页
第1页 / 共3页
面向海量科技文献数据的主题模型浅析_程豪.pdf_第2页
第2页 / 共3页
面向海量科技文献数据的主题模型浅析_程豪.pdf_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、学术探讨ACADEMIC RESEARCH27面向海量科技文献数据的主题模型浅析引言随着大数据时代的到来,数据和信息的膨胀不断给各行各业带来诸多挑战。统计学、数据挖掘、机器挖掘乃至可视化也相应得到更深入的方法创新和技术开发。作为一种非常重要的数据形式,非结构化的文本数据与结构化数据相比,还存在很大的可分析空间。面对来自海量科技文献的文本数据,主题模型能够有效提炼隐藏在文档中的主题及该主题包括的高频词汇。研究者可以根据这些高频词汇归纳相应主题的内涵,也可以通过构建不同时间点上的主题模型研究相关领域的发展变化规律。正因为主题模型具备处理纷繁复杂的海量文本数据的功能,同时又有可靠的数学基础作为方法支

2、撑,所以自提出以来就受到广大专家学者、业界人士的青睐。随着人们对文本数据的重视程度不断加深、需求程度不断增大,主题模型的内容和种类也在不断的丰富和发展,而且随着时间的推移,成果数量也在不断增加。截至 2019 年 7 月 20 日,CNKI 中篇名包括“主题模型”一词的中文文章共有 600 篇。其中,2019 年 1 月 1 日至 7 月 20 日共发表 42 篇,2018 年共发表 119 篇,2017 年共发表 111 篇,2016 年共发表 96 篇,2015 年共发表 71 篇,2014 年共发表 56 篇,2013 年共发表 49 篇,2012 年共发表 19 篇,2011 年共发表

3、 18 篇,2010 年共发表 12 篇,2009 年共发表 4 篇,2008 年共发表 2 篇,2002 年共发表 1 篇。可以看出,用于处理文本数据的主题模型越来越受到专家学者的关注。面对体量巨大的文献资料,如何选择适合的主题模型,并在有限时间内快速掌握文本核心,提炼关键主题,更成为人们关注的研究课题。常用的主题模型(一)潜在狄利克雷分布模型潜在狄利克雷分布模型(LatentDirichlet Allocation,LDA)是由 Blei等人于 2003 年提出的。该模型是【摘要】随着文献资料的不断膨胀,非结构化的文本数据挖掘逐渐形成较为成熟又区别于结构化数据的方法体系。本文以海量科技文献

4、为出发点,通过研究四类主题模型及目前可用的主要软件和技术,以处理不同条件下的文本数据问题,找到海量科技文献集合中的关键主题,实现分类或预测的统计功能。【关键词】文献数据;主题模型程 豪中国统计CHINA STATISTICS28一种由“文档-主题-词语”构成的三层贝叶斯模型(Three-level Hierarchical Bayesian Model),也是一种有向概率产生式模型。对于潜在狄利克雷分布模型来说,生成模型的过程包括如下 3 步:Step1:生成主题-词语的概率分布Dirichlet()。其中,Dirichlet(*)表示狄利克雷分布,表示主题-词语概率分布 的超参数。Step2

5、:设定每个文档中的词数 NPossion(),生成文档-主题的概率分布Dirichlet()。其中,表示文档-主题概率分布 的超参数。Step3:对于文档中的每个词语 i(i=1,N),重复下面步骤:选择一个服从多项式分布的主题Zi,并且从多项式条件概率分布Mult(Zi)中选择一个词语 i。(二)相关主题模型相 关 主 题 模 型(Correlated Topic Model,CTM)是由 Blei 等人于 2007 年提出的。该模型是在潜在狄利克雷分布模型的基础上发展起来的,允许主题之间存在相关性。对于相关主题模型来说,生成模型的过程与潜在狄利克雷分布模型的区别在于 Step2:在相关主题

6、模型中,生成文档-主题的概率分布 N(,),即服从正态分布,而非狄利克雷分布。当令 T=(T,0)时,K=expT/K expi i=1(三)动态主题模型动态主题模型(Dynamic Topic Model)是由 Blei 等人于 2006 年提出的。该模型将数据划分到不同时间段,然后对每个时间段的文档建立一个 K-成分主题模型,其中第 t 个时间段相关联的主题是从第 t-1 个时间段相关联的主题演变而来。在该模型中,我们用正态分布来捕捉带有时间序列成分的主题的不确定性。具体来说,假定第 t 个时间段的主题 k 是一个服从多元正态分布的随机变量t,k。为了有序联系一组主题模型,需要对每个时间段

7、 t 内的文档库完成下述过程:Step1:从 t,k|t-1,kN(t-1,k,2I)中生成主题。Step2:完成潜在狄利克雷分布模型的Step2-Step3。在Step3中,选择词语的多项式条件概率分布不是 Mult(Zi),而要改为Mult(f(t,z)。由此可以看出,动态主题模型中,每一个时间段都构建了一个单独的潜在狄利克雷分布模型,而且第 t 个时间段的第 k 个主题平滑的从第 t-1 个时间段的第 k 个主题演变而来。(四)有监督主题模型有监督主题模型(Supervised Topic Model)是 由 Blei 等 人 于2007 年提出的。与大多数主题模型(都是无监督的)相比,

8、有监督主题模型中每个文档都对应于一个响应变量,这样可以推断预测响应变量的潜在主题。对于有监督主题模型,每个文档和响应变量的生成过程如下:Step1:生成文档-主题的概率 分 布 Dirichlet()。其 中,表示文档-主题概率分布 的超参数。Step2:对于每个词语 i(i=1,N),选择一个服从多项式分布的主题 Zi|,并且从多项式条件概率分布Mult(Zi)中选择一个词语i|Zi,1:K。Step3:生成服从正态分布N(T(1/N)N zn 2)n=1的响应变量。其中,表示回归系数。可以看出,响应变量来自一个服从正态的且不含截距项的线性模型,自变量是文档中主题的不可观测的经验频率。主题模

9、型比较研究(一)假设条件及适用范围在潜在狄利克雷分布模型中,主要存在 3 个假定条件:(1)K个主题与一个文档集合相关,且每个文档以不同比例展示这些主题。(2)在狄利克雷分布下,比例中各个分量几乎相互独立,导致强烈假设一个主题的存在与另一个主题的存在不相关。(3)每个文档中的词语是可互换的,即这些词语的顺序不影响它们的概率。学术探讨ACADEMIC RESEARCH29在相关主题模型中,主要存在 2 个假定条件:(1)假定潜在主题之间存在相关性甚至是高度相关。(2)每个文档中的词语是可互换的,即这些词语的顺序不影响它们的概率。在动态主题模型中,允许文档集合中的主题随时间而变化,适用于在有序组织

10、的文档库(由文档组成的语料库)中挖掘主题的演变。而且每个文档中的词语是可互换的,即这些词语的顺序会影响它们的概率。在有监督的主题模型中,赋予每个文档相应的响应变量,比如,电影的评分、文章阅读量等等。有监督的主题模型可以通过拟合模型推断它的主体结构,形成预测值。有监督的主题模型可以适应各种类型的响应变量,比如,正实数、有序或无序类标签、非负整数等等。可以看出,潜在狄利克雷分布模型是后续主题模型的基础。当需要考虑主题间的相关性问题时,提出相关主题模型;当需要考虑主题随时间的变化时,提出动态主题模型;当需要解决文本数据的预测问题而非分类问题时,提出有监督的主题模型。前三种模型(潜在狄利克雷分布模型、

11、相关主题模型和动态主题模型)属于无监督的主题模型。有监督的主题模型与无监督的主题模型的区别与现有的无监督主成分分析和线性回归的区别相同。(二)优势与局限潜在狄利克雷分布模型的优势在于可以处理文本数据和其它离散型数据的建模问题,能够有效的找到海量科技文献集合中的简短描述,并保留了可用于分类、检测等方面的基本统计关系。但其局限是无法直接构建主题之间的相关性。在很多文本库中,潜在主题是高度相关的,比如遗传学的文章也可能与健康、疾病相关。该模型的局限来自主题比例服从的狄利克雷分布中隐含的独立性假设。在相关主题模型中,主题比例的分布更加灵活,允许成分间的协方差结构,一个潜在主题与另一个潜在主题相关联。相

12、关主题模型可以更好地拟合数据,提供丰富的可视化和探索文本集合的方式。不足在于,相关主题模型生成文档-主题的概率分布服从正态分布,这使得它不与多项式分布共轭,使得相应的近似后验推理过程复杂化。在动态主题模型中,允许文档集合中的主题随时间而变化。有监督的主题模型正因为在建模时兼顾文档和响应变量,所以该模型可以找到潜在的主题,以最好预测未标签文档的响应变量取值。实现主题模型的技术支持目前可以实现主题模型的软件主要包括 C、Matlab、R 和Python 等等。下面简要列举具体软件及实现主题模型的相应技术支持。Blei 等人给出了拟合潜在狄利克雷分布模型和相关主题模型的 C 语言代码,其中拟合这些模

13、型的方法是变分的最大期望法。Matlab 主题模型工具箱提供了潜在狄利克雷分布模型及其几种变形的主题分析模型的代码。R 软件中的 lda 软件包和 topicmodels软件包可以用于主题模型的实现。其中,topicmodels 软件包中的 LDA()函数和 CTM()函数,分别用于构建潜在狄利克雷分布模型和相关主题模型。在 LDA()函数中可以选择变分的最大期望法VEM 和 Gibbs 抽样两种模型拟合方法,但在 CTM()函数中只有最大期望法 VEM 一种选择。Python中的 genism 模块是处理文本数据比较好的库,允许潜在狄利克雷分布模型从训练语料中进行估计,并且从新的文档中获得对主题分布 的 推 断。函 数 gensim.models.ldamodel.LdaModel()可以生成一个潜在狄利克雷分布模型。此外,还有很多其它的软件或技术可以用于实现主题模型,比如,GibbsLDA+、MALLET等等在实现主题模型中提供很大帮助。作者单位:中国科协创新战略研究院

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2