1、2023 年 2 月 25 日第 7 卷第 4 期现代信息科技Modern Information Technology Feb.2023 Vol.7 No.443432023.022023.02收稿日期:2022-10-03基金项目:凯里学院联合培养研究生专项课题(LHYJS2101)基于 LDA 主题模型的 MOOC 课程评论文本分析赖显静(凯里学院 教育科学学院,贵州 凯里 556011)摘 要:为深入探究在线课程评论文本数据,有效识别出参与在线学习过程中学习者关注的话题,改进在线学习效果,该研究利用LDA主题模型对课程评论文本进行主题挖掘。实验结果表明,学习者在线课程评论话题主要聚焦在
2、授课方式、受众群体、学习平台、教学效果、课程质量五个方面。因此,可以根据这五个主题对在线学习平台进行建设,进而提高学生在线学习效果。关键词:LDA;MOOC;课程评论;文本分析中图分类号:TP391.1 文献标识码:A 文章编号:2096-4706(2023)04-0043-04Analysis of MOOC Course Review Text Based on LDA Topic ModelLAI Xianjing(School of Education Science,Kaili University,Kaili 556011,China)Abstract:In order to de
3、eply explore the online course review text data,effectively identify the topics that learners pay attention to in the online learning process,and improve the online learning effect,this study uses the LDA topic model to mine the topic of the course review text.The experimental results show that lear
4、ners online course review topics mainly focus on five aspects:teaching methods,audience groups,learning platforms,teaching effects,and course quality.Therefore,the online learning platform can be built according to these five themes,so as to improve the online learning effect of students.Keywords:LD
5、A;MOOC;course review;text analysis0 引 言随着“互联网+教育”的不断发展,在线教育受到各方关注。2021 年 6 月,CNNIC 发布中国互联网发展状况统计报告中显示,我国在线教育用户为 3.25 亿,占整体网名的 32.1%1。越来越多学习者倾向于在线学习,各式各样的在线学习平台应运而生,不仅为学习者提供丰富的学习资源,而且还为学习者搭建了交互式学习平台。MOOC(Massive Open Online)作为“互联网+教育”的重要产物之一,具有规模大、开放性、个性化、免费等特征2,满足众多学习者个性化学习需求。并且成为众多研究者关注的焦点。学生在使用 MO
6、OC 平台学习的过程中,产生的各种行为数据真实反映学习者的各种学习状态3。随着大数据与教育的不断融合,学习分析技术能够对行为数据进行分析。该技术不仅能够基于统计方法对结构化数据4考试成绩、评论次数、观看时长与次数等进行分析以外,还可以对非结构化数据的分析文本数据,例如评论数据、评论回复、答疑、弹幕数据等5。随着 MOOC 平台的不断发展,学习者在使用过程中产生了大量的非结构化互动文本数据,主要在讨论区、实施答疑、实时弹幕等。评论文本中蕴含大量的信息,对其进行挖掘和解释能够发现学习者关注的重点,为提高在线学习体验感、满意度等提供参考和借鉴。因此,本研究以DOI:10.19850/ki.2096-
7、4706.2023.04.011MOOC 评论区文本数据作为研究对象,基于 LDA 主题模型挖掘非结构化互动文本,探讨学习者在使用 MOOC 平台学习过程中所关注的重点,以期为后续建设在 MOOC 平台提供参考和借鉴。1 相关研究评论文本作为在线学习过程中重要的互动载体,比较真实的反映了学习者的学习体验、兴趣话题、情感态度等特征6。通过对评论文本进行挖掘,能够提取学习者在在线学习过程中关注的隐藏焦点。目前已有部分研究者对 MOOC评论文本内容进行分析,例如:吴林静等提出面向大数据的慕课评论文本语义分析模型,该模型能够有效对评论文本进行分类7。胡荣等人采用极性计算方法对 MOOC 评论情感极性进
8、行探究,发现该方法能够有效判断评论文本的情感极性8。因此可以发现,研究者们已经开始对 MOOC 非结构化文本数据展开研究。LDA模型常用于社交媒体、图像处理、文本分类和聚类、社区方法等领域9。在文本分类和聚类方面,LDA 主题模型通过对文档进行主题概率分布计算最终找到主题集合10,以此来挖掘出文本主题。已有研究证明,基于 LDA 主题模型-词分布矩阵主题分布向量能够有效对短文本进行分类11。目前已有研究者使用LDA模型对MOOC评论文本进行分析,例如,刘三女牙等人利用 LDA 模型探究学习者关注话题及其演化趋势,为后续研究提供了新思路12。陈秀明等利用该方法实现主题挖掘及趋势演化,并结合共现网
9、络图探究主题分布13。王洪鑫等使用 LDA 模型和 CNN 算法,构造主题44442023.022023.02第 4 期现代信息科技挖掘与情感分析模型,该模型挖掘出学习者关注主题并对情感极性展开分析14。由此可以发现,研究者们已经将 LDA模型运用在教育领域,通过对不同类型评论文本数据进行分析,以此来发现学习者所关注的话题分布情况。以上研究从不同角度对 MOOC 评论数据进行分析,MOOC 平台课程资源丰富,学习者在学习过程中产生的非结构互动文本数据,其增长速度较快、数据繁杂多样,因此,对MOOC课程评论文本进行分析仍然具有重要意义。所以,本研究利用 LDA 主题模型研究学习者在使用 MOOC
10、 平台学习过程中留下的评论文本,挖掘学习者关注主题,以此来发现学习者关注的焦点,为后续更好建设在线教育平台提供参考和借鉴。2 研究设计2.1 研究框架本研究利用 LDA 主题模型挖掘出 MOOC 课程评论文本主题,发现学习者在在线学习过程中关注的重点。因此,本研究通过爬取MOOC课程评论文本数据、预处理、建模分析、可视化等阶段实现 MOOC 评论数据的主题分析,研究框架如图 1 所示。MOOC评论数据文本去重文本清洗分词去停用词情感分析LDA主题分析可视化主题分析数据爬取数据预处理分析建模预处理后数据图 1 MOOC 评论文本 LDA 主题分析流程2.2 研究方法2.2.1 数据预处理数据预处
11、理作为本文挖掘的基本步骤,其目的是为确保数据的有效性,删除评论数据中噪声数据和无用信息。本研究首先爬取中国大学 MOOC 学习者评论数据,其次对MOOC 评论文本数据进行预处理,使用停用词表,去除数据中的重复词、停用词、无用词汇等,得到标准化文本数据。最后,利用 jiaba 分词工具对数据进行分词处理。2.2.2 在线评论文本主题建模首先,建立朴素贝叶斯模型(Naive Bayesian),将MOOC评论文本分为正面和负面评论,并分别进行词频分析。因为朴素贝叶斯模型具有分类准确度高、建模简单等特点,因此,本研究选择朴素贝叶斯算法对 MOOC 评论进行情感分类。其次,使用 LDA 模型挖掘文本主
12、题数。LDA 模型包含文档、主题、词三个层次,该方法能够从文档中提炼出主题模型,并通过词汇的概率分布反映文档的潜在主题15。并且采用无监督方法进行训练,适合处理大规模文本语料16。为了找到最优的主题数,本研究使用困惑度(perplexity)和一致性(coherence)评价指标确定评论文本中的最优主题个数17。其中困惑度数值一般随着潜在主题数量的增加呈现递减的规律,困惑度数值越小,该主题模型的生成能力越强18。一致性指标则是使用每个主题出现频率最多的词语计算他们的语义相似性,一致性得分越高,模型解释性更好。最后,使用LDAvis库对LDA模型结果进行可视化呈现。3 实证分析3.1 数据描述本
13、研究使用八爪鱼工具爬取中国大学 MOOC 学习者评论数据,采集课程为“Python 语言程序设计”,该课程在新课排行榜位居第一,课程一共有 24 152 人参加,采集数据时间确定在 2019 年 1 月2022 年 1 月,一共获取数据 21 137 条。数据集字段包括用户 ID、评论内容、发表时间、开课次数等。本文对删除重复评论、过长或过短评论、无效评论数据后,最终获得 15 030 条有效数据。3.2 文本情感分类结果使用朴素贝叶斯文本分类对 MOOC 评论数据进行情感分析,其中正面评论 13 477 条,占比 89.67%;负面评论 1 553 条,占比为 10.33%。说明大部分学习者
14、在在线学习过程中的体验感较好,满足其基本学习需求。有少部分学习者的学习体验没有达到预期。其中正面评论高频词汇包括:老师、课程、学习、讲解、内容、Python、清晰、基础、不错、入门等,负面评论高频词汇包括:老师、课程、编程、学习、理解、Python、基础、没有、代码、视频等。3.3 LDA 模型主题聚类结果本研究运用 Python 中的 Gensim 包中的 Lad Model 函数对 MOOC 评论文本数据进行主题建模。首先,使用困惑度和一致性指标判断最优主题数量,其中困惑度分析结果如图2 所示。一致性分析结果如图 3 所示。根据图中可知,当主题数为 5 左右时,困惑度指标数值最低,一致性指
15、标数值最高。因此。本研究确定 MOOC 评论文本主题数为 5。16 00015 00014 00013 00012 00011 00010 000Num of Topics0 5 10 15 20 25 30perplexity图 2 MOOC 评论数据困惑度分析结果5 10 15 20 25 300.390.380.370.360.35Num of TopicsCoherence score图 3 MOOC 评论数据一致性分析结果根据困惑和一致性指标分析结果,结合已有研究将45452023.022023.02第 4 期MOOC 评论文本的主题分为五大类“教师授课风格”“课程受众群体”“教学效
16、果”“课程内容”“课程质量”。MOOC 课程评论文本数据 LDA 主题部分特征词如表 1 所示。接下来对LDA模型进行可视化处理,结果如图4所示。一个圆圈代表一个主题,当主题数为 5 时,各圆圈分散互不相交,说明主题数为 5 是能够很好涵盖评论文本的大部分内容,主题建模较好。其中,圆圈 1 对应主题一“教师授课方式”、圆圈 2 对应主题二“课程受众群体”、圆圈 3 对应主题三“学习效果”、圆圈 4 对应主题四“学习平台”、圆圈5 对应主题五“课程质量”。3.4 结果分析通过朴素贝叶斯文本分类结果显示,大部分学习者在使用 MOOC 平台时的体验感较好,根据正面评论的高频词汇发现,正面评论主要集中在授课方式、教学效果、受众群体等方面。负面评论主要集中在课程内容,例如:编程较难、表 1 LDA 主题分布表排序主题一 授课方式主题二 受众群体主题三 课程内容主题四 学习效果主题五 课程质量特征概率特征概率特征概率特征概率特征概率1老师0.053课程0.787不错0.053知识0.053用心0.0532讲解0.073入门0.125细致0.694很大0.068有用0.0393清晰0.551学习0.