1、基于FastText的新闻文本多分类研究张超超卢新明摘 要:在迅速增加的海量数据中,文本形式的数据占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型FastText学习单词特征以解决该问题,同时在数据集上使用停用词处理方法降低噪声数据对分类模型的影响。实验结果说明,使用FastText文本分类模型在数据集上准确率到达96.11%,比传统模型提高近4%,且模型处理每条文本的平均时间为1.5ms,缩短了约1/3。关键词:文本分类;词向量;FastText;停用词;噪声
2、数据DOI:10. 11907/rjdk. 192499中图分类号:TP301 文献标识码:A 文章编号:1672-78002023003-0044-04Research on News Text Classification Based on FastTextZHANG Chao-chao, LU Xin-mingCollege of Computer Science and Engineering, Shandong University of Science and Technology,Qingdao 266590,ChinaAbstract: With the rapid incre
3、ase of the amount of data, textual data accounts for a large proportion. Text classification, as the most common text mining technology, is of great significance for finding valuable information in a large amount of messy text data. In the field of text classification, the primary goal is to reduce
4、the classification time while ensuring the classification accuracy. Therefore, this paper uses the classification model FastText to learn the word features to solve the current problem. In addition, a stop word processing method is used to reduce the influence of noise data on the classification mod
5、el. The experimental results show that the accuracy rate of FastText text classification model is 96.11%, which is nearly 4% higher than the traditional model. Furthermore the time spent by the model in processing each text was 1.5m/s on average, which was reduced by about 1/3.Key Words: text classi
6、fication; term vectors; FastText; stop words; noise data0 引言文本分類最初使用基于特定规那么1的方法。先收集关于待分类文本领域内专家知识和经验,将其组织成一系列分类规那么2,然后根据这些分类规那么进行文本分类。文献3使用基于降噪自动编码器的中文文本分类方法;文献4提出一种基于维基百科的文本分类规那么。虽然这些分类方法处理特定领域的文本有很好的效果,但概括分类领域所有知识并制定相关分类规那么需消耗大量人力本钱,所以该类方法适用性较差。此外,当文本无法依照现有规那么进行分类时,需重新获取文本并归纳规那么再进行分类,因此该类方法泛化性也较差。
7、相比而言,本文FastText模型无需较多人工训练模型,仅对训练数据集作简单的预处理后即可放入模型进行训练,且在新分类任务出现时,模型只需更新迭代训练之后即可完成新任务,大幅降低了人力、物力本钱。随着人工智能的飞速开展,机器学习算法在文本分类中的应用成为自然语言处理研究热点。文献5提出将Word2vec应用于文本分类研究;文献6采用LDA与SVM算法结合的文本分类。这些方法将文本数据改为以向量的形式输入,所有数据被分为一定比例的训练集和测试集,利用分类模型进行训练和测试,并将模型分类结果与原有类别比照作为分类算法效果的证明。目前已有多种机器学习算法应用于文本分类。赵刚等7在基于机器学习的商品评
8、论情感分析模型研究中,通过集群技术删除数据集中的正面例子以得到更多负面例子,使用改良的词频率逆文档频率tf-idf进行特征提取,与支持向量机相结合改良Rocchio分类器构建,以提高分类准确性。但是这类方法大都忽略了词与词之间的句法形态,导致最终分类效果只能在90%左右。本文FastText模型通过学习单词特征,关联上下文单词词义并将其作为分类结果,使词频不同但相互之间有所联系的单词在分类任务中发挥一定作用。其中?表示 Sigmoid 函数4,LCn表示 n 节点的左孩子,x是一个特殊函数,其定义如式5所示。nyj,l为节点nyj,l的参数。X是输入。从根节点到y2的路径长度为Ly2=4。这样
9、在经过分层Softmax处理之后,模型计算复杂度从Ok降低至Ologk,资源消耗大幅降低。3 实验与分析3.1 实验数据本文数据集包括来自搜狗新闻的50 000条训练集与10 000条测试集,分别有体育、财经、房产、家居、教育、科技、时尚、时政、游戏和娱乐10个类别。因为新闻数据集为中文文本,分词工具为Python中jieba分词工具,jieba分詞有3种模式,本文根据实际文本序列长度,采用其中的精确模式,jieba分词前后文本样例如图3所示。为降低文本分类器计算复杂度、提高分类器分类效率,需在将文本语料转化为特征向量前对文本作降维处理,方法为去掉文本中对分类没有意义的停用词和低频词,同时去掉
10、文本中的表情、网址、特殊符号,以减小特征词典大小,减少噪音数据对分类模型的影响。3.2 实验结果由图4、图5可知,分类器在测试集上的测试结果比拟理想,精确率为96.11%,阈值为60%时,精确率为 0.985 2%,召回率为0.966 1%,F1分数为0.975 6%。本文数据集文本质量相对较好,所以训练后的分类器在测试集上的表现比拟好,测试集每条文本对应的测试label打分均相对较高。4 结语本文首先简要介绍了常用文本分类方法,然后阐述了文本分类理论与技术。根据新闻文本特点,在新闻文本预处理过程中,将地点名词参加到常用停用词表中,去除了更多对文本表达无意义的词,分类效果得以改良。通过实验数据
11、综合比照,可以观察到本文提出的FastText算法模型与传统机器学习算法相比,在训练速度、预测速度和准确率上均有明显提升,证明本文模型具有较高的使用价值。参考文献:1段旭磊,张仰森,孙祎卓. 微博文本的句向量表示及相似度计算方法研究J. 计算机工程,2023, 435: 143-148.2范云杰,刘怀亮. 基于维基百科的中文短文本分类研究J. 现代图书情报技术,20233:47-52.3刘红光,马双刚,刘桂锋. 基于降噪自动编码器的中文新闻文本分类方法研究J. 现代图书情报技术, 20236: 12-19.4赵辉,刘怀亮. 一种基于维基百科的中文短文本分类算法J. 图书情报工作,2023,57
12、11: 120-124.5张谦,高章敏,刘嘉勇. 基于Word2vec的微博短文本分类研究J. 信息网络平安, 20231: 57-62.6宋钰婷,徐德华. 基于LDA和SVM 的中文文本分类研究J. 现代计算机专业版,20235: 18-23.7赵刚,徐赞. 基于机器学习的商品评论情感分析模型研究J. 信息平安研究, 2023, 32: 166-170.8金志刚,韩玥,朱琦. 一种结合深度学习和集成学习的情感分析模型J. 哈尔滨工业大学学报,2023, 5011: 32-39.9梁喜涛,顾磊. 中文分词与词性标注研究J. 计算机技术与开展,2023,252:175-180.10徐戈,王厚峰.
13、 自然语言处理中主题模型的开展J. 计算机学报,2023,348:1423-1436.11刘德喜,聂建云,张晶,等. 中文微博情感词提取:N-Gram为特征的分类方法J. 中文信息学报, 2023, 304: 193-205, 212.12万红新,彭云,郑睿颖. 时序化LDA的舆情文本动态主题提取J. 计算机与现代化, 20237: 91-94.13李鹏,于岩,李英乐,等. 基于权重微博链的改良LDA微博主题模型J. 计算机应用研究,2023, 337:2023-2023.14KORDE V,MAHENDER C N. Text classification and classifiers:
14、a surveyJ. International Journal of Artificial Intelligence & Applications IJAIA, 2023,32:86-99.15CARPENTER B. Integrating out multinomial parameters in latent Dirichlet allocation and naive Bayes for collapsed Gibbs samplingR. ALIAS:2023.16GOUDJIL M, KOUDIL M, BEDDA M, et al. A novel active learnin
15、g method using SVM for text classificationJ. International Journal of Automation & Computing, 20231: 1-9.17TONG S,KOLLER D. Support vector machine active learning with applications to text classificationJ. Journal of Machine Learning Research,2001,211:45-66.18BAHASSINE S, MADANI A, KISSI M. An improved Chi-sqaure feature selection for Arabic text classification using decision treeC. International Conference on Intelligent Systems: Theories and Applications,2023: 2378-2536.19SCHAPIRE R E,SINGER Y. Machine learningM. C