1、科技管理研究Science and Technology Management Research2023 No.22023 年第 2 期doi:10.3969/j.issn.1000-7695.2023.2.020中文科技政策文本分类:增强的 TextCNN 视角李牧南1,2,王 良1,赖华鹏1(1.华南理工大学工商管理学院,广东广州510641;2.广东省创新方法与决策管理系统重点实验室,广东广州510641)摘要:近年尽管针对中文本文分类的研究成果不少,但基于深度学习对中文政策等长文本进行自动分类的研究还不多见。为此,借鉴和拓展传统的数据增强方法,提出集成新时代人民日报分词语料库(NEPD
2、)、简单数据增强(EDA)算法、word2vec 和文本卷积神经网络(TextCNN)的 NEWT 新型计算框架;实证部分,基于中国地方政府发布的科技政策文本进行算法校验。实验结果显示,在取词长度分别为 500、750 和 1 000 词的情况下,应用 NEWT 算法对中文科技政策文本进行分类的效果优于 RCNN、Bi-LSTM 和 CapsNet 等传统深度学习模型,F1值的平均提升比例超过 13%;同时,NEWT 在较短取词长度下能够实现全文输入的近似效果,可以部分改善传统深度学习模型在中文长文本自动分类任务中的计算效率。关键词:NEWT;深度学习;数据增强;卷积神经网络;政策文本分类;中
3、文长文本中图分类号:TP391.1;D035-01;G301 文献标志码:A 文章编号:1000-7695(2023)2-0160-07Text Classification of Chinese S&T Policies:Enhanced TextCNN PerspectiveLi Munan1,2,Wang Liang1,Lai Huapeng1(1.School of Business Administration,South China University of Technology,Guangzhou 510641,China;2.Guangdong Key Laboratory
4、on Innovation Methods&Decision Management Systems,Guangzhou 510641,China)Abstract:In recent years,although there are many research outputs on the classification of Chinese text,there are still very few publications involving automatic classification of Chinese policy texts based on deep learning.Bas
5、ed on the current studies,a new computing framework-NEWT is proposed,which integrates NEPD(New Era Peoples Daily Segmented Corpus),EDA(Easy Data Augmentation),Word2Vec and TextCNN.In the empirical analysis,the text of science and technology policy of Chinese local government is extracted,and the cla
6、ssification experiment is conducted.The experimental results show that the NEWT algorithm is better than the traditional deep learning models such as RCNN,Bi-LSTM and CapsNet when the length of words is 500,750 and 1 000,respectively,the average increase ratio of F1 value is more than 13%.At the sam
7、e time,NEWT can achieve the approximate effect of full-text input under a relatively short word length,which can partially improve the computational efficiency of the traditional deep learning model in the task of automatic classification of Chinese long text.Key words:NEWT;deep learning;data augmen
8、tation;convolutional neural networks;policy-text classification;long-length text in Chinese收稿日期:2022-05-27,修回日期:2022-07-19基金项目:国家自然科学基金面上项目“基于多源数据融合与机器学习的新兴技术风险挖掘研究”(72074081);广东省自然科学基金面上项目“关键共性技术识别及其演化趋势研究:多源数据融合与知识图谱视角”(2020A151501438)1研究背景深度学习的理论和计算框架被提出以来,随着高性能计算硬件技术发展,越来越多普通实验室、中小型科研机构和团队开始参与深度
9、学习理论和应用的研究,相关学术和应用成果也开始涌现,过去5 年出现了近乎指数级增长。与此同时,中国也逐渐成为深度学习相关理论、模型和算法应用研究最为活跃的地区之一。从图 1 可以看出,20192021深度学习领域有关文献数量已经超过了过去 10 年文献总数的 74.6%,而仅仅 2021 年所发表论文数量占比就达到了 31.3%。从图 2 可以看出,中国研究者在深度学习领域非常活跃,发表论文总数甚至超过了美国和英国的总和,表明中国在深度学习相关领域的科研投入相对较大,参与的研究机构和人员较多。李牧南等:中文科技政策文本分类:增强的 TextCNN 视角161图 1深度学习领域文献数量的年度分布
10、趋势注:数据整理自 Web of Science 的核心集,检索关键词为“deep learning”。下同。图 220122021 年深度学习相关文献数量的国家分布中国互联网络信息中心(CNNIC)发布的第 48次中国互联网络发展状况统计报告显示,2021年中国网民规模达 10.11 亿人,较 2020 年 12 月增长 2 175 万人,互联网普及率达 71.6%,形成了全球最为庞大和生机勃勃的数字社会1。中国早已成为全球最大规模的数字化服务应用地区,这也意味着各类中文文本数据呈现高速增长态势。如何针对这些不断增长的中文数据进行有效处理,及时发现蕴藏的各类知识,已经成为各类商务领域分析的重
11、点,也成为新时代新形势下商务模式和治理模式创新的重要手段。作为深度学习理论和计算框架/体系核心模型之一的卷积神经网络(convolutional neural networks,CNN)自从被 Lawrence 等2提出以来,在图像识别、机器视觉、信号过滤和自然语言处理等多个不同领域得到广泛应用,如魏明珠等3、Zhang 等4、Rawat 等5和刘颖等6学者的研究。而且如 Zhang等4、刘颖等6和 Voulodimos 等7的研究均表明,深度学习与传统机器学习算法的一个显著区别在于非监督的特征提取,可以通过大样本的训练和学习完成特征提取工作,无须大量人工干预,在某种意义上真正实现了机器(计算
12、机)的自我训练(self-training)和自学习(self-learning)。因此,深度学习尽管依然是机器学习的一个分支,但其总体的计算思想可以认为是一个传统机器学习领域的阶段性标志,具有显著的里程碑意义。Chen 等8、杨锐等9、Colin-Ruiz 等10、杨光等11众多研究均表明,尽管 CNN 在图像识别和机器视觉等领域展现了较强的竞争优势,但是应用到自然语言处理领域,包括语义建模、情感分析和文本分类等,却是近 5 年才逐步发展的一个研究分支。2014 年,纽约大学的 Kim12学者在 arXiv 预印本网站发表了一篇应用 CNN 进行语句分类(sentence classific
13、ation)的论文,引起广泛关注;该方法此后被脸书公司在 2019 年集成到 PyTorch 工具包中,形成目前较为知名的文本卷积神经网络(TextCNN)。近两年来,国内外不少科研机构和团队也开始基于TextCNN 模型从事自然语言处理相关研究。随着这些长文本(long text)的数据量越来越大,如何对这些中文长文本进一步处理和挖掘,已经成为信息和档案管理以及基于大数据的公共治理体系建设的关键问题和挑战之一。数据增强(data augmentation)是一种针对小样本学习问题而提出的训练样本强化方法,目前在图像识别、语音修复和计算机视觉等多媒体领域得到了一定程度应用,如 He 等13、蒋
14、芸等14、Salamon 等15的研究,但应用在自然语言处理和文本分类,尤其是中文自然语言处理方面依然存在较大的探索和拓展空间。因此,本研究从文本增强的角度出发,考虑进一步提升传统卷积神经网络模型在中文长文本分类中的实际效果。2研究设计卷积神经网络提出之后,之所以很快就被应用到图像识别和分类领域,主要是卷积神经网络的多通道(channels)思想,能够将图像最基础的红色、绿色和蓝色(以下简称“RGB”)3 种颜色组合作为一种典型的三通道卷积神经网络,而基于 RGB 的颜色标准也是目前工业界最广泛应用的颜色系统标准。对于任意一幅数字化图片而言,都是由一定像素(pixel)构成,而这些像素点实际上
15、可以解构为162李牧南等:中文科技政策文本分类:增强的 TextCNN 视角RGB三维空间的一个点,所谓像素也往往被称为“像素点”(pixel point)。卷积神经网络的思想认为,既然任何一幅图片其实都是点的集合(point set),那么理论上通过组合这些像素点就能提取图片特征,从而可以对图片进行分类和识别。基于卷积神经网络处理图片数据的思路,文本也可以理解为由不同词语(字)组成,如果能够把这些词(字)映射到一个向量空间,就可以像处理图片识别的原理一样实现文本语义相似度的匹配和分类,这也是卷积神经网络逐渐进入自然语言处理领域的重要理论基础。但是,词向量空间依赖于基础语料库,而中文作为一种相
16、对复杂的表意语言体系,通过机器来进行自然语言处理就比其他表音语言体系要困难得多16,由此造成了针对中文长文本的分类、聚类、语义模式匹配和文本挖掘迄今依然面临较大挑战17。因此,近年来部分研究开始借鉴图像处理领域的数据增强方法改进文本分类效果,但目前国内外研究基本集中在以电影评论、商品评论和推特等短文本的处理领域,如 Chen 等18、Hao 等19、Symeonidis 等20的研究,针对长文本尤其是中文长文本的自动分类研究还不多见。借鉴黄水清等21、Wei 等22、谷莹等23、明建华等24对当前有关数据增强、短文本分类和深度学习相关的理论和应用研究基础,本研究提出一种综合新时代人民日报分词语料库(NEPD)、简单数据增强(easy data augmentation,EDA)、词语向量化(word2vec)和 TextCNN 的中文长文本分类框架(以下简称“NEWT”)。具体计算流程如图 3 所示。图 3NEWT 的计算执行流程在图 3 中,文本增强的 EDA 方法包括同义词替换、随机交换、随机插入和随机删除,而中文自然语义处理的语料库为目前较为主流的 NEPD。通过文本增强之后,原