收藏 分享(赏)

基于文本挖掘的新兴作战领域学术论文分析方法研究_刘姝婷.pdf

上传人:哎呦****中 文档编号:2379195 上传时间:2023-05-14 格式:PDF 页数:7 大小:1.65MB
下载 相关 举报
基于文本挖掘的新兴作战领域学术论文分析方法研究_刘姝婷.pdf_第1页
第1页 / 共7页
基于文本挖掘的新兴作战领域学术论文分析方法研究_刘姝婷.pdf_第2页
第2页 / 共7页
基于文本挖掘的新兴作战领域学术论文分析方法研究_刘姝婷.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering2512016,11(01):93-98.5 周红芳,王鹏.DBSCAN 算法中参数自适应确定方法的研究J.西安理工大学学报,2012,28(03):289-292.6 Lu X,Wang Y,Yuan J,et al.A Parallel Adaptive DBSCAN Algorithm Based on k-Dimensional Tree PartitionC/2020 2nd International Conference

2、on Machine Learning,Big Data and Business Intelligence(MLBDBI).IEEE,2020:249-256.7 Wang Z,Ye Z,Du Y,et al.AMD-DBSCAN:An Adaptive Multi-density DBSCAN for datasets of extremely variable densityJ.arXiv preprint arXiv:2210.08162,2022.8 马立平.统计数据标准化无量纲化方法现代统计分析方法的学与用(三)J.北京统计,2000(03):34-35.9 张建方,王秀祥.直方图

3、理论与最优直方图制作J.应用概率统计,2009,25(02):201-214.10 Gionis A,Mannila H,Tsaparas P,Clustering aggregation.ACM Transactions on Knowledge Discovery from Data(TKDD),2007.1(1):1-30.11 Veenman C J,Reinders M J.T,Backer E,A maximum variance cluster algorithmJ.IEEE Trans.Pattern Analysis and Machine Intelligence,2002

4、.24(9):1273-1280.12 Zahn C T.Graph-theoretical methods for detecting and describing gestalt clustersJ.IEEE Transactions on Computers,1971.100(1):68-86.13 Scikit-learn:Machine Learning in Python,Pedregosa et al.,JMLR 12,pp.2825-2830,2011.作者简介苏桂娜(1998-),女,广东省揭阳市人。硕士学位,暨南大学。研究方向为大数据统计方法及应用。近年来,美军加快颠覆性技

5、术军事化1应用,在许多新兴作战领域2均取得了重要突破。如何建设拓展新兴作战领域,掌握颠覆性军事技术核心,成为我军未来作战制胜的关键。从世界范围内军事实践来看,新型作战力量主要包括太空作战、网络空间作战、无人作战、智能作战力量,以及运用高超声速飞行器、动能武器、定向能等新型武器装备的作战力量,引领着新兴作战领域3。战争实践也反复表明,一旦某一方率先涉足新领域,就能引发双方战斗力的代差,从而快速打破战略博弈和攻防对抗平衡。这种非对称性,使其对传统作战领域构成了终极威胁,新兴作战领域技术成为碾压传统作战领域的新锐。当今,新兴作战领域学术论文发表量与日俱增,仅依靠人工读取和处理这些信息资源,不仅耗时费

6、力,而且难以全面获取有价值信息。如何从海量论文数据中高效地发现不同领域研究的热点和趋势,已成为学术研究中关注的一个重点。文本挖掘技术主要用于处理非结构化数据,能够挖掘文本中内在联系和发展趋势,提取有价值知识。在各个领域中,都有学者利用文本挖掘技术4对学术论文进行分析总结、分类和聚类等。例如,蒋基于文本挖掘的新兴作战领域学术论文分析方法研究刘姝婷程恺*邹世辰薛禧(陆军工程大学 指挥控制工程学院 江苏省南京市 210007)摘要:本文利用文本挖掘技术分析 arXiv 网站公开论文数据,通过描述性统计分析方法,从比例、趋势和热点三个方面分析了新兴作战领域的发展现状。采用 TF-IDF 提取论文特征,

7、基于随机森林构建了新兴作战领域论文的多标签分类模型,能够实现论文的自动快速分类,弥补时间精力有限、读取深度不足等人工分析论文的缺陷。所提方法不仅能够为科研人员跟踪研究前沿技术指明方向,同时为创新颠覆性军事技术提供科学高效的方向建议。关键词:新兴作战领域;文本挖掘;TF-IDF;多标签分类数据库系统设计Database System Design电子技术与软件工程Electronic Technology&Software Engineering252润莲5利用多种文本挖掘与可视化技术,对建筑节能领域和物流领域进行了研究分析;王善高等四人6利用Python 爬虫等统计工具对农业现代化研究的文献计

8、量进行统计分析;郑彦宁等人7采用文献统计和关键词共现等方法对国内外基因编辑领域论文进行研究分析。可以发现,现有论文分析方法主要以人工总结和计量式论文分析方法为主,在分析的深度和广度上存在明显的不足和缺陷。此外,与传统作战领域相比,人们对新兴作战领域论文的分析挖掘较为缺乏,所以,亟需对该领域的发展趋势和关键技术进行深入分析,从而为我军相关部门制定新兴作战领域发展战略规划提供依据。因此,本文采用文本挖掘技术,综合利用描述性统计方法8和可视化技术9,对新兴作战领域相关论文进行深入分析,能够快速识别该领域的研究特点和趋势,弥补时间精力有限,读取深度不足等人工分析论文的缺陷。所提方法不仅能够为科研人员跟

9、踪研究前沿技术指明方向,同时为创新颠覆性军事技术提供科学高效的手段方法。1 数据与总体研究思路1.1 数据简介arXiv 网站是一个预印本平台10,为全世界的作者和研究人员免费开放其科学研究知识库,实时性地涵盖多领域论文,在学术交流和领域研究发挥重要作用,目前收录文献 214 万余篇。本文通过 arXiv 网站获取以json 形式保存的论文元数据(meta data),数据集的示例如下:id:“0704.0001”submitter:“Pavel Nadolsky”authors:“C.Balazs,E.L.Berger,P.M.Nadolsky,C.-P.Yuan”title:“Calcul

10、ation of prompt diphoton production cross sections at Tevatron and LHC energie”comments:“37 pages,15 figures;published version”journal-ref:“Phys.Rev.D76:013009,2007”doi:“10.1103/PhysRevD.76.013009”report-no:“ANL-HEP-PR-07-12”categories:“hep-ph”license:NULL abstract:“A fully differential calculation

11、in perturbative quantum chromodynamics is presented for the production”versions:version:v1 created:Mon,2 Apr 2007 19:18:42 GMT authors_parsed:0:Balzs 1:C.2:id 表示论文的唯一标识号,submitter 表示论文提交作者,authors 表示论文作者,title 表示论文标题,comments 表示论文页数和图表等其他信息,journal-ref 表示论文发表的期刊的信息,doi 表示数字对象标识符,report-no 表示报告编号,cat

12、egories 表示论文在 arXiv 系统的所属类别或标签,license 表示文章的许可证,abstract 表示论文摘要,versions 表示论文版本,authors_parsed 表示作者的信息。针对本文的分析需求,主要选取了 categories、title、abstract 等字段进行处理。1.2 总体研究思路本文总体研究思路分为数据准备、统计分析、多标签论文分类三个阶段,如图 1 所示。首先,在数据准备阶段,根据从 arXiv 获取的数据集中,利用关键词过滤出军事领域的相关论文,在建立新兴作战领域分类的基础上,构建 arXiv 论文原始分类与新兴作战领域分类之间的映射关系,从而

13、得到映射后具有新兴作战领域类别标签的数据集。其次,在统计分析阶段,基于映射后的数据集,采用比例分析、趋势分析和热点分析等描述性统计分析方法,分析新兴作战领域论文的发展趋势和研究热点。而后,在多标签论文分类阶段,在分析多标签分类问题的基础上,将论文的题目和摘要结合作为分类特征进行向量化表示,最后基于随机森林算法构建新兴作战领域论文的分类模型,并对分类模型的性能进行评估分析。2 数据准备2.1 数据来源本文选用 arXiv 从 2007 年到 2022 年 8 月的数据集基金项目:国家自然科学基金(61806221)。数据库系统设计Database System Design电子技术与软件工程El

14、ectronic Technology&Software Engineering253作为分析研究的源数据,在源数据的基础上通过关键词与摘要的匹配将军事领域论文过滤出来,总计 1197 篇,作为本文研究的数据集。arXiv 论 文 的 分 类 体 系 主 要 分 为 计 算 机 科 学(Computer Science)、经济学(Economic)、电器工程与系统科学(Electrical Engineering and Systems Science)、数学(Mathematics)、物理学(Physics)、定量生物学(Quantitative Biology)、计量金融学(Quantit

15、ative Finance)和统计学(Statistics)共八大类,每一大类又分为多个小类。以计算机科学(Computer Science)为例,其分类体系如表 1 所示。通过表 1 可知,Computer Science 又分为人工智能(AI)、硬件架构(AR)和计算复杂性(CC)等等,其中人工智能涵盖除了有单独领域的视觉、机器人、机器学习、多代理系统,计算和语言等的所有人工智能类别,硬件架构大致包括 ACM 学科课程 C.0、C.1 和 C.5的内容。2.2 新兴作战领域分类新兴作战领域是相对于传统领域而言的,随着信息、网络、生物研究、太空探索11等技术不断深入发展,作战领域也进入了新的

16、时代变革。通过对权威学术资料的调查研究12,结合传统领域13将新兴作战领域分为人工智能(AI)、网络(Cyber)、生物(Biology)、太空(Space)、极地(Polarregion)和深海(Deepsea)14等六个类别。(下面标红的是新加入的)2.2.1 人工智能作战领域人工智能有利于提升联合作战体系效能,该领域是研究、开发用于模拟、延伸和扩展人的智能在作战中的理论、方法、技术及应用系统的一门新的技术科学领域15,主要涵盖计算机学,心理学和哲学等知识。2.2.2 网络作战领域网络作战领域将成为世界各国军力角逐的新空间,在信息化战争中,谁掌握了“制网权”,谁就拿到了打开成功之门的钥匙。网络领域安全包括网络作战系统的硬件和软件以及系统中的作战数据安全,网络作战的攻击与防护主要涵盖计算机、通信、数学、信息安全等知识。2.2.3 生物作战领域生物作战领域主要以生物及其心理状态为作战研究对象,远远超越了生物类技术或生物化技术领域,是以生命空间的控制权为争夺对象的新兴作战领域,主要涵盖分子生物、细胞行为、基因技术、生态系统、心理学表 1:arXiv 论文 Computer Science

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2