1、2023年6期实验报告科技创新与应用Technology Innovation and ApplicationDDCAMS:NLP 赋能智慧咨询业务孙甜,耿永建,胡程忆,霍明,杨志强,黄昭,孟龙波(卓望信息技术(北京)有限公司,北京 100060)随着电信运营商数字化转型的推进,信息科技技术已经融入社会民生经济的各方面,各大公司也已经利用自然语言处理技术对各项业务进行赋能。比如陈庆良探讨了自然语言处理在电信客户名称匹配的应用场景,采用 Albert small 算法实现了客户名称的精确匹配模型,李奥等研究智能音箱在电信运营商业务中的应用,使用 NLP 理解用户意图等。中国移动通讯集团作为推动数
2、字经济发展的中坚力量,承担着更大的责任和使命,致力于为企业级客户提供专业的数智化决策辅助系统。面对海量新闻中蕴含的庞大且复杂的信息,从中快速定位到所需内容,本文提出了 DDCAMS,通过新闻去重模型、新闻去噪模型、新闻分类模型和新闻摘要模型 4 层算法自动处理和提炼关键信息,方便分析师洞察最新前沿技术,撰写分析性报告,提供智能化辅助决策支持。本文的主要贡献可以概括为以下几个方面。1)提出了 DDCAMS 系统,通过 4 层模型的处理,代替纯人工处理新闻的方式,实现快速有效地对海量新闻进行提取和分类,方便运营人员分析和使用,有助于分析师把握前沿技术动态,洞察行业商机。2)在新闻去重模型当中,使用
3、 SimHASH 算法,将百万量级的新闻处理时间降低到对数级别,实现了一个数量级新闻数量的下降,大幅缩短后续模型处理新闻的时间,对工程和业务来说非常友好。3)在新闻分类和摘要模型当中,采用了预训练模型对文本进行理解,提高了结果的准确率,并使用基于mlflow 框架进行模型部署,采取小批量多次迭代优化的方式,对模型实现快速迭代和更新。摘要:新闻网站上的海量新闻具有行业商机、信息洞察等重要研究价值,利用自然语言处理技术进行自动化的信息萃取,替代纯人工筛选信息,方便完成生产报告并推送给领导或关键人。该文以中国移动智慧咨询新闻萃取业务场景为依托,提出 DDCAMS,系统介绍从海量新闻当中筛选和处理信息
4、的技术架构及构建流程,包括文本去重、文本去噪、文本分类和文本摘要 4 个模型,目前已完成初代版本的研发,性能达到预期。打造中国移动 AI 引领业务变革的应用实践案例,有效提高数智化管理水平,助力公司建设成为“一流的数智化服务提供商”。关键词:自然语言处理;文本去重;文本分类;文本摘要;智慧运营中图分类号:TP391文献标志码:A文章编号:2095-2945(2023)06-0068-05Abstract:The massive news on the Internet has important research value such as industry business opportun
5、ities andinformation insight.The use of natural language processing technology for automatic information extraction can replace pure manualscreening of information,and it is convenient to complete production reports and push them to leaders or key people.Based onthe business scenario of China Mobile
6、 Smart Consulting News Extraction,this paper proposes DDCAMS,which systematicallyintroduces the technical architecture and construction process for filtering and processing information from massive news,includingtext deduplication,text denoising,text classification,and text summarization 4 models,th
7、e research and development of the first-generation version has been completed,and the performance has reached expectations,so as to create an application practice caseof China Mobiles AI leading business transformation,effectively improve the level of digital intelligence management,and help thecomp
8、any to become a first-class digital and intelligent service provider.Keywords:natural language processing;text deduplication;text classification;text summarization;smart operation第一作者简介:孙甜(1995-),女,硕士,工程师。研究方向为深度学习,自然语言处理,机器翻译,知识图谱。DOI:10.19981/j.CN23-1581/G3.2023.06.01568-实验报告科技创新与应用Technology Inno
9、vation and Application2023年6期图1DDCAMS整体流程框架图1智慧咨询业务介绍智慧咨询项目基于网络爬虫,按日、周、月方式对网络情报人工收集行业动态新闻、政策法规、战略/业务预警和商机等信息,以日报、周报新闻聚合的方式为客户提供关于政府政策、技术发展趋势、运营商动向、重点标杆企业的发展信息和合作动态等内容。之前业务人员的操作流程是利用爬虫从网络上下载新闻,然后人工筛选出所需新闻,并逐条阅读为文章分类,再由运营人员提取文章里的摘要内容。为替代原有纯人工筛选信息、排版的生产模式,实现自动化过滤、打标和摘要等需求,形成线上智能辅助决策产品闭环,自动生成信息洞察报告。平台由“
10、信息获取信息治理数据分析决策辅助”几大核心模块组成,AI主要负责自动处理数据量极大,使用简单逻辑无法实现的信息萃取相关功能,包括以下 4 类。1)新闻去重模型(news deduplication model):重复内容自动识别。通过 AI 去重模型自动过滤大量重复或部分新闻语义内容重复的新闻,为内容打上完全匹配或部分匹配的重复标签。2)新闻去噪模型(news denoise model):非新闻类内容自动过滤。获取的新闻除了包含新闻标题、新闻正文等有效信息,也常常包括导航区、超链接及图片控件广告等噪声信息。去噪模型主要用于去除和新闻内容完全无关的内容,自动将所需新闻入库。3)新闻分类模型(n
11、ews classification model):通信行业 5 类标签自动打标。将新闻作为原始数据输入模型,判断每一条新闻属于政策环境、技术应用、数字运营、垂直行业和公司 5 大类中的某几小类别。4)新闻摘要模型(news abstract model):全文语义分析,重点段落自动摘要。通过百度快照自动摘要数据作为基础模型训练依据,完成摘要模型的学习,传入新闻生成最匹配原文标题的全文摘要内容,用以替代人工编辑提取新闻核心观点段落的工作。2DDCAMS整体模型图2.1整体流程设计了新闻去重、新闻去噪、新闻分类和新闻摘要4 层模型,依次运行在服务器上。通过爬虫系统获得大量含噪声的数据,首先通过去
12、重模型,去掉重复新闻及语义相似度较高的新闻,减少后期模型样本量。之后新闻经过去噪模型过滤掉与主题不相符的非新闻噪声,接下来分类模型自动为每条新闻打上相应的 5 类标签,并且摘要模型提炼新闻的主旨内容,并返回给前端业务分析师,通过 4 层算法,减少人工处理新闻的数量,提高效率,整体流程如图 1 所示。爬虫系统每天抓取的新闻数据大约有 30 万条,通过该系统中的去重模型和去噪模型,可以过滤 98.5%对业务无明显意义的新闻信息,并通过分类模型,摘要模型完成信息的分类与萃取,极大地提高了工作效率。通过该系统,在人工不变的情况下,处理新闻量增加了30 倍,处理时间减少了 40%。2.2模型部署新闻去噪
13、、分类和摘要模型采用 mlflow 框架来管理不同版本的模型,通过定义标准的工程脚手架进行模型的快速训练和保存,然后通过 track 服务提供模型的实验记录、模型的注册、版本管理和上线发布,最后通过 HTTP 协议暴露接口,完成模型的部署和应用。提供标准 API 接口给后端、测试等相关人员,完成全流程的开发,后期模型也可以根据新数据和业务效果不断进行重新训练并更新。去重模型采用 fastAPI 来创建用于获取预测结果爬虫系统newsnewsnewsnewsnews新闻去重模型(去掉重复或近似的新闻)新闻去噪模型(过滤出相关新闻)新闻分类模型(划分 5 个类别)新闻摘要模型(抽取新闻主旨)按内容
14、横糊搜索上海新闻日报发布时间:今天 24 小时 自定义来源:徐汇政府官网 浦东政府官网 更多+AI 去重:不去重 完全匹配 部分匹配板块选择:政策AI 去噪(试用):全量信息 去噪声报告预览素材列表编辑采集时间:今天 24 小时删除修改标题刷新刷新刷新沪闵高架桥荫面貌新 徐汇市政智慧养.徐汇政府官网政策环境数字运营垂直行业5G中国移动阅读数:3448 采集时间:2022-02-091 月 21 日上午,位于沪闵高架桥下的徐汇市政智慧养护基地初步建成并启用。这是上海市道路运输行业优化提升桥荫桥孔空间、推进道路养护数字化转型的又一成果。据了解,这个市政智慧养护基地以“城市珊瑚礁”为理念,不仅汇聚了
15、各类抢修物资、养护设备,也为智慧巡检人员提供了办公场所,还为养护班组“传帮带”道路铺装与修复技能学习提供良好的实训条件。在狭长的基地空间内,应急物资仓库、停车场、实训基地、智能巡视基地等各模块功能,用颜色划分区域。在开放的展廊中,图片、文字、实体模型、历史物件等元素翔实记录了上海一百多年来城市路网和各种路面技术的发展变化。展示了道路的历史文化内涵。来源69-2023年6期实验报告科技创新与应用Technology Innovation and Application的 REST 服务,在代码当中声明请求参数和请求体等变量,使用 uvicorn ASGI 服务器,由 swagger UI 自动生
16、成交互式的用户界面 API 文档。3新闻去重模型3.1实验设计新闻萃取项目首先经过的是新闻去重模型,目的就是将大量重复相似的新闻过滤掉,本质上属于文本间相似度的计算。文本相似度的计算,可以使用向量空间模型(VSM),即先对文本分词提取特征,根据特征建立文本向量,把文本之间相似度的计算转化为特征向量距离的计算,如欧式距离、余弦夹角等,对于小量数据处理是可以的,但是面对日增爬取很多的海量新闻来说,这样做的复杂度会很高,所以项目的难点在于如何将海量新闻计算的时间复杂度由 O(n2)下降到 O(n),这对实际生产非常重要。3.2实验原理SimHash 算法是 GoogleMoses Charikear 于 2007年发表的论文中提出的,专门用来解决亿万级别的网页去重任务,其主要思想是降维,将高维的特征向量映射成低维的特征向量,再通过比较 2 个特征向量的汉明距离来确定文章之间的相似性,可以实现近线性的近似搜索方案。SimHash 算法总共分为 5 个流程:分词。对待处理文档进行中文分词,得到有效特征和权重;hash。对获取的词进行普通哈希操作,计算 hash 值,得到一个长度为 n 位的二进制