收藏 分享(赏)

PKS体系下基于知识图谱的政务问答机器人研究_程序.pdf

上传人:哎呦****中 文档编号:2356846 上传时间:2023-05-08 格式:PDF 页数:5 大小:2.22MB
下载 相关 举报
PKS体系下基于知识图谱的政务问答机器人研究_程序.pdf_第1页
第1页 / 共5页
PKS体系下基于知识图谱的政务问答机器人研究_程序.pdf_第2页
第2页 / 共5页
PKS体系下基于知识图谱的政务问答机器人研究_程序.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、www.ChinaAET.comInnovation and Application of PKS SystemPKS体系创新及应用PKS 体系下基于知识图谱的政务问答机器人研究程序1,谭太龙1,王苗苗2(1.中国软件与技术服务股份有限公司,北京 100081;2.北京市朝阳区住房和城乡建设委员会,北京 100020)摘 要:提出了一种基于国产 PKS 环境上政务知识库问答机器人。该系统基于多源异构数据,利用深度学习模型,以流水线工作方式,由 Schema 设计、知识抽取、知识融合、知识存储、知识更新 5 部分组成,自动完成知识库建立,同时自动对用户问题进行分类,意图识别,利用知识图谱检索、分

2、析计算技术形成答案提供给用户。该机器人系统能够大大提高政务工作人员的工作效率。关键词:模型层;知识图谱;自然语言处理;流水线构建;意图识别中图分类号:TP311 文献标志码:A DOI:10.16157/j.issn.0258-7998.223038中文引用格式:程序,谭太龙,王苗苗.PKS 体系下基于知识图谱的政务问答机器人研究J.电子技术应用,2023,49(4):128-132.英文引用格式:Cheng Xu,Tan Tailong,Wang Miaomiao.Research on government question answering robot based on knowled

3、ge graph in PKS systemJ.Application of Electronic Technique,2023,49(4):128-132.Research on government question answering robot based on knowledge graph in PKS systemCheng Xu1,Tan Tailong1,Wang Miaomiao2(1.China National Software and Service Co.,Ltd.,Beijing 100081,China;2.Beijing Chaoyang District C

4、ommission of Housing and Urban-Rural Development,Beijing 100020,China)Abstract:The paper proposes a question and answer robot for government knowledge based on domestic PKS environment,which uses deep learning model to work in pipeline mode for multi-source heterogeneous data.The system consists of

5、five parts:schema design,knowledge extraction,knowledge fusion,knowledge storage and knowledge update,automatically completes the establishment of knowledge base,automatically classifies user questions,and recognizes intention.Knowledge map retrieval,analysis and computing technology are used to for

6、m answers for users.The robot system can greatly improve the work efficiency of government staff.Key words:schema;knowledge graphs;NLP;pipeline;mention recognition0 引言随着人工智能从计算智能、感知智能发展到了认知智能阶段,认知智能的发展才是 AI 回归技术应用本质的表征,而知识图谱(Knowledge Graph,KG)是认知智能的底层支撑,决定了认知智能起点。知识图谱是用图模型来描述知识和建模关系的大规模语义网络,结点代表实体或

7、者概念,边代表实体概念之间的各种语义关系,也是知识的结构化表示形式1。目前知识图谱技术已经在公安安全、金融风控、司法、教育、政务等领域广泛应用。在政府部门数字化转型加速的当下,越来越多创新应用正成为加快政府职能转变的重要驱动力。以国家政务服务平台网上办、掌上办、一次办、跨省通办等为代表的数字政务服务功能为利企便民发挥了重要作用。智慧政务旨在助力政务决策、优化业务流程,提升利企便民的服务体验,是提升政府监管效能和公共服务能力的关键之举。基于知识图谱技术,将分散在政府各个部门、生产各个领域的相互孤立的数据资源联通共享,从而对政务数据和社会数据进行深度挖掘,通过数据融合分析与管控,最大化发挥数据要素

8、的价值2。问答机器人是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户提出的问题,问答系统广泛应用于搜索引擎、智能设备、智能客服等产品中。在智慧政务业务中,通过政务问答机器人提供的支持,128Innovation and Application of PKS SystemPKS体系创新及应用电子技术应用 2023年 第49卷 第4期能够 24 小时响应群众、企业关于日常事务办理、民生政策、企业经营法规等咨询,大大提升群众信息获取的便利性,并提高政府工作人员的工作效率。另一方面,近年来我国 IT 产业链核心关键技术受制于人的问题凸显,网络信息安全受到威胁。基于国产软硬件环境,实现云

9、计算、大数据、人工智能的成熟应用,也是技术发展的重要方向之一。本文研究了一种可运行在国产 PKS(飞腾芯片 Phytium+麒麟操作系统 Kylin+安全 Security)环境下,针对无监督数据的端到端检索式问答机器人的构建方案。该系统无需标注数据,即可实现检索能力的快速形成,并且提供训练、预测、最近邻搜索等一站式能力。1 政务问答机器人流程和系统架构政务问答系统是面向政企行业基于知识图谱的认知智能产品。系统主要业务流程包括四方面内容,如图1 所示。(1)自然语言语义理解:主要是把用户说的话转成机器能理解执行的指令或查询,做到“听得懂”3。(2)对话管理:维护对话状态和目标,决定系统应该怎么

10、说、怎么问下一句话,也就是生成一个应答的意图4。(3)知识管理,基于政务领域的非结构或结构化文件自动采集、构建而成的政务领域知识图谱,为问答系统提供检索、计算、分析能力。(4)自然语言生成:根据系统应答的意图,用自然语言把这个应答意图表达出来。基于以上的流程,政务问答系统主要包括前端应用、API 服务中心、知识库、模型库、NLP 管理、知识自动化引擎等几大模块,系统架构如图 2 所示。整个系统的运行在国产 PKS 环境(CPU/GPU),操作系统是 Kylin,数据库是国产达梦和梦图数据库。从图 2 架构图上,分析得出,核心重点难点在于政务领域知识图谱自动化构建、NLP 管理的自然语言理解(N

11、LU)以及对话管理,下面重点介绍。1.1 基于知识图谱的知识库自动化构建政务领域的对话系统,如何构建知识图谱是非常重要的。结合政务领域业务数据以及业务场景,提出一套完整的知识图谱构建流水线流程,如图 3 所示。其中,实体定义、属性定义、关系定义,需要一定领域背景知识才能更好地进行图谱设计。1.1.1 知识图谱 Schema 设计Schema 相当于领域内的数据模型,属于知识图谱的模式层,其实就是用来描述本体层(Ontology)。Schema设计相当于为其建立本体,包括概念、概念层次、属性、属性值类型、关系、关系定义域(Domain)概念集以及关系值域(Range)概念集。在政务领域的应用主要

12、包括了政策分析、税法分图 1问答流程图 2系统架构图129Innovation and Application of PKS SystemPKS体系创新及应用www.ChinaAET.com析、人大应用等子领域。本文以政策分析领域为例展开讨论设计过程。(1)根据业务应用场景设计出政策图谱 Schema 设计,如图 4 所示。(2)收集数据分析数据,根据上面的本体概念属性确定是否在该领域存在并且有重要术语包含。(3)Schema 优化与验证,基于业务实际不断优化迭代的过程,直到 Schema 完全满足场景需求。1.1.2 知识抽取知识抽取重点在于从各种多源异构数据源中抽取实体,实体包含的属性以及

13、实体之间的关系从而形成结构化知识5。(1)根据业务自动收集整理数据文件,分析数据,确定分析处理的策略。(2)对于政策文件我们先采取的是规则抽取,再采取深度学习模式来抽取6。(3)命 名 实 体 识 别(NER)采 用“Bert+BiLSTM+CRF”方法7,另外加上一些规则映射,可以提高覆盖度8。(4)属性映射步骤,转换成文本相似度问题,采用Bert 作二分类训练模型。在政务领域,根据 Schema 定义的关系,在抽取完实体以后,根据关系和问题的语义相似度(Bert+BiLSTM+Fc+Cosine)进行关系抽取9。1.1.3 知识融合通过发现碎片化及异构知识之间的关联,获得完整的知识描述和知

14、识之间的关联关系,实现知识的互联、互补和融合。在本系统中使用了 Bert+BiLSTM+FC+Cosine 模型进行实体消歧和融合。1.1.4 知识存储、更新政务领域知识图谱存储以图的形式来存储。目前采用国产达梦数据库(MDB)来存储。1.2 意图分析政策领域知识图谱问答的一般流程如下10:(1)问答类型判定主要实现日常问答还是政务领域专业性知识问答的区分;该分类模型的任务是完成多意图分类,判断用户意图类型11,这是第一次意图分类(本文中一共进行了两层意图分类),采用了逻辑回归+梯度提升决策树(LR+GBDT)多模型融合的方法。(2)完成第二次意图分类在智能问答机器人应用中,通过第二次意图分类

15、,实现具体的政策类型意图的识别,包括政策类型、发布时间、主题、摘要、关键词、发布机构、行业、关联政策、地理位置、政策文件等共计 11 种政策意图,这里采用的是Bert+TextCNN 进行多意图分类12。(3)通过 NER 模型对政策领域的实体进行识别及提取命 名 实 体 识 别 通 常 采 用 是 Bert+BiLSTM+CRF 模型,从用户输入中提取出知识图谱中包含的实体的名称,前面提到过,在本项目中一共 6 种。但是在复杂应用场景中,实体数量数以万计,而普通的匹配方式由于每次匹配失败都需要回溯,其耗时较久,而 AhoCorasick automation(简称 AC 自动机)的时间复杂度

16、理想状态下为 O(n),n 为用户输入字符串的长度。所以一种技术路线就是,使用 AC 自动机提取出包含知识库中实体的所有子串(或者最长子串)+NER 实体识别的方式对用户输入中的实体进行提取,再综合两个结果召回评分最高的 Top n 实体进行后续的链接操作。本文采用的就是 AC 自动机提取所有子串+NER 实体识别的方式。(4)槽位填充一般出现在任务型机器人中,用来从用户侧收集信息。先判断意图中有哪些槽位,然后在用户输入中进行实体识别,抽取该槽位的槽值。槽位填充本质属于一个序列标注任务13。1.3 对话管理对话管理主要功能是实现闲聊类的单论对话和基于知识图谱的多轮问答会话管理。主要处理对话的上图 3知识图谱构建流程图 4政策模 Schema130Innovation and Application of PKS SystemPKS体系创新及应用电子技术应用 2023年 第49卷 第4期下文信息,基于对话历史,为槽位列表中的每一个槽位找到一个槽位值14。对于政务领域来说,用户的主要目的不是日常性问答,而是要获取相应政务信息,对话的进程有一定的限定性和指向性,通过遍历槽位列表和实体识别的结

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2