1、数据库与大数据技术本栏目责任编辑:王力Computer Knowledge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)大数据技术在机构编制管理中的应用研究赵茁(天津师范大学,天津 300380)摘要:该文主要研究如何利用大数据技术促进机构编制管理水平提升,研究主要分为大数据应用技术架构和大数据应用场景两个方面。大数据应用架构主要包括数据采集、数据治理、数据分析和数据应用四个方面。数据采集研究利用系统生成、系统对接、网页抓取和传感器等技术进行采集;数据治理研究构建七层治理体系;数据分析研究各类聚类、关联分析等大数据分析方法的
2、利用;数据应用研究如何利用平台提供数据服务。大数据应用场景主要研究大数据技术在开展精准化管理、进行机构职能动态分析和统筹和优化编制资源中的应用。关键词:大数据;机构编制;应用场景中图分类号:TP391文献标识码:A文章编号:1009-3044(2022)35-0067-03开放科学(资源服务)标识码(OSID):1概述近年来,大数据技术发展迅猛,对人民群众的生活、生产等各个方面均产生了深远的影响,在机构编制政务领域,大数据技术可以有效促进机构编制管理水平提升,有利于服务经济社会发展,实现机构编制管理的科学化、精细化、规范化。在大数据背景下,用户对于编办提供数据服务的需求也在日益提高,主要包括三
3、个方面:第一,各地市编办、各类企业和公民等用户都希望能够提供更加个性化、多样化的高质量服务;第二,在数据共享和交换中要更加注重安全问题,能有效保障国家和社会信息安全、保障个人隐私;第三,提供的数据服务应尽量全面、综合、准确、规范、稳定和高效1。基于此,本文主要研究大数据在机构编制工作中的架构及应用场景,进而为推动互联网与机构编制工作的深度融合,提升机构编制管理的水平提供借鉴。2大数据应用架构研究大数据分析处理可以概括分为数据采集、数据治理、数据分析和数据应用四个层次。数据采集,主要指通过一些采集技术从外界海量数据当中获取有用的数据;数据治理指解决数据的不一致、数据重复、无效数据和异常数据等问题
4、。数据分析指使用回归分析、聚类分析、语义分析等技术进行大数据分析。数据应用指在分析结果基础上预测分析具体业务趋势和现象。据此,大数据应用架构设计如图1所示。图1 数据应用总体架构图2.1数据采集大数据,包括三层含义:一是指数量巨大,二是指数据来源众多,三是数据类型多种多样。其中数据类型可以划分为三类:结构化数据、半结构化数据和非结构化数据。结构化数据通常是指传统关系型数据库中的数据,包括机构编制各业务系统数据库和其他政务部门共享的数据;半结构化数据指除传统数据库的数据以外的有特定规律的数据,例如 XML 文档、HTML文档、系统日志、报表等;非结构化数据包括各类不同格式文档、音频、视频、图片等
5、信息,包括法律法规、政策文件等。数据采集方式可以包括系统生成、数据对接、网页抓取、传感器等方式。1)系统生成系统生成包括两部分:一是人工填报,二是实时采集。人工填报是指在业务系统中或文件系统中录收稿日期:2022-04-25基金项目:河北省委机构编制委员会项目:大数据技术在河北省机构编制管理中的创新应用研究(编号:ZJ2022083)作者简介:赵茁(2002),男,本科在读,主要研究方向为编程开发、大数据应用等。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知
6、识与技术Vol.18,No.35,December202267DOI:10.14004/ki.ckt.2022.2150本栏目责任编辑:王力数据库与大数据技术Computer Knowledge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)入数据的过程,是最常见的数据采集方式。填报的数据类型包括结构化数据和非结构化数据。结构化数据主要从各个业务系统中进行录入或者导入。非结构化数据可以利用手工或者大数据采集工具进行录入。实时采集指由各个业务系统处理后生成的结果数据、系统用户的各种级别较高的操作日志,系统记录的用户访问行为轨迹和
7、习惯等。2)数据对接数据对接指系统间的数据通过接口访问或授权访问的形式进行数据集成,对接的数据类型以结构化数据为主,数据库类型包括 MySql、Oracle、Db2、SQLServer等各类产品,对接一般是对各个单位内部的各系统进行数据汇集,或者从省数据共享平台、中央编办共享平台或其他省平台获取相关数据2。数据对接的方式包括数据库获取、接口读取和实时采集,一般采用数据交换平台来实现。编办的数据交换平台可以采集汇聚省内各地市信息、其他省编办共享信息、本省内工商、税务、劳社、卫生、医药、公安、民政、人口、企业法人、空间地理、宏观经济等信息,形成跨部门、跨地区、跨行业的融合数据,并实现整个编办系统的
8、数据共享3。数据交换平台具体架构图如图 1所示。图2 数据交换平台架构图3)网页抓取网页抓取,从官方网站公开的大量信息中抓取数据,对抓取的网页数据进行内容和格式处理加工,从而获得有用的内容。网页抓取主要指网络爬虫,是采用程序或脚本,按照某种特定规则抓取互联网上网页信息的技术。网页抓取获取的数据类型可以包括数字数据、文本数据、音频和视频数据或社交网络结构数据等非结构化数据。4)传感器传感器数据采集主要是通过传感网进行。传感网是由众多传感器、数据处理器和通信器组成无线网络。在政务领域,可以利用传感器侦测人员密集度和流动情况,并据此分析机构分布、审批事项集中度等。2.2数据治理数据质量是影响大数据应
9、用开发的效率、成效的重要因素之一。由于数据来源多样繁杂、标准不一等原因,采集汇聚后的原始数据往往存在很多质量问题,数据治理即是为解决数据质量问题而提出的解决方案。数据质量问题包括完整性、唯一性、一致性、准确性、有效性、及时性等六个方面。数据完整性的典型问题包括唯一性约束或主键设置不完整、数据丢失、数据无效、数据属性不完整(例如某个属性不应空的时候为空值)。数据唯一性的典型问题主要是某项数据出现重复,包括同一数据的源数据重复,如某些事项在申报时由于误操作导致多次申报,或者系统处理中出现问题导致数据重复等。数据一致性包括同一数据的数据结构不一致、约束规则不一致、数据编码不一致,数据名称不一致,所属
10、机构不一致,例如在人事系统和科研系统中所学专业分类不一致,人口基础库中联系方式和其他系统不一致等。数据准确性指数据要符合业务相关定义,例如电话或邮箱的格式要求等。数据及时性指数据是否能按照特定要求及时进行生成和处理。2.3数据分析处理数据分析处理首先需要对数据进行计算处理。对于大量数据的处理,可以利用Hadoop、Hive等框架实现离线批处理,这些框架都比较成熟,可以实现分钟级响应,对于少量数据的处理,如果要实现交互式查询或流式处理计算,可以采用Spark、HBase;而针对全量数据的全文检索查询,可采用的框架包括Solr、lasticSearch来实现的查询响应在毫秒级。数据分析处理时,可以
11、在大数据分析方法等方法基础上,设计算法模型,并采用机器学习的方式进行机构编制管理情况的预测分析,形成各类算法模型库,为业务和决策提供服务和支撑。数据分析处理中用到的典型大数据分析方法包括聚类分析、分类分析、关联分析、文本分析等。2.4数据应用大数据应用是指数据如何在各类业务中进行使用,为业务决策和处理提供良好支持。从技术层面来讲,可以设计大数据应用平台,将汇聚治理以及进行初步底层的大数据分析后的数据结果,结合各类业务主题设计应用模型,进行专题挖掘分析研究,得出可以有明确趋势或决策支撑信息的结果,最终面向各类用户提供多维度、可视化数据服务。具体来说,大数据应用平台是以数据处理后中心库为基础,面向
12、省编办、地市编办、企业、其他政务部门和公众提供数据服务的平台,通过编制大数据的分析应用,例如对政府职能、权责事项、办事流程、审批要件等数据等的综合分析,助力“放管服”改革,挖掘分析职能交叉或缺位、流程不合理等问题,提高政府治理能力和履职能力,为各级编办领导提供决策支持,为公众提供透明性信息。68数据库与大数据技术本栏目责任编辑:王力Computer Knowledge and Technology电脑知识与技术第18卷第35期(2022年12月)第18卷第35期(2022年12月)3大数据在编制管理中的应用场景研究3.1 利用大数据挖掘技术开展精准化管理数据挖掘就是对特定范围内真实产生的、大量
13、的、可能有噪声的、不明确的数据进行检测、识别和分类,并通过各类算法提取隐含在数据中未被发现的规律和联系的过程。以编办采集的业务数据集为基础,利用大数据挖掘技术,可以针对目前编制管理中的难点开展政府职能事项、履职情况、用编情况等主题挖掘分析。一是抓取大数据中与政府职能、办事流程、发文审批以及群众反映较多的情况等相关的结构化数据和非结构化数据,利用挖掘技术结合文本分析技术4可以单位之间职能交叉、流程不合理情况等,推动政府职能转变和简政放权,提高政府治理能力。二是对权责清单、日常政策实施、办事流程记录、编制人员、监督系统等数据进行挖掘,分析某单位或部门制定的权责清单完善情况、履职情况、越权情况、违规
14、情况等,从而增强监督能力,督促工作人员正确规范履行职能、提高履职能力5-6。三是对编制人数、工作流程和内容、编制实名信息等数据进行挖掘,可以分析出各单位各部门是否超编、用编是否规范等信息,进一步推动合理用编工作。3.2 利用时间轴技术进行机构职能动态分析时间轴技术主要是结合知识发现中时间序列分析,利用互联网和可视化技术,把各类事件串联起来,构成以时间为X轴的记录体系,从中分析出事物随时间变化的趋势。时间轴技术可以广泛运用于各个领域,其最大作用是将事物发展过程系统化。政府的具体职能除了体现在权责清单中,还体现在各类报表、方案、政策发文、行政审批事项、年度报告、新闻报道中,更体现在日常政治、经济、
15、社会等领域的管理活动中,这些管理活动通过各个领域的不同机构之间关联、衔接来实现。同时,各地GDP、常住人口、土地面积、财政收入、医院、企业、执法等数据也能间接体现各地机构职能的异同。因此,机构职能的分析需要从多维度进行。同时,政策文本,尤其涉及取消、下放、转移、调整等不同方式的行政审批事项的变化,本身带有时间属性,从时间维度纵观转变进程和路径,更加有助于政府职能的分析。在此基础上,运用知识发现和时间轴的方法,从各环节的职能信息中提取出知识,并以这些知识为中心,构建起带有时间属性的知识图谱,就可以对机构职能进行时间序列的动态分析,发现存在职能交叉、职能重叠、职能缺位等环节的情况,进而推动政府更好
16、地履行职能7。3.3 利用地理信息技术统筹和优化编制资源地理信息技术是一类应用地理空间信息技术的总称,主要包括空间信息获取、空间信息管理、空间信息的分析和应用。编制工作面临的主要挑战之一是如何统筹和优化编制资源,解决不同地区、不同部门、不同层级间的编制资源分布不均衡、不合理的现象。解决这个问题,首先需要在各类非结构化数据的基础上,结合各单位权责清单数据、工作饱和度量化指标,人员编制类型、身份、财政供养类型、技术职称类别、岗位职责、法定职责、工作日志、年龄、性别等,利用知识发现技术对编制资源进行跨部门、跨层级的分析,明确问题的主要因素和次要因素,客观分析个人履职情况,科学确定整个单位的履职情况和工作饱和度,以适当调整用编8。行政机关、事业单位的地理位置可以作为核定某个地区编制统筹动态分配的重要指标。将空间数据与单位或部门的属性数据结合起来,运用地理信息技术,通过对空间信息、地域、学历、机构、编制类别、职称、社交关系、职能、编制、人员等不同属性进行交叉研究,从不同维度分析其在地理空间的分布,同时可以分析不同区域不同类型编制人员的占比情况7。如在空间分析基础上叠加时间序列分析,统筹考虑当地财