1、DB3209/T1258-2023公共数据平台数据归集规范1范围本文件界定了公共数据平台数据归集的术语和定义,规定了归集流程、数据归集要求、数据更新要求及数据归集安全。本文件适用于指导盐城市各级公共管理和服务机构归集数据至盐城市公共数据平台。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T22239信息安全技术网络安全等级保护基本要求GB/T35273信息安全技术个人信息安全规范GB/T35295信息技术大数据术语GB/T37973信息
2、安全技术大数据安全管理指南3术语和定义GB/T35295-2017界定的以及下列术语和定义适用于本文件。3.1数据归集 data ingestion指将来源于不同数据源的数据按照一定的规则进行采集、清洗加工、整合和更新,以支持公共数据平台的数据分析和应用。3.2公共数据commondata指各级行政机关、法律法规授权的具有管理公共事务职能的组织、公共企事业单位为履行法定职责,提供公共服务收集、产生的各类数据资源,包括文件、资料、图表、图像、音频、视频、电子证照、电子档案等。3.3结构化数据structured data一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并
3、且可以使用关系模型予以有效描述。来源:GB/T35295-2017,2.2.133.4结构化文件structured file按照特定结构或格式组织的文件,并便于机器解析和读取。结构化文件通常用于存储和组织大量的数据,如数据库文件、CSV文件、JSON文件等。DB3209/T1258-20233.5非结构化文件 unstructured file不具有预定义模型或未以预定义方式组织的文件,通常以二进制格式或自由文本形式存储,没有固定的结构和格式,如办公文档、图片、HTML、各类报表、图像和音频/视频等。4归集流程4.1明确归集范围按照“按需归集、应归尽归”的原则,将相关部门及机构所有可归集的公
4、共数据持续归集至公共数据平台。4.2明确归集方式结合归集数据的范围、数据传输要求等,确定数据的归集方式。归集方式主要包括库表、文件、服务接口三种,其中库表、文件方式适用于对数据传输速度和实时性无特殊要求的情况,服务接口方式适用于对数据传输速度和实时性有较高要求的情况。4.3开展数据归集应将数据库表结构发送至公共数据主管部门,并根据数据归集方式和数据实际情况,做好数据归集前准备工作并开展数据归集:a)将原始数据不进行处理地采集存放在公共数据平台的贴源层中;b)对贴源层中的数据进行清洗加工使其满足公共数据平台使用的质量要求,清洗加工后的数据存放在公共数据平台的公共层中:c)对公共层中的数据进行个性
5、化面向应用、业务的整合,最终数据存放在公共数据平台的主题层。4.4归集结果确认数据归集结果确认应包含:a)数据清洗加工:对采集到的数据进行清洗加工,去除无效和冗余数据,对缺失数据进行填补,确保数据的准确性和完整性;b)数据整合:将清洗加工后的数据进行整合,将不同来源的数据进行融合和映射,形成统一的数据格式和标准;c)数据更新:定期对数据进行更新,通过数据采集、消洗加工、整合等环节,保障数据的实时性和准确性。5数据归集要求5.1总体要求在数据归集过程中,明确数据的归集要求,从数据完整性、及时性、安全性等方面确保数据归集的质量和高效。a)数据完整性:确保所归集的数据准确、完整且没有重复。在数据归集
6、过程中,需要对数据源进行充分的调研和验证,确保数据被完整地收集并没有遗漏,同时,需要进行数据清洗和数据校验,排除无效数据和错误数据,保持数据的准确性和一致性:2DB3209/T1258-2023b)数据安全性:采取相关安全防护措施,确保归集的数据不会受到未经授权的访问、篡改或泄露的风险。采用严格的身份认证、权限控制和脱敏加密技术,保障数据的安全;c)数据及时性:建立高效的数据归集机制,需定期检查数据源的更新频率,设置合理的数据归集周期,确保数据能够及时归集和更新,确保归集的数据始终具备实时性和可信度,满足各级部门和公众对数据的需求。5.2库表归集5.2.1前置库在前置机中建设前置库,用于临时存
7、储业务数据表、对账数据表等,可根据业务需要创建多个前置库。前置库应支持国产数据库,字符编码应支持包括但不限于:UTF-8、GB2312、UTF-16。5.2.2业务数据表5.2.2.1业务数据表存储待归集的业务数据,包含记录ID、批次号、业务操作标识、更新时间及业务字段,字段说明如下:a)记录ID:业务数据的唯一记录标识,使用UUID主键策略;b)批次号:业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数据日期指数据更新的日期,格式为YYYYMMDD:数据序号为8位数字,每日从00000001顺序递增;c)业务操作标识:用于标识业务数据的操作属性,数据新增为“1”,数据
8、修改为“U”,数据删除为“D”;d)更新时间:业务数据写入业务数据表的时间,格式为YYYY-MM-DD hh:mm:ss。示例:2023-10-0108:10:56。5.2.2.2业务数据表字段名称和数据格式见表A.1。5.2.3对账数据表5.2.3.1对账数据表存储数据的对账情况,包含对账记录唯一标识、表名、批次号、批次条数、批次时间、批次状态字段,字段说明如下:a)对账记录唯一标识:对账表主键,使用UUID主键策略;b)表名:该批次更新数据所在业务数据表的名称;c)批次号:与业务数据表中批次号一致;d)批次条数:该批次更新的数据条数,应与业务数据表中该批次数据实际更新条数一致;e)批次时间:对账数据写入对账表的时间,采用数据库时间函数的值,格式为YYYY-MM-DDhh:mm:ss;示例:2023-10-0108:10:56。f)批次状态:本批次数据归集状态,0为初始默认值,1为完成归集,-1为对账数据表批次数量与业务数据表实际数量不一致。5.2.3.2对账数据表字段名称和数据格式见表C.1。5.3文件归集