1、基于标签分类的数据协同技术研究基于标签分类的数据协同技术研究 邱瑞 汪宁 朱振华 摘 要:通过对标签体系分类方法和标签数据共享技术路线的研究,利用基础属性、统计分析、模型算法及大数据分析等技术,将描述研究对象的标签数据进行提取和分类,实现了对标签资源的分类,建立统一标签资源目录体系。在数据协同过程中,系统中心节点获取各子节点查询请求,并统一调配计算资源,最后将汇总结果返回到请求方节点,从而实现节点间的标签数据共享,有效的推动业务数据跨地区、跨部门的共享,促进了业务模型向智能化发展。关键词:标签;标签目录;数据协同 1 引言 标签反映人或物的社会属性、行为属性等属性特征。近年来,在公共安全等领域
2、,专家用标签进行画像和特征分析,建立相关的应用系统,帮助用户进行工作模式的改进和工作效率的提高。在标签数据分类的过程中,由于不同的分类方式产生的标签定义也不一致,有可能造成在使用过程中导致数据难以共享、标签易误解等问题,造成对研究对象的错误预警。在标签资源服务系统中,对各子节点间获取统一标签资源目录体系,通过分布式调度架构将查询请求经中心节点发送至各子节点,中心节点统一协调各子节点的调配资源,将标签查询结果汇总后返回到请求方节点,从而实现了不同子节点间的标签数据共享。本文将利用属性标注、模型算法、文本挖掘等技术,研究标签数据的分类技术,同时研究基于标签资源目录的协同共享技术,实现标签数据的协同
3、共享。2 标签治理和分类 2.1 数据治理 标签数据治理是对汇集的原始数据进行标准化、规范化的处理过程,主要包括数据汇集、数据治理、数据建库等工作。通过对数据进行一系列的治理,形成结构化、规范化的资源库,为标签分类和生产提供数据基础。首先,通过数据采集系统采集多源异构数据,如金融数据等相关数据。之后,针对不同的数据采取数据去重、数据融合、字段标准等规范化操作。最后,构建基于标签领域相关的资源库,实现对各级业务数据统一规范化的管理,针对各个数据进行主题分类、标准化和规范化存储。2.2 数据分类 标签分类体系的建设过程就是对数据不断提炼和价值迭代的过程,通过构建标签分类体系,让数据价值清晰化、规范
4、化,通过标签表达数据潜在的意义、满足当前业务的分析工作。标签分类主要从属性抽取、特征提炼、规律刻画等几个方面考虑,标签按照数据生成的维度可以分为属性标签、统计标签和算法标签。(1)属性标签包括研究对象的所有原生属性和派生属性,主要为人的年龄、性别、学历、身份信息等基础属性信息,基础属性的标签往往和个人信息有关。(2)统计标签是基于过往特定时间段内的行为、日志数据而计算出的描述个体或群体的规律性标签,这类标签随着统计周期而发生变化,更新频率较大、周期较短、标签变化性较大。(3)算法标签是根据过去特定段时间的行为状态,预测事物未发生、或将来即将发生的行为,这种标签是基于普通标签、统计标签数据,通过
5、使用特定算法、挖掘技术计算出来的,给出预测对象的行为相符合的标签。3 标签建设路线 标签开发流程分为特征提取、标签加工、标签管理、标签应用四大部分。首先,特征提取主要从基础特征、人员特征、行为特征、社会属性等维度来提取特征,形成基础化标签;在标签加工过程中,对已经提取的基础化标签数据进行规则清洗、加工、建模,再经由对标签进行 ETL 开发,从而得到体系化、规范化的标签,并进入标签市场,为下一步标签应用做准备。我们可以将标签构建过程分为三个阶段。第一阶段是基础标签的建设,此阶段将通过对数据资源按照一定的规则进行加工得到基础化的标签,用来刻画实体的基础特征,主要由数据治理人员参与并完成。伴随基础标
6、签的体系建立标签构建将进入第二阶段,业务人员根据行业分析经验将对基础标签进行组合,从而得到符合行业的业务标签。第三阶段为数据分析人員对业务标签进行分析,并经过对事件进行分析、研判、建模,构建符合的算法标签,以满足预测预警的需求。经过三大阶段对标签的构建过程,将构建符合行业规范的数据资源目录体系,从而实现对标签数据的分类。4 数据协同技术的研究 标签资源服务系统面向各级子节点开放,建设了标准化、规范化的标签资源服务目录,实现标签统一发布、各级子节点共享,能够有效支撑各级子节点业务需求,为用户提供便捷的操作方式,减少标签生成复杂过程。文中数据协同技术采用的是“一主多从”架构。中心节点为主节点,统一
7、对资源目录进行建设、上线、下线等管理操作。各级子节点为平级子节点,共享中心节点所发布的资源目录。各级子节点通过“申请审批”等流程,当子节点 A启动节点间标签组合查询时,即开始占用其请求的子节点的标签资源,中心节点统一调配资源并在中心节点进行计算,将标签组合查询结果汇总后返到查询子节点 A,减少了资源的浪费,同时实现了节点间的标签数据协同共享。5 结束语 本文研究实现了标签治理、分类目的,解决了如何从海量数据中发现各种数据关系与关联规则,挖掘数据的价值问题,形成了语义化的描述。建立统一标签资源目录体系,通过分布式调度系统将查询请求发送至各子节点,最后中心节点将汇总结果返回到请求方节点,从而实现了不同节点间的标签数据共享。下一步将继续优化算法模型,在预测类标签生成的准确性方面进行重点研究。参考文献 1张大伟.公安数据标签化建设应用研究J.警察技术,2017,(6):37-41.2席岩,张乃光,王磊,et al.基于大数据的用户画像方法研究综述J.广播电视信息,2017(10):39-43.3王庆,赵发珍.基于用户画像的图书馆资源推荐模式设计与分析J.现代情报,2018(3):105-109,137 4丁伟,王题,刘新海等.基于大数据技术的手机用户画像与征信研究J.邮电设计技术,2016(3):64-69.责编/李曼