收藏 分享(赏)

2023年基于标签的数据挖掘技术的研究.docx

上传人:g****t 文档编号:1435457 上传时间:2023-04-20 格式:DOCX 页数:4 大小:20.06KB
下载 相关 举报
2023年基于标签的数据挖掘技术的研究.docx_第1页
第1页 / 共4页
2023年基于标签的数据挖掘技术的研究.docx_第2页
第2页 / 共4页
2023年基于标签的数据挖掘技术的研究.docx_第3页
第3页 / 共4页
2023年基于标签的数据挖掘技术的研究.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、基于标签的数据挖掘技术的研究肖建军,邱瑞,肖崇星【摘 要】近年来,数据呈指数级增长,人们对数据的利用能力越来越高,特别是近几年兴起的大数据、云计算、人工智能等新兴技术聚集了人类有史以来最多最全的数据,但是如何从数据中发现各种关系与规那么,从海量数据中找到更有价值的数据,是人们急需解决的问题。数据挖掘技术是解决这一问题的根本方法,而基于标签的数据挖掘技术是完整刻画描述人物特征的根本方法。【Abstract】In recent years, the numbers have grown exponentially. Peoples ability to use data is getting hi

2、gher and higher, especially in recent years, emerging technologies such as big data, cloud computing and artificial intelligence have collected the largest and most complete data in human history. However, how to discover all kinds of relationships and rules from data and find more valuable data fro

3、m mass data is an urgent problem that people need to solve. Data mining technology is the fundamental method to solve this problem, and the data mining technology based on tag is the basic method to describe the characters completely.【關键词】数据挖掘;大数据;标签【Keywords】data mining; big data; tag【中图分类号】TP311 【

4、文献标志码】A 【文章编号】1673-1069202302-0156-021 引言目前,关于人员标签的研究主要集中在人物画像,所谓人物画像1就是将人物的行为特征标签化,是描述人物的数据,是符合特定业务需求的对人员的形式化描述。人员标签的应用主要表达在商业营销领域,各大购物网站通过记录用户的操作数据,对用户进行建模,给用户建立标签,再给用户推荐其可能会购置的商品,从而到达促进消费的目的,如京东、淘宝、拼多多等。标签技术在公共平安领域的研究起步比拟晚,仅做到描述层级,无法实现深度的挖掘和关联,与具体业务的结合比拟松散,对于需要从海量情报信息中串并深挖、预测预警的业务工作来说,仍需要进行定制化的研发

5、。从数据中“淘金,从大量数据文本中挖掘出隐含的、未知的、对决策有潜在的关系、模型和趋势,并用这些知识和规那么建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,这就是数据挖掘。它是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据技术和人智能智能技术的综合。2 技术背景2.1 标签标签2是根据人物的行为、属性与具体的时间、地点、事件等数据结合后给出的人物的特征,如有相同属性的人群,性别男或女表示同性别的人员等。近年来,在消费、金融等领域,普遍利用标签对人物进行画像,经过特征分析,对人物进行合理分类,从而帮助用户改良工作流程和工作模式。公共平安行业在标

6、签系统的建设中起步较晚,已经开展了一批标签系统建设,但是并没有形成统一的方法论对实体标签进行数据挖掘,对标签的实际应用分析比拟少。2.2 数据挖掘数据挖掘3是指在海量的、复杂的数据中,挖掘出隐藏其中的、未知的、有用的信息的过程。数据挖掘涉及比拟广泛,融合了数据分析、决策支持、大数据、人工智能、云计算等内容。源数据的结构比拟复杂,可以是结构化的如关系型数据库等,也可以是非结构化的如图片、音频、视频等,或者是半结构化的如网页等。数据挖掘可分为直接和间接数据挖掘。直接数据挖掘就是利用现有的数据,建立模型,然后利用该模型对剩余的数据进行分析和描述,包括分类、估值和预测等。间接数据挖掘是在所有的变量中寻

7、找某种关系,事先并未选出某一具体的变量4。3 核心内容3.1 数据挖掘技术数据挖掘技术包括分类、聚类、预测、时间序列分析、关联分析等。分类是根据的一些样本包括属性与类标号来得到分类模型,即得到样本属性与类标号之间的函数,然后通过此目标函数来对只包含属性的样本数据进行分类,是一种有监督的学习。最常见的分类方法是逻辑回归或者逻辑分类。聚类分析是一种无监督学习,目的是通过某种方法将一组未知数据划分成假设干种类,事先并不知道源数据的类别。预测是在历史数据的根底上,找出其中的某种规律,建立模型,并通过该模型对未来的数据种类及特征进行预测。时间序列分析是通过时间序列搜索出重复发生概率较高的规律或者模式。关

8、联分析主要用于发现变量取值之间的相关性规律5。3.2 数据治理数据治理是对数据的有效处理。通过数据采集,将各类数据聚集,并进行数据清洗,将其中无用的、重复的数据去除、精简,再通过标准化、结构化之后,分类存储,形成结构化、标准化的资源库,为实体标签分类和生产提供了可靠的数据根底见图2。3.3 标签开发和应用从数据中发现有用信息是数据挖掘技术的重点。通过算法分析,将人、车、物、事件和时间空间相结合,按照分类方法划分相应的标签,根据标签组合实现对实体的行为的根本判断。实体标签是基于标签引擎开发,标签开发和应用流程如图3所示。标签根据人员的属性分为行为属性标签、人员特征标签、根底属性标签以及社会属性标

9、签。标签一般按照实体进行分类,例如,人的根底属性包括姓名、性别、出生日期、出生地、血型等;社会属性标签包括职业、年龄、所在城市、会员等级等;行为属性标签包括出行行为、异常经历行为等。人员特征标签包括是不是重点人员等。4 结语通过数据挖掘技术的应用,对收集到的各类数据进行处理,形成标签体系,投入标签市场,并发布到标签中心,下一步将对标签进行进一步分析、同步、管理等,并提供应上层应用,如标签查询、标签统计、标签地图、情报研判等。【参考文献】【1】席岩,张乃光,王磊,等.基于大数据的用户画像方法研究综述J.播送电视信息,202310:37-41.【2】李思男,李宁,李战怀,等.多标签数据挖掘技术:研究综述J.计算机科学,202304:14-21.【3】杨雪.浅析数据挖掘技术J.华南金融,202208:83-85.【4】邱国伟.移动通信中数据挖掘技术的有效运用J.通讯世界,202308:76-77.【5】靳延安.社会标签推荐技术与方法研究D.武汉:华中科技大学,2023.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 资格与职业考试 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2