ImageVerifierCode 换一换
格式:DOC , 页数:3 ,大小:12.50KB ,
资源ID:854064      下载积分:8 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/854064.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(2023年基于标签的数据挖掘技术的研究.doc)为本站会员(sc****y)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

2023年基于标签的数据挖掘技术的研究.doc

1、基于标签的数据挖掘技术的研究基于标签的数据挖掘技术的研究 肖建军,邱瑞,肖崇星 【摘 要】近年来,数据呈指数级增长,人们对数据的利用能力越来越高,特别是近几年兴起的大数据、云计算、人工智能等新兴技术汇集了人类有史以来最多最全的数据,但是如何从数据中发现各种关系与规则,从海量数据中找到更有价值的数据,是人们急需解决的问题。数据挖掘技术是解决这一问题的根本方法,而基于标签的数据挖掘技术是完整刻画描述人物特征的基本方法。【Abstract】In recent years,the numbers have grown exponentially.Peoples ability to use data

2、is getting higher and higher,especially in recent years,emerging technologies such as big data,cloud computing and artificial intelligence have collected the largest and most complete data in human history.However,how to discover all kinds of relationships and rules from data and find more valuable

3、data from mass data is an urgent problem that people need to solve.Data mining technology is the fundamental method to solve this problem,and the data mining technology based on tag is the basic method to describe the characters completely.【關键词】数据挖掘;大数据;标签【Keywords】data mining;big data;tag【中图分类号】TP3

4、11 【文献标志码】A 【文章编号】1673-1069(2020)02-0156-02 1 引言 目前,关于人员标签的研究主要集中在人物画像,所谓人物画像1就是将人物的行为特征标签化,是描述人物的数据,是符合特定业务需求的对人员的形式化描述。人员标签的应用主要体现在商业营销领域,各大购物网站通过记录用户的操作数据,对用户进行建模,给用户建立标签,再给用户推荐其可能会购买的商品,从而达到促进消费的目的,如京东、淘宝、拼多多等。标签技术在公共安全领域的研究起步比较晚,仅做到描述层级,无法实现深度的挖掘和关联,与具体业务的结合比较松散,对于需要从海量情报信息中串并深挖、预测预警的业务工作来说,仍需要

5、进行定制化的研发。从数据中“淘金”,从大量数据(文本)中挖掘出隐含的、未知的、对决策有潜在的关系、模型和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,这就是数据挖掘。它是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据技术和人智能智能技术的综合。2 技术背景 2.1 标签 标签2是根据人物的行为、属性与具体的时间、地点、事件等数据结合后给出的人物的特征,如有相同属性的人群,性别(男或女)表示同性别的人员等。近年来,在消费、金融等领域,普遍利用标签对人物进行画像,经过特征分析,对人物进行合理分类,从而帮助用户改进工作流程

6、和工作模式。公共安全行业在标签系统的建设中起步较晚,已经开展了一批标签系统建设,但是并没有形成统一的方法论对实体标签进行数据挖掘,对标签的实际应用分析比较少。2.2 数据挖掘 数据挖掘3是指在海量的、复杂的数据中,挖掘出隐藏其中的、未知的、有用的信息的过程。数据挖掘涉及比较广泛,融合了数据分析、决策支持、大数据、人工智能、云计算等内容。源数据的结构比较复杂,可以是结构化的如关系型数据库等,也可以是非结构化的如图片、音频、视频等,或者是半结构化的如网页等。数据挖掘可分为直接和间接数据挖掘。直接数据挖掘就是利用现有的数据,建立模型,然后利用该模型对剩余的数据进行分析和描述,包括分类、估值和预测等。

7、间接数据挖掘是在所有的变量中寻找某种关系,事先并未选出某一具体的变量4。3 核心内容 3.1 数据挖掘技术 数据挖掘技术包括分类、聚类、预测、时间序列分析、关联分析等。分类是根据已知的一些样本包括属性与类标号来得到分类模型,即得到样本属性与类标号之间的函数,然后通过此目标函数来对只包含属性的样本数据进行分类,是一种有监督的学习。最常见的分类方法是逻辑回归或者逻辑分类。聚类分析是一种无监督学习,目的是通过某种方法将一组未知数据划分成若干种类,事先并不知道源数据的类别。预测是在历史数据的基础上,找出其中的某种规律,建立模型,并通过该模型对未来的数据种类及特征进行预测。时间序列分析是通过时间序列搜索

8、出重复发生概率较高的规律或者模式。关联分析主要用于发现变量取值之间的相关性规律5。3.2 数据治理 数据治理是对数据的有效处理。通过数据采集,将各类数据汇集,并进行数据清洗,将其中无用的、重复的数据清除、精简,再通过标准化、结构化之后,分类存储,形成结构化、规范化的资源库,为实体标签分类和生产提供了可靠的数据基础(见图 2)。3.3 标签开发和应用 从数据中发现有用信息是数据挖掘技术的重点。通过算法分析,将人、车、物、事件和时间空间相结合,按照分类方法划分相应的标签,根据标签组合实现对实体的行为的基本判断。实体标签是基于标签引擎开发,标签开发和应用流程如图 3 所示。标签根据人员的属性分为行为

9、属性标签、人员特征标签、基础属性标签以及社会属性标签。标签一般按照实体进行分类,例如,人的基础属性包括姓名、性别、出生日期、出生地、血型等;社会属性标签包括职业、年龄、所在城市、会员等级等;行为属性标签包括出行行为、异常经历行为等。人员特征标签包括是不是重点人员等。4 结语 通过数据挖掘技术的应用,对收集到的各类数据进行处理,形成标签体系,投入标签市场,并发布到标签中心,下一步将对标签进行进一步分析、同步、管理等,并提供给上层应用,如标签查询、标签统计、标签地图、情报研判等。【参考文献】【1】席岩,张乃光,王磊,等.基于大数据的用户画像方法研究综述J.广播电视信息,2017(10):37-41.【2】李思男,李宁,李战怀,等.多标签数据挖掘技术:研究综述J.计算机科学,2013(04):14-21.【3】杨雪.浅析数据挖掘技术J.华南金融电脑,2005(08):83-85.【4】邱国伟.移动通信中数据挖掘技术的有效运用J.通讯世界,2017(08):76-77.【5】靳延安.社会标签推荐技术与方法研究D.武汉:华中科技大学,2011.

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2