基于大数据技术的高校用户识别方法研究.pdf

资源描述

1、信息通信基于大数据技术的高校用户识别方法研究郭向红，魏国华，包志刚（中国移动通信集团内蒙古有限公司，内蒙古呼和浩特0 10 0 10）摘要：文章提出了一种新的高校用户的识别方法，在指定的高校基站范围内，通过分析客户的交往圈、通话行为、流量使用情况、活跃时间、常驻活动位置等信息，依据交往圈交往程度及位置驻留时长等维度，构建校园用户识别模型，进一步提升对校园用户的识别能力，为公司对校园市场的精确营销及运营分析提供有力支撑。关键词：大数据；交往圈；校园市场中图分类号：TP3092023年第0 5期(总第2 45期)文献标识码：B文章编号：2 0 9 6-9 7 59(2 0 2 3)0 5-0 15

2、7-0 31 引言校园市场作为年轻人市场的核心组成部分，一直是电信运营商特别关注的焦点市场。互联网时代下，学生的消费行为已发生了巨大变化，现有校园用户识别模型的识别能力已不能有效提供运营支撑。为了更好地支撑公司运营，强筑大数据支撑能力，充分发挥大数据平台数据资源优势，不断提升精准运营能力，对“校园用户识别模型”进行了重点优化，通过提升模型基站覆盖率，提高数据识别准确率，为分公司精准运营提供有力保障。本文提出了一种新的高校用户的识别方法，在指定的高校基站范围内，通过分析客户的交往圈、通话行为、流量使用情况、活跃时间、常驻活动位置等信息，依据交往圈交往程度及位置驻留时长等维度，构建校园用户识别模型

3、。在校园用户识别能力建设的基础上，进一步统计出省内校园数量、各校园中电信运营商的校园用户的分布情况及省内省外用户的占比，从而为后期的运营分析提供有力支撑。2模型历史方案及缺陷分析校园用户的运营由来已久，早期的校园用户识别模型主要基于本省校园区域及校园区域内用户的通信及交往圈特征，建立了分类模型，提炼训练结果，最终形成规则进行模型落地，历史模型的构建规则如下。2.1校园基站信息采集主要依靠各地市进行手工维护，即由各地市将区域内所属校园基站数据通过手工收集，并不定期的手工录入到大数据平台中，大数据平台对录入数据按月进行汇总整理，剔除重复数据及失效数据，保留有效数据，为下一步模型建设做准备。2.2校

4、园区域下全量用户圈定（1)移动校园区域用户：当月校园基站下通话的所有非漫游用户；(2)友商校园区域用户：当月与我网校园基站下通信用户产生通信的友商用户。2.3月模型下校园用户识别规则（1）我网校园用户识别语音通信天数大于5天以上、校园通信占比大于30%以上；流量通信天数大于5天以上、校园流量占比大于30%以上；在校园基站下的语音及流量通信天数在14天以上；校园套餐用户且在校园基站下有三天或以上通信（通话+收稿日期：2 0 2 3-0 2-2 8作者简介：郭向红（197 4-)，女，高级工程师，工程硕士，主要研究方向：行业数据分析、大数据应用、数据挖掘；魏国华（198 3-），男，高级工程师，高

5、级信息系统项目管理师，硕士研究生，主要研究方向：行业数据分析、大数据应用；包志刚（198 1-），男，高级工程师，硕士研究生，主要研究方向：行业数据分析、大数据应用、数据挖掘。157流量）；本年新生迎新名单。（2）友商校园用户识别最近半个月有通话，并且在同一学校的交往圈大于2 人；校园通话占总通话比例2 5%以上。旧方案的建设具备一定的合理性，但也存在一些明显的缺陷，会影响到模型识别的准确性，主要体现在：（1)校园基站手工维护，会导致基站数据更新不及时、人为操作产生数据错误等问题，也会给维护人员带来较大的工作量；（2）旧方案没有使用大数据平台挖掘模型建设能力，相关参数指标不够科学，影响模型识别

6、准确性；（3）旧方案未能有效发挥大数据价值，更为精准的信令数据没有在用户位置判定中得到使用，影响了对用户的位置分析能力；（4)没有实现对外省漫入用户的识别，对高校用户的构成分析不够全面。3基于大数据技术的高校用户识别模型3.1校园基站采集考虑到旧方案中存在的种种弊端，新的高校用户识别模型使用的高校基站数据源于网络侧实时更新的基站数据，相比于人工维护的基站数据，其优势体现在以下几个方面。(1)网络侧能够实时更新基站信息，不需要在进行人为干预和手工操作，能够有效减少人工维护耗费的大量时间，更具有时效性。（2）网络侧能够根据需要圈定范围，实现基站信息的增、删、改等调整，灵活性和可操作的空间更大。(3

7、)网络侧的基站信息更为全面与精准，有效降低手工操作导致的数据偏差，对于校园基站下用户的圈定和监测更为合理，提升了校园识别模型基础数据的数据质量。3.2高校用户识别模型建设思路校园用户的识别主要分为我网高校用户的识别及异网高校用户的识别。模型整体建设思路如下：首先需要完成样本数据的收集，并在大数据平台，利用挖掘模型算法，探索高校用户的行为特征，通过相应的特征确定校园用户识别规则的阈值，最终在圈定的校园基站下的用户中识别出校园用户，形成校园用户识别模型。在我网校园用户识别的基础上，通过移动号码号段，还会进一步区分是省内移动用户，还是外省漫入的移动用户。在确定了我网校园用户的基础上，通过交往圈发酵规

8、则进行发酵，最终圈定异网校园用户。Changjiang Information&Communications异网校园用户模型异网用户生成图1高校用户识别模型模型建设主要完成三步，校园用户特征探索、本网校园用CPAS,RES5001Starpl22440l*/11220.11220TiC00120,$13571046710461.9COMM_CHANELIDS-1.0519181204e-1278.#VDIC_RESS-O.O2NNET,LONGS-L6720P3861231441220.21GPRS_RESS0.121e048OPY-0722rtopy-0.918sirmples3RM57NE

9、T,LONG-1.A67enbopyo.o3mtopy=0.9711.173.3高校用户识别模型构建过程(1)训练样本选取在当前状态正常的在网用户中，选取有校园基站通信行为的个人语音卡用户，作为模型训练的样本集。(2)模型算法模型预处理：对缺失值进行处理，将输入数值类型字段中的空值全部置零。种子用户特征分析工程，根据业务理解和相关性分析，筛选保留相关度高的指标维度变量：校园主资费套餐、校园基站通话次数占比、校园基站驻留时长占比等。构建决策树模型，得到分类二叉树，输出可视化结果，转换得到分类阈值，如图1所示。根据决策树算法输出结果，结合省内各高校实际情况进行参数及特征值优化，最终确定校园本网用户

10、的识别规则。(3)模型判定规则模型最终将校园用户划分为三类客户，分别是本省我网校园用户、外省漫入我网校园用户及友商校园用户。其中本省我网校园用户由四部分客群组成，四部分用户合并后剔重，形成最终客群；外省漫入我网校园用户由三部分客群组成，三部分用户合并后剔重，形成最终客群；友商校园用户的识别只有一条规则，直接生成目标客群。各类客群及判定规则详见表1。郭向红等：基于大数据技术的高校用户识别方法研究户识别模型和异网校园用户发酵。我网校园规则生成我网校园用户交往图发酵根据发酵规则生成异网校园用户1223220AVG_GPRS.RES-0.5191142.0CID,APP_DOUO.294FRIENO.

11、CNTS-0.57T42图1决策树模型生成的分类二叉树本省我网校园用2、年龄*岁；户识规则3、*_*点校园驻留时长占比*%及以上；4、总校园驻留时长占比*%及以上1、年龄*岁；2、*点校园驻留时长占比*%及以上1、年龄*_*岁；2、*_*点校园驻留时长占比*%及以上友商校园用户识与我网校园用户*个及以上通信别规则1、外省漫入客户；2、*点校园驻留时长占比*%及以上；3、总校园驻留时长占比*%及以上外省漫入我网校1、外省漫入客户；园用户识别规则2、*_*点校园驻留时长占比*%及以上1、外省漫入客户；2、*_*点校园驻留时长占比*%及以上注：表内数据由于涉及商机机密，故作了数据隐藏处理。158（1

12、)校园用户特征探索用户明细选取充分发挥运营商大数据优势，利用大数据信令数据、用户位置信息、校园基站驻留时长、上网日志信息、学生常用APP交往圈发酵的使用情况等信息，利用随机森林算法进行特征选择，找出判发酵规则：2 个及以上本网校园用户主被叫一个异网用户的方式进行发酵les1162MAGE.OLD-14790-27.68AVG_VOIC_BHD-2.096CO,APP_DOUS1S786P0276Pe21samples3定校园用户的重要特征。(2)本网校园用户识别模型构建基于校园用户的重要特征构建决策树模型，计算分类阈值。基于分类算法得到的阈值，结合校园用户的实际情况做优化，最后形成我网校园用户

13、的识别规则。(3)异网用户发酵异网用户发酵规则，按照2 个及以上本网校园用户主被叫一个异网用户进行发酵。F83NNETLONGS-1203-1197347R,11214SUB_CHANNELDE-0.181-11582-P7111211AGEOLDSO73$11404504Oy-0.10211351151,11208C_2123_51.05111264024,11401PECE.DIST.JOS-0.60-1.1907SUB,CHANELO-0.68317750-4.174010009y-0.264P5534a10,1208SUB_CHANNELID-1028P391ety-0.918AVG.

14、VOIC_RESE-0.10s17791-0.022FREE_DOUSO.BO40343AVG.VOIC_RES5.4.435N50P-0.374表1校园客户客群判定规则1、用户名称流量大于*G及以上；2、年龄*岁；3、*点校园驻留时长占比*%及以上；4、总校园驻留时长占比*%及以上1、指定资费代码；eopy-0.918tamples3enboPy-0.97622ep,13385SUB_CHANELID-0.4B70e-PA.9233NNET,LONGS-1872039792ROPYO.O3.okeP25.7805INNETLONGS-18351373esE13410133o525Changj

15、iang Information&Communications3.4模型的输入和输出在模型设计和训练完成后，形成了最终的模型判定规则，以判定规则为依据，确定模型输入信息，主要包括用户网龄、总流量、校园基站驻留时长、总通话时长等2 8 项用户信息。表2 模型输入信息表序号字段1GPRS_RES2INNET_LONG3GPRS_RES64AGE_OLD5NIGHT_DOU6CLASS_7_20_ZB7QUAN_ZB8AVG_GPRS_RES9AVG_DOU310FREE_TIME_GPRS11CLASS_0_6_ZB12BUSY_TIME_GPRS13VOIC_USED_PROP14GRID_CO

16、DE15COMM_CHANNEL_ID16AVG_VOIC_RES17CID_APP_DOU18SUB_CHANNEL_ID19AVG_VOIC_BHD20AVG_GPRS_BHD21RED_APP_DOU22AREA_CODE23PIECE_DIST_ID24AVG_OPPER_CNT25CLASS_21_23_ZB26FRIEND_CNT27FREE_DOU28VOIC_RES模型执行周期以月为单位，执行结果在大数据平台GBASE数据库进行存储。模型输出信息主要包括用户号码、归属高校、基站ID、运营商类型等。4模型优化效果对比基于大数据平台构建的决策树分类识别模型进行测试，159郭向红等：基于大数据技术的高校用户识别方法研究在测试样本上（共收集到正样本112 2 0 条，负样本8 97 6 0 条）的查准率为96.39%，查全率为7 0.14%。由于新模型在校园基站采集方面，摒弃了手工维护的方式，采取了通过网络接口进行实时数据采集，因此，降低了数据维护的工作量，有效规避了数据维护不及时导致的数据差异问题，显著提高了模型识别的准确性。新模型建成后，有效字段名称的校园基站个数从5312

展开阅读全文