1、众创空间科技创新与应用Technology Innovation and Application2023年8期福彩销售大数据平台设计与应用樊东霞(中国福利彩票发行管理中心数据管理部,北京 100101)目前福彩系统的信息化建设,多以各省具体的信息化需求为出发点开展工作,即开票、电脑票销售系统均由各省福彩中心自行建设,导致原始数据缺乏统一的技术标准与数据标准规范,中国福利彩票发行管理中心(以下简称“中福彩中心”)对原始数据的实时收集与处理存在困难,无法对业务开展的事中风险进行排查与管控,在营销宣传、渠道管理、数据管理与应用管理等方面存在一定制约,对系统整体的架构规划、架构管控方面存在不足,因此亟
2、需站在系统全局视角,整合中福彩中心层面和各省市中心层面的信息化需求,加强数据统筹管理。福彩销售大数据平台基于大数据技术设计与开发,为整合各省销售数据资源,打造集数据接入、数据处理、数据存储、监测管理、BI 报表和可视化平台于一体的大数据平台,着力提升信息化管理与服务能力,实现数据要素价值的充分发挥。1大数据技术随着计算机技术全面融入社会生活,移动互联、电子商务平台、社交媒体和物联网技术正在不断改变人们的生活方式,其数据量与对传输速率的要求超过了传统数据库的处理能力,数据的爆发式增长与社会属性是大数据概念及相关技术应运而生的本质原因,维克托 迈尔-舍恩伯格1将大数据定义为不用随机分析法这样的捷径
3、,而采用所有数据的方法。大数据也可用5V 特征概括,主要包括 Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)和 Veracity(真实性)。1)Volume:数据量的超大规模与数据的高速增长。2)Velocity:对海量数据的快速处理。3)Variety:数据格式多样化,既包括结构化数据,也包括语音、图片和视频等非结构化数据。4)Value:数据的低密度价值,数据存在大量不相关信息,需要通过技术手段挖掘其中的有用信息。5)Veracity:数据的准确性,即数据质量。大数据技术主要包括数据收集、数据存储、数据计算和大数据分析与应用,如图 1 所示
4、。1.1数据收集数据收集是大数据的基础,数据只有经过了数据作者简介:樊东霞(1986-),女,硕士,工程师。研究方向为信息安全,大数据技术。摘要:随着中国福利彩票发行管理中心对数据管控和业务监管的要求不断提高,对销售数据实时性、准确性也提出更高要求。通过建设福利彩票销售大数据平台,实现全国范围内彩票销售数据的实时归集,为彩票的发行销售业务提供数据支撑与决策依据。目前每天约有数千万条彩票销售数据实时传报归集,并通过大数据平台实现对彩票业务的监管。关键词:彩票;大数据;系统设计;数据分析;引擎中图分类号:TP391文献标志码:A文章编号:2095-2945(2023)08-0033-04Abstr
5、act:With the increasing requirements of China Welfare Lottery Center for data control and business supervision,it alsoposed higher requirements for the real-time and accuracy of sales data.Through the construction of welfare lottery sales big dataplatform,the real-time collection of national lottery
6、 sales data is realized,which provides data support and decision-making basisfor lottery issuance and sales business.At present,about ten million national lottery sales data are collected and reported in realtime every day,and the lottery business is regulated through the big data platform.Keywords:
7、lottery;big data;system design;data analysis;engineDOI:10.19981/j.CN23-1581/G3.2023.08.00833-2023年8期众创空间科技创新与应用Technology Innovation and Application收集才能归并,以供后续进一步处理。数据源根据不同的类型和应用场景,可分为关系及非关系型数据库、应用的日志信息、消息型数据和多媒体文档等,不同类型的数据需要采用不同的数据收集技术框架。常见的数据收集技术框架包括 Kafka、Flume、Logstash、FileBeat和 Sqoop 等。图1大数据技术结
8、构图1.2数据存储目前传统的关系型数据库已不能适应结构化、半结构化和非结构化海量数据的存储及计算要求,选用何种数据库一般会根据数据的类型及使用场景选择一种或多种的大数据存储方式。如分布式文件/对象数据库可采用 HDFS,分布式关系数据库可采用 TiDB、DRDS 等,文档数据库可采用 MongoDb、CouchDB 等,图数据库可采用 Neo4J、OrientDB 等。大数据存储有时也配搭传统关系数据库作为辅助,如存储索引、统计结果等。1.3数据计算大数据计算常用框架主要包含批处理框架、流处理框架。批处理是先存储后处理,而流处理是直接处理2。Hadoop 是应用较为广泛的批处理框架,其包含分布
9、式文件存储数据库 HDFS 和计算框架 MapReduce,HDFS 为海量数据提供了存储,MapReduce 对海量的数据进行计算。流处理框架以 Storm 为代表,无须存储,只要数据源处于活动状态,数据就会持续生成,并以流的形式在各工作节点的内存中进行计算3,此外还有 Spark、Flink 等混合计算框架。1.4大数据分析与应用大数据技术的应用场景很广泛,常见的如各种统计分析报表、BI 报表、客户画像、信息推送和定制化服务等,目前在金融行业、医疗行业、零售行业、互联网和电信行业等各领域均有涉及。2平台系统架构2.1系统总体架构销售大数据平台整体分为 3 层,即数据资源层、数据平台层和数据
10、应用层。数据流向如图 2 所示,数据资源层数据通过数据接收平台流向数据平台层,数据平台层接收并存储数据资源层数据,并通过数据清洗、数据转换和挖掘分析,为数据应用层提供数据服务,数据应用层提供数据引擎进行并展示各种统计数据,同时对业务进行实时监控与风险控制。图2数据平台总体架构2.1.1数据资源层数据资源层主要包括各省中心上传的即开票销售数据、即开票仓储物流数据、电脑票销售数据、弃奖数据、兑奖数据和渠道数据等,也包括各省中心应用服务数据、容灾备份等其他数据。2.1.2数据平台层数据平台层包含数据接收平台、ETL 服务、数据存储平台和管理控制单元等,将数据资源进行接收、存储与加工整合。数据平台层提
11、供数据接收服务,对各省市报送的数据进行接收,并将接收到的数据存储到数据存储平台。数据平台层提供数据转换、数据清洗服务,对接收到的数据进行数据清洗,根据数据流水号检测数据报送过程中遗漏的数据,将结果反馈给省中心进行数据补报。数据平台层提供数据挖掘功能,对清洗后的数据进行挖掘分析,将分析结果存储到关系型数据库Greenplum 中。数据计算数据收集数据存储大数据分析及应用HDFSMongoDBKafkaFlumeLogStashFileBeatTiDBNeo4JMRFlinkStormSparkKylinPrestoMetabaseSuperset大屏展示数据分析数据报送系统监控数据查询引擎销量分
12、析引警游戏分析引警渠道分询引擎资金分析引擎风险分析引擎数据应用层数据平台层管理控制集群&HA权限管理配置管理数据管理监控&告警数据存储平台数据接收平台ZookeeperGreenPlumSpark Streaming 实时数据处理HDFS 分布式文件系统Yarn 资源调度Hbase 数据库Kafka 消息队列数据接收前置机数据资源层省中心数据省中心数据省中心数据省中心数据HiveMRSpsrk34-众创空间科技创新与应用Technology Innovation and Application2023年8期数据接收平台整体接口设计为 RESTful,遵循统一接口原则,使用 XML 格式进行定义
13、,系统对接简单高效,能够支持全国各省销售系统对接。接收平台数据转化服务能够从配置管理中心实时获取最新的数据格式配置文件,在数据规范发生变更时能够及时进行变更,数据格式校验具备热更新的能力。数据接收平台使用 LVS 技术进行负载均衡,LVS是一个虚拟的 Linux 服务器集群系统,主要用于多个Linux 服务器的负载平衡,在 Linux 内核层级实现了基于 IP 的数据请求负载均衡调度方案,平台中采用该技术实现高并发数据的负载均衡处理,保证了平台在高并发情况下的运算能力,同时数据接收平台支持动态扩展,允许系统快速弹性扩容,在高并发压力下,实现秒级系统弹性伸缩,提升数据接收平台整体的可扩展性。2.
14、3数据存储平台大数据存储平台提供分布式数据存储文件系统、分布式数据库、分布式计算框架及大数据挖掘程序,对海量数据进行存储并挖掘价值数据。1)数据存储平台使用 HBase 作为实时数据接收数据库,将 Spark Streaming 计算后的结果数据存储到数据库,实现实时入库。2)数据存储平台使用 VMware 虚拟机集群,搭建Hadoop 大数据集群,大数据集群中使用 HDFS 作为底层分布式文件存储系统。3)数据存储平台使用 Hive 作为离线数据挖掘分图3数据接收平台2.1.3数据应用层数据应用层提供数据查询引擎、销量分析引擎、游戏分析引擎、渠道分析引擎、资金分析引擎和风险分析引擎,通过上述
15、引擎提供实时监控、销量查询分析、数据建模分析、异常监控和业务报表查询及生成等功能。2.2数据接收平台数据接收平台(图 3)为各省中心提供统一的数据报送接口,各省按照协议中规定的格式通过数据接收平台报送各类数据。接收平台提供数据转换服务对报送的数据格式进行实时格式校验,保证报送数据能够进行正常转换,转换正确的数据被写入到数据存储平台的消息队列 Kafka 中,Kafka 是一个分布式、支持分区的、多副本的和基于 Zookeeper 协调的分布式高速消息传递系统4,Kafka 集群作为消息中间件,对大量写入的交易数据进行缓存。接收平台通过 Spark Streaming消费 Kafka 集群中指定
16、的 Topic 来获取业务数据并进行实时计算,包括对数据进行一致性校验,对校验后的数据进行指标计算、数据建模等,将计算后的结果存储到数据库中。接收平台同时将格式错误的数据流水号保存至数据库中,省中心可以通过查询异常流水号,对错误的数据进行补传,保证数据的一致性。Spark Streaming 是构建在 Spark 上的实时计算框架,扩展了 Spark 处理大规模流式数据的能力,SparkStreaming 可结合批处理和交互查询,足以胜任除高频实时交易以外的其他流式准实时计算场景。SparkStreaming 构建在 Spark 之上,一方面是因为 Spark 的低延迟执行引擎(100 ms 左右)可以用于实时计算,另一方面,弹性分布式数据集(RDD)更容易做高效的容错处理。此外,Spark Streaming 采用的小批量处理方式使得其可以同时兼容批量和实时数据处理的逻辑和算法,因此,适用于需要历史数据和实时数据联合分析的特定应用场合。省中心数据省中心数据省中心数据省中心数据省中心数据资源数据接收平台数据转换数据转换数据转换数据转换数据转换防火墙负载均衡数据存储平台HBaseHBas