1、税务清理数据平台信息简报税务综合数据平台的设想 (安徽国税局赵为民)金税三期中先行启动的工程是综合数据分析利用平台,如何建成这个平台,并充分整合数据。税务系统在实现主要税收业务系统的省级集中后,对数据进行加工利用的需求已经越来越迫切,系统内很多单位也做了各种有益的探索。国家税务总局对数据分析利用工作极为重视,把综合数据分析利用平台(以下简称“平台)的建设作为金税三期先行启动的工程,开始了建设的各项准备工作,笔者从平台的定位入手,对总局将要建设的数据综合分析平台提出一些设想。 找准定位 平台是未来税收业务管理系统和决策支持系统的技术根底,其建设既是一项复杂的系统工程,也预示着信息化条件下税务管理
2、运行方式的一次深刻变革。根据金税三期建设目标、税务数据分析利用的实际情况以及bi技术的开展趋势,平台定位应该是效劳于各种数据应用的根底性技术平台;同时又是效劳于生产系统的辅助平台。从技术角度分析,它实际上既是基于数据仓库技术实现的bi平台,又是面向一体化税务管理信息系统(或者说是“金税三期)的数据架构。 成为根底性平台 该平台应是一个开放式的、为数据分析利用提供效劳、支撑的根底性平台。 该平台不仅是针对特定数据应用的分析和查询系统,更重要的是为数据应用提供效劳、支撑的特殊应用环境。如果在建设开始不强调这一点,而是倾向于把平台作为一个封闭的应用系统来建设,一旦建成,改动的代价极大。因为二者的设计
3、思路、设计方法、实现技术都不一样。 平台也应该是数据分析应用的“操作系统,其所承载的应用和功能,包括各地开发的分析应用,只要按照平台设置的标准、标准实现,就可以类似于安装软件一样“setup。平台本身更要关注如平安控制、权限和用户管理、数据质量控制、元数据管理、业务指标体系等根底设施建设。实现方式必须结合金税三期,采用公共构件实现,不能自成体系。当然,有些效劳是作为根底效劳由平台实现,还是仅设定标准标准由具体的应用实现,这需要认真权衡。在初期建设过程中,可以先选定一些成熟的业务需求予以实现,这样一方面可以使平台具有一些实际的业务功能,另一方面可以作为示范性的应用,引导后续的应用开发。 具有操作
4、型bi 传统的bi应用,是从海量历史数据中利用成熟的分析工具发现业务中的模式和趋势,从战略上和战术上辅助决策的一种技术。这类应用的潜在使用者是省局/总局领导和局部业务精英。其表现形式是一个独立的、别离的系统。但目前bi潮流是:“如果人们需要,可以把信息有选择的提供给他们;确保信息与他们所要完成的工作相关,然后引导他们采取正确行动。操作型商务智能那么适应了这一潮流,它把bi从后台搬出来嵌入到业务操作流程的细节中,使分析功能内置在企业软件的过程界面上面,为最终用户提供信息和决策建议。操作型bi潜在的使用者是所有税务工作人员,从专管员到总局领导都能各取所需。其表现形式是功能构件或web效劳。由于操作
5、型bi在恰当的时间将恰当的信息交付给恰当的人,以便采取恰当的行动。综合数据分析平台中操作型bi可以划分为流程促进和流程驱动两个阶段分步实施。 流程促进是指应用流程或门户中嵌入商务智能。其建设目标是用户在日常工作中,不需要切换系统,就可以得到所需信息和决策建议,实现信息找人。现在很多工具厂商都以webservices的方式对外提供效劳。这使得soa以效劳调用的方式实现上述目标成为可能。 流程驱动是指使用事件驱动的分析模块、监控模块、预测模型和触发规那么等自动引导行动。主要目标是捕获业务事件,触发工作流并且将规那么自动应用到工作流执行中,实现问题找人。流程驱动是操作型bi的高级阶段,其实现必须要有
6、成熟的工作流引擎、计算引擎、规那么引擎以及soa支撑。 在平台的操作型bi实现方面,笔者的建议是。在尽可能不对现有应用改动的情况下,利用总局资源整合平台中部署的用户认证、权限管理、平安控制等功能,以soa为根底架构,通过封装、并用等手段,提供给用户一个基于原有应用的,采用了操作性bi的,智能型的一体化门户。建设的同时还要克服许多业务上和技术上的挑战,尤其是数据延迟、大用户量支持、实时数据捕获和交付等。 数据存储基于根底数据模型 可以看出,综合数据分析平台的功能边界已向生产处理过程领域延伸,所以它的数据存储是指所有税务信息的一体化存储,包括除生产过程中本期未办结的数据(包括每天晚上经审核未通过的
7、数据)外,还包括所有的生产过程产生的数据,如所有已办结的操作结果、所有管理过程涉及的工作流记录、所有执法文书和行政文书的档案以及bi所需要的应用模型等。 根底数据模型是对税收业务的高度抽象,提供对业务数据的存储、组织和整理的数据存储结构,是平台建设的根底。这个根底数据模型应满足以下条件: 概念上应是高度抽象的、中性的、共享的。可有效、全面、完整地适应与涵盖税收业务范畴以及数据范围,不针对某个特别的具体应用而设计。 结构上应是稳定的、灵活的、可扩展的。能以满足第三范式的方法构建模型,存放最详尽的数据,保证足够的灵活性,适应复杂的实际业务情况,在业务发生变化或者新增数据源时易于扩展,核心结构在很长
8、时间内应保持稳定性,便于答复不断产生、不断变化且无法预先定义的业务问题。 表现形式上应是标准的,易懂的。包括各类命名标准,业务规那么定义,度量方式等。 根底数据模型不仅仅是一套数据结构,同时应该包括数据存储的方法、对象模型分类标准,业务主题域分类标准、业务扩展标准、应用扩展标准,系统总体开展规划等一系列的技术、业务标准。 链接 税务数据利用现状 数据准备方面。税务系统经过多年的信息化建设,从全国来看,各个应用系统已经根本涵盖了税收工作的方方面面,积累了大量的根底数据,这些数据相对规整,初步具备了数据分析利用的条件。然而,各个生产系统相对独立、分散,数据重复、格式不一、难以共享,计算的指标、口径
9、也存在一定的差异,同时缺乏税收分析所需要的银行、工商等外部数据,这些都为数据分析利用工作带来了一定的难度。 业务需求方面。全国各地都整理和应用了多种多样的数据利用需求。但是,这些需求缺乏统一规划,既重叠交叉又不尽相同,有的需求甚至停留在只分析某一软件数据的层次,没有扩展到跨系统间的分析利用,也没有形成合理的查询、分析、辅助决策等分层级的数据利用体系。 应用开展方面。局部税务机关已经建设有纳税评估、税源监控等数据利用类的应用系统。但是这些分析利用,从应用层次上看,大多集中在查询、报表、统计、监控等较低层次上;从分析空间上看,大多集中在数据空间和聚合空间中,数据利用所存在的问题还没有得到根本解决,如数据一体化存储、数据质量控制、数据字典和业务指标体系建设、根底数据模型设计、分析系统与生产系统互动等。 第6页 共6页