1、多源试验数据重构与融合存储技术研究丁世来1,2,陈克澎1,2,葛智君1,2,李浩波1,2,舒宁1,2(1.工业和信息化部电子第五研究所,广东广州511370;2.工业装备质量大数据工业和信息化部重点实验室,广东广州511370)摘要:针对国内航空发动机试验数据的属性单一、数据割裂和独立存储等问题,开展多源数据重构技术及数据库融合技术研究,重点突破多维试验数据的模板化抽取、数据升维、数据重构和数据融合存储等关键技术,以满足航空企业的多源数据升维、重构和融合存储等需求,为航空工业企业由传统制造业向数字化、智能化、网络化的工业企业战略转型升级提供驱动力,优化资源配置。关键词:多源试验数据;模板化抽取
2、;数据升维;数据重构;数据融合存储中图分类号:TP 311文献标志码:A文章编号:1672-5468(2022)01-0011-05doi:10.3969/j.issn.1672-5468.2022.01.003Research on Multi-source Data ReconstructionMethod and Database Fusion TechnologyDING Shilai1,2,CHEN Kepeng1,2,GE Zhijun1,2,LI Haobo1,2,SHU Ning1,2(1.CEPREI,Guangzhou 511370,China;2.Key Laborato
3、ry of Industrial Equipment Quality Big Data,MIIT,Guangzhou 511370,China)Abstract:Aiming at the problems of single attribute,data fragmentation,and independentstorage of domestic aero-engine test data,the research on multi-source data reconstructiontechnology and database fusion technology is carried
4、 out,and the key technologies such astemplate extraction,data upgrade,data reconstruction and data fusion storage of multidi-mensional experimental data are mainly broken through so as to meet the requirements ofmulti-source data upgrading,reconstruction,integration and storage of aviation enterpris
5、es,provid driving force for the strategic transformation and upgrading of aviation industry enterprisesfrom traditional manufacturing to digital,intelligent and networked industrial enterprises,and op-timize resource allocation.Keywords:multi-source test data;templated extraction;data upgrade;data r
6、econstruction;data fusion storage收稿日期:2021-03-18作者简介:丁世来(1994),男,安徽滁州人,工业和信息化部电子第五研究所数据中心助理工程师,硕士,从事可靠性工程软件设计、质量可靠性技术研究工作。电 子 产 品 可 靠 性 与 环 境 试 验ELECTRONIC PRODUCT RELIABILITY AND ENVIRONMENTAL TESTING计算机科学与技术2022年2月第40卷 第1期Vol40 No1 Feb.,20220引言航空发动机因其高度复杂精密的特点,被誉为“现代工业皇冠上的明珠”,并且是飞机的“心脏”,直接影响着飞机的性能
7、、可靠性和经济性1。航发产品的研制和生产是衡量一个国家综合科技水平、科技工业基础实力和综合国力的重要标志。而我国航空工业系统中各种试验场景下产生的大量试验数据,普遍存在多源异构、属性单一等特点,同DIANZI CHANPIN KEKAOXING YU HUANJING SHIYAN11电子产品可靠性与环境试验DIANZI CHANPIN KEKAOXING YU HUANJING SHIYAN电子产品可靠性与环境试验2022年时试验数据处理工具或系统多是分散独立,因数据割裂而造成的“数据孤岛”现象较为严重。通过研究多源数据重构与融合存储技术,重点突破多维试验数据的模板化抽取、数据升维、数据重构
8、和数据融合存储等技术,着力解决航空发动机试验数据属性单一、表达能力弱,以及数据割裂、统一存储难等困难与问题,进一步地为动态、高效、实时的发动机试验数据分析提供有力的支撑,有效地提升航空工业企业的生产效率与竞争力,实现航空产品的生产过程智能化、流程管理智能化和制造模式智能化,实现我国航空发动机“弯道超车”,打破欧美强国对航空发动机的垄断状态,创造属于我国自主研发的航空发动机的独立领地2。1研究现状分析美、英、法等航空大国一直特别重视航空发动机试验工作。美国普惠公司借助IBM云管理,利用大数据技术对4 000多台在役商用发动机的性能监控,为客户提供更长的在翼时间、更强大的发动机机队管理和健康解决方
9、案。英国罗罗公司较早采用大数据技术建立发动机健康管理系统(EHM),实时地检测工作状态,合理地安排使用和维修时间,协助设计更加高效低耗的发动机,因而其发动机被称为“大数据引擎”3。欧洲空客公司利用大数据技术收集与分析试飞数据,实时地监控飞行状态,提供优化建议。尽管这些公司利用大数据技术收集与分析试验数据,使得设计的薄弱环节充分地暴露,并予以改进。但在多源数据重构、融合存储和存储关联等方面的技术研究和产业化应用,尚未形成较为有效的局面。国内南航、海航和国航等大型航空公司逐步地开始重视利用大数据技术对试验数据进行管理分析。南航建立飞机远程诊断实时跟踪平台,利用大数据技术解决飞行大数据的存储问题,并
10、积极地开展工程应用研究4。海航建立飞机健康管理大数据应用平台,利用大数据技术实现实时监控、健康管理和优化机队维修和工程管理水平,为维修控制、工程管理和航线维护部门带来了极大的便利5。国航Ameco工程部自主地建立飞机状态预测和维修作业管理平台,利用大数据技术对数百架飞机累计完成500多万飞行小时的试验验证,将进一步地在国航全机队中逐步地推广和应用6。尽管国内在航空大数据采集、存储、处理与分析等方面取得了一定的成效,但是在多源数据重构、多源数据融合存储、多源多维数据存储关联等方面能力仍有不足。2总体技术路线当前试验数据采集、集成、分析和应用已初具规模,但仍存在着多源试验数据属性单一、多源异构数据
11、集成困难和数据重构能力不足等瓶颈,已经严重地影响了工业多源数据的高效、深度应用,所以亟需研究多源试验数据重构与融合存储技术,突破多源异构数据在清洗、治理、重构、融合、存储与关联等方面技术,总体技术路线如图1所示。1)针对航空发动机试验中文本类、音视频类等非结构化数据,采用多源数据模板化抽取技术提取航空发动机试验数据;2)针对属性单一、字段缺失的试验数据,采用多源数据升维技术做维度扩展处理,高度聚合重要信息与特征,重构形成一种多源多维数据;3)针对数据割裂、分散存储的试验数据,采用跨引擎数据库一致性操作、异构数据源集成共享等技术,将其统一融合存储到数据库中;4)针对表达力薄弱的试验数据,采用多源
12、数据维度关联、多源异构数据引擎整合和多源数据存储管理等技术,建立形成数据存储关联机制,实现对工业多源、多维数据在存储、管理、运行和传输等方面提供高效的支撑。3关键技术研究3.1工业多源数据重构方法与应用技术研究首先,梳理与分析用户的业务实际需求,结合专家的领域知识,构建出规则执行模块、信息转换模块和规则库模块等3个部分,如图2所示。建立图1总体技术路线12DIANZI CHANPIN KEKAOXING YU HUANJING SHIYAN第1期的规则库模块中包含各类基于机器学习的模板化抽取方法,如基于规则的模板化抽取方法等7。通过规则库,建立数据抽取的模板规则或模型,对规则执行模块提供自定义
13、抽取、清洗规则等支撑,协助规则执行模块从多源异构、属性单一的试验数据中抽取有效信息(如事件、类型等),并通过信息转换模块对不同数据库内的数据进行数据转换,自动化根据用户自定义的转换规则将异构数据转换成特定的、能被用于维度扩展处理的某种数据结构存储的数据,并以转换规则的形式存放于数据库中,实现对测试数据的自动清洗。其次,对于抽取的试验数据,普遍存在着数据属性单一、分析维度不足等问题,这既要从技术的角度考虑数据升维,又不能完全依赖于技术,要适当地从业务方面结合领域知识或实践经验去梳理与分析原始数据,思索其升维后的潜在形式和数据结构,从中挖掘出数据升维的部分特征,最终满足用户的多维试验数据需求。具体
14、将从业务和技术两个方面对数据升维展开研究,如图3所示。在业务升维方面,从单一试验数据的业务角度出发,梳理与分析出工艺优化、寿命预测和环境试验性等不同层面的业务维度扩展需求,并利用逻辑关联等业务思维和统计方法提取这些数据维度扩展需求的关键特征,例如:利用基于时序逻辑的关联规则挖掘方法8,从业务逻辑思路里提取用户数据升维需求的新可用特征。在技术升维方面,基于业务升维需求分析的特征,采用数据关联技术,将抽取的单一试验数据与业务需求特征间建立关联映射规则,以业务需求驱动单一试验数据智能化获取,并采用基于神经网络算法的升维方法对数据进行升维处理,将选取的单一试验数据按照升维规则进行某种组合以生成多维数据
15、,从而实现对工业多源数据的数据重构。3.2多源数据融合存储方法与应用技术研究然后,利用异构数据库统一访问、跨引擎数据库一致性操作和异构数据源集成共享3种技术手段,实现对工业多源试验数据的融合存储。a)异构数据库统一访问方面,异构数据库具有自身应用特性、自治性、完整性控制和安全性控制等特征,是由多个数据库系统组成的,例如:Oracle、Sql Server、MySQL或者达梦、神通等数据库系统,各数据库系统运行在大型机、小型机、工作站或嵌入式系统中,涉及到的基础操作系统分别有Windows NT、Unix/Linux等。通过整合与集成不同数据库间的连接访问使用的驱动包,建立统一的数据访问入口,统
16、一数据库对各种数据展现方式、不同数据语义等要素的解释方式,屏蔽各不相同数据库的差异,并构建统一的可视化操作界面,促使应用系统与数据库系统间松耦合,从而有利于数据集成、共享与维护。b)跨引擎数据库一致性操作方面在异构数据库系统环境下,整合与统一不同数据库系统的管理维护规则,构建统一的数据模型、数据操作定义和统一的可视化操作界面,屏蔽各个数据库管理系统间的数据模型、数据结构、关系映射、物理存储、视图与物理存储映射关系、SQL语法规则、事务支持和事务安全等级等差异性,实现跨引擎数据库一致性操作,将数据模型与数据操作转换成对应的数据库操作,优化不同数据库系统的操作与维护管理工作。c)异构数据源集成与共享方面综合地考虑不同数据源的异构性,通过数据抽取、转换和装载等3个步骤,将不同来源、格式及特点性质的数据在逻辑上或物理上有机地集中,促使业务系统能够更加充分地使用已有的数据资源,减少资料获取、数据采集等重复性图2基于规则的模板化抽取方法图3面向工业多维数据的升维方法工艺优化寿命预测环境适应性分析需求分析维度分析关联对比分析待升维的数据基于神经网络算法的升维方法维度扩展后的数据常规测试数据特种测试数