1、工业控制计算机2023年第36卷第2期图2数据文件解析流程基于跨平台的仪器设备数据智能采集技术实现随着大数据、物联网、工业互联网等技术的日渐成熟和广泛应用,将加速推动传统产业向着数据化的变革。对传统仪器设备进行适度的数字化改造再利用,是当前推进数字化转型必经路径。在转型发展与变革过程中,会遇到各种技术难题,其中不同平台或无API接口的仪器设备数据自动采集是制约数字化工厂、智慧实验室等数据化转型的关键技术。目前,国内较多工厂、实验室、企业所使用的实验仪器、研发设备、仿真仪器等仪器设备基本上都是国外企业提供,多数国外企业不提供仪器设备的数据API接口,只能通过人工读取文件的形式提取数据。另外,传统
2、仪器设备来自不同知名企业的不同设备,部分数字装备系统严格封闭,缺乏外部通信连接和数据API接口设计,大量传统仪器设备因设计之初没有考虑数据采集、数字化控制、网络控制等需求,进行数字二次改造升级难度较大。通过对不同平台的仪器设备数据智能采集技术的研究,将突破跨平台的数据采集和国外企业对我们的技术限制,推动工厂、实验室、企业对新旧仪器设备的数字化升级改造,实现对仪器设备利用的质量变革、效率变革。1技术实现跨平台即不依赖于操作系统,也不依赖硬件环境,可兼容各类型的仪器设备。实现跨平台的仪器设备数据智能采集技术主要由仪器设备、前置服务器、云服务器3部分组成,构建成数据智能采集网络,如图1所示为技术实现
3、流程。其中,仪器设备支持不同品牌、不同类型、不同时期的产品;前置服务器是本课题的主要技术研究对象,负责数据的智能采集,可连接若干仪器设备,连接方式可以采用直接连接或间接连接;云服务器将各个前置服务器的数据汇总,进行存储、整理、分析等。1.1数据文件解析流程数据文件处理主要分为目标文件夹的监听、数据文件解析规则、数据文件解析实现三部分,如图2所示为数据文件解析流程。前置服务器运行时,将自动读取配置文件,并开始对仪器设备输出文件的指定文件夹进行监听。如果发现有新数据文件生成,将对该数据文件进行判断。仪器设备产生的数据文件主要分为可直接读取文件与不可直接读取文件,对可直接读取的文件直接进行文件读取、
4、配置数据分析规则,自动转换为结构化数据;对不可直接读取的文件将文件转换为图片后,使用OCR技术转换为文字,再进行处理。对于部分可直接读取文件,存在读取编码为乱码、读取区域为图片的问题,将通过使用OCR技术只针对部分区域进行自动识别,以提高解析效率。在成功读取文件后,通过配置解析规则,解析文件数据从而获取所需要的结构化数据,并通过网络传输至云服务器。以上过程全部自动完成,包含智能判断文件、解析文件等,为确保仪器设备数据采集技术宋刚(贵州省电子工业研究所,贵州 贵阳550004)翁海明(贵州行游通新媒体科技有限公司,贵州 贵阳550025)Implementation of Intelligent
5、 Data AcquisitionBased on Cross-platform Instrument and Equipment摘要:数字化转型是面向时代发展新需求,通过对仪器设备数据智能采集技术的研究,解决工厂、实验室、企业推进数字化、网络化和智能化生产过程中数据自动化获取的痛点。在不对新旧仪器设备升级改造的情况下,跨平台实现各类仪器设备产生的数据自动监听、解析、存储、传输,从而有效规范了工作流程,保证工作质量,减少人工操作和重复性工作,避免因人为干预造成数据的不准确,同时极大提高了工作效率,促进数据的开发利用与监督管理。关键词:跨平台;OCR技术;数据采集;PythonAbstract:
6、Digital transformation is a new requirements of the development of the times,through the research of intelli-gent data acquisition technology of instrument and equipment,this paper solves difficult points in automated data acquisi-tion,which in the process of digitization,networking and intelligent
7、production in factories,laboratories and enterprises.Un-der the premise of avoiding the upgrading and transformation for old instruments and equipment,this paper implementes across-platform technology of automatic monitoring,parsing,storage,transmission for data generated by various instrumentsand e
8、quipment,thus effectively standardize the work flow,ensure the quality of work,it reduces manual operation and du-plication of effort,avoids data inaccuracy caused by human intervention,at the same time.This technology improves thework efficiency greatly,and promotes the development,utilization and
9、supervision of data.Keywords:cross-platform,OCR technology,data acquisition,Python图1技术实现流程11基于跨平台的仪器设备数据智能采集技术实现的准确性、稳定性、高效性,将采用Python编写相应软件代码。1.2目标文件夹的监听为实现智能处理仪器设备生成的数据文件,对相应的数据文件存放目标文件夹进行实时监听,当仪器设备生成数据文件时,监听程序监测到文件夹新增文件,将根据配置文件读取对应的解析规则对报告进行文件解析,并根据解析结果标记报告文件为成功或失败,防止文件重复解析。整个监听过程无需人工干预,可自动完成,管理端
10、可实时查看监听情况。1.3数据文件解析规则文件解析规则是该技术的重要组成部分之一,它包括整个数据自动采集过程中的各项参数配置。解析规则采用JSON格式文件进行配置,一台前置服务器可同时配置多个解析规则,配置参数主要包含目标文件夹地址、解析所需工具类、解析类型、解析编码、设备型号、设备编码、解析规则等相应字段,如表1所示为数据文件解析规则主要配置参数。表1数据文件解析规则主要配置参数1.4数据文件解析实现(1)可直接读取文件的解析对于可直接读取的仪器设备生成的数据文件,首先通过读取配置好的解析规则,根据数据文件判断是否为标准格式。若为标准格式,则直接将数据文件转化为table文件再对所需结果进行
11、读取;若文件为非标准表格、图谱等,则根据解析规则,对文件进行区域切割,对每个区域判断是否存在表格;若存在表格,则需对每个区域进行表格检索,再读取表格数据;若区域内无表格,则使用正则表达式进行单一或多次命中;若区域内容存在跨页情况,则先对跨页内容进行合并,并对页头页尾等多余内容进行去噪声处理后再对切割区域做解析操作。如图3所示为可直接读取文件解析流程。(2)不可直接读取文件的解析对于不可直接读取的仪器设备生成的数据文件,首先将数据文件转化为图片,再借助OCR技术将图片转化为文字,转化为line、span、word、React等实体,还原为可直接读取文件,从而达到文件解析的目的。OCR技术是光学字
12、符识别的缩写(Optical Character Recognition),通过检测文件的暗、亮模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。在文字识别过程中,识别结果是多区域、多行、分词形式的,为使识别结果可用于文件解析,先对识别结果进行Y轴排序,对在同一Y轴上的集合进行X轴的排序后再进行合并,从而将不可直接读取的文件转化为正确的可直接读取的文件,才能进行一系列的文件解析工作。如图4所示为不可直接读取文件转化流程:图4不可直接读取文件转化流程2技术验证对基于跨平台的仪器设备数据智能采集技术进行验证。软件集成了easyOCR、MuPDF、tourch、pdfplumber等第
13、三方库,UI界面使用tkinter编写,使用pycharm开发工具,包管理工具为Anacoda,开发环境为macOS、Win10。运行环境:操作系统Win10 x64、CPU i5-4590 4核、内存8GB;仪器设备名称(可直接读取数据文件):原子荧光光谱仪,型号为AFS-933;仪器设备名称(不可直接读取数据文件):液相色谱串联质谱仪,型号为TSQ QUANTUM ULERA。验证所使用的两台仪器设备属于不同平台、不同类型的产品,并且其中1台可直接读取数据文件,另1台不可直接读取数据文件。如图5所示软件运行截图,包含设备名称、仪器设备文件夹路径、解析配置文件、日志等。通过前置服务器的文件监
14、听、规则配置、文件解析、数据传输等步骤,实现了跨平台的仪器设备数据智能采集技术,图6为2台仪器设备数据文件解析截图。3结束语对基于跨平台的仪器设备数据智能采集技术的研究,通过文件监听、规则配置、文件转换、结果读取实现对数据文件的智图3可直接读取文件解析流程12工业控制计算机2023年第36卷第2期(上接第10页)(4)路由模块根据列车通信需求,路由模块将列车信号网络及列车控制网络数据加密后,根据目标网络将报文路由至不同数据发送模块,数据发送模块再将数据发送至相应的地面服务平台,实现不同系统、不同用途的数据分流。安全控制模块的工作流程图如图4所示:图4安全控制模块工作流程图3结束语随着以太网技术
15、在列车网络中的应用,列车网络安全问题越来越引起各方关注。本文提出一种列车数据安全处理架构及实现方法,包含数据收集模块、设备维护模块、数据发送模块、安全控制模块。作为列车网络中唯一与外界网络进行通信的接口,列车数据安全处理架构在满足列车通信需求的前提下,解决了列车网络与地面服务平台间的信息传输安全问题、维护终端接入列车网络访问控制等一系列安全问题,降低了列车网络遭受攻击的风险,提高了列车网络的稳定性,确保列车的安全运营。参考文献1鲁振山,吴子伟,王德民.基于工业以太网的列车网络控制系统研究及应用J.铁道机车与动车,2022(3):28-30,33,5-62徐燕芬,赵婧,姜仕军.下一代地铁列车网络
16、控制系统的研制J.铁道车辆,2017,55(7):27-31,513单正辉.基于全以太网的列车网络控制系统在美国地铁列车上的应用J.铁道车辆,2021,59(1):53-58,634曾东亮.成都地铁既有列车网络控制系统对比分析J.铁道机车车辆,2019,39(S1):40-445周淑辉,常振臣,张尧,等.列车网络系统的网络安全分析与安全防护J.城市轨道交通研究,2020,23(2):84-876陈超群,陈勃,刘布麒,等.轨道交通网络信息安全防护系统研究与设计J.电气技术,2020,21(2):50-55收稿日期:2022-06-29能采集。该技术准确率、稳定性达到预期目标,后期结合工业、实验室、企业等,可实现多样化的数据应用与管理,从而助力工厂、实验室、企业对仪器设备的数字化升级改造,实现新技术与传统产业广泛结合,推动高质量发展。参考文献1雷云鹤,薛耀锋.自动识别和数据采集技术标准发展现状研究J.中国教育技术装备,2013(3):49-512王茂森,尹衍鹏,刘科.智能实验室自动化数据采集研究与开发J.电子世界,2017(10):1473童保军.智能实验室管理系统的自动化数据采集优化方向