1、红外热成像技术在数据中心预测性维护中的应用伍盛达,田宇(工业和信息化部电子第五研究所,广东广州511370)摘要:介绍了红外热成像技术在数据中心预测性维护中的应用,详细地论述了维护流程、步骤和方法,并提供了具体的案例分析。结果表明:在数据中心预测性维护中使用红外热成像技术进行分析诊断,能有效地发现缺陷,消除隐患,对数据中心的安全可靠运行起到积极的效果。关键词:红外热成像技术;数据中心;预测性维护中图分类号:TN 219文献标志码:A文章编号:1672-5468(2022)01-0023-04doi:10.3969/j.issn.1672-5468.2022.01.005Application
2、of Infrared Thermal Imaging Technologyin Predictive Maintenance of Data CentersWU Shengda,TIAN Yu(CEPREI,Guangzhou 511370,China)Abstract:Theapplicationofinfraredthermalimagingtechnologyinpredictivemaintenance of data centers is introduced,the maintenance process,steps and methods aredescribed in det
3、ail,and a specific case analysis is provided.The results show that usinginfrared thermal imaging technology in predictive maintenance of data centers for analysis anddiagnosis can effectively find defects,eliminate hidden dangers,and play a positive effect on safeand reliable operation of data cente
4、rs.Keywords:infrared thermal imaging technology;data centers;predictive maintenance收稿日期:2021-06-25作者简介:伍盛达(1988),男,广东广州人,工业和信息化部电子第五研究所计量检测中心工程师,从事数据中心基础设施及智能化系统检测工作。电 子 产 品 可 靠 性 与 环 境 试 验ELECTRONIC PRODUCT RELIABILITY AND ENVIRONMENTAL TESTING可靠性物理与失效分析技术2022年2月第40卷 第1期Vol40 No1 Feb.,20220引言预测性维护是
5、指通过各种技术手段进行数据和信号的采集、分析,同时结合设备运行的寿命期统计规律或历史数据,预测可能的后果,提前采取有针对性的维护活动1。得益于无损检测、智能监控和工业物联网等技术的发展,数据中心积累了大量的设备运行参数、环境参数等监测指标,为预测性维护提供了良好的基础。设备温度是预测性维护中重点关注的指标之一。温度异常经常是通信机房设备存在隐患的前兆2。红外热成像技术作为一种非接触、无损的温度检测手段,如何应用到数据中心预测性维护中,值得我们探讨。1流程应用红外热成像技术的预测性维护流程图如图1所示。根据设备的使用寿命规律和历史数据来制定预测性维护策略,通过数据采集筛选,最终形成DIANZI
6、CHANPIN KEKAOXING YU HUANJING SHIYAN23电子产品可靠性与环境试验DIANZI CHANPIN KEKAOXING YU HUANJING SHIYAN电子产品可靠性与环境试验2022年历史数据库。根据决策判断方法及模型标准,结合历史数据对采集结果进行对比分析,若出现异常值,则进行原因查找并修复,修复后进行数据复测并重新录入历史数据库进行对比;若无异常值,当次检测完成,根据检测数据重新制定预测性维护策略。1.1预测性维护策略预测性维护策略包括维护范围、维护频次和更新策略等。根据红外热成像技术的特点,将维护范围规定为电缆、母排、接线端子和断路器等电气元件。在设备
7、投入使用的早期,其失效率较高,随着时间的延续呈逐步下降趋势3。这一时期被称为早期失效期。因此,在设备施工调试后正式投入使用前需进行预测性维护,并且在额定满负荷状态下测量电气元件的温度并采集相关数据。在设备投入使用的首年,预测性维护频率为每季度一次。若一年内,检测数据符合要求且无明显的变化,则可判断设备进入恒定失效率期。在此期间,应以半年一次的频率检测电气元件的温度。当设备运行时间接近寿命限期或从数据分析中发现劣化趋势,可判断它已进入耗损失效期,预测性维护频率应加大到每季度一次。对于超期使用的设备,预测性维护频率应加大到每月一次,若温度指标无异常,经维护审批部门对其维护成本、更换成本和使用价值评
8、估后可决定是否继续使用。对于温度指标异常的设备应进行修复或更换。1.2数据采集数据采集可通过在线监测及离线检测两种手段完成。检测过程中,要注意排除人体热辐射、阳光、运行指示灯或荧光灯等干扰。当发现异常热点时,应确定红外发射率已根据热点位置的材料进行合理设置,并以不同的角度反复扫描,排除外部热反射引入的干扰。1.3历史数据库数据采集完成后,存入历史数据库进行归档,用于后续的判断分析中。归档数据应包含采集日期、被测元件位置、电流、环境温度和热像图等信息。必要时还可以添加更详细的描述,如设备(元件)的额定电流、电流谐波、红外发射率和外部影响因素等内容,使分析的原材料更丰富和详实,提高决策判断的可信度
9、。1.4决策判断方法决策判断方法主要有3种,分别是表面温度判断法、同类比较法和历史比较法。判断输出结果有4种情况,分别为正常、一般缺陷、严重缺陷和紧急缺陷。为了方便判断分析,下文提供了各种方法的数学模型,并规定正常、一般缺陷、严重缺陷和紧急缺陷4种情况分别对应数字0、1、2和3。a)表面温度判断法将红外热成像仪测得的电气元件表面温度与温度限值进行比较判断。对于实际的运行负荷电流为额定电流或接近额定电流时,判断结果的可信度较高。因此,在早期失效期内进行满载压力检测时,优先采用此方法进行判断。表面温度判断法的模型如下:f(t)=3(tT1)2(T2tT1)0(tT1,0.95)2(tT1,0.95
10、)1(tT1,0.350.95)0(tT1,0.35|)(2)式(2)中:t电气元件最热点的温度;被测点与同类点的相对温差;T1温度限值。T1的具体取值如表2所示。c)历史数据比较法将红外热成像仪测得的电气元件表面温度与历史数据进行比较。综合分析负荷电流、环境温度、图像特征和变化趋势等因素,得出判断结果。在历史数据存量较少无法拟合趋势线的情况下,可仅与前次的数据进行比较;在两次的负载电流及环境温度相近时,其模型如下:f()=1(0.35)0(0.35)(3)式(3)中:本次检测值与上次检测值的相对温差。1.5原因查找及修复数据中心中电气元件的异常热点以电流致热型为主。温度异常原因有接触不良,电
11、缆松股、断股、老化和设计容量不足等,可根据各种缺陷的典型热像图进行分析。根据缺陷的严重程度制定相应的修复策略。对于一般缺陷,可利用停电维护的机会,有计划地安排修复工作,消除缺陷;对于严重缺陷,宜在一周内进行修复;对于紧急缺陷,应立即进行修复。2实例分析以华南某大型数据中心为例做分析。首先,制定初次预测性维护策略。规定本次预测性维护的范围为变压器出线柜、ATS柜、馈线柜、UPS输入柜、输出柜和动力配电柜内的电气元件。经统计,设备已运行8年,而交直流配电设备的平均寿命约15年。根据全生命周期失效率变化规律,可知设备处于恒定失效率期。预测性维护频率为半年一次。采集配电房温度及流过各个电气元件的电流参
12、数及红外热成像仪的检测结果存入历史数据库。例如:3-2UP6 B相铜排存入以下要素,如图2所示。由于此次是初次预测性维护,缺乏历史数据,因此,只采用表面温度判断法和同类比较法进行分析,过程中发现两处缺陷。表1T1、T2具体的取值表4设备类别和部位温度限值/T1T2电器设备与金属部件的连接接头和线夹11080金属部件与金属部件的连接接头和线夹13090金属导件11080表2T1的具体取值表设备类别和部位温度限值/电器设备与金属部件的连接接头和线夹95金属部件与金属部件的连接接头和线夹95金属导件95位置检测日期环境温度/最热点温度/I/A3-2UP6 B相铜排2019年8月9日22.627.88
13、2.7图2历史数据要素伍盛达等:红外热成像技术在数据中心预测性维护中的应用25电子产品可靠性与环境试验DIANZI CHANPIN KEKAOXING YU HUANJING SHIYAN电子产品可靠性与环境试验2022年如 图3所 示,3#电 抗 器 的 最 热 电 温 度 为134.1,可直接采用表面温度判断法进行判断。根据式(1)及表1判断该处存在紧急缺陷。如图4所示,A相最热电为34.8,虽然热点温度未超过限值,但温度高于其余两相。因此,选择同类比较法进行分析。通过DCIM平台参数采集可知,环境温度为22.6,A相电流为122.6 A,B相电流为120.1 A,C相电流为118.2 A
14、,三相电流接近。通过红外热成像仪检测得出B、C相的最热电温度分别为25.6、25.2。计算得到A相热点相对B相热点的相对温差为307%。根据式(2)及表2判断该处存在严重的缺陷。如图3所示,电抗器与外部电气接线的连接处为最热点,温度以接头为中心向四周快速地递减,因此推断缺陷原因可能为接头老化或接触不良。立即启动紧急缺陷响应措施,更换电抗器接头,复测后温度恢复正常。如图4所示,热像以铜排连接处螺栓为中心缓慢地向四周扩散,因此可推断缺陷原因可能为连接螺栓松动。并在两周后完成了螺栓紧固工作,温度恢复正常。3结束语实践表明,通过红外热成像数据采集,合理地选取决策判断模型进行分析,能有效地发现缺陷,消除
15、隐患,对数据中心的安全可靠运行起到积极的效果。红外热成像技术在数据中心预测性维护应用中的难点在于决策分析,因为这不仅涉及大量的数据统计比对,还涉及图像特征的判断。当前,对红外热像的特征判断还停留在人工阶段。如何利用图像识别技术进行图像特征智能识别,提高判断效率及准确性。这一课题值得我们研究探讨。参考文献:1住房和城乡建设部.数据中心基础设施运行维护标准:GB/T 513142018 S.北京:中国计划出版社,2018.2姜宁.预测性维护温度异常分析J.电信工程技术与标准化,2007(7):84-87.3江玉彬.浴盆曲线在通信电源设备管理中的应用J.通信电源技术,2013(1):34-36.4国家能源局.带电设备红外诊断应用规范:DL/T 6642016 S.北京:中国电力出版社,2016.5郭建军,孙晓菲.热像技术在设备维护和检测中的应用简介J.河北建筑工程学院学报,2013,31(2):69-73.图43-1UP1 A相铜排热像图图3-1F P12配电柜3#电抗器热像图26