1、张伟峰,潘洁,孙亮亮,等.地震仪器运维中处置网络故障一案例分析 J.地震科学进展,2023,53(6):285-288.doi:10.19987/j.dzkxjz.2022-149ZhangWF,PanJ,SunLL,etal.AcaseanalysisofnetworkfaultsintheoperationandmaintenanceofseismicinstrumentsJ.ProgressinEarthquakeSciences,2023,53(6):285-288.doi:10.19987/j.dzkxjz.2022-149地震仪器运维中处置网络故障一案例分析*张伟峰潘洁孙亮亮樊冬(
2、安徽省地震局蚌埠地震监测中心站,安徽蚌埠233000)摘要为了保证台站观测数据的连续可靠,提高台站运行率,中心站承担的辖区站点仪器和网络运维工作显得尤为重要。本文通过在日常运维过程中遇到对台站网络故障一案例的分析及处置,阐述仪器运维过程中如何查找故障的基本工作思路和操作方法,为中心站负责仪器运维的同事提供一定的经验。关键词地震监测中心;仪器运维;网络故障;案例分析中图分类号:P315.78文献标识码:A文章编号:2096-7780(2023)06-0285-04doi:10.19987/j.dzkxjz.2022-149A case analysis of network faults in
3、the operation and maintenanceof seismic instrumentsZhang Weifeng,Pan Jie,Sun Liangliang,Fan Dong(BengbuEarthquakeMonitoringCenterStationofAnhuiEarthquakeAgency,AnhuiBengbu233000,China)AbstractInordertoensurethecontinuousandreliableobservationdataofseismicstations,improvetheoperationrateofseismicstat
4、ions,itisveryimportantfortheearthquakemonitoringcenterstationtotakechargeoftheoperationand maintenance of the instruments and network in its area.In this paper,the station uses VPN link to configureparameterrouter,whichcannotcommunicatewiththeprovincialagencyfordatatransmissionfaultcaseanalysisanddi
5、sposal.Thebasicworkingideaoffindingthiskindoffaultisexpounded.Combiningwithexperienceinactualwork,somepointsforattentionininstrumentoperationandmaintenanceatthecenterstationarealsoputforward.Keywords earthquake monitoring center station;instrument operation and maintenance;network faults;caseanalysi
6、s引言安徽省地震局在地震监测中心站改革过程中,每个中心站专门设置一个运维科室,负责辖区内站点各测项仪器和网络运维工作。台站仪器包含了四大学科,种类与型号繁多,特别是台站仪器数字化、网络化后,在实际操作中遇到出现的问题千变万化,影响的因素亦繁多,如仪器故障、网络故障、环境干扰等等,这就要求运维人员不仅要有扎实的仪器维修技术基础,还需熟悉计算机与网络方面知识,不能单纯依赖理论,更需要在运维实践中不断总结经验。本文通过介绍蚌埠市地震监测中心因网络故障造成*收稿日期:2022-10-05;采用日期:2022-11-30。通信作者:张伟峰(1983-),男,工程师,主要从事地震监测和仪器运维工作。E-m
7、ail:。第53卷第6期地震科学进展Vol.53No.62023年6月ProgressinEarthquakeSciencesJun.,2023站点前兆观测数据无法正常采集入库案例分析,探究台站仪器运维过程中查找和解决问题的基本方法1。1蚌埠市地震监测中心仪器故障简述蚌埠市地震监测中心(以下简称市监测中心)位于蚌埠市老虎山公园内,台站背景噪声低、干扰小,是 蚌 埠 市 地 震 局 建 设 并 管 理 的 市 级 区 域 台 站,2011 建成投入观测,有 SZW-水温仪,SWY-1A 型水位仪,RPT 气象三要素仪,数字化测震等观测仪器,观测数据质量较好2-3。图 1 是市监测中心台站地震监测
8、系统构成拓扑图。台站使用中国电信 50M光纤宽带网络,通过 VPN 链路配置参数路由器,实现与省局台网中心的数据传输通讯,数据服务器在省局监测台网中心机房,系统运行至今网络情况总体稳定。2022 年 3 月 27 日突然出现台站 SZW-水温仪和 RPT 气象三要素仪观测数据无法正常自动采集入库,手动采集也无法完成的故障现象。SWY-1A 型水位仪正常自动采集入库,数字化测震波形亦正常传输数据到省局测震台网中心,市监测中心安装的区域测震小台网亦能查看波形和数据分析。这很大程度影响到台站水温、气象三要素的正常观测。GPS 天线测震数据采集器地震计办公电脑交换机路由器行业网数据服务器(省局)水位仪
9、水温仪气象三要素仪图1蚌埠市地震监测中心监测系统构成拓扑图Fig.1TopologydiagramofthemonitoringsystemofBengbuearthquakemonitoringcenter蚌埠中心站运维室技术人员闻知后,主动承担了市监测中心仪器故障的维修工作,经初步检查,确认站点各测项仪器参数配置无误,便开始后续故障排查。2故障原因排查台站仪器出现故障,需及时查明原因,才能有效地解决问题,本次故障排查我们采取分步骤方式。首先排查网络,其次排查仪器本身故障,最后再查找其他原因。分析判断造成故障原因与影响因素,最后排除故障,解决问题,使台站仪器采集数据入库恢复正常。2.1 站点
10、内部网络排查市监测中心使用中国电信 50M 带宽光纤专网,由路由器配置 VPN 链路与省局台网中心网络连通。操作步骤如下:ping 命令从省局到站点仪器和路由均能连通,延迟在 15ms 左右,检查丢包率,测试结果为零;同理,使用 ping命令,反向从台站到省局网络或其他站点,亦连通,时延符合要求。考虑到台站使用的路由和交换设备在网运行 10 余年了,存在有设备老化可能,为进一步查找原因,我们更换全新路由和交换机设备,更换质量较好超 6 类网线等,完成一系列操作后,采集数据入库故障仍未排除;随后,再检查是否因仪器配置 IP 地址被封禁原因造成,更换多个 IP 地址,甚至把正常采集数据水位仪地址分
11、配给两台仪器不能正常采集数据的其中一台,故障现象仍存在。排查结果:判定台站仪器故障不是因台站内部网络问题或网络设备老化等因素原因。2.2 观测仪器故障排查无法正常采集数据的 SZW-水温仪,RPT 气象三要素仪和正常采集数据的 SWY-1A 型水位仪是由国家自然灾害防治研究院研发生产的,虽然出厂期不同,但仪器指标参数相同、性能稳定,运行至今很少出现故障。网络排查中亦确认仪器网络端口正常,重点排查仪器内部系统软件问题。两台仪器故障类型相同,先对 SZW-水温仪进行排查,联系厂家更286地震科学进展2023年换仪器系统主板,更新最新系统软件,仍未解决问题;随后配置一台全新水温仪进行对比测试,发现全
12、新仪器在同一网络环境下存在同样问题。为进一步确认是否因仪器故障造成,再把两台 SZW-水温仪送到中心站,使用中心站网络环境和服务器进行数据通讯,两台仪器数据采集均正常,确认台站观测仪器没问题。3查看路由网络配置及故障排除为进一步验证台站采集数据故障是否出在网络环境上,采取临时分配独立 IP 地址方式,使用省局的 VPN 链路流动台 4G 无线路由器代替原来光纤网络,进行采集数据试验,结果原认为有故障的两台仪器均正常采集数据,最终,基本可以判定台站故障出在站点内部网络环境下的路由配置或者运营商机房的路由配置。一般应用软件,当客户端和服务器端在建立TCP/IP 连接时,需根据实际传输的报文大小来协
13、商TCP 窗口大小 MSS。TCP 连接成功后会再经过两次滑动窗口的协商,一次仪器与服务器,一次仪器与网关,在两次协商中选择一个较小值作为窗口发送数据。MSS 值计算方法4:MSS=MTUIPTCP,也就是说 MSS 值其实是 TCP 所承载净载荷的数据长度。市监测中心目前使用的路由为 H3CMSR810 系列,中心站运维室技术人员经咨询该路由厂商售后技术支持工程师得知,MSR810 系列路由原来为 V5版本,系统自动升级后为 V7 版本,接口缺省的 MTU是 1500 字节,但一般要求加密报文头+链路层开销+IP 头(2060 字节)+TCP 报文(20 字节)应小于1500 字节,即 TC
14、P 分片配置在 1024 字节较适合。一般缺省情况下,TCP 报文没有修改分片字节。所以,导致台站仪器无法正常采集数据原因是站内路由系统自动更新后,配置的 TCPMSS 值不匹配所引起。路由原来 TCPMSS 协商配置缺省值为 1280 字节,如下:interfaceLoopBack0ipaddressXX.XX.XX.XX255.255.255.255#interfaceVlan-interface1ipaddress192.168.0.1255.255.254.0tcpmss1280解决方法:在路由器 0 端口和 1 端口,增加一条TCPMSS 值协商配置命令,把 TCP 分片配置修正为1
15、024,具体配置如下:#InterfaceGigabitEthernet0/0tortlink-moderouteripaddressxx.xx.xx.xx(运营商给的固定 IP)255.255.255.0tcpmss1024Qosoqpql1Natoutbound3001Ipsecapplypolicyahdzj#InterfaceGigabitEthernet0/1tortlink-moderouteripaddressxx.xx.xx.xx(路由器网关)255.255.255.0tcpmss1024在省局信息中心网络室技术人员帮助下,对市监测中心网络路由增加 TCPMSS 值协商配置修改
16、命令,完成路由配置参数修改后,台站仪器采集数据入库恢复正常,排除了故障。故障原因就是更改路由配置前有的仪器能正常采集数据,而出现故障的仪器实际传输的报文大小只能是 1024 字节,所以,在不能改变仪器参数配置的情况下,就应修改市监测中心网络环境下路由器的配置参数。经验告诉我们,在台站仪器运维中若再遇到类似问题,特别是在更新路由系统升级后出现故障,应该重点排查路由 TCP分片的配置参数,检查数据传输通信时所能承载的最大数据长度与仪器配置是否相符。4结束语当今,地震台或子台、一般站是一个多学科的数字化观测系统,各站点的仪器型号、类型较多,遇到的问题就会各不一样5-6,遇到问题要及时和厂家取得联系,多沟通,多向经验丰富的同事和专家请教。在台站出现该类网络故障的排查中,首先,需要认真确认仪器内部各项指标参数配置是否正确;其次,排查网络和路由网络配置是否存在问题;最后,排查仪器软硬件是否存在故障。若有条件的话,中心站应配备必要的备机备件。另外,中心站负责仪器运维的同志还需注意以下几点:(1)随着辖区台站仪器逐年进入更新换代时期,尽快建立中心站运维室台站运维工作流程,规范故障排除操作步骤,提高运维