1、浅谈IT运维管理之系统集中监控刘平均 邓阳名 朱文柳【摘 要】随着网络应用技术不断开展,IT系统越来越复杂,业务对IT系统的依赖程度也越来越高。本文从工程背景、需求目标、功能设计、效果分析几方面探讨集中监控系统的建立。【关键词】IT运维管理;监控系统 ;数据采集【中图分类号】C93【文献标识码】A【文章编号】1672-5158(2022)07-0070-01前言随着企业信息系统工程的不断建设和应用领域的不断拓展,企业管理运营对信息系统的依赖性越来越大,对IT根底平台的运行可靠性要求也越来越高,企业的信息化工作逐步从工程建设阶段转向以深入应用、提升应用水平的运行维护阶段。提高运维管理水平已成为现
2、阶段企业信息化系统应用的重要保证手段。一、背景信息管理部是信息化专业主管部门,负责网络、主机等IT根底设施和应用系统的建设、维护,致力于提供平安、高效、快捷的IT效劳。近年来,随着信息化建设的深入,企业应用不断增多,主机效劳器、网络实施、操作系统、数据库、应用效劳器等软硬件平台日益复杂,效劳用户的面不断扩大,如何维护好日益增多的主机网络设备,保证各个应用系统平安顺畅运行,为用户提供良好的效劳并及时解决各类问题和故障,是IT运维管理的关键所在。目前IT运维管理还处于初级阶段,还没有构建一个综合的IT运维管理体系。对网络、主机、系统等的管理和效劳是分散的、不关联的,没有实现数据、信息和知识库的共享
3、,没有实现标准化和流程化。因此需要建立一套融合组织、制度、流程、技术的IT运维管理体系,从粗放、分散、低效的管理逐步过渡到科学、标准的管理,实现从手工运维到自动化运维。按照IT运维管理理论、方法和标准,结合实际和建设需要,遵循立足需求、统一规划、分步实施原那么。根据实际人员和管理情况,当务之急是需要建立集中监控系统,实现对网络及信息系统的综合管理监控和日常技术支持,快速响应和及时解决信息系统运行过程中出现的各种问题和故障,确保网络及信息系统正常、稳定、高效运行。二、系统架构2.1 系统架构图集中监控系统实现对不同效劳对象和IT资源的实时监控,包括主机、数据库、中间件、存储藏份、网络、平安、机房
4、、业务应用和客户端等,并通过集中监控管理平台对不同被管对象进行综合处理和集中管理,其系统架构如图1所示。2.2 数据采集层数据采集层负责根底监控数据的采集、归并、筛选、过滤、关联等处理,同时对数据进行本地存储。数据采集的方式根据被监控对象的不同可分为:(1)路由交换机及网络平安设备的数据采集方式采用SNMP协议轮询,接收SNMPTRAP以及Sys-log,采集相关的状态、事件信息。(2)主机效劳器针对不同的操作系统类型和监控的要求,采用SNMP协议、WMI、TELNET的方式轮询。对于特殊应用需求,可以采用AGENT的方式采集数据,满足个性化的需求。2.3 数据分析处理层数据分析处理层根据系统
5、设定的各项功能模块的具体要求,对数据采集层提供的数据进行进一步组织、分析和存储,并将结果提供给上层的数据呈现层2.4 数据呈现层数据呈现层根据数据分析处理层提供的数据,通过Web界面以视图、报表等方式向用户展现。三、系统主要功能3.1 数据采集数据采集是整个集中监控系统的根底功能。采用SNMP、WMI、TELNET等协议轮询、接收SNMPTrap、Syslog,或者通过安装在主机/效劳器上的A-gent上报信息,来获取被监控对象的状态信息、日志信息和告警信息,并作相应处理。3.2 故障判断集中报警故障判断根据采集的根底数据和设定的判断基准,对事件进行判定,确定故障是否存在,并生成故障级别信息。
6、集中报警功能根据故障判断提供的故障级别信息,采取不同的报警策略自动触发,驱动不同的报警程序,比方邮件、短信、声光等。3.3 性能管理性能管理对设备性能进行实时监控,比方:网络设备的CPU、内存、端口流量,主机系统的CPU、内存、磁盘读写、交换文件等。监控参数管理可以定义监控周期和性能阈值,当性能超过阈值时,系统发出报警信息。3.4 网络拓扑管理网络拓扑管理利用直观的图形展示,帮助管理员更好地了解网络系统的联接情况,在网络中出现故障时能够快速定位故障发生的位置,从而更快速恢复故障。网络拓扑管理根据网络连接情况,自动生成和实际情况相符的网络拓扑图,为管理员提供真正的网络视图。通过网络拓扑图管理员可
7、以方便地掌握设备分布情况和每个设备的运行状态。3.5 报表管理报表管理用户可以订制资源使用报表、故障统计报表、资源趋势报表、TOPN统计报表、可用性统计报表、综合报告等不同类别的报表,并生成柱状图、曲线图、饼图等直观图表,实现各种信息的统计和分析,全面、宏观地展示网络的运行情况,有助于更细致地分析网络数据,观察网络、系统中可能存在的热点故障、故障多发设备、故障多发时间,性能变化趋势等,从中发现规律和趋势,为决策者和管理人员提供详细的统计分析报表。3.6 配置管理配置管理主要反响网络系统中被监控系统配置更新的情况。3.7 系统管理系统管理主要包括系统配置、用户管理、监控行状况等的管理。用户管理是实现系统用户的根本信息维护和权限管理。监控策略管理是根据不同的监控对象和应用环境,设置不同的监控策略,比方数据采集周期、报警方式。四、结束语通过实施集中监控系统,可以获得以下效果:各个分布在不同物理区域的系统都纳入到集中监控系统,管理员可方便查看各个系统的运行情况,提高工作效率,节约人力本钱。实现自动监控,在无需人员查看的情况下及时发现系统隐患和故障,提高发现系统错误的及时性、准确性,提高工作质量。按区域,设备,时间对监控工程的结果进行统计,并提供周报,月报,年报。使管理层能更方便有效地了解网络、系统的运行情况,进行运行趋势分析以及统筹规划。