收藏 分享(赏)

SeerAnalyzer技术方案解析_逄金龙.pdf

上传人:哎呦****中 文档编号:199931 上传时间:2023-03-07 格式:PDF 页数:5 大小:1.68MB
下载 相关 举报
SeerAnalyzer技术方案解析_逄金龙.pdf_第1页
第1页 / 共5页
SeerAnalyzer技术方案解析_逄金龙.pdf_第2页
第2页 / 共5页
SeerAnalyzer技术方案解析_逄金龙.pdf_第3页
第3页 / 共5页
SeerAnalyzer技术方案解析_逄金龙.pdf_第4页
第4页 / 共5页
SeerAnalyzer技术方案解析_逄金龙.pdf_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、通信管理与技术 2022 年 12 月 第 6 期 47技术业务交流 Technical&Operation Exchanges1概述随着互联网进入大数据时代,网络规模、数据流量都呈爆炸式增长。传统的网络运维模式已经力不从心。企业数字化转型带来效率和灵活性提升的同时,也导致 IT 系统日趋复杂,从而增加了问题定位难度,同时也带来其他问题,如对运维人员数量和技能要求也急速增长,运维成本越来越高;现有的运维系统是分钟级数据采集,无法做到实时、精准采集,从而无法确认故障的准确发生时间;缺乏有效的事前预测和干预手段等。智能运维(AIOPS,Artificial Intelligence for IT

2、Operations)因此应运而生。智能运维将AI(Artificial Intelligence,人工智能)应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),借助大数据和 AI 技术,通过机器学习和深度学习算法,从应用的视角来观察网络,主动感知网络和应用存在的问题。同时针对业务问题提供自动化排障能力,帮助用户快速进行故障定界和恢复。实现降低运维成本,提高企业产品的竞争力的目标。SeerAnalyzer(先知分析器)是新华三 SNA(SeerNetwork Architecture,先知网络架构)的核心组件,通过对设备性能、用户接入、业务流量的实时数据采集和状态感知,并通过大数

3、据分析技术和 AI 算法,将网络的运行可视化,主动感知网络的潜在风险并自动预警。SeerAnalyzer 可构建多维可视:应用 360 度可视,包括 TopN 应用流量、应用流的转发路径、实时大小、应用质量(延时、抖动、丢包等)、应用健康度等信息的可视;包括网络拓扑、设备运行状态(CPU、内存占用率等)、链路状态等信息的可视;用户接入网络过程的健康度数据、行为状态数据,以及用户网络使用量数据及趋势数据等的可视。自动分析、智能预测,SeerAnalyzer 自动对采集上来的海量数据进行大数据分析,并结合 AI 算法,对数据进行多维度数据分析、故障相关性关联分析,从而识别出网络中的异常事件。同时,

4、结合机器算法,进行数据趋势分析及预测分析,主动感知网络内可能存在的故障。SeerAnalyzer 技术方案解析 黑龙江农垦通信有限公司 逄金龙/文摘要:随着企业数字化转型进程的推进,IT 系统也在快速演进以响应业务需求,与此同时,网络的规模、复杂度也在快速增加以满足上层应用的需求,业务对网络可靠性及最小化故障恢复时间都提出了更高的要求,传统的运维手段在问题发现、问题定位和问题解决的过程中逐渐变得力不从心。本文通过对 SeerAnalyzer(先知分析器)设备的系统架构、数据采集和数据分析、使用场景、技术实现和典型组网的分析与研究,在网络运行维护中提高业务可用性并降低网络维护成本。关键词:See

5、rAnalyzer;AI;数据采集;智能运维中图分类号:TP274+.2文献标识码:B文章编号:1672-6200(2022)06-0047-05图 1482022 年 12 月 第 6 期 通信管理与技术Technical&Operation Exchanges 技术业务交流2SeerAnalyzer 技术实现2.1 整体架构SeerAnalyzer 基于智能分析大数据平台构建,通过 gRPC、ERSPAN、INT 等 Telemetry 技术接收来自网络设备的数据上报,运用智能算法对网络数据进行分析、呈现。SeerAnalyzer 系统架构如图 2 所示:SeerAnalyzer 从设备数

6、据上报到页面呈现,数据流处理过程经历数据源上送、数据采集、kafka 数据缓存/分发、数据处理、数据存储 5 个部分:(1)数 据 源 上 送:网 络 设 备 数 据 源 包 括:通过 Telemetry 方式采集的性能 Metrics 数据、通过SNMP/NETCONF 技术采集设备各种运行监控数据、Syslog/Userlog 日志数据、Netstream 技术采集的应用流数据、ERSPAN/INT 技术采集设备转发数据等。采集的 TCP 报文、INT 技术采集的 INT 报文需要先上送采集器处理。对于 ERSPAN 镜像的 TCP 报文,采集器会对收到的报文打时间戳,再发送给分析器进行处

7、理。(2)数据采集:SeerAnalyzer 通过相关协议采集设备上报数据,其中 ERSPAN 镜像的 TCP 数据、INT数据由采集器上送。(3)数据缓存、分发:Kafka 是一个高吞吐、分布式、基于发布订阅的消息系统,通过 Kafka 接收SeerAnalyzer 采集服务上报的设备原始数据,提供数据订阅消费能力,供上层系统获取数据进行分析处理。Kafka 的消息队列可以确保所有采集数据都能得到处理。(4)数据处理:对于 Kafka 数据,SeerAnalyzer的数据处理服务先对原始数据进行 ETL 清洗(脱敏、去脏、去重、补缺等),根据上层分析业务的差异,对采集的原始数据的做多方面、多

8、维度的分析和处理。如实时数据处理、离线数据处理、流处理等;(5)数据存储:采集数据经预处理之后,根据业务分析需要,存储到GreenPlum 或 influxDB 数据库中。同时根据不同分析功能需要,会对数据做各种聚合处理,聚合后数据会新建库表存储。SeerAnalyzer 数据流处理流程如图 3 所示。2.2ERSPAN 流分析技术ERSPAN(Encapsulated Remote Switch Port Analyzer)封装远程端口镜像,其功能是将镜像报文封装为协议号是 0 x88BE 的 GRE报文,通过三层网络路由转发到远端监控设备。2.2.1 TCP 流采集技术在 Internet

9、 网络中,应用层协议在不同主机之间进行数据交互时,经常需要一个可靠的、像管道一样的连接,来保证数据转发的可靠性。这就需要使用传输层的 TCP 协议来进行数据流的传输。TCP(Transmission Control Protocol)是一种面向连接的、可靠图 2图 3通信管理与技术 2022 年 12 月 第 6 期 49技术业务交流 Technical&Operation Exchanges的、基于字节流的传输层通信协议。TCP 使用三次握手来建立连接。三次握手完成后,TCP 客户端和服务器端就成功地建立连接,可以开始传输数据。SeerAnalyzer可利用网络设备的ERSPAN技术,在 T

10、CP 报文转发路径上下发流匹配规则,将 TCP 报文镜像到 SeerAnalyzer 采集器。SeerAnalyzer 分析器通过对 TCP 特征报文进行深度分析,来实现应用流的流量统计、路径还原、延时计算、应用识别等分析处理动作。图 42.2.2 TCP 会话流量统计技术SeerAnalyzer 分析器可以根据建立 TCP 会话的 SYN、FIN 报文的 TCP 首部的序列号(Sequence Number)计数,来统计通过该 TCP 会话传输的数据流大小:(1)请求方向流量:请求方向的 FIN-ACK 序列号 SYN 序列号;(2)应答方向流量:应答方向的 FIN-ACK 序列号 SYN-

11、ACK 序列号。2.2.3 TCP 报文转发路径还原技术TCP 报文在网络设备中进行三层转发时,IP 首部的TTL 字段会逐跳递减。基于这个原理,SeerAnalyzer分析器对采集的 TCP 报文,先按照内层报文的内容进行匹配,识别从 3 台交换机上采集的三个 TCP 报文属于同一个 TCP 会话。再根据内外层报文的 TTL 进行降序排列,之后再根据一定匹配识别规则计算,就可以还原出原始 TCP 报文的转发路径。如图 4 所示,还原TCP 报文的转发路径是 Leaf1-Spine1-Leaf2。2.3 Telemetry 技术Telemetry 是一项监控设备性能和故障的远程高速数据采集技术

12、。H3C的Telemetry技术采用gRPC协议,通过推广模式(Push Mode)主动把设备数据信息上送给采集器,从而实现比传统 SNMP 查询方式更实时、更高效的数据采集性能。gRPC(Google Remote Procedure Call,Google远程过程调用)是Google发布的基于HTTP 2.0传输层协议承载的高性能开源软件框架,提供了支持多种编程语言的、对网络设备进行配置和管理的方法。通信双方可以基于该软件框架进行二次开发,从而使得双方可以聚焦于业务,无需关注 gRPC 软件框架实现的底层通信。根据设备和网管的数据传输方式的不同,gRPC 网络架构分为 Dial-in 和

13、Dial-out:(1)Dial-in 模式的设备作为 gRPC 服务器,采集器作为 gRPC 客户端。由采集器主动向设备发起 gRPC连接并订阅需要采集的数据信息,Dial-in 模式适用于小规模网络和采集器需要向设备下发配置的场景。(2)Dial-out 模式的设备作为 gRPC 客户端,采集器作为 gRPC 服务器。设备主动和采集器建立 gRPC连接,将设备上配置的订阅数据推送给采集器,Dial-out 模式适用于网络设备较多的情况下向采集器提供设备数据信息。2.4 AI 预测和异常分析SeerAnalyzer 采用时序数据特征分解、机器学习等 AI 算法,支持对某些网络指标数据进行异常

14、分析和动态预测。其中异常分析用于检测历史点是否存在异常,动态预测则可以对后续一定时间内的数据趋势进行预测,给出一个预测的曲线图。异常分析用到了动态基线方法,对设备采集的历史数据进行建模训练,形成一个动态预测基线,作为异常检测阈值。并且动态基线能够基于一段时间的历史数据不断自动学习,反复修正。基于动态基线的异常检测算法,能够更准确的适配网络实际运行状况。建立基线的数据指标如表 1 所示。表 1数据大类基线指标最长历史训练数据周期基线计算周期基线数据保留时长设备/单板CPU 利用率近 14 天1 天1 月内存利用率接口收/发包数近 14 天1 天1 月收/发错包数收/发丢包数收/发广播包数光模块光

15、模块接收/发送功率、电流、电压、温度近 14 天1 天1 月502022 年 12 月 第 6 期 通信管理与技术Technical&Operation Exchanges 技术业务交流动态基线使用离线计算方式,如根据历史 14 天数据每隔一天计算一次,一次计算出未来一天的指标基线预测值。生成的动态基线数据粒度与原始数据粒度一致。完整的动态基线数据流图如图 5 所示。2.5 故障分析与感知SeerAnalyzer 根据客户现网的实际应用场景,对 采 集 上 来 的 ERSPAN 流 数 据、INT 流 数 据、Telemetry 性能 Metrics 等数据,从网络分析、应用分析、用户分析三个

16、维度,进行大数据分析。同时,结合异常检测动态基线等 AI 算法进行智能分析,主动感知网络是否存在潜在风险并预警。(1)网络分析:网络分析主要是对网络拓扑、网络设备,以及设备资源进行动态实时监控,通过智能分析,来判断是否发生突变,从而进行预警。如网络链路流量监控、光模块监控、设备 CPU、内存占用率监控、芯片转发层面表项资源监控等。(2)应用分析:应用分析,主要侧重于识别应用的交互行为是否出现异常、应用的服务质量是否出现异常等,如TCP异常检测、应用的转发路径可视及延时分析等。(3)用户分析:用户分析侧重于用户的体验,如用户的接入异常或失败等问题。如通过统计一段时间内,出现接入异常人数与总关联人数的对比值作为 KPI,来进行基线分析和异常检测。3组网应用和功能业务3.1 园区场景:VIP 用户保障保障重点用户的上网体验,VIP用户拥有如下特权:优先接入:即使在用户接入数达到规格时,也能保证接入(挤掉普通用户);链路带宽保障:对非 VIP 用户限速、来保证 VIP用户的链路带宽;流量保障:对 VIP 用户的上下行流量进行优先转发。基于 SeerAnalyzer 的无线运维历史数据,通过对

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2