1、INFORMATION INDUSTRY|19信息前沿INFORMATION FRONTIER1.概述移动核心网向 5G 时代演进的同时,基础硬件的形态也经历了由实到“虚”的变化。尤其是 5G 核心网的控制面网元,从传统独立硬件改为部署在云化架构,其安全性变得更为重要。而 5G 网络安全,5G 核心网网元垂直容灾可靠性研究 文/杨聚毅大到环境因素、传输路由、机房分布,小到物理机、虚拟机、微服务架构,方方面面都需要考虑。如何既能保证网络的安全可靠性,又可以灵活部署,是当前运营商面临的一个重大课题。2.5G 核心网络容灾架构5G 核心网采用服务化架构,如图 2-1所示。在服务化架构下,NF 网元容
2、灾可以利用 NRF 的注册和发现机制实现。(a)服务注册时包含容灾节点信息。(b)NRF 在服务发现时向消费者提供生产者列表的同时包含容灾节点。图 2-1 5G 服务化架构20|INFORMATION INDUSTRY信息前沿INFORMATION FRONTIER(c)消费者向 NRF 订阅生产者状态变更通知。(d)NRF 辅助通知生产者退出服务。2.1 架构可靠性5G 核心网元(AMF,SMF,UDM,PCF 等)采用云化分布式软件架构,将业务数据等部署到不同的节点上,从而实现产品可靠性。云化分布式软件架构如图 2-2 所示:2.2 网元功能可靠性网元控制类处理单元要求容器-虚拟机-物理机
3、两层强反亲和部署,当虚拟机或物理机故障时,均不会引发网元同类型控制类功能故障或性能急剧下降问题。冗余部署:网元内同类型 Node 个数大于等于2,同类型Pod个数大于等于2。反亲和部署:虚拟机反亲和部署:相同类型虚拟机部署到不同的物理主机上;容器反亲和部署:提供相同服务功能的容器,部署在不同虚拟机上。2.3 资源可靠性网元功能的正常运行,依靠各类资源正常运行。而资源的可靠性,可通过故障检测、多级自愈、部署防脑裂集群/检测集群/业务管理集群等机制来保障。发生故障后,可根据故障检测的结果,触发相应等级/类型的自愈机制。例如,进程级的故障,触发进程本地的复位以实现自愈;如果进程本地的复位无法实现自愈
4、,则触发容器级的自愈机制;如果容器级的复位无法实现自愈,则触发虚拟机级的自愈机制。虚拟机级的自愈分为,复位、重建、迁移 3 种方式。2.4 数据可靠性控制面网元可以提供系统运行数据和业务运行所需的数据的备份和恢复功能。系统数据和业务数据在存储过程利用分布式存储、存储空间防满、存储设备故障监测等技术提升存储设备可靠性。3.5G 核心网垂直容灾测试3.1 测试方案为了验证 5G 核心网网元在发生故障时能,虚机能够通过迁移、重启等操作实现网元自愈,本文对 5G 核心网的 AMF、SMF、UDM、PCF 等主要网元,进行了垂直容灾测试。测试方式如下:选择某局址的一个单一网元,先确图 2-2 云化分布式
5、软件架构图INFORMATION INDUSTRY|21信息前沿INFORMATION FRONTIER认支撑网元的虚机部署在多台物理机上,并具备冗余虚机资源,具备自愈的前提条件。采用串行方式逐台下电物理机,模拟故障后虚拟机自动重建迁移至其他物理主机,观察其对业务的影响。观察每类网元的虚拟机故障期间,对业务产生的影响,网元自身及周边告警分析以及虚拟机、POD 故障恢复情况。下电物理主机后,其上承载的虚拟机运行状态变为 Unavailable。出现系统告警。3-10 分钟后,下电的物理主机上所有的虚机在另外的物理主机上重建完成。虚拟机的运行状态变为 Normal。重复以上过程,下电网元使用的其他
6、物理机,采用相同的操作流程,虚机均在下电 10 分钟左右后重建。物理机故障导致虚拟迁移重建期间,多个网元的测试结果表明,与业务直接相关的虚拟机故障时对网元业务有短时间影响(业务消息已发往该虚拟机,且刚好此刻虚拟机故障了),与业务非直接相关的虚拟机故障对网元业务无影响。其中 POD也随着虚拟机恢复而恢复。3.2 测试结果通过对多种 5G 网元发生故障后虚拟机自愈过程的测试和观察,可以确认 5G云化网络的架构及容灾机制可以实现业务的容灾保障。测试结果总结如下:网元各类虚拟机部署数量满足冗余设计,亦满足反亲和规范设计;虚拟机自动重建时满足反亲和规范设计;虚拟机和 POD 故障后业务内部迁移是符合预期
7、;负荷分担类型虚拟机故障后,网元功能不受影响,但网元处理容量根据故障虚拟机数量呈线性下降。主备类型虚拟机故障后,网元功能及容量均不受影响;5GC 网元的业务数据可靠性设计符合预期;单台服务器故障,网元业务不受影响;网元相关告警符合预期。4.结束语本文通过对 5G 云化核心网的多个网元进行垂直容灾测试,验证分布式架构的网元具有以下优势:高可靠性:系统中任意一个实体发生故障,其负荷自动均衡到其他实体,保证系统持续提供服务。平滑扩容:扩容时,仅需增加相应的实体。新增实体运行后,系统负荷自动均衡,保证整个扩容过程不影响系统对外提供服务。这不仅是对云化网元可靠性的证明,而且对于测试其他网元的垂直容灾可靠性提供了可借鉴的经验和成果。(中国联合网络通信有限公司四川省分公司,四川 成都,610000)