1、17算力网络本期主题中国仪器仪表 CHINA INSTRUMENTATION2023年 第2期基于GPU池化关键技术实现东数西训(渲)小颗粒度资源度量与异构调度Based on the Key Technology of GPU Pooling,the Small Granularity Resource Measurement and Heterogeneous Scheduling of East Digital West Training(Shading)are Realized傅文军1 陈 飞2 李 凯2(1 浙江移动信息系统集成有限公司,浙江 杭州 310006;2 北京趋动科技有限
2、公司,北京 100081)Fu Wenjun1,Chen Fei2,Li Kai2(1 Zhejiang Mobile Information System Integration Co.,Ltd.,Hangzhou Zhejiang 310006;2 Beijing VirtAI Technology Co.,Ltd.,Beijing 100081)摘要:作为国家“东数西算”战略的重要基石,算力网络可持续发展以及及时规划和处理好发展道路中挑战和难题就显得尤为重要。面向算力网络发展的时间逻辑,按照场景优先和能力突围视角,基于市场需求和技术的成熟度为基点,开展实现东数西训(渲)小颗粒度异构资源度
3、量与高效调度是当前研究的重点,更是支撑国内建立统一大市场的组成部分。关键词:GPU池化 资源度量 异构调度 关键技术Abstract:As an important cornerstone of the national strategy of counting from the east to the west,the sustainable development of the computing network and the timely planning and handling of the challenges and difficulties in the developmen
4、t path are particularly important.Facing the time logic of the development of the computing network,according to the perspective of scenario priority and capability breakthrough,based on the market demand and technology maturity,it is the focus of current research to carry out the measurement and ef
5、ficient scheduling of heterogeneous resources with small granularity in the East digital West training(shading),which is also a component of supporting the establishment of a unified large market in China.Key words:GPU pooling Resource measurement Heterogeneous scheduling key technology收稿日期:2022-09-
6、01作者简介:傅文军(1988-),男,广西北海,汉族,本科,工程师,技术主管,主要研究方向为制造业数字化转型。引言2021年,国家发展改革委会同有关部门联合印发了 全国一体化大数据中心协同创新体系算力枢纽实施方案,提出布局建设全国一体化算力网络18本期主题算力网络 CHINA INSTRUMENTATION2023年 第2期等新一代信息技术向生产要素配置领域加速渗透,打破要素瓶颈制约和体制机制障碍,促进统一商品市场与统一要素市场融合发展5。技术是理论沉淀和业务收敛的具体表象,是事物发展过程中的内生型矛盾主要凸显。技术发展要以适应社会需求与经济发展为起点。理清关于算力网络技术的基础性和重要性并
7、开展关键论述。算力网络涉及依据节点算力资源状态和网络路径资源状态联合进行路由决策,但与传统路由转发处理不同的是,算力资源对应的最小处理颗粒度是某种基础或者叫做原子算力服务6。算力网络具备市场化的情况下,也是需要社会资源并网和高效调度的能力,本质上其对应的就是网约车市场下合乘与衔接机制,作为小颗粒度量和异构调度就成为市场化环境下的供需平衡的关键条件。2 建设思路2.1 主要场景新发展阶段,科技创新要超越传统的技术驱动,把握场景驱动的新范式、新机遇,发挥我国超大规模市场和丰富应用场景的优势,实现从创新追赶到创新引领的跨越7。技术与应用的耦合程度已经成为技术发展过程的关键指标,也会驱动技术新模式。“
8、东数西算”有四类场景:一是“东数西存”,包括运营商自己的日志数据、外部重点行业的温冷数据存储等;第二类场景是“东数西算”,包括运营商业务详单、日志的合成计算,外部客户的互联网行为、位置、行程等大数据计算;第三类场景是“东数西训”,AI模型的训练对实时性要求不高,可以在西部执行。不同的业务运行所需的算力需求的类型和量级也不尽相同,例如非实时、非移动的AI训练类业务8;第四类场景是“东数西渲”,影视的后期制作环节可以放到西部进行渲染。2.2 方案优势AI应用传统模式下对于GPU资源的使用为独占模式,Orion VGPU资源池提供动态挂载动态释放的能力,当AI业务真正发起GPU资源调用时才会给其分配
9、GPU算力资源,当AI任务结束后,GPU算国家枢纽节点,启动“东数西算”工程,构建国家算力网络体系1。目前算力网络规划面临着两大关键问题,一是资源度量标准,二是调度机制构建。资源度量标准方面,在电力服务中,可用“多少度电”来统一描述电力用量,但算力服务中类似的度量标准比较模糊,算力资源既包含多元异构、多精度的计算资源,还包含相关的存储、网络等资源。因此,算力资源度量衡的标准化是一个关键问题,涉及到多大颗粒度。调度机制构建方面,不同行业、不同应用场景对算力的需求并不完全相同,是多样化的。同时,各类算力中心提供的算力资源通常是多元异构的,如CPU、GPU、NPU等异构处理器提供不同类型、不同精度的
10、算力。加快建设全国统一大市场,加快构建新发展格局,不是简单的国内需求量的扩张,而是要在畅通国内大循环的基础上实现更高水平的双循环的相互促进2。实现小颗粒度资源度量与异构调度有利于数据顺畅流通,可信交易,数据服务,为全国统一大市场的前期创建奠定了坚实的技术支撑。1 背景概述1.1 主要功能算力网络是一种在5G、AI时代的新型资源整合方案,它将属于不同所有方的计算、存储等资源通过网络整合起来,按照用户业务的不同需求提供最优的资源服务与网络连接3。技术的发展离不开自然事实为依据,需要始终坚持实现算力在物理、逻辑、异构空间的三个融通作为实现算力网络泛在协同的第一步举措。东数西训(渲)作为东数西算在赋能
11、应用场景的组成部分。针对应用场景和能力输送是推动东数西训(渲)的关键变量,在东数西训(渲)融合精选应用和算法沉淀,融通AI算力共享平台核心能力输出。实时性业务部署东部,离线处理业务部署西部,构建以唯一标识与数据流为导向的算力网络格局。算力资源和服务的标准化度量和标识是算力网络中一个重要的支撑要素4。针对Handle标识解析系统与 算网标识体系融合与关键技术后期开展相应研究。1.2 设计理念积极推动大数据、云计算、人工智能和物联网19算力网络本期主题中国仪器仪表 CHINA INSTRUMENTATION2023年 第2期络基础设施,向融合计算、存储、传送资源的智能化云网基础设施演进9。资源平衡
12、和供需匹配作为技术发展的关键性输入,社会算力资源并网是算力网络在商业闭环中必不可少的一环。激励相融,有效衔接。除了加快完善数据基础制度体系,建立健全数据交易和激励机制也是推动算网发展首要条件。(1)GPU资源池化能力AI应用无需关注部署节点有没有GPU资源,只要在算力中心网络可达,均可以在整个算力中心范围内调用符合要求的GPU资源进行算力加速,另外还可以通过动态挂载动态释放,提升GPU的利 用率。(2)GPU算力调度能力GPU资源池化之后有各种手段实现GPU算力的调度。根据用户的业务场景对于算力的要求,可以提供指定GPU型号、指定GPU节点,也可提供给业务物理卡/虚拟卡,双资源池的模式,按需来
13、进行 调度。(3)资源池运维监控能力GPU池化后具备全局资源池性能监控,可以更细粒度的监控单张物理/虚拟GPU的利用率、使用时长、运行中的任务等,多维度、多角度的查看资源池使用情况。4 结语算力网络是计算资源使用的第二次革命,也是全国统一大市场的必然要求。其发展的关键需要基于事物的发展逻辑以及相应发展阶段,提取技术特征,开展试验验证。推动科技和经济紧密结合,“激励相容”机制促进多主体的合作与协调,加快创新成果向现实生产力转化,打通从科技强到产业强的通道。在东数西训(渲)涉及到GPU池化后续应该关注的,不仅仅是GPU算力的提升,更是众多新兴AI加速器的池化,即异构加速器的池化10。基于GPU池化
14、关键技术实现东数西训(渲)小颗粒度资源度量与异构调度高质量支撑东数西算向纵深发展,为中国建设算力网络构建新型信息基础设施,提供算力的普遍、便捷、高效的服务。坚持力资源动态释放。AI算力统筹分配。AI任务根据资源池内算力资源使用情况统一调度。AI算力资源声明式申请,资源自动聚合满足单机单卡、单机多卡及多机多卡不同场景要求。高效AI算力保障。面向云端服务器,提供智能处理,面向深度学习/机器学习的专用处理器。为云端推理提供强大的算力支撑。AI算力资源池化。硬件资源与AI应用松耦合,CPU算力与AI算力按需配比。AI算力资源按需调用,随需应变,显存可扩展、算力可超分。围绕AI算力运维管理。AI智能加速
15、卡资源集中管理,自定义AI算力监控规则及监控数据可视化,AI算力数据分析及统计报表。2.3 实践维度移动云产品和OrionX 算力池化软件进行深度的融合,实现东数西训(渲)小颗粒度异构资源度量与高效调度。一方面,大幅度提升用户的GPU利用率,帮助其节省购买成本;另一方面,小颗粒度异构资源的度量和高效调度,提升了移动云的在算力资源定价以及算力调度的优势,对比其他云服务商提供的同类服务优势明显。全栈自主可控。方案整体实现资源池全栈自主可控,可在各类人工智能应用场景提供可靠、稳定、高效的算力资源。(1)基础设施层全国产服务器采用国产海光芯片提供与Intel金牌系列同档通用算力,国内某厂家的智能加速卡
16、提供强大AI算力。(2)操作系统层银河麒麟服务器操作系统针对自主海光CPU平台在内核安全、RAS特性、I/O性能、虚拟化和国产硬件(桥片、网卡、显卡、AI卡、加速卡等)及驱动支持等方面优化增强。(3)虚拟化层趋动科技OrionX将AI算力资源抽象为虚拟资源,实现AI算力资源的软件定义。3 发展趋势新一代信息网络正在从以信息传递为核心的网20本期主题算力网络 CHINA INSTRUMENTATION2023年 第2期析J.信息通信技术,2020,14(4):7.7 李建飞,曹畅,李奥,等.算力网络中面向业务体验的算力建模J.中兴通讯技术,2020,26(5):6.8 尹西明,苏雅欣,陈劲,等.场景驱动的创新:内涵特征,理论逻辑与实践进路J.科技进步与对策,2022,39(15):10.9 唐雄燕,张帅,曹畅.夯实云网融合,迈向算网一体J.中兴通讯技术,2021,27(3):5.10 Giuliano Laccetti,Raffaele Montella,Carlo Palmieri,and Valentina Pelliccia.2013.The high performance in