ImageVerifierCode 换一换
格式:PDF , 页数:8 ,大小:1.90MB ,
资源ID:494419      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/494419.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(国产高性能智能计算服务器研究_靳文兵.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

国产高性能智能计算服务器研究_靳文兵.pdf

1、收稿日期:2021-08-23修回日期:2021-11-12作者简介:靳文兵(1968-),男,山西太原人,博士,正高级工程师。研究方向:计算机体系结构,嵌入式系统,高性能计算。摘要:针对下一代智能化军事信息系统对智能计算、深度学习等复杂密集计算能力的迫切需求,基于自主可控关键软硬件及智能计算协处理加速部件,突破新一代智能异构可扩展体系结构、多层次异构加速计算技术、多异构资源管理、智能计算运行支撑技术等关键技术,研究高性能智能计算服务器,实现智能计算服务能力的显著提升,为典型复杂军事应用系统智能计算业务提供强大(核心节点)和高效(边缘和端)算力支撑,从根本上解决国产通用CPU 算力不足问题。关

2、键词:异构;可重构;智能计算;人工智能框架;多层次加速中图分类号:TP302文献标识码:ADOI:10.3969/j.issn.1002-0640.2022.11.023引用格式:靳文兵,郭江宇,郭潇,等.国产高性能智能计算服务器研究 J.火力与指挥控制,2022,47(11):139-146.国产高性能智能计算服务器研究靳文兵,郭江宇,郭潇,王高峰,郝志超(北方自动控制技术研究所,太原030006)Research on High Performance Intelligent Computing ServerJIN Wenbing,GUO Jiangyu,GUO Xiao,WANG Gao

3、feng,HAO Zhichao(North Automatic Control Technology Institute,Taiyuan 030006,China)Abstract:In view of the urgent demand of the next generation intelligent information system forcomplex and intensive computing capabilities such as intelligent computing and deep learning,based onindependent and contr

4、ollable key software and hardware and intelligent computing co-processingacceleration components,the new generation intelligent heterogeneous scalable architecture,multi-levelheterogeneous accelerated computing technology,multi-heterogeneous resource management,intelligentcomputing operation support

5、 technology and other key technologies are broken through,high-performance intelligent computing servers are researched.The significant improvement of intelligentcomputing service capability is realized,strong core ability and efficient edge-to-end computing powerto support intelligent computing ser

6、vice of typical complex military application system are provided,theproblem of insufficient computing power of domestic general-purpose CPU is fundamentally solved.Key words:heterogeneous;re-configurable;intelligent computing;artificial intelligence framework;multi-level accelerationCitation format:

7、JIN W B,GUO J Y,GUO X,et al.Research on high performance intelligent com-puting server J.Fire Control&Command Control,2022,47(11):139-146.0引言信息化战争的突出特点是战场数据量急剧增长,各类先进的观测手段、广泛分布的物联网设备和高速计算机、宽带通信网络都将带来海量的数据。早在阿富汗战争期间,美军为打击恐怖分子动用的全方位情报侦察监视系统,每 24 h 产生高达53 TB 的数据,曾致使美军陷入数据的汪洋大海中。当前,全球数据量正呈几何级增长。2021 年预计

8、全球将总共拥有 35 ZB 的数据量。谁掌握了数据谁就文章编号:1002-0640(2022)11-0139-08Vol.47,No.11Nov,2022火 力 与 指 挥 控 制Fire Control&Command Control第 47 卷第 11 期2022 年 11 月139(总第 47-)火 力 与 指 挥 控 制2022 年第 11 期掌握了战争资源,也就掌控了战争主动权和胜利的筹码。为实时完成未来指挥、侦察领域任务规划、情报分析、辅助决策、装备保障等海量数据运算和处理工作,智能化(无人化)军事信息系统应运而生,NPU、GPU、FPGA 和 ASIC 等异构资源正在人工智能、深

9、度学习框架下发挥着强大而特有的功能,并推动异构计算模型、可重构技术、智能计算等方面的研究进入广泛而深入的学术领域。1总体研究智能计算服务器总体架构采用分层结构,主要包括硬件层、系统软件层、支撑软件层和应用软件层。图 1 为服务器系统分层体系架构。硬件层:研究基于 4 路国产飞腾 S2500 处理器(CPU)和人工智能协处理加速模块(NPU+FPGA)构建高性能服务器1。人工智能协处理加速模块采用 PCIe 4.0 接口与主板进行互联,以便充分发挥NPU 和 FPGA 芯片性能,满足高带宽、高访存需求。服务器支持连接显示设备(BMC),具备高速有线网络连接能力和远程管理能力,支持鼠标、键盘等输入

10、设备,同时支持串口,支持通过 USB 接口连接更多外设。图 1服务器系统分层体系架构系统软件层:通过固件引导系统,支持国产固件。操作系统为国产银河麒麟服务器版操作系统。具有良好的兼容性和易用性,支持 FPGA 驱动和NPU 驱动适配,实现在国产操作系统下对智能处理加速模块的设备驱动,负责智能加速模块和主控单元的数据传输和任务调度功能。FPGA 驱动为底层硬件重构提供支持,同时实现对重构模型的调用。支撑软件层:异构加速的核心库,包含了一套神经网络算子库、运行时程序库和神经网络图引擎框架。算子是基本计算单元,封装了深度学习框架中常用算法及矩阵、向量计算。从智能计算和深度学习领域选择足够具有代表性的

11、算子,充分涵盖两个领域,同时尽可能地减少冗余。核心算子库可提供简洁、高效、灵活、可扩展的编程接口,使得异构加速模块能方便地应用于灵活多变的场景中;深度学习框架和模型包含常用加速算法,按照应用场景划分为 CV(图像分类、目标检测)、NLP(语义分析、机器翻译、情感分析、语言模型)和语音(语音识别、语音合成)。智能计算包括遗传算法、蚁群算法等。应用软件层:面向垂直应用解决实际问题。军用人工智能应用模型算法通过 Docker 虚拟机获取系统应用编程接口,调取系统计算资源,实现应用软件功能。1.1异构可扩展研究采用国产高性能 CPU、NPU 和 FPGA,设计基于多总线的异构可扩展计算机体系结构。利用

12、 FPGA硬件在线可编程特点,形成可重构、能扩展的异构智能高端计算平台,整机体系结构如下页图 2 所示。1.2算力层次化研究1.2.1编程算子设计根据应用需求编写的最小运算单元形成各种算子。算子是一种空间映射。研究面向算法语义的1401994(总第 47-)编程算子,以及依托智能计算协处理模块编写的conv2d、depthwise_conv2d 和 mul 等深度学习算子,支持人工智能算法主要计算逻辑,如卷积、全连接、激活等操作。基本算子与建立在智能检索、代码自然语言处理、程序代码语义学习功能之上的算法,构成人工智能运行框架加速运算的两个中间层。1.2.2算法逻辑实现研究智能检索、代码自然语言

13、处理、程序代码语义学习等算法特征,按照算法基本运算过程,编写 FPGA 硬件逻辑实现代码,完成算法模型到异构器件的加速器,实现算子在 CPU 及异构器件上的适配。如典型智能检索算法模型中的遗传算法在 FP-GA 上的加速器构建需要经过的步骤如图 3 所示。图 3FPGA 加速器构建过程1.2.3算子算法适配在操作系统底层,通过智能计算协处理加速模块驱动程序,向上层应用程序提供对 FPGA 模型算法和 NPU 芯片功能函数的直接调用接口。操作或操作集封装成 API 函数,构成智能化计算平台加速运算的底层调用接口,支持最基本的硬件级操作,包括加、减、乘、除运算以及矩阵和向量卷积运算操作等,可以实现

14、简洁快速的计算功能。1.2.4智能框架设计图像分类、自然语言处理、语音识别是人工智能领域的 3 个主要方向。设计 CV 模型库、NLP 模型库和 Speech 模型库分别覆盖 3 个领域。CV 模型库包括图像分类算法、目标检测算法、图像分割算法、视频分类算法、图像生成算法、3D 视觉算法等。NLP模型库包括词法分析算法、情感分析算法、语言模型算法、语义表示算法、机器翻译算法等。Speech 模型算法库包括语音合成算法、语音识别算法等。基于以上 3 类算法模型库的人工智能框架实现多层次异构加速计算。1.3管理与调度设计1.3.1资源能力描述异构硬件资源主要包括 NPU 和 FPGA 以及外围资源

15、,如:存储器、总线、接口等。异构资源能力描述是实现异构资源管理与协同调度的基础2。由于异构资源存储空间并不对系统开放,属于专用资源,因此,异构硬件资源能力描述主要集中在异构器件如 NPU、FPGA 的特征能力描述,包括器件编号、类型、指令系统描述、核心数、管道、域空间划分、制约规则集、有效性、通信能力等。表 1 为设计异构计算资源能力描述表头。表 1异构计算资源能力描述1.3.2应用能力描述为实现对异构资源功能的实时加载和调度管理,需刻画智能应用算法在 CPU 资源以及异构资源上的能力描述。CPU 和 NPU 功能固定,描述刻画清晰。FPGA 具有可重构性,支持多种算法、算子加载运算,实现硬件

16、级加速。需根据智能应用算法需求设计 FPGA 实现,保证实时性计算资源支持。表 2 为智能应用算法能力描述表头。表 2智能应用算法能力描述1.3.3高效调度机制清晰描述应用需求及异构资源能力是精细化管理和高效调度机制实现的基础。采用虚拟资源池化汇聚异构资源,实现注册、发布和阻塞、激活等异构计算资源初级管理。利用容器化组件管理智能应用需求。虚拟机系统通过表 1 和表 2,实现精细化匹配管理。采用预选算法和优选算法,实现计算资源高效调度。1.4平台与框架研究1.4.1深度学习框架国产深度学习框架主要有百度 PaddlePaddle、华为 MindSpore、旷视 Brain+等。国外更成熟的是谷歌的 TensoFlow 和脸书的 PyTorch。深度学习框架算法函数算子制约条件ID规则ID规则ID规则时间序列/资源名称类型ID管道核心数量域空间制约规则有效性指令系统通信能力算法算子/图 2异构可扩展体系结构靳文兵,等:国产高性能智能计算服务器研究1411995(总第 47-)火 力 与 指 挥 控 制2022 年第 11 期一般具有以下特性:使用数据流抽象;计算图通过底层引擎执行;模型推理

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2