收藏 分享(赏)

20220831-东吴证券(香港)-电子行业智能驾驶芯片:概览.pdf

上传人:a****2 文档编号:3039818 上传时间:2024-01-18 格式:PDF 页数:36 大小:2.97MB
下载 相关 举报
20220831-东吴证券(香港)-电子行业智能驾驶芯片:概览.pdf_第1页
第1页 / 共36页
20220831-东吴证券(香港)-电子行业智能驾驶芯片:概览.pdf_第2页
第2页 / 共36页
20220831-东吴证券(香港)-电子行业智能驾驶芯片:概览.pdf_第3页
第3页 / 共36页
20220831-东吴证券(香港)-电子行业智能驾驶芯片:概览.pdf_第4页
第4页 / 共36页
20220831-东吴证券(香港)-电子行业智能驾驶芯片:概览.pdf_第5页
第5页 / 共36页
20220831-东吴证券(香港)-电子行业智能驾驶芯片:概览.pdf_第6页
第6页 / 共36页
亲,该文档总共36页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、Overseas Observation Series:Reference to the competitive landscape of intelligent driving chips from Tesla,Nvidia and MobileyeShirui Ouyang(852)3892 .hk31 August 2022Soochow Securities International Brokerage Limited would like to acknowledge the contribution and support provided by Soochow Research

2、 Institute,and in particular its employees Liangwei Zhang(张良卫)and Ruizhe Liu(刘睿哲).Equity Research Industry Research SemiconductorIntelligent driving chips(also known as autonomous driving chips,ADAS chips,etc.)are mainly computing units that enable vehicles to achieve autonomous driving and are a ty

3、pe of AI chips.Starting from Computer Vision(CV),ADAS chips have gradually evolved algorithms for situations that people might encounter when driving.There are two types of algorithms:top-down(Google,Baidu)and bottom-up(Tesla,XPeng).Based on these two algorithms,GPU(NVIDIA)and ASIC chips(Tesla,Qualc

4、omm,Mobileye,Horizon Robotics)are derived.With the accelerated development of automobile intelligence,intelligent driving chips will usher in a stage of rapid expansion,and there is a lot of room for growth.We estimate that the market size of the field will increase from US$1.9 bn to US$5.4 bn from

5、2021 to 2025,with a CAGR of 30%.Since autonomous driving is a new field and there is very little gap between domestic and foreign manufacturers,there are opportunities for domestic manufacturers.We recommend Nvidia(NVDA.O)and put the following three into watchlist:Tesla(TSLA.O),Mobileye&Intel(INTC.O

6、),Horizon Robotics(unlisted),etc.Risks:The governments fade out in policy support leads to a slowdown of autonomous driving market growth;regulations on autonomous driving and artificial intelligence have become stricter,resulting in the delay of commercial projects;Autonomous driving technology can

7、not meet commercialization expectations,which slows down industrial development.Investment ThesisManufacturersAdvantagesDisadvantagesTesla(1)More efficient chips.(2)Easier to try new solutions.(3)Integrated production brings faster iteration speed.(1)May choose the wrong direction of technical itera

8、tion.(2)R&D costs are high if there are fewer deliveries.Nvidia(1)Starting from the original business,the software and hardware are highly reusable,so the initial cost is low.(2)Leading AI software and hardware technology.(1)Greater versatility may lead to lower efficiency.(2)If the earnings effect

9、is not significant,the company may not invest much in the business.Mobileye(1)Years of experience of intelligent driving chip,the product has been verified.(2)The use cost of car companies is low;theres no heavy expense except product cost.(1)The new algorithm for support is weak,so the upgrade abil

10、ity is doubtful.(2)The company mainly adopts a black box solution,so car companies cannot use data resources.Qualcomm(1)The dominant position of the smart cockpit.(2)Experience in chip research and development(1)Less experience in AI research and developmentTexas Instruments(1)Strong supply chain ma

11、nagement capabilities.(2)Rich experience in product implementation.(1)Less experience in AI research and developmentHorizon Robotics(1)Advantages in Algorithms.(2)The team focuses on making autonomous driving chips and devotes itself to it.(3)Chinese suppliers are attractive to Chinese car companies

12、.(1)The company is smaller in scaleHuawei(1)Rich Algorithms and chip design capabilities.(1)Problems with tape-out caused by sanctionsTable:Comparison of advantages and disadvantages of different manufacturersData sources:Official websites of the companies,Soochow Securities(HK)bY9ZfZOAnNsRbRaO9PmOq

13、QoMoMeRmNqQlOtRsO8OpNrRwMqRpMxNnRzQ智能驾驶芯片(又可称为自动驾驶芯片、ADAS芯片等),主要是让车辆能够实现自动驾驶的计算单元,是人工智能(AI)芯片的一部分,从计算机视觉(Computer Vision,CV)出发,逐步演化出了针对汽车在驾驶中所遇到场景的算法;算法有自上而下(谷歌、百度)和自下而上(特斯拉、小鹏)两种流派。在相关算法基础上,衍生出了相应的GPU(英伟达)和ASIC芯片(特斯拉、高通、Mobileye、地平线)。伴随着汽车智能化的加速发展,智能驾驶芯片将迎来快速扩张的阶段,成长空间很大,我们测算20212025该领域市场规模会从19亿美元增

14、长到54亿美元,CAGR为30%。由于自动驾驶属于新鲜事物,国内外差距不大,国产厂商存在机会。我们推荐英伟达(NVDA.O),建议关注特斯拉(TSLA.O)、Mobileye/英特尔(INTC.O)、地平线(未上市)等。风险提示:政府减少对自动驾驶领域的扶持政策导致自动驾驶市场增速放缓;自动驾驶相关领域、人工智能相关领域法律趋严,导致商业化项目迟迟无法落地;自动驾驶相关技术无法达到商业化落地预期,整个产业发展缓慢等。核心观点厂家优势劣势特斯拉(1)芯片效率更高(2)可以更容易尝试新方案(3)一体化带来更快迭代速度(1)可能选错技术迭代方向(2)如果出货量较少,则研发成本偏高英伟达(1)从原有业

15、务切入,软硬件复用性强,初始成本低(2)人工智能软硬件技术领先(1)通用性较强,可能导致效率偏低(2)如果赚钱效应不高,则该业务资源投入可能不多Mobileye(1)深耕多年,产品得到验证(2)车企使用成本低,除产品费用外,无需过多投入(1)新算法支持性弱,升级能力存疑(2)黑盒方案为主,车企无法利用数据资源高通(1)智能座舱的优势地位(2)拥有芯片研发经验(1)人工智能研发经验较少德州仪器(1)供应链管理能力强(2)产品落地经验丰富(1)人工智能研发经验较少地平线(1)算法拥有优势(2)团队以做自动驾驶芯片为主,全身心投入(3)中国供应商对中国车企吸引力强(1)公司规模相对较小华为(1)算法

16、和芯片设计能力均非常丰富(1)受制裁导致流片出现问题表:各厂家优劣势对比数据来源:各公司官网,东吴证券(香港)智能驾驶芯片:概览数据来源:各公司官网,东吴证券(香港)表:智能驾驶性能汇总技术路线/起源厂家芯片架构车辆配备/合作商INT8算力(TOPS)芯片价格范围(美元)算法支持每瓦功耗(W)制程(nm)SOP时间传统汽车电子厂商转型瑞萨V3HCPU+ASIC博世/海拉4/提供硬件平台,提供一定算法支持2.5162019V3U60/2021恩智浦S32VRTI(软件公司)4/1.5162022E德州仪器TDA4VM百度/博世/大陆81001.5162020提供整套解决方案Mobileye(英特

17、尔)EyeQ3CPU+ASIC奥迪A8/沃尔沃/凯迪拉克0.2561030自带算法,算法一般是封闭的。目前声称提供修改工具,客户可进行部分优化10402014EyeQ4蔚来/理想/大众/宝马/福特/日产/广汽/长城等主力在售车型2.5301.2282018EyeQ5宝马iNext(E)/极氪00124/0.41672021通用型、平台化硬件+软件工具链英伟达XavierCPU+GPU+ASIC(少量)小鹏P7/P530100提供工具链和软件算法参考模型,客户自定义算法1122020Orin蔚来ET7/小鹏P7&G9/比亚迪沃尔沃XC90/上汽RES33/奔驰/集度/理想L92543005000

18、.22572022EAtlan奔驰1000/-5(E)2023E高通Snapdragon RideCPU+GPU+ASIC宝马700/0.18652022E地平线征程2CPU+ASIC长安UNIT/奇瑞蚂蚁/上汽通用五菱420300.125282019征程3江淮/理想One/博世/大陆5300.5162020征程5/5P长城/理想One长城/比亚迪/博世/大陆96/1281000.19572022E华为昇腾310CPU+ASIC/16/0.5122018昇腾910北汽/长城640/0.48/2022E黑芝麻A1000CPU+ASIC一汽红旗(E)、上汽(E)40/0.2162020A1000

19、Pro东风(E)106/0.24162022E软硬件全栈自研特斯拉FSDCPU+GPU+ASICModel3/S/X/Y73.7/自研1142019升级版FSDModel3/S/X/Y210/2022E注:表格数据截至2022年6月,其中车辆配备、芯片价格等数据可能存在短期变动的可能,芯片价格为大致的区间价格,不代表所有厂商的采购价。3英伟达:中高端车型的首选方案4其他中外竞争对手:创业公司+传统汽车芯片公司目录1自动驾驶芯片:人工智能领域的重要落地场景2特斯拉:软硬件一体化的代表5风险提示自动驾驶芯片:人工智能领域的重要落地场景PART 01自动驾驶:高阶人工智能资料来源:云脑智库,知乎,东

20、吴证券(香港)自动驾驶实现方法:环境感知:摄像头、超声波雷达、毫米波雷达、激光雷达、多传感器融合、高精地图与定位;决策规划:AI芯片、软件算法、计算平台(域控制器)、操作系统;控制执行:线控转向制动;自动驾驶是高阶的人工智能。与人脸、语音识别以及大数据分析等领域相比,对安全性和实时性要求更高,且由于驾驶是要和人类共同参与的,因此需要更高的认知与推理能力。决策软件(算法)作为自动驾驶的“大脑”,是自动驾驶的核心竞争力:主要包括视觉算法、雷达算法等传感器数据处理和融合,以及路径规划、行为决策与动作规划等部分。自动驾驶算法中大量运用了深度学习等AI领域的算法,因此对于自动驾驶来说,车端需要能够进行推

21、理的AI芯片,云端需要能够进行大量数据训练的服务器芯片。图:自动驾驶的实现方法图:算法说明图:感知层使用的人工智能算法资料来源:Semiengineering,东吴证券(香港)芯片:通用芯片 VS 专门芯片最早出现的芯片可被认为是CPU,用来负责处理通用的任务。GPU可认为是针对图像领域的ASIC(Application-specific integrated circuit,特定场景芯片)。GPU是图形处理单元,在PC(个人电脑)早期,图形数据较为简单,主要都是由CPU来进行图形处理。随着图形显示规模的增加,CPU已经很难分出更多精力来处理图形信息,而且CPU的架构决定了其处理图形信息的效率

22、是偏低的,因此逐渐发展出了专门处理图形信息的GPU。随着AI以及云计算的兴起,市场上开始出现专用程度更高的TPU、NPU等ASIC,但尚未形成完全确定的市场格局。此类芯片包括FPGA(Field-programmable gate array,可编程逻辑阵列)和针对某一类AI计算的ASIC(Application-specific integrated circuit,特定场景芯片),包括谷歌推出的TPU(张量计算单元)、特斯拉推出的NPU(神经网络计算单元)和地平线推出的BPU,虽然在某些特定计算上效率更高,但目前这些芯片的使用场景比较单一,市场规模还较小。图:牧本浪潮makimoto wa

23、ve对通用和专用芯片的预测表:不同类型芯片特点总结专用性越来越强,特定领域效率越来越高芯片种类CPUGPUFPGAASIC(TPU、NPU)芯片架构计算单元和高速存储单元占用的晶体管数量相当,适合串行计算晶体管大部分构建计算单元,运算复杂度低,适合大规模并行计算可编程的逻辑阵列,初始尝试成本很低。可以重新配置芯片一部分,而其余部分依然工作,对于尚未完全确定架构的情况很适合。晶体管根据算法定制,不会有冗余,功耗低、计算性能高、计算效率高擅长领域没有特定领域图像处理以及与深度学习类似的人工智能领域的并行计算等用于雷达、手机基站、军事通信等(设计需要经常升级)市场需求量大的专用领域(十万片以上的成本

24、可能会优于FPGA)优点通用性强擅长处理图像等矩阵数据,并行运算能力强可以根据算法进行不断调整优化体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低缺点针对特定领域效率很低价格贵、功耗高成熟度较差,效率一般不够高算法固定、开发周期长、上市速度慢、一次性成本高、风险大资料来源:Jon Peddie Research,东吴证券(香港)芯片行业特点:寡头格局,竞争壁垒高在充分的市场竞争条件下,消费级芯片是一个非常典型的寡头市场。在企业获得先发优势后,可以凭借较大的出货量平摊研发费用,而芯片的高技术壁垒导致研发及流片费用在数千万美元以上,竞争者很难进入。CPU是英特尔和AMD的天下,GPU

25、是英伟达和AMD的天下,手机(移动)芯片是高通和联发科的天下。拥有消费市场是成为搅局者的重要因素。苹果、特斯拉和华为海思都是凭借自身品牌形象,在手机和汽车领域拥有相当数量的消费群体后,开始进行芯片自研,这保证了芯片研发费用的分摊以及芯片更新迭代的动力。汽车芯片是一个全新市场,同消费级产品不同的是,汽车对安全性、稳定性的要求更高,设计成本和流片成本相应也更高,市场的参与者主要是传统芯片行业巨头、创业公司以及车企。图:芯片行业逻辑图:芯片成本构成依靠高性价比获得销量分摊研发及流片费用进行下一代芯片的研发资料来源:Syslogic,东吴证券(香港)人工智能:边缘芯片VS云芯片 云(服务器、数字中心)

26、和端侧(手机、智能汽车等移动端)场景中,AI芯片的运算方式有着本质性的差别:1.云端处理大批量一次性到达的累积数据(扩大批处理量,batch size),车端芯片则需要处理流数据,随着行驶(时间)陆续到来的数据;2.云端处理可以“等”数据“够了”再开始处理,车端则需要实时完成计算,尽可能得降低延迟,更勿论几秒钟的“等待”;3.在云端,任务本身是限定在虚拟世界,无需考虑与现实世界的交互。在车端则身处现实世界,每一个任务都需要考虑交互性;4.功耗和成本在车端AI芯片的考量中也占据更重的分量。因此,云端AI芯片更侧重于数据吞吐量和支持多种AI任务的要求,车端的AI芯片则须保证很高的计算能效和实时性要

27、求,能够实现端侧推断,以及低功耗、低延迟甚至低成本的要求。我们认为,对于智能驾驶这个全新的场景来说,进行全新架构设计,才能更好地实现效率上的需求。图:车端芯片及控制器示意图图:云服务器芯片及机箱示意图资料来源:极术社区,东吴证券(香港)汽车芯片:从MCU到SoC在特斯拉之前,汽车芯片多是指MCU芯片。MCU芯片全称为Micro controller Unit(微控制单元),又称为单片微型计算机或者单片机。它是一个是把中央处理器的频率与规格做适当缩减,并将内存、计数器、USB、A/D转换、UART、PLC、DMA等周边接口,甚至LCD驱动电路都整合在单一芯片上,形成芯片级的计算机。通常MCU只能

28、完成较少的任务,例如开启智能雨刷,或是下车后自动落锁等等。因此,在豪车中可能拥有数百个MCU,来实现各种智能化功能。MCU只是芯片级的芯片,而SOC是系统级的芯片,它集成了MCU和MPU的优点,即拥有内置RAM和ROM的同时又像MPU那样强大,它可以存放并运行系统级别的代码,即可以运行操作系统。汽车开始经历像从功能手机到智能手机的升级。在车辆电气化集中的趋势以及对智能化和娱乐化更高的要求下,原有的MCU在算力上完全无法适应,因此像平板电脑或手机的高算力SoC(System on Chip,片上系统)甚至是PC所采用的高算力芯片开始逐渐被汽车行业所采用,汽车更像是大号的智能手机了。DMIPS:D

29、hrystone Million Instructions executed Per Second:主要用来衡量CPU整数计算能力;TOPS:Tera floating-point operations per Second:1TOPS代表处理器每秒钟可进行一万亿次(1012)浮点运算操作,是衡量AI运算能力的主要指标之一。图:典型MCU架构图:典型SoC架构数据来源:IDC,东吴证券(香港)智能驾驶芯片市场匡算由于智能驾驶芯片市场属于快速发展的时期,很多概念的定义尚未有非常客观的标准。我们参考了市面上的各种技术路线和预测模型,提出了我们的预测数据。我们将具有以下任一功能的车辆归于高级别智能驾

30、驶的车辆:高速领航、自动泊车以及城市领航。除此之外的辅助驾驶将归于低级别驾驶。价格方面,我们结合了市场现有主流芯片的售价进行了大致的测算。在以上假设下,我们测算,智能驾驶芯片市场会从2021年的19亿美元增长到2025年的54亿美元,20212025的CAGR为30%。表:车载芯片数量及预测2020A2021A2022E2023E2024E2025E低级别智能驾驶汽车(万量)1874 2392 2665 3018 3495 3900 低级别驾驶芯片组均价(美元)20 23 25 28 31 34 低级别市场规模(亿美元)4 6 7 8 11 13 2020A2021A2022E2023E202

31、4E2025E高级别智能驾驶汽车(万量)896 1204 1414 1610 1843 2320 高级别驾驶芯片组均价(美元)100 110 132 145 160 176 高级别市场规模(亿美元)9 13 19 23 29 41 特斯拉:软硬件一体化的代表PART 02资料来源:cnBeta,Autoweek,电动邦,东吴证券(香港)特斯拉:给汽车行业带来全面的革新特斯拉颠覆了整个汽车行业,从自动驾驶、智能座舱、域控架构、三电系统,甚至到车辆的制造与装配,发展出了一套全新的方案。从自动驾驶角度来看,特斯拉是目前唯一实现软硬件全自研的公司,且可能是唯一一个能够实现软硬件都自研的公司。自研芯片的

32、好处:(1)芯片效率更高:从算法出发设计芯片架构,芯片的能耗比更优;(2)可以更激进地尝试新方案:不需要通过第三方的车规级认证等复杂流程,只需要最终在车端对消费者负责,不需要在芯片端负责;(3)一体化带来更快迭代速度:由于自动驾驶是个全新的领域,需要芯片、算法和车辆相互配合,这些环节特斯拉均在公司内部流转,迭代速度高于合作模式。图:自动驾驶说明图自动驾驶域控架构图:域控架构说明图图:智能座舱示意图智能座舱图:三电技术说明图三电技术特斯拉:芯片的进化之路资料来源:搜狐,东吴证券(香港)特斯拉经历了早期使用黑盒方案的Mobileye EyeQ3,到较为开放的Nvidia Drive平台,再到如今的

33、芯片自研,这期间的变化给我们非常好的观察汽车智能化迭代的窗口。图:特斯拉历史进程黑盒方案:权责不清数据归属权不明平台方案:芯片与算法的配合度差软硬件一体化:算法与芯片配合默契可以更好把控核心技术采用PC芯片,智能座舱功能更强芯片自研:一条难以复制的技术路线各类顶级芯片研发人员聚集,为特斯拉芯片自研奠定基础:2016 年 1 月,Tesla从AMD 挖来传奇芯片架构师 Jim Keller,任命他为Autopilot 硬件工程副总裁。Jim是芯片界传奇人物,曾效力于 DEC、PA semi(Apple收购以后才得以由能力研发自家处理器A 系列)、AMD、Apple,曾参与设计速龙(Athlon)

34、K7 处理器和苹果 A4/A5/A6 处理器,是速龙 K8 处理器的总架构师,还是制定X86-64指令集者之一。2016年2月,Tesla又从Apple招到了研发总监 Pete Bannon,Pete 是 A5 芯片核心的设计工程师,在那之前他是 PA Semi 的架构与验证副总裁。同时期,同样来自AMD 的谷俊丽,在Autopilot 硬件工程团队下开始组建机器学习小组,这个小组有两个任务:一个是搭建第二代自动驾驶硬件上的AI 算法和机器学习软件,另一个是参与设计 FSD 芯片的架构和上面的软件。采用以深度神经网络为主的人工智能模型,再加上车端收集的大量数据,特拉斯ADAS水平迅速提升:基于

35、全新深度神经网络的视觉处理工具Tesla Vision是 Autopilot团队抛开 Mobileye、从零搭建的一套视觉处理工具,它的背后,是全新的底层软件技术架构和云端大数据基础设施。Tesla Vision能够对行车环境进行专业的解构分析,相比传统视觉处理技术可靠性更高;借助Tesla售出的车辆搜集的大量数据,反过来又可以对Tesla Vision的神经网络进行训练和改进,进一步优化Autopilot。除车端芯片FSD的研发外,特斯拉也开始涉足云端训练芯片,试图打通车云系统。从算力来看,其1.09EFLOPS的算力水平和Nvidia用4096块A100构建的集群(1.28 EFLOPS)

36、;Huawei用4096块Ascend 910构建的集群(1.05 EFLOPS);Google用3456块TPU v4构建的集群(0.95 EFLOPS)相比,已经不相上下。当然其对称式的设计理念,可能给超算领域带来全新技术路线的可能性。我们认为,特斯拉的芯片自研的成功,是天时地利人和共同作用的结果,竞争对手的可复制性很弱,主要原因有:(1)芯片顶级研发人才很难被车企所招聘。特斯拉有很大程度是因为马斯克的个人魅力因素,才说服顶级芯片研发人员加入(2)自研芯片风险极高,前期投入较大(3)如果不能保证使用的数量,则自研芯片性价比很低。因此,对于绝大多数车企来讲,外购芯片才是更好的解决方案。资料来

37、源:博客园,wikichip,东吴证券(香港)FSD芯片:从算法需求倒推芯片架构,软硬件一体化实现高效算力FSD芯片从算法需求出发,进行了芯片架构设计。其核心技术来源于由两颗NPU组成的NNA(Neural Network Accelerator,神经网络加速单元)系统。FSD芯片于2019年正式流片,代工厂为三星,采用14nm工艺,整个芯片约有60亿颗晶体管组成。表:部件功能及特点主要部件主要功能特点CPU负责通用数据处理和计算Cortex-A72架构,三组、每组4个核心GPU负责图形显示以及NPU无法处理的数据信息,确保车规级安全性Mali G71 MP12 GPU,支持FP32和FP64

38、NPU(ASIC)负责深度学习以及预测功能,是主要负责计算功能的芯片2个NPU,每个NPU中有一个9696的MAC矩阵,支持多种激活函数。包含了32MB的内置SRAM,减少数据向主存储器的移动,有助于降低功耗。ISP图像信号处理器(Image signal processor),针对Tesla配备的八个HDR传感器而设计,可以每秒钟处理十亿像素的图像信息。在处理中还加入了色调映射等功能,并且允许芯片自主处理阴影、亮点、暗点等细节,还加入了降噪设计Video Encode可以用于备用摄像机显示、行车记录仪和云剪辑视频等内容,仅支持H.265(HEVC)其他MPEG、H.264等不支持,精简了不少

39、芯片规模安全/加密模块安全模块中包含了一个双核同步CPU,用于对汽车执行器的最终仲裁;加密模块执行的功能是确保FSD Computer只执行经过Tesla签名授权的代码,保证系统的安全性。安全性和隐私性都得到了保障图:芯片示意图NNA核心体现了成本和功耗的优化资料来源:CNBlogs,东吴证券(香港)在每个计算周期,NPU都会从内置的32MB SRAM中读取256字节的激活数据和另外128字节的权重数据组合在一起进入乘法累加(Multiply Accumulate,MAC),每个NPU都有一个96x96MAC阵列。在完成了MAC的乘法累加运算后,数据将会被转移到激活(Activations)以

40、及池化部分(Pooling),并等待写入缓冲区汇总结果。在保障NPU具备强大运算能力的同时,对于它的功耗和成本优化Tesla也做了不少的努力。NNA 设计了非常大的片上SRAM缓存,相较于Google的TPU,采用了256256的MAC,只有24MB的SRAM。对于这种特殊的设计,Tesla解释这样做是为了让数据尽可能地在片内周转,而不用频繁地与内存或者其他模块进行读写操作。这样做不但可以提高性能,还可以有效降低功耗,因为(1)所有数据都在片上完成(2)NNA处理的神经网络计算并不需要太高的精度,所以设计的芯片只支持8位乘以8位整数乘法和32位整数乘法,不支持任何浮点计算,也无需支持任何其他格

41、式,还可以在很大程度上降低功耗(浮点运算的32位加法器功耗大约是支持整数计算的32位加法器的9倍)。除了上述计算过程外,Tesla在NNA的设计中还偏向于将硬件简化,并复杂化软件,这样做可以降低芯片成本。比如软件可以映射和分配单个SRAM库,在Tesla的神经网络编译器的帮助下,还可以执行层融合操作,通过耦合conv-scale-act-pooling操作允许数据重用。编译器还可以通过执行层平滑处理来确保数据一致的内存访问操作,还可以加入代码压缩、CRC校验等功能,保证数据的可靠性。在指令方面,Tesla认为之前一些NNA的设计方案在缓存、寄存器以及逻辑控制方面消耗了大量能量,于是简化逻辑控制

42、,设计了一个简单的指令集:包括DMA Read、DMA Write、Convolution、Deconvolution、Inner-product、Scale、Eltwidth、Stop,流程控制更是只需要配置4个信息,简化了操作,可以将资源跟多集中在计算方面。图:NPU说明图图:特斯拉的NNA设计自动驾驶域:硬件成本约占整体硬件成本的3.5%资料来源:Oktesla,东吴证券(香港)特斯拉自动驾驶硬件成本估算:特斯拉自动驾驶域的芯片成本约为5000元,加上外围电路板以及组装、测试成本(组装厂为中国台湾广达集团),我们预估总体成本约为8000人民币,如果以特斯拉的毛利率计算,假设Model 3

43、的成本为22.9万元,那么自动驾驶域的成本占特斯拉整车成本约为3.5%。图:硬件示意图表:项目情况统计项目型号供应商简介数量参考价(人民币)LPDDR48BD77D9WCF美光1GB830以太网交换88EA6321Marvell1360UFSTHGAF9G8L 2LBAB7东芝32GB255GPS模块NEO-M8L-01A-81U-BLOX 1320解串行DS90UB960德州仪器2110解串行DS90UB954德州仪器140电源管理MAX20025SMaxim230MCUTC297t英飞凌1260启动FlashS512SD8H21Cypress512Mb150以太网PHY(估)88EA151

44、2Marvell2130FSDUBQ01B0特斯拉三星代工21500英伟达:中高端车型的首选方案PART 03拥有自动驾驶软硬件解决方案的供应商资料来源:CNBeta,与非网,东吴证券(香港)拿智能手机行业做对比,如果把特拉斯看作汽车界的苹果,那么英伟达可类比为汽车界的高通+安卓。英伟达将人工智能领域的优势拓展到智能驾驶领域并拥有近十年的探索经验。GPU的并行架构适合人工智能领域的计算需求,英伟达敏锐的抓住这个特点,成为人工智能芯片及软件工具链的主要供货商。在进行人工智能领域探索时,英伟达开始涉足智能驾驶及机器人业务,并在该领域拥有近十年的开发经验。平台化芯片+完善的工具链是英伟达芯片的主要特

45、征。虽然拥有容易上手的开发工具,但较高学习门槛和自研智能驾驶算法的花销可能会阻挡中小客户的使用。硬件优势:GPU架构兼顾效率与通用性:效率高于CPU,通用性强于ASIC;设计壁垒高,垄断性强用户基数保证规模效应:与其他业务平摊研发成本,版本迭代快,持续保证性能优势端到端的解决方案:车端到云端训练基于同样架构软件(工具链)优势:开放平台模式:客户可进行算法自研软件工具链丰富:开发了全套软件工具链(公司软件工程师占比超过70%),不仅通过软件开发推动硬件的优化设计,还给用户提供丰富的示例与教程,帮助用户快速上手使用图:硬件示意图图:软件说明图汽车芯片与其他业务保持协同资料来源:公司官网,维科网,东

46、吴证券(香港)PC:RTX3080汽车(嵌入式):Orin核心架构数据中心:A100专业图显:Quadro 英伟达从帕斯卡到安培架构都以高拓展性为核心目标:1.支持尽可能多种类的神经网络结构以保证算法的正确率和泛化能力;2.支持能够识别广大数字范围的浮点运算,以保证较大的数据吞吐量;3.支持阵列式结构以能够连接更多的处理单元,以进一步加大可计算的数据规模。落地到硬件技术上,Tensor core和Cuda core并行,以及从INT1到FP64的数据精度范围等一系列革新技术,都以支持上述目标为目的。核心架构时间消费级代表产品的晶体管数量主要特点Tesla2008年14亿第一个统一着色器微架构、

47、首次引入CUDA单元、首次支持DX10、搭载着色器模型4.0Fermi2010年30亿首次支持DX11、支持GDDRS显存、双精度浮点性能提升、支持ECC和统一64位内存寻址Kepler2012年71亿能效翻倍、支持PCIe 3.0、动态并行计算、搭载极致流式多处理器,支持GPU动态超频Maxwell2014年80亿能效翻倍、支持DX12和SMM流处理器、搭载动态高分辨率技术Pascal2016年153亿搭载HBM、NV link、GDDR5X显存和GPU动态超额3.0技术Volta2017年211亿搭载第一代Tensor单元、第二代NV link和HBM2、支持多处理服务、搭载深度学习优化流

48、式多处理器Turing2018年186亿搭载第二代二代Tensor单元、第一代RT单元、GDDR6显存和HBM2、支持深度学习超采样DLSSAmpere2020年283亿搭载第三代Tensor单元、第二代RT单元、GDDRX6显存和HBM2、支持深度学习超采样DLSS和PCIe4.0Hopper2022年/硬件架构:拓展嵌入式移动芯片到汽车领域数据来源:公司官网,维基百科英伟达词条,东吴证券(香港)英伟达专注提供高性能服务,借助嵌入式移动芯片,拓展汽车市场。在智能手机兴起的2008年时,英伟达试图进入移动芯片市场。为此,公司开发了Tegra系列芯片,采用了ARM的CPU架构,并集成了自家的GP

49、U芯片,组成了一套SOC系统。早期的Tegra芯片注重功耗及效率的表现,主要用在微软的一款MP3和Kin手机、小米3手机上,但后由于基带问题逐渐退出手机市场;后期则更专注于提供高性能,其典型产品是任天堂的Switch,英伟达的Tegra X1给任天堂Switch带来了极高的画面体验。由于自动驾驶中对于画面的实时处理要求很高,因此后续的Xavier以及Orin系列也开发了相应的车规级芯片。从移动芯片的发展轨迹来看,英伟达的CUDA核心数量也快速增长,RAM的容量和带宽也迅速提高,移动芯片的性能始终保持竞争优势。表:英伟达移动芯片发展历程芯片名称Tegra 2Tegra 3Tegra 4Tegra

50、 4iTegra K1Tegra X1Tegra X2XavierOrinAtlanCPU指令集ARMv7-A(32 bit)ARMv8-A(64 bit)ARMv8.2-A(64 bit)ARMv9内核2 A94+1 A94+1 A154+1 A94+1 A152 Denver4 A53+4 A572 Denver+4 A578 Nvidia Carmel12 Arm Cortex-A78AENvidia Grace-NextL1级高速缓存32/32 KB128/64 KB32/32 KB+64/32 KB128/64 KB+48/32 KB64/64 KB/L2 级高速缓存1 MB2 MB

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 实用范文 > 工作总结

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2