【中泰证券】从ChatGPT看芯片产业机遇：ChatGPT引发算力革命AI芯片产业链有望率先受益.pdf

资源描述

1、中泰电子王芳团队中泰电子王芳团队分析师：王芳分析师：王芳执业证书编号：执业证书编号：S0740521120002分析师：李雪峰分析师：李雪峰执业证书编号：执业证书编号：S0740522080004证券研究报告证券研究报告20232023年年0303月月1919日日1ChatGPT引发算力革命，引发算力革命，AI芯片产业链有望率先受益芯片产业链有望率先受益从从 ChatGPT看芯片产业机遇看芯片产业机遇分析师：杨旭分析师：杨旭执业证书编号：执业证书编号：S0740521120001分析师：游凡分析师：游凡执业证书编号：执业证书编号：S0740522120002扫码进群领取3、最新业报告、公司研究

2、、专业咖分享1、优质研报免费获取，业报告定期打包2、每推送业最新深度研报（精选10篇）目目录录一、一、ChatGPT激起激起AI浪潮，多场景创新产业链空间广阔浪潮，多场景创新产业链空间广阔1.1 AI创新浪潮兴起，多模态赋能下游行业创新浪潮兴起，多模态赋能下游行业1.2 算力芯片迎来产业机遇算力芯片迎来产业机遇二、芯片是二、芯片是ChatGPT底层土壤底层土壤三、芯片需求增长拉动产业链机会三、芯片需求增长拉动产业链机会四、投资建议及风险提示四、投资建议及风险提示2ChatGPT快速渗透，快速渗透，AI产业迎发展新机产业迎发展新机3来源：OpenAI官网，World of Engineerin

3、g，中泰证券研究所ChatGPT是由是由OpenAI公司开发的人工智能聊天机器人程序公司开发的人工智能聊天机器人程序，于于2022年年11月发布月发布，推出不久便在全球范围内爆火推出不久便在全球范围内爆火。根据World of Engineering数据显示，ChatGPT达到1亿用户量用时仅2个月，成为史上用户增长速度最快的消费级应用程序。与之相比，TikTok达到1亿用户用了9个月，Instagram则花了2年半的时间。从用户体验来看，ChatGPT不仅能实现流畅的文字聊天，还可以胜任翻译、作诗、写新闻、做报表、编代码等相对复杂的语言工作。ChatGPT爆火的背后是人工智能算法的迭代升级爆

4、火的背后是人工智能算法的迭代升级。ChatGPT是基于GPT-3.5微调得到的新版本模型，能够借助人类反馈的强化学习（RLHF）技术来指导模型训练，实现模型输出与人类预期的需求，使对话内容更加人性化和富有逻辑性。从2008年第一代生成式预训练模型GPT-1诞生以来，GPT系列模型几乎按照每年一代的速度进行迭代升级，未来随着大语言模型（LLM）技术的不断突破，AI相关应用有望加速落地，AI产业或将迎来新一轮发展机遇。图表：应用程序达到图表：应用程序达到1亿用户量所需时间（月数）亿用户量所需时间（月数）图表：图表：GPT模型迭代过程模型迭代过程ChatGPT激起激起AI浪潮，大算力芯片迎来产业机遇

5、浪潮，大算力芯片迎来产业机遇4来源：甲子光年，中泰证券研究所ChatGPT是生成式人工智能技术是生成式人工智能技术（AIGC）的一种的一种，与传统的决策与传统的决策/分析式分析式AI相比相比，生成式生成式AI并非通过简单分析已有数据来进并非通过简单分析已有数据来进行分析与决策行分析与决策，而是在学习归纳已有数据后进行演技创造而是在学习归纳已有数据后进行演技创造，基于历史进行模仿式基于历史进行模仿式、缝合式创作缝合式创作，生成全新的内容生成全新的内容。AIGC的应用非常广泛，包括自然语言生成、图像生成、视频生成、音乐生成、艺术创作等领域。AIGC产业链主要分为上游算力硬件层产业链主要分为上游算力

6、硬件层、中游数据中游数据/算法软件层和下游行业应用层算法软件层和下游行业应用层。硬件层依靠高性能AI芯片、服务器和数据中心为AIGC模型的训练提供算力支持，是承载行业发展的基础设施；数据/算法层软件层主要负责AI数据的采集、清洗、标注及模型的开发与训练，多方厂商入局自然语言处理、计算机视觉、多模态模型等领域；行业应用层目前主要涉及搜索、对话、推荐等场景，未来有望在多个行业呈现井喷式革新。图表：图表：AIGC产业链全景图产业链全景图5来源：腾讯AIGC发展报告2023，中泰证券研究所多模态大模型有望成为多模态大模型有望成为AI主流主流，赋能下游行业智能升级赋能下游行业智能升级。生成式AI主要依赖

7、于人工智能大模型，如Transformer、BERT、GPT系列等。这些模型通常包含数十亿至数万亿个参数，需要庞大的数据集进行训练，致使AI算力的需求也呈现出指数级的增长。多模态是一种全新的交互、生成模式，集合了图像、语音、文本等方式，因其可以结合多种数据类型和模态的学习，将有望彻底改变我们与机器互动的方式，快速占据人工智能主导地位。我们认为多模态大模型长期来看不仅可以从成本端降本增效，需求端也将通过快速渗透推广为下游行业带来持续增长需求，从而快速推动下游行业智慧化应用升级。图表：国外部分图表：国外部分AIGC预训练模型一览预训练模型一览厂商厂商预训练模型预训练模型应用应用参数量参数量领域领域

8、谷歌BERT语言理解与生成4810亿NLPPaLM语言理解与生成、推理、代码生成5400亿NLPImagen语言理解与图像生成110亿多模态Parti语言理解与图像生成200亿多模态微软Florence视觉识别6.4亿CVTuring-NLG语言理解、生成170亿NLPDeep MindGato多面手的智能体12亿多模态Gopher语言理解与生成2800亿NLPAlphaCode代码生成414亿NLPOpen AlGPT3语言理解与生成、推理等1750亿NLPCLIP&DALL-E图像生成、跨模态检索120亿多模态Codex代码生成120亿NLPChatGPT语言理解与生成、推理等13-175

9、0亿NLP多模态赋能下游行业智慧化升级多模态赋能下游行业智慧化升级6来源：OpenAI官网，中泰证券研究所从从GPT-1到到ChatGPT，模型参数与训练数据量不断增加模型参数与训练数据量不断增加，所需算力资源不断提升：所需算力资源不断提升：GPT-1：最早的GPT模型之一，包含了1.17亿个参数，预训练数据量约为5GB。GPT-2：参数数量达到了1.5亿个，预训练数据量达40GB。GPT-3：是目前为止最大的语言模型之一，包含了1750亿个参数，预训练数据量为45TB。ChatGPT：基于GPT-3模型的变种之一，参数量预计与GPT-3相近。模型模型发布时间发布时间参数量参数量预训练数据量预

10、训练数据量预估成本预估成本消耗资源消耗资源GPT-12018年6月1.17亿约5GB在8个GPU上训练一个月GPT-22019年2月15亿40GB在256个Google Cloud TPU v3上训练一周GPT-32020年5月1750亿45TB训练一次460万美元，总成本1200万美元在355个GPU上训练一年ChatGPT2022年11月未公布未公布训练一次成本超过1200万美元根据参数量而定图表：四代图表：四代GPT模型参数与预训练数据量对比模型参数与预训练数据量对比模型更新升级带动下游行业不断发展模型更新升级带动下游行业不断发展GPT-4性能提升显著，性能提升显著，AIGC应用市场空间

11、广阔应用市场空间广阔7来源：SEQUOIA，OpenAI，前瞻产业研究院，中泰证券研究所多模态模型是实现人工智能应用的关键多模态模型是实现人工智能应用的关键。3月月14日日OpenAI发布发布GPT-4多模态大模型多模态大模型，拥有拥有1）强大的识图能力；强大的识图能力；2）文字输文字输入限制提升至入限制提升至2.5万字；万字；3）回答准确性显著提高；回答准确性显著提高；4）能够生成歌词能够生成歌词、创意文本创意文本、实现风格变化实现风格变化。在各种专业和学术基准上，GPT-4已具备与人类水平相当表现。如在模拟律师考试中，其分数在应试者前10%，相比下GPT-3.5在倒数10%左右。多模态大模

12、型在整体复杂度及交互性上已有较大提升，模型升级有望加速细分垂直应用成熟，赋能下游智慧化升级，带动需求快速增长。AIGC下游市场渗透率低下游市场渗透率低，增长空间广阔增长空间广阔。根据 Gartner数据，目前由人工智能生成的数据占所有数据的 1%以下，预计2023年将有 20%的内容被生成式AI 所创建，2025 年人工智能生成数据占比将达到 10%。根据前瞻产业研究院数据，2025年中国生成式商业AI应用规模将达2070亿元，CAGR（2020-2025）为84.06%。图表：图表：AIGC下游应用落地时间预测下游应用落地时间预测98343663107716062070250%93%62%4

13、9%29%0%50%100%150%200%250%300%0500100015002000250020202021E2022E2023E2024E2025E应用规模（亿元）规模增速图表：中国生成式商业图表：中国生成式商业AI应用规模应用规模目目录录一、一、ChatGPT激起激起AI浪潮，多场景创新产业链空间广阔浪潮，多场景创新产业链空间广阔1.1 AI创新浪潮兴起，多模态赋能下游行业创新浪潮兴起，多模态赋能下游行业1.2 算力芯片迎来产业机遇算力芯片迎来产业机遇二、芯片是二、芯片是ChatGPT底层土壤底层土壤三、芯片需求增长拉动产业链机会三、芯片需求增长拉动产业链机会四、投资建议及风险提

14、示四、投资建议及风险提示8AI芯片是人工智能的底层基石芯片是人工智能的底层基石9来源：AI芯片：前沿技术与创新未来，中泰证券研究所AI人工智能的发展主要依赖两个领域的创新和演进：一是模仿人脑建立起来的数学模型和算法人工智能的发展主要依赖两个领域的创新和演进：一是模仿人脑建立起来的数学模型和算法，其次是半导体集成电路其次是半导体集成电路AI芯片芯片。AI的发展一直伴随着半导体芯片的演进过程，20世纪90年代，贝尔实验室的杨立昆（Yann LeCun）等人一起开发了可以通过训练来识别手写邮政编码的神经网络，但在那个时期，训练一个深度学习卷积神经网络（Convolutional NeuralNetw

15、ork，CNN）需要3天的时间，因此无法实际使用，而硬件计算能力的不足，也导致了当时AI科技泡沫的破灭。AI芯片是芯片是AI发展的底层基石发展的底层基石。英伟达早在1999年就发明出GPU，但直到2009年才由斯坦福大学发表论文介绍了如何利用现代GPU远超过多核CPU的计算能力（超过70倍），把AI训练时间从几周缩短到了几小时。算力算力、模型模型、数据一直是数据一直是AI发展发展的三大要素的三大要素，而而AI芯片所代表的算力则是人工智能的底层基石芯片所代表的算力则是人工智能的底层基石。图表：图表：AI人工智能与半导体计算芯片发展历程人工智能与半导体计算芯片发展历程194019601980200

16、02020突破模型突破模型“学习”的心理学习”的心理研究研究视觉皮层视觉皮层海马位置细胞海马位置细胞的时间编码的时间编码第一个晶体管感知器第一块芯片第一块CPU(MCU)Hopfield网络第一块FPGA神经网络芯片第一块GPU新的DNN算法基于深度学习的AI芯片类脑芯片ChatGPT激起激起AI浪潮，大算力芯片迎来产业机遇浪潮，大算力芯片迎来产业机遇10来源：智通财经，Counterpoint，IDC，中泰证券研究所算力硬件层是构成算力硬件层是构成AIGC产业的核心底座产业的核心底座，主要包括主要包括AI芯片芯片、AI服务器和数据中心服务器和数据中心。AI芯片是算力硬件层的基石。AI芯片主要

17、分为CPU、GPU、FPGA和ASIC四类，CPU是AI计算的基础，GPU、FPGA、ASIC作为加速芯片协助CPU进行大规模计算。目前AI芯片主要被国际厂商垄断，根据Counterpoint、IDC数据，Intel和AMD共计占2022年全球数据中心 CPU 市场收入的92.45%，Nvidia占2021年中国加速卡市场份额的80%以上。AI 服务器是AI芯片的系统集成。AI服务器采用CPU+加速芯片的架构形式，在进行模型的训练和推断时会更具有效率优势。与国外AI芯片厂商的垄断局面不同，中国AI服务器水平位于世界前列。据IDC数据，在2021H1全球 AI 服务器市场竞争格局中，浪潮信息以2

18、0.2%的份额排名第一，联想和华为分别以6.1%和4.8%的份额位列第四、五名。数据中心的计算服务是承接AI算力需求的直接形式。AIGC的模型训练是通常是通过云计算服务完成的，其本质是AIGC模型厂商借助IDC的算力资源，在云端实现模型的训练。目前国内的数据中心厂商主要包括三大运营商、华为、联想、中科曙光等，提供云计算的厂商主要有阿里、腾讯等互联网企业。71%20%3%2%5%IntelAMDAWSAmpere ComputingOthers图表：图表：2022年全球数据中心年全球数据中心CPU市场份额市场份额图表：图表：2021H1全球全球AI服务器市场份额服务器市场份额ChatGPT激起激

19、起AI浪潮，大算力芯片迎来产业机遇浪潮，大算力芯片迎来产业机遇11来源：Language Models are Few-Shot Learners，中泰证券研究所ChatGPT单次训练所需算力约单次训练所需算力约27.5PFlop/s-day，单颗单颗NVIDIAV100需计算需计算220天天。根据OpenAI数据，GPT-3 XL参数规模为13.2亿，训练所需算力为27.5PFlop/s-day。由于ChatGPT是在13亿参数的InstructGPT基础上微调而来，参数量与GPT-3 XL接近，因此预计ChatGPT训练所需算力约为27.5PFlop/s-day。以NVIDIA V100芯

20、片为例，一颗NVLink版本V100芯片的深度学习算力为125TFlops，则ChatGPT模型的训练至少需要1颗V100芯片计算220天才能完成。随着模型参数的不断增加随着模型参数的不断增加，模型训练所需算力将进一步提升模型训练所需算力将进一步提升，将进一步拉动对算力芯片的需求将进一步拉动对算力芯片的需求。根据OpenAI数据，随着GPT-3系列模型参数规模由1.25亿增加至1746亿，训练所需算力从2.6PFlop/s-day上升至3640PFlop/s-day，规模参数（1396.8倍）与算力需求（1400倍）呈同比例增长。模型模型总计算量（总计算量（PFlop/s-day）总计算量（总

21、计算量（Flops）参数量（百万个）参数量（百万个）T5T5-Small2.08E+001.80E+2060T5-Base7.64E+006.60E+20220T5-Large2.67E+012.31E+21770T5-3B1.04E+029.00E+213,000T5-11B3.82E+023.30E+2211,000BERTBERT-Base1.89E+001.64E+20109BERT-Large6.16E+005.33E+20355RoBERTa-Base1.74E+011.50E+21125RoBERTa-Large4.93E+014.26E+21355GPT-3GPT-3 Smal

22、l2.60E+002.25E+20125GPT-3 Medium7.42E+006.41E+20356GPT-3 Large1.58E+011.37E+21760GPT-3 XL2.75E+012.38E+211,320GPT-3 2.7B5.52E+014.77E+212,650GPT-3 6.7B1.39E+021.20E+226,660GPT-3 13B2.68E+022.31E+2212,850GPT-3 175B3.64E+033.14E+23174,600图表：不同图表：不同 NLP 模型模型参数量及训练算力对比参数量及训练算力对比ChatGPT激起激起AI浪潮，大算力芯片迎来产

23、业机遇浪潮，大算力芯片迎来产业机遇12来源：OpenAI 官网，Similarweb，中泰证券研究所ChatGPT单月单月运营所需算力成本约运营所需算力成本约667万美元万美元。根据Fortune数据，每次用户与ChatGPT互动产生的算力云服务成本约0.01美元。Similarweb数据显示，2023年1月ChatGPT访问量达6.67亿次，因此我们粗略推算2023年1月ChatGPT运营算力成本约为667万美元。此外，2023年年1月月ChatGPT访问量环比增长访问量环比增长119.4%，用户访问量的激增导致用户访问量的激增导致ChatGPT发生了因云算力不足发生了因云算力不足而宕机的情

24、况而宕机的情况。据OpenAI数据，1月ChatGPT重大停机（Major outage）时长为5小时30分钟，部分停机（Partial outage）16小时21分钟，运营算力不足已经开始影响ChatGPT的稳定性和响应速度。我们预测随着我们预测随着ChatGPT等新兴等新兴AI应用的落地应用的落地，将会不断打开下游市场需求将会不断打开下游市场需求，而伴随算力的增长而伴随算力的增长，也将带来对上游半导体也将带来对上游半导体芯片的需求量快速提升芯片的需求量快速提升。图表：图表：ChatGPT月访问量（亿次）月访问量（亿次）图表：图表：ChatGPT 2023年年1月停机情况月停机情况时间时间状

25、态状态时长时长2023.1.5部分停机2小时46分钟2023.1.7部分停机1小时7分钟2023.1.8部分停机1小时27分钟2023.1.10部分停机1小时47分钟2023.1.11部分停机2小时8分钟部分停机1小时6分钟2023.1.25重大停机4小时20分钟2023.1.30重大停机13分钟2023.1.31重大停机57分钟ChatGPT激起激起AI浪潮，大算力芯片迎来产业机遇浪潮，大算力芯片迎来产业机遇13来源：OpenAI 官网，中泰证券研究所算力需求的快速增长与芯片计算能力的增长形成剪刀差算力需求的快速增长与芯片计算能力的增长形成剪刀差。根据OpenAI数据，2012-2018年期

26、间，人工智能训练任务中使用的算力正呈指数级增长，速度为每3.5个月翻一倍，人们对于算力的需求增长了超过300,000倍。相比之下，摩尔定律是每18个月翻倍，如果是以摩尔定律的速度，这期间只会有12倍的增长。因此，当前模型计算量的增长远超人工智能硬件算力的增长，模型算力需求增长与芯片计算性能增长之间的不匹配，剪刀差的扩大将带来对算力基础设施供给需求的不断增长。图表：图表：2012至至2019年算力需求增长情况年算力需求增长情况图表：后摩尔时代对芯片算力要求图表：后摩尔时代对芯片算力要求目目录录一、一、ChatGPT激起激起AI浪潮，多场景创新产业链空间广阔浪潮，多场景创新产业链空间广阔二、芯片

27、是二、芯片是ChatGPT底层土壤底层土壤2.1 AI芯片有望率先受益，芯片有望率先受益，CPU+XPU异构形式成为主流异构形式成为主流2.2 国产芯片厂商加速布局国产芯片厂商加速布局2.3 AI算力需求，存储芯片受益算力需求，存储芯片受益三、芯片需求增长拉动产业链机会三、芯片需求增长拉动产业链机会四、投资建议及风险提示四、投资建议及风险提示14AI芯片根据下游应用可分为训练、推断两类芯片根据下游应用可分为训练、推断两类15来源：甲子光年智库，中泰证券研究所机器学习主要包括训练机器学习主要包括训练（training）和推断和推断（inference）两个步骤两个步骤，通常需要不同类型的通常需要

28、不同类型的AI芯片来执行芯片来执行。训练是指通过大数据训练出一个复杂的神经网络模型，通过大量标记过的数据来训练相应的系统，使其能够适应特定的功能；推理是指利用训练好的模型，使用新数据推理出各种结论。训练芯片训练芯片：通过大量的数据输入：通过大量的数据输入，构建复杂的深度神经网络模型的一种构建复杂的深度神经网络模型的一种AI芯片芯片。需要较高的计算性能、能够处理海量的数据、具有一定的通用性，以便完成各种各样的学习任务，注重绝对的计算能力。推断芯片推断芯片：推断芯片主要是指利用训练出来的模型加载数据：推断芯片主要是指利用训练出来的模型加载数据，计算计算“推理推理”出各种结论的一种出各种结论的一种A

29、I芯片芯片，注重综合指标，侧重考虑单位能耗算力、时延、成本等性能。图表：图表：AI芯片代表企业芯片代表企业训练AI芯片代表企业推理AI芯片代表企业全球全球AI芯片有望达到芯片有望达到726亿美元规模亿美元规模16来源：IDC，中泰证券研究所AI芯片是芯片是AI算力的核心算力的核心，需求有望率先扩张需求有望率先扩张。AI芯片是用于加速人工智能训练和推理任务的专用硬件，主要包括GPU、FPGA、ASIC等，具有高度并行性和能够实现低功耗高效计算的特点。随着AI应用的普及和算力需求的不断扩大，AI芯片需求有望率先扩张。根据IDC预测，中国AI算力规模将保持高速增长，预计到2026年将达1271.4E

30、FLOPS，CAGRA（2022-2026年）达52.3%。在此背景下，IDC预测异构计算将成为主流趋势，未来18个月全球人工智能服务器GPU、ASIC和FPGA的搭载率均会上升，2025年人工智能芯片市场规模将达726亿美元。0%20%40%60%80%100%120%140%160%020040060080010001200140020192020202120222023202420252026EFLOPS规模增速图表：中国图表：中国AI算力规模及预测算力规模及预测图表：全球图表：全球AI芯片市场规模及预测芯片市场规模及预测17来源：赛迪顾问，Wind，AI芯片前沿技术与创新未来，中泰证券

31、研究所深度学习的应用开发可分成云端与边缘侧两大部分深度学习的应用开发可分成云端与边缘侧两大部分。云端指的是数据中心或超级计算机，具有强大的计算能力，利用海量数据进行模型训练，也可以进行推理。边缘侧指的是数据中心外的设备，如自动驾驶汽车、机器人、智能手机、无人机或IoT设备，用训练好的模型进行推理。根据场景不同，形成了两种不同要求的AI芯片：云端芯片：云端芯片：具有最大的计算能力和最高的性能，主要对深度学习算法模型进行训练，有时也进行推断。目前云端主要以CPU+GPU异构计算为主，根据wind数据，在机器学习服务器和高性能服务器中，CPU+GPU的成本占比分别为83%与51%。边缘端芯片：边缘端

32、芯片：计算性能有限，主要使用从云端传来的训练好的模型和数据进行推断。在边缘侧或手机等端侧设备中，很少有独立的芯片，AI加速通常由 SoC上的一个IP实现。例如，苹果智能手机里最大的应用处理器（Application Processor，AP）芯片就是一块带有AI核的SoC，这类SoC的性能一般可以达到510 TOPS。云端云端/边缘端芯片同步发展边缘端芯片同步发展图表：云端与边缘端图表：云端与边缘端AIAI芯片规模芯片规模050100150200250300350201920202021云端训练芯片（亿元）云端推断芯片（亿元）边缘端推断芯片（亿元）0%10%20%30%40%50%60%70%

33、80%90%100%机器学习服务器推理服务器高性能服务器基础服务器CPU、GPU成本内存、存储器成本其他图表：各类型服务器成本构成图表：各类型服务器成本构成18来源：亿欧智库,中泰证券研究所云端训练和推断计算主要由云端训练和推断计算主要由Al 服务器完成服务器完成，底层算力芯片包括底层算力芯片包括 CPU、GPU、FPGA、ASIC 等等。CPU是AI计算的基础，负责控制和协调所有的计算操作。在AI计算过程中，CPU用于读取和准备数据，并将数据来传输到GPU等协处理器进行计算，最后输出计算结果，是整个计算过程的控制核心。根据IDC数据，CPU在基础型、高性能型、推理型、训练型服务器中成本占比分

34、别为32%、23.3%、25%、9.8%，是各类服务器处理计算任务的基础硬件。GPU、FPGA、ASIC是AI计算的核心，作为加速芯片处理大规模并行计算。具体来看，GPU通用性较强，适合大规模并行计算，且设计及制造工艺较成熟，目前占据AI芯片市场的主要份额；FPGA具有开发周期短、上市速度快、可配置性等特点，目前被大量应用于线上数据处理中心和军工单位；ASIC根据特定需求进行设计，在性能、能效、成本均极大的超越了标准芯片，非常适合AI 计算场景，是当前大部分AI初创公司开发的目标产品。图表：图表：AIAI加速芯片特点及应用场景对比加速芯片特点及应用场景对比技术架构种类技术架构种类定制化程度定制

35、化程度可编程性可编程性算力算力价格价格优点优点缺点缺点应用场景应用场景GPU通用型不可编辑中高通用性较强且适合大规模并行运算;设计和制造工艺成熟并行运算能力在推理端无法完全发挥高级复杂算法和通用性人工智能平台FPGA半定制化容易编辑高中可通过编程灵活配置芯片架构适应算法迭代，平均性能较高;功耗较低;开发时间较短(6个月)量产单价高;峰值计算能力较低;硬件编程困难适用于各种具体的行业ASIC全定制化难以编辑高低通过算法固化实现极致的性能和能效、平均性很强:功耗很低;体积小;量产后成本最低前期投人成本高;研发时间长(1年);技术风险大当客户处在某个特殊场景,可以为其独立设计一套专业智能算法软件AI

36、芯片有望率先受益，芯片有望率先受益，CPU+XPU异构形式成为主流异构形式成为主流19来源：个人图书馆，中泰证券研究所目前目前CPU+XPU异构形式成为异构形式成为AI服务器主流架构服务器主流架构。传统的CPU单元对于AI计算任务的处理能力有限，而XPU（包括GPU、FPGA、ASIC等）则可以提供更强大的计算能力，因此将CPU和XPU结合起来使用可以实现计算任务的高效处理和资源的最优利用。一般来说，CPU负责整个系统的管理和控制，而加速芯片则负责AI计算任务的加速，两者相互协作，共同提升整个系统的性能。服务器计算架构从单核的串行走向多核的并行服务器计算架构从单核的串行走向多核的并行，又进一步

37、从同构并行走向异构并行又进一步从同构并行走向异构并行，未来或将从异构并行走向超异构并行未来或将从异构并行走向超异构并行。目前在AI服务器中，常见的异构组合有8x GPU+2x CPU、4x GPU+2x CPU、8xFPGA+1xCPU、4xFPGA+1xCPU。在异构计算的趋势下，AI加速芯片搭载率将持续增高。根据IDC全球范围调研显示，2022年每台AI服务器上普遍多配置2个GPU，未来18个月GPU、ASIC、FPGA的搭载率均会上升。根据IDC数据，2021H1全球AI服务器市场规模达66.6亿美元，同比增长率超过全球AI整体市场增长率22.4%。预计在2025年全球AI服务器市场规模

38、将达到277亿美元，CAGR（2020-2025）为20.3%。AI芯片有望率先受益，芯片有望率先受益，CPU+XPU异构形式成为主流异构形式成为主流图表：图表：AI服务器异构形式演进趋势服务器异构形式演进趋势20来源：中泰证券研究所算力时代，算力时代，AI芯片有望率先受益芯片有望率先受益图表：图表：AI芯片特点及具体参数对比芯片特点及具体参数对比特点特点CPUGPUFPGAASIC基本架构60%逻辑单元40%计算单元60%-70%计算单元30%逻辑控制单元门电路资源固化的门电路资源架构图定制化程度通用型通用型半定制化定制化延迟高较高低（约为GPU的1/10）低（约为GPU的1/10）优势复杂

39、逻辑运算能力强，擅长逻辑控制擅长并行计算，浮点数据计算能力强，软硬件体系一致可进行数据并行和流水线并行，可编程，灵活度高AI运算效率高，功耗低，体积小劣势核数少，不擅长处理并行任务面积大，功耗高，由于通用性要求难以专一面对某一模型深度优化开发周期长，复杂算法开发难度大灵活性差，算法支持有限，算法迭代后需重新开发AI训练效果效果较差唯一量产可用于训练的硬件效率不高可能是用于训练的最佳芯片，但目前没有量产产品应用场景主要用于推断场景在云端和边缘端均占据主导地位，云端训练份额最高主要用于推断场景主要应用于推断场景具体芯片对比具体芯片对比E5-2699 V3Tesla K80Virtex7-690TG

40、oogle TPU计算单元个数（个）18（256bit）7804（32bit）3600（32bit）65536（8bit）峰值运算能力（TOPS）1.33（单精度浮点）8.74（单精度浮点）1.8（单精度浮点）92（8bit整点）功耗（W）1453003040能耗比（GFLOPS/W)92960230021来源：计算机组成原理，SEMI，中泰证券研究所CPU（Central Processing Unit）中央处理器：中央处理器：是计算机的运算和控制核心（Control Unit)，是信息处理、程序运行的最终执行单元，主要功能是完成计算机的数据运算以及系统控制功能。CPU擅长逻辑控制，在深度学

41、习中可用于推理/预测。在深度学习中,模型的训练和推理是两个不同的过程:在训练过程中，模型需要进行大量的矩阵运算，因此通常使用GPU等擅长并行计算的芯片进行处理；在推理过程中，需要对大量的已经训练好的模型进行实时的推理/预测操作，而这种操作通常需要高效的逻辑控制能力和低延迟的响应速度，这正是CPU所擅长的。图表：图表：CPU内部架构内部架构图表：图表：CPU工作原理概况工作原理概况CPU：底层核心算力芯片：底层核心算力芯片22来源：IDC，观研报告网，中泰证券研究所AI服务器中服务器中CPU成本占比及市场规模测算：成本占比及市场规模测算：根据IDC数据，CPU在推断型服务器中的成本占比为25%，

42、在训练型服务器中的成本占比为9.8%。此外据IDC对于人工智能服务器推理和训练工作负载的预测，2021用于推断和训练的占比分别为40.9%和59.1%，2025年推断和训练的占比调整为60.8%和39.2%，我们测算出2021年和2025年CPU在AI服务器中的成本占比分别为16.02%和19.04%。根据观研报告网数据，2021年全球AI服务器市场规模为156亿美元，预计于2025年增长至318亿美元。2021年中国AI服务器市场规模为350.3亿元，预计2025年将增长至701.8亿元。因此我们合理推算因此我们合理推算2021年年，全球全球AI服务器服务器CPU市场规模约为市场规模约为25

43、亿美亿美元元，中国市场约为中国市场约为56亿元亿元，到到2025年全球年全球AI服务器服务器CPU市场规模市场规模约为约为61亿美元亿美元，中国市场规模为中国市场规模为134亿元亿元。2025中国服务器中国服务器CPU市场规模将达到市场规模将达到134亿元亿元图表：全球服务器成本结构拆分图表：全球服务器成本结构拆分图表：图表：AI服务器中服务器中CPU市场规模测算市场规模测算32%23%25%10%0%27%25%73%27%26%15%9%18%3%10%0%23%21%25%9%0%10%20%30%40%50%60%70%80%90%100%基础型高性能型推理型训练型CPUGPUMemo

44、ryStorage其他中国中国AI服务器服务器市场规模（亿元）市场规模（亿元）全球全球AI服务器服务器市场规模（亿美元）市场规模（亿美元）中国中国AI服务器中服务器中CPU市场规模（亿元）市场规模（亿元）全球全球AI服务器中服务器中CPU市场规模（亿美元）市场规模（亿美元）2021年350.315656.1124.992025年701.8318133.6360.55复合增长率（2021-2025）19%19%24%25%GPU：AI高性能计算王者高性能计算王者23来源：CSDN，中泰证券研究所GPU（Graphics Processing Unit）图形处理器：）图形处理器：GPU最初是为了满

45、足计算机游戏等图形处理需求而被开发出来的，但凭借高并行计算和大规模数据处理能力，逐渐开始用于通用计算。根据应用场景和处理任务的不同，GPU形成两条分支：传统传统GPU：用于图形图像处理，因此内置了一系列专用运算模块，如视频编解码加速引擎、2D加速引擎、图像渲染等。GPGPU：通用计算图形处理器（general-purpose GPU）。为了更好地支持通用计算，GPGPU减弱了GPU图形显示部分的能力，将其余部分全部投入到通用计算中，同时增加了专用向量、张量、矩阵运算指令，提升了浮点运算的精度和性能，以实现人工智能、专业计算等加速应用。图表：图表：GPU 技术演变历程技术演变历程时间时间类型类型

46、相关标准相关标准代表产品代表产品基本特征基本特征意义意义20世纪80年代图形显示（传统GPU）CGA,VGAIBM 5150光栅生成器最早图形显示控制器20世纪80年代末2D加速GDI,DirectFBS386C9112D图元加速开启2D图形硬件加速时20世纪90年代初部分3D加速OpenGL(1.14.1),DirectX(6.011)3DLabsGlint300SX硬件T&L第一颗用于PC的3D图形加速芯片20世纪90年代后期固定管线NVIDIAGeForce256shader功能固定首次提出GPU概念20042010统一渲染NVIDIA G80多功能shaderCUDA与G80一同发布2

47、011至今通用计算（GPGPU）CUDA,OpenCL1.22.0NVIDIATESLA完成与图形处理无关的科学计算NVIDIA正式将用于计算的GPU产品线独立出采24来源：NVIDIA官网，Verified Market Research,中泰证券研究所GPU在在AI模型构建中具有较高的适配性模型构建中具有较高的适配性。GPU的高并行性可以更好地支持AI模型训练和推理过程中大量的矩阵或向量计算，以NVIDIA GPU系列旗舰产品A100为例：根据NVIDIA公布的规格参数，A100的深度学习运算性能可达312Tflops。在AI训练过程中，2048个A100 GPU可在一分钟内成规模地处理B

48、ERT的训练工作负载；在AI推理过程中，A100可将推理吞吐量提升到高达CPU的249倍。AI模型与应用的加速发展推动模型与应用的加速发展推动GPU芯片放量增长芯片放量增长。根据Verified Market Research数据，2021年全球GPU市场规模为334.7亿美元，预计2030年将达到4773.7亿美元，CAGR（2021-2030）为34.35%。从国内市场来看，2020年中国大陆的独立GPU市场规模为47.39亿元，预计2027年市场规模将达345.57亿美元，CAGR（2021-2027）为32.8%。GPU：AI高性能计算王者高性能计算王者图表：图表：NVIDIA A10

49、0 GPU 在在 AI 训练和推理工作中的加速能力训练和推理工作中的加速能力图表：全球图表：全球GPU市场规模及增速市场规模及增速25来源：NVIDIA官网，百度官网，OpenAI官网，Similarweb，中泰证券研究所预测预测“文心一言文心一言”等等LLM模型的推出模型的推出将给国内将给国内GPU市场带来市场带来28.51亿美元的增量亿美元的增量。据百度官方数据，“文心一言”基于文心大模型，参数规模为100亿，计划3月份面向公众开放，并将与搜索引擎业务整合。我们假设短期国内将出现5家与百度“文心一言”相似的企业，模型参数量与训练算力需求成比例。根据OpenAI公布的GPT-3系列参数量及训

50、练算力需求数据，可推算出文心大模型的单次训练算力需求为208.48PFlop/s-day。据Similarweb数据，2023年1月百度搜索引擎的访问量为4.9亿次，假设“文心一言”将整合到百度搜索引擎中，单日运营算力需求为125.08PFlop/s-day。根据NVIDIA数据，A100的FP64 Tensor Core算力为19.5 TFlops，单价为1万美元。根据经验假设日常算力利用率为30%，则短期LLM模型将给国内GPU市场带来28.51亿美元的增量。长长期期LLM模型有望与搜索引擎结合模型有望与搜索引擎结合，为为GPU带来带来447.51亿美元的亿美元的增量空间增量空间。假设未来

展开阅读全文