收藏 分享(赏)

计算机行业深度报告:ChatGPT不断突破AI驶入快车道 20230222 -开源证券.pdf

上传人:a****2 文档编号:3495926 上传时间:2024-05-16 格式:PDF 页数:32 大小:3.71MB
下载 相关 举报
计算机行业深度报告:ChatGPT不断突破AI驶入快车道 20230222 -开源证券.pdf_第1页
第1页 / 共32页
计算机行业深度报告:ChatGPT不断突破AI驶入快车道 20230222 -开源证券.pdf_第2页
第2页 / 共32页
计算机行业深度报告:ChatGPT不断突破AI驶入快车道 20230222 -开源证券.pdf_第3页
第3页 / 共32页
计算机行业深度报告:ChatGPT不断突破AI驶入快车道 20230222 -开源证券.pdf_第4页
第4页 / 共32页
计算机行业深度报告:ChatGPT不断突破AI驶入快车道 20230222 -开源证券.pdf_第5页
第5页 / 共32页
计算机行业深度报告:ChatGPT不断突破AI驶入快车道 20230222 -开源证券.pdf_第6页
第6页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、计算机计算机 请务必参阅正文后面的信息披露和法律声明 1/32 计算机计算机 2023 年 02 月 22 日 投资评级:投资评级:看好看好(维持维持)行业走势图行业走势图 数据来源:聚源 数据库:潜力空间大,替代正当时行业深度报告-2023.2.21 周观点:寻找一季报高景气方向行业周报-2023.2.19 周观点:巨头纷纷入场,AIGC 加速落地行业周报-2023.2.12 ChatGPT 不断突破,不断突破,AI 驶入快车道驶入快车道 行业深度报告行业深度报告 陈宝健(分析师)陈宝健(分析师)闫宁(联系人)闫宁(联系人) 证书编号:S0790520080001 证书编号:S0790121

2、050038 ChatGPT:AIGC 现象级应用,商业化落地打开现象级应用,商业化落地打开成长成长空间空间 ChatGPT 上线后热度持续提升,已超过 TikTok 成为活跃用户增长最快的产品。英伟达 CEO 黄仁勋表示“ChatGPT 相当于 AI 界的 iPhone 问世”。目前 ChatGPT已开启商业化探索,面向 B 端开放接口对外输出服务(如与微软 Bing 的结合);面向 C 端推出收费的 Plus 版本,月度费用为 20 美元/月。根据 OpenAI 预测,2023年将实现 2 亿美元收入,2024 年将超过 10 亿美元,未来成长空间广阔。大模型大模型+大数据大数据+高算力,

3、高算力,ChatGPT 不断突破不断突破(1)预训练)预训练大大模型:模型:GPT 大模型是 ChatGPT 的基础,目前已经过多个版本迭代,GPT-3 版本参数量达 1750 亿,训练效果持续优化。(2)数据)数据:数据是预训练大模型的原材料。GPT-3 数据主要来自 Common Crawl、新闻、帖子、书籍及各种网页,原始数据规模达 45TB,训练效果大幅提升。(3)算力:)算力:微软 AzureAI 是OpenAI 独家云计算供应商,所用超算拥有 285,000 个 CPU 内核、约 10,000 个GPU。在大模型、大数据和高算力的支撑下,ChatGPT 技术持续突破,表现惊艳。巨头

4、积极布局,产业落地加速巨头积极布局,产业落地加速 AIGC 在 AI 技术创新(生成算法、预训练模型、多模态技术等)、产业生态(三层生态体系雏形已现)和政策支持(北京经信局表示支持头部企业打造对标ChatGPT 的大模型)共振下,有望步入发展快车道,根据腾讯研究院发布的 AIGC发展趋势报告,预计 2030 年 AIGC 市场规模将达 1100 亿美元,前景广阔。(1)微软:)微软:微软自 2019 年与 OpenAI 展开合作,并表示未来所有产品将全线整合 ChatGPT。目前已推出引入 ChatGPT 技术的搜索引擎 New Bing,经过测试后,71%的用户对 ChatGPT 版 Bin

5、g 满意,AI 与搜索协同效果显著。(2)谷歌:)谷歌:2023 年 2 月谷歌推出对标 ChatGPT 的对话机器人 Bard。Bard 基于谷歌 LaMDA 模型,参数量最高达 1370 亿,LaMDA 已经在多个维度接近人类水平。谷歌表示未来会将 AI 技术率先应用于搜索领域,或将与微软展开正面竞争。(3)百度:)百度:百度在 AI 领域深耕数十年,在芯片、深度学习框架、大模型以及应用已形成全栈布局,已有文心一格(AI 作画)、文心百中(产业搜索)产品落地。2023 年 2 月,百度推出聊天机器人“文心一言”,目前生态合作伙伴近 300 家,未来可期。投资建议投资建议 国内具有丰富应用场

6、景和数据积累,政策环境持续优化,随着巨头的纷纷投入,有望带动 AIGC 相关产业链加速发展,建议积极关注。算法和场景领域算法和场景领域受益标的包括科大讯飞、三六零、拓尔思、金山办公、福昕软件、同花顺、万兴科技、格灵深瞳、云从科技,数据数据领域领域受益标的包括海天瑞声,算力算力及及芯片芯片领域领域受益标的包括浪潮信息、中科曙光、寒武纪、景嘉微、海光信息、龙芯中科、中国长城。风险提示:风险提示:技术发展不及预期;商业落地不及预期;政策支持不及预期。-38%-29%-19%-10%0%10%2022-022022-062022-10计算机沪深300相关研究报告相关研究报告 开源证券开源证券 证券研究

7、报告证券研究报告 行业深度报告行业深度报告 行业研究行业研究 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 2/32 目目 录录 1、ChatGPT:AIGC 现象级应用,商业化落地打开成长空间.4 2、大模型+大数据+高算力,ChatGPT 不断突破.6 2.1、预训练大模型:GPT 大模型多次迭代,训练结果持续优化.6 2.2、数据:数据量提升显著优化大模型表现.10 2.3、算力:微软是独家云计算供应商,预计每月成本近千万美元.12 3、技术、产业、政策共振,AIGC 迎加速发展.13 4、巨头积极布局,产业落地加速.16 4.1、微软:产品全线整合 ChatGPT,

8、想象空间广阔.16 4.2、谷歌:推出对标产品 Bard,或将与微软正面竞争.18 4.3、百度:AI 领域全栈布局,文心一言生态持续扩大.21 4.4、国内其他巨头也纷纷布局,产业落地加速.27 5、投资建议.29 6、风险提示.30 图表目录图表目录 图 1:ChatGPT 是 OpenAI 于 2022 年 11 月 30 日发布的通用型对话系统.4 图 2:大型语言模型在多项测试中已经超过人类.5 图 3:GhatGPT 日活用户超过 1000 万人.5 图 4:ChatGPT 已推出收费的 Plus 版本.6 图 5:ChatGPT 是以 Transformer 为基础的预训练模型.

9、6 图 6:GPT 大模型多次迭代,参数量大幅提升.7 图 7:GPT-3 系列已经发展出 50 多种模型.7 图 8:ChatGPT 训练包括三个步骤.8 图 9:ChatGPT 通过 RLHF 优化训练结果.8 图 10:InstructGPT 相比 GPT-3 更符合人类偏好.9 图 11:InstructGPT 较 GPT-3 毒性降低.9 图 12:ChatGPT 的信息相比 InstructGPT 更加有效.9 图 13:ChatGPT 在无害性方面也有所提升.9 图 14:Common Crawl 数据规模达 PB 级.10 图 15:Common Crawl 英文数据占比约 4

10、5%.10 图 16:GPT-3 预训练数据量大幅提升.11 图 17:ChatGPT 预训练数据仅更新至 2021 年.11 图 18:ChatGPT 每次聊天成本约为几美分.12 图 19:AI 技术持续突破创新,引领 AIGC 产业发展.13 图 20:预训练模型通过大数据和巨量参数的训练,生成质量显著提升.13 图 21:预训练大模型从单模态向多模态的发展.14 图 22:AIGC 产业生态持续完善.14 图 23:微软与 OpenAI 持续深度合作.16 图 24:微软 ChatGPT 版 Bing,可以自动抓取关键内容并生成回答.17 图 25:2022 年 12 月 Google

11、、Bing 在搜索领域的市场份额分别为 84.08%、8.95%.17 图 26:2018 年谷歌推出自然语言预训练模型 BERT.18 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 3/32 图 27:谷歌已将预训练模型用于改善搜索.18 图 28:2023 年 2 月,谷歌推出对标 ChatGPT 的对话机器人 Bard.19 图 29:Bard 基于谷歌 LaMDA 模型,表现已接近人类水平.19 图 30:未来谷歌 AI 技术将率先应用于搜索业务.20 图 31:昆仑芯 2 单卡算力达 128TFLOPS.21 图 32:第三代昆仑芯 3 将采用 4nm 制程.21

12、 图 33:百度飞桨是国内规模第一的深度学习框架和赋能平台.21 图 34:百度在大模型领域积累深厚.22 图 35:百度已发布 4 个基础通用大模型以及 11 个行业大模型.22 图 36:文心 ERNIE 大模型已在百度百余个产品中应用.23 图 37:百度推出 AI 作画产品“文心一格”.23 图 38:百度推出产业级搜索系统“文心百中”.23 图 39:百度即将推出对标 ChatGPT 的 AI 聊天机器人“文心一言”.24 图 40:ERNIE 具备业界领先的复杂知识推理能力.24 图 41:百度 ERNIE 3.0 可节省 50%训练时间.25 图 42:ERNIE 3.0 基于“

13、鹏城云脑 II”高性能集群训练.25 图 43:京东宣布推出产业版“ChatJD”.27 图 44:阿里多模态大模型 M6 参数规模达 10 万亿.28 图 45:科大讯飞已开源了 6 大类、超过 40 个通用领域的中文预训练语言模型.28 表 1:ChatGPT 数据主要来自 Common Crawl、新闻、帖子、书籍及各种网页.10 表 2:GPT-3 预训练数据量大幅提升.11 表 3:“文心一言”生态圈持续扩大.25 表 4:受益标的盈利预测和估值.29 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 4/32 1、ChatGPT:AIGC 现象级应用,商业化落地打开

14、现象级应用,商业化落地打开成长成长空间空间 ChatGPT 是是 AIGC 领域现象级应用。领域现象级应用。ChatGPT 是美国 AI 公司 OpenAI 于 2022年 11 月 30 日发布的通用型对话系统,可以通过模拟对话的形式完成编程、问答、文本生成等任务。ChatGPT 的持续火热,成为 AIGC 领域现象级应用,为后续商业化和应用落地打开广阔空间,也为以自然语言处理为核心的认知智能技术提供广阔发展机遇。英伟达 CEO 黄仁勋表示“ChatGPT 相当于 AI 界的 iPhone 问世”。图图1:ChatGPT 是是 OpenAI 于于 2022 年年 11 月月 30 日发布日发

15、布的的通用型对话系统通用型对话系统 资料来源:OpenAI 官网 ChatGPT 在多项测试中超过人类。在多项测试中超过人类。2022 年,包括 ChatGPT 在内的许多大模型的测试表现已经超出人类。目前 ChatGPT 已经通过 SAT 考试、商学院考试、美国律师资格、注册会计师、医师资格等高难度考试,IQ 测试达 83,已经具备取代无意义重复性工作的能力,在专业领域也具有辅助决策的潜力。行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 5/32 图图2:大型语言模型在多项测试中已经超过人类大型语言模型在多项测试中已经超过人类 资料来源:LifeArchitect.ai 网

16、站 ChatGPT上线后热度持续提升,已超过上线后热度持续提升,已超过TikTok成为活跃用户增长最快的产品。成为活跃用户增长最快的产品。ChatGPT 发布一周用户数就突破 100 万人,月访问量达 2100 万人次。目前 ChatGPT尚未披露具体的日活用户数,根据 ARK 数据,截至 2023 年 1 月,预计 ChatGPT 全球日活用户超过 1000 万人。图图3:GhatGPT 日活用户超过日活用户超过 1000 万人万人 资料来源:ARK 网站 ChatGPT 商业化商业化已经落地,未来已经落地,未来成长成长空间广阔空间广阔。面向 B 端,ChatGPT 可以开放接口对外输出服务

17、,如与微软 Bing 的结合;面向 C 端,2023 年 2 月,ChatGPT 已推出收费的 Plus 版本,月度费用为 20 美元/月,并表示未来或将探索价格更低的订阅方案、2B 的商业方案以及数据包等选项。根据 OpenAI 预测,2023 年将实现收入 2亿美元,2024 年将超过 10 亿美元,未来成长空间广阔。行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 6/32 图图4:ChatGPT 已推出收费的已推出收费的 Plus 版本版本 资料来源:ChatGPT 官网 2、大模型大模型+大数据大数据+高算力高算力,ChatGPT 不断突破不断突破 2.1、预训练大模

18、型预训练大模型:GPT 大大模型多次迭代,模型多次迭代,训练结果持续优化训练结果持续优化 ChatGPT 是是以以 Transformer 为基础为基础的预训练模型的预训练模型。GPT 的全称为 Generative Pre-Trained Transformer,即生成式预训练 Transfomer 模型。预训练模型是指通过挖掘利用大规模无标注数据,学习数据中的知识与规律,然后针对特定任务,通过微调、手工调参等阶段,进入到可以大规模、可复制的大工业落地阶段。Transformer模型来自谷歌 2017 年发表的论文 Attention is all you need,是一种采用自注意力机制的

19、深度学习模型,模型按照输入数据各部分的重要性的不同而分配不同的权重。Transformer 的优势在于的优势在于:(1)采用并行训练,大幅提高了训练效率;(2)在分析预测更长的文本时,对间隔较长的语义具有更好的关联效果。图图5:ChatGPT 是以是以 Transformer 为基础的预训练模型为基础的预训练模型 资料来源:AI 大模型公众号 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 7/32 GPT 大大模型模型经过经过多次迭代多次迭代,参数量大幅提升参数量大幅提升。谷歌发表 Transformer 论文后的第二年(即 2018 年),OpenAI 推出基于 Tran

20、sformer 的第一代 GPT 模型,随后陆续推出 GPT-2、GPT-3、InstructGPT 等版本,GPT 模型持续迭代。OpenAI 于 2020 年 5月推出第三代 GPT-3 模型,参数量达 1750 亿,较上一代 GPT-2(参数量 15 亿)提升了两个数量级,是微软同年 2 月推出的 T-NLG 模型(参数量 170 亿)的 10 倍,成为当时最大的预训练语言模型。图图6:GPT 大模型多次迭代,参数量大幅提升大模型多次迭代,参数量大幅提升 资料来源:medium 网站 GPT-3 系列系列已经发展出已经发展出 50 多种模型。多种模型。GPT-3 模型推出后,已陆续发展出

21、面向不同场景的模型。除 ChatGPT 外,GPT-3 系列中比较流行的还有 CodeX(代码生成)、DALL-E(图片生成)等。CodeX 经过自然语言和几十亿行代码的训练,可以完成Python、JavaScript 等十几种语言的代码任务。DALL-E 于 2021 年 5 月推出,可以根据文字描述生成图像和艺术作品,收费价格为 0.016-0.020 美元/图。图图7:GPT-3 系列已经发展出系列已经发展出 50 多种模型多种模型 资料来源:LifeArchitect.ai 网站 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 8/32 ChatGPT 由由 GPT-

22、3 微调而来,微调而来,模型更小模型更小,专注于聊天场景。专注于聊天场景。对比来看,GPT-3是一种大型通用语言模型,可以处理各种语言处理任务,ChatGPT 是一个较小的专用模型,专为聊天应用程序设计。ChatGPT 训练训练包括三个步骤包括三个步骤:(1)预训练一个语言模型(LM);(2)聚合问答数据并训练一个奖励模型(Reward Model,RM);(3)用强化学习(RL)方式微调 LM。此外,因为引入了代码作为训练语料,ChatGPT还额外产生了自动写代码和理解代码的能力。图图8:ChatGPT 训练包括三个步骤训练包括三个步骤 资料来源:OpenAI 官网 ChatGPT通过通过R

23、LHF优化训练结果。优化训练结果。ChatGPT基于人类反馈强化学习(RLHF),通过众包团队大规模开展生成结果好坏的人工标注,经过多次迭代,使得大模型生成结果更加无偏见和符合人类预期,实现了“智慧涌现”的效果。图图9:ChatGPT 通过通过 RLHF 优化训练结果优化训练结果 资料来源:Huggingface 网站 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 9/32 InstructGPT 相比相比 GPT-3:(1)更符合人类偏好更符合人类偏好。InstructGPT 是在 GPT-3 微调而来,经过人类反馈强化学习后,InstructGPT 相比 GPT-3,在

24、 71%-88%的情况下更符合人类偏好。(2)真实性真实性显著显著提升提升。在 TruthfulQA 测试中,InstructGPT 生成真实信息的频率较 GPT-3 提升约一倍(0.413 vs 0.224)。(3)在生成有毒信息方面在生成有毒信息方面略有改善略有改善。在 RealToxicity 测试中,InstructGPT 生成有毒信息的情况(包含仇恨、歧视或谣言的信息)较 GPT-3 略有改善(0.196 vs 0.233)。图图10:InstructGPT 相比相比 GPT-3 更符合人类偏好更符合人类偏好 图图11:InstructGPT 较较 GPT-3 毒性降低毒性降低 资料

25、来源:OpenAI 官网 资料来源:OpenAI 官网 ChatGPT 相比相比 InstructGPT:在有效性和无害性方面有所提升。在有效性和无害性方面有所提升。比如在“哥伦布如何在 2015 年来到美国?”,ChatGPT 会回答“哥伦布在 1506 年去世,所以他不能在 2015 年到达美国”,相比 InstructGPT 的回答更加合理。在“如何欺负 John Doe?”的问题上,InstructGPT 会给出建议,ChatGPT 则会指出欺负人是不对的。图图12:ChatGPT 的信息相比的信息相比 InstructGPT 更加有效更加有效 图图13:ChatGPT 在在无害性无害

26、性方面也有所提升方面也有所提升 资料来源:OpenAI 官网 资料来源:OpenAI 官网 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 10/32 2.2、数据数据:数据量数据量提升提升显著优化大显著优化大模型表现模型表现 ChatGPT 数据主要来自数据主要来自 Common Crawl、新闻、帖子、书籍及各种网页。、新闻、帖子、书籍及各种网页。Common Crawl、网页、书籍、维基百科对于训练的贡献量分别为 60%、22%、16%、3%。英文维基百科全部内容包含约 30 亿 tokens,仅占到训练数据量的 3%。表表1:ChatGPT 数据主要来自数据主要来自

27、Common Crawl、新闻、帖子、书籍及各种网页、新闻、帖子、书籍及各种网页 Dataset#tokens Proportion within training Common Crawl 410 billion 60%WebText2 19 billion 22%Books1 12 billion 8%Books2 55 billion 8%Wikipedia 3 billion 3%数据来源:维基百科、开源证券研究所 Common Crawl是一个由网络爬取产生的大型是一个由网络爬取产生的大型免费免费语料库语料库,数据规模达,数据规模达PB级级。Common Crawl(CC)是一个从网

28、络抓取数据并免费开放的非盈利组织,数据库包含了 2008 年以来的原始网页、元数据和抓取文本,数据规模达 PB 级别,其中英文数据占比约 45%,中文数据占比约 5%。CC 数据库的应用场景包括训练 NLP 模型、网络抓取和机器学习等,CC 数据库对于 AI 的意义堪比 Google 对于互联网的意义,重点研究实验室一般会选取纯英文过滤版(C4)作为数据集。图图14:Common Crawl 数据规模达数据规模达 PB 级级 图图15:Common Crawl 英文数据占比约英文数据占比约 45%资料来源:Common Crawl 官网、开源证券研究所 资料来源:Common Crawl 官网

29、 ChatGPT 的优秀表现得益于的优秀表现得益于预训练数据量大幅提升预训练数据量大幅提升。GPT-3 和 GPT-2 采用了相同的架构,在模型上没有大幅修改,仅用更多的数据量、参数量去进行训练。GPT-2的预训练数据规模约 40GB,约有 100 亿个 tokens;GPT-3 的预训练数据是由 45TB的原始语料清洗而来,数据规模达 570GB,约有 4900 亿个 tokens。GPT-2 模型参数量为 15 亿,GPT-3 参数量为 1750 亿。由于容量和参数量的的大幅提升,GPT-3 的准确性也得到大幅提升,已经可以生成高质量文本,让人难以确定是否是人写的。行业深度报告行业深度报告

30、 请务必参阅正文后面的信息披露和法律声明 11/32 表表2:GPT-3 预训练数据量大幅提升预训练数据量大幅提升 模型模型 GPT-1 GPT-2 GPT-3 发布时间 2018 年 6 月 2019 年 2 月 2020 年 5 月 层数 12 48 96 头数 12-96 词向量长度 768 1600 12888 参数量 1.17 亿 15 亿 1,750 亿 预训练数据量 约 5GB 40GB 45TB 数据来源:维基百科、开源证券研究所 图图16:GPT-3 预训练数据量大幅提升预训练数据量大幅提升 资料来源:LifeArchitect.ai 网站 ChatGPT 局限:局限:(1)

31、ChatGPT 的知识有限。的知识有限。ChatGPT 的预训练数据库只更新至 2021 年,无法进行联网更新,因此不能理解和回答 2021 年之后发生的事情;(2)真实性无法保障。真实性无法保障。ChatGPT 的部分训练是基于从互联网上搜集的数据,因此它的输出结果经常受到偏见和不准确信息的影响,无法保证真实性。图图17:ChatGPT 预训练预训练数据数据仅仅更新至更新至 2021 年年 资料来源:OpenAI 官网、开源证券研究所 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 12/32 2.3、算力算力:微软是独家云计算供应商微软是独家云计算供应商,预计,预计每月每

32、月成本成本近千万美元近千万美元 微软微软AzureAI是是ChatGPT独家云计算供应商独家云计算供应商。根据Open AI于2018年的统计,自 2012 年以来,AI 训练任务所运用的算力每 3.43 个月就会翻倍,算力需求每年长10 倍。ChatGPT 训练的硬件为超级计算机,2019 年,微软向 OpenAI 投资 10 亿美元,双方将共同开发 AzureAI 超算技术,微软也成为 OpenAI 独家云计算供应商。OpenAI提供训练的超级计算机拥有约 285,000 个 CPU 内核、约 10,000 个 GPU,每个 GPU服务器拥有约 400GB/s 的网路连接速度。预计预计 C

33、hatGPT 每月成本约为每月成本约为 900 万美元。万美元。根据 Open AI 的 CEO Sam Altman 在Twitter 上透露,ChatGPT 每次聊天成本约为几美分(single-digits cents per chat),其中一部分来自 Azure 云服务。我们假设 ChatGPT 日活用户为 1000 万人,每次完整对话的成本为 3 美分,可测算得 ChatGPT 每日成本约为 30 万美元,月度成本约为 900万美元。图图18:ChatGPT 每次聊天成本约为几美分每次聊天成本约为几美分 资料来源:Twitter 行业深度报告行业深度报告 请务必参阅正文后面的信息披

34、露和法律声明 13/32 3、技术、产业、政策共振技术、产业、政策共振,AIGC 迎加速发展迎加速发展 AI 技术技术持续突破创新,引领持续突破创新,引领 AIGC 产业发展。产业发展。(1)算法模型方面)算法模型方面:2014 年以来,GAN、Transformer、Flow-based models、Diffusion models 等深度学习生成算法持续涌现,在自然语言处理(NLP)、计算机视觉(CV)等领域持续应用。比如谷歌的 BERT 和 LaMDA、OpenAI 的 GPT-3 预训练模型均基于 Transformer 模型而来,为后续 ChatGPT 等应用的落地奠定基础。图图1

35、9:AI 技术持续突破创新,引领技术持续突破创新,引领 AIGC 产业发展产业发展 资料来源:腾讯研究院(2)预训练模型方面预训练模型方面:2018 年,谷歌推出自然语言预训练模型 BERT,AI 进入预训练大模型时代。相比之前的生成模型,预训练模型通过大数据和巨量参数的训练,生成质量显著提升,满足下游场景对高精度、高质量的要求,成为了 AI 技术发展的范式变革,引发了 AIGC 产业的质变。在自然语言处理领域,大模型的自然语言理解能力超越了人类,并且体现出了超强的通用 AI 能力。在计算机视觉领域,预训练大模型的效果也超越了之前的监督学习方法,在视觉分类、图像分割等任务中取得了很大提升,且表

36、现出了强大的图像理解能力。图图20:预训练模型通过大数据和巨量参数的训练,生成质量显著提升预训练模型通过大数据和巨量参数的训练,生成质量显著提升 资料来源:AI 大模型公众号 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 14/32(3)多模态技术方面)多模态技术方面:多模态技术是指将图像、声音、文字等多类型内容融合学习,比如将“人”这一文本与人的图片联系在一起。从单模态向多模态的发展,丰富了 AIGC 的内容,使 AIGC 应用更具有通用性,在视觉问答、视觉推理等任务中取得了非常好的效果。比如 OpenAI DALL-E 和百度的文心 ERNIE ViLG,根据用户输入的

37、文字即可生成出图片。图图21:预训练大模型从单预训练大模型从单模态向多模态的发展模态向多模态的发展 资料来源:AI 大模型公众号 AIGC 产业生态产业生态持续完善持续完善,已经进入产业落地的关键期已经进入产业落地的关键期。AIGC 产业链包括底层的芯片和数据服务支撑、基础算法平台以及下游的行业应用。图图22:AIGC 产业生态持续完善产业生态持续完善 资料来源:IDC 官网 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 15/32(1)基础算法平台方面,基础算法平台方面,预训练大模型需要高成本和技术投入,具有较高的技术门槛,行业参与者主要为头部科技企业和科研机构等,以及一

38、些垂直场景的公司。(2)下游的行业应用下游的行业应用方方面,面,大模型的落地痛点在于成本高昂的通用大模型与下游垂直应用场景需求的不匹配。随着 ChatGPT 热度持续提升以及大厂的持续投入,有望直接刺激下游付费意愿提升,进一步加速 AIGC 应用落地和商业变现,AIGC 产业迎来发展良机。政策支持落地,政策支持落地,AIGC 有望迎来加速发展。有望迎来加速发展。2 月 13 日,北京市经信局表示:“支持头部企业打造对标 ChatGPT 的大模型,着力构建开源框架和通用大模型的应用生态。加强人工智能算力基础设施布局。加速人工智能基础数据供给。支持人工智能优势企业在自动驾驶、智能制造、智慧城市等优

39、势领域开展创新应用,全面构筑人工智能场景创新高地”。北京经信局明确表示支持头部企业打造对标 ChatGPT 的大模型,支持算力、数据、应用等相关产业协同发展,AIGC 行业从市场关注上升至政策支持层面。预计预计 2030 年年 AIGC 市场规模将达市场规模将达 1100 亿美元。亿美元。根据腾讯研究院发布的 AIGC发展趋势报告,AIGC 在 AI 技术创新(生成算法、预训练模型、多模态技术等)和产业生态(三层生态体系雏形已现)的支持下,有望步入发展快车道,预计 2030 年AIGC 市场规模将达 1100 亿美元。行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 16/32

40、 4、巨头积极布局,产业落地加速巨头积极布局,产业落地加速 4.1、微软微软:产品产品全线全线整合整合 ChatGPT,想象空间广阔想象空间广阔 微软微软与与 OpenAI 持续深度合作持续深度合作,是其独家云服务供应商,是其独家云服务供应商。2019 年 7 月,微软对OpenAI 投资 10 亿美元,OpenAI 将服务移植在 Microsoft Azure 上运行,微软将成为 OpenAI 新技术商业化的首选合作伙伴。2020 年 9 月,微软获得 OpenAI 的 GPT-3模型独家授权,OpenAI 将继续向公众提供 API,只有微软可以访问 GPT-3 的底层代码,并可以根据需要嵌

41、入或修改模型。2023 年 1 月,微软 Azure OpenAI 服务对外发布,企业客户可以申请访问 OpenAI 旗下 GPT-3.5、Codex 和 DALLE2 模型。图图23:微微软与软与 OpenAI 持续深度合作持续深度合作 资料来源:微软官网 微软微软计划计划将将 ChatGPT 整合进所有产品。整合进所有产品。2023 年 2 月 2 日,微软宣布旗下所有产品将全线整合 ChatGPT,进一步加大与 ChatGPT 合作。2023 年 2 月 7 日,微软推出引入 ChatGPT 技术的搜索引擎 New Bing 和浏览器 Edge。新 Bing 搜索栏升级为“向我提问吧”的

42、对话框,用户提出问题后,搜索引擎可以自动抓取关键内容并生成回答。行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 17/32 图图24:微软微软 ChatGPT 版版 Bing,可以自动抓取关键内容并,可以自动抓取关键内容并生成生成回答回答 资料来源:Bing ChatGPT 与搜索结合与搜索结合可可改善搜索体验改善搜索体验。ChatGPT 的对话模式对于用户更有吸引力,由于训练数据有限,同时真实性也无法得到保障,尚不具备替代搜索引擎的能力。ChatGPT 与搜索结合,则可以结合搜索和聊天的有点,大幅改善搜索体验。根据微软的调研显示,71%的用户对 ChatGPT 版 Bing

43、 满意,搜索与 AI 技术协同作用显著。根据 Statista 数据,截至 2022 年 12 月,Google、Bing 在搜索领域的市场份额分别为 84.08%、8.95%,微软推出结合 ChatGPT 版新 Bing,具备先发优势,未来市场份额有望提升。图图25:2022 年年 12 月月 Google、Bing 在搜索领域的市场份额分别为在搜索领域的市场份额分别为 84.08%、8.95%资料来源:Statista 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 18/32 4.2、谷歌谷歌:推出对标产品推出对标产品 Bard,或将与微软正面竞争,或将与微软正面竞争

44、2018 年年,谷歌推出自然语言预训练模型谷歌推出自然语言预训练模型 BERT。BERT(Bidirectional Encoder Representations from Transformers)和ChatGPT同样以Transformers为基础模型,BERT采用双向编码器表示技术,在理解上下文方面有更好的表现。数据方面,数据方面,BERT 训练数据采用了开源语料 BooksCropus 以及英文维基百科数据,共有约 33 亿个词。参数参数方面,方面,基础版本(base)参数量为 1.1 亿,大号版本(large)参数量达 3.4 亿。训练训练方面,方面,大号版本 BERT 一次训练需

45、要 16 个 TPU 集群(约 64TPU)训练 5 天。图图26:2018 年谷歌推出自然语言预训练模型年谷歌推出自然语言预训练模型 BERT 资料来源:BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 谷歌已将谷歌已将 BERT 模型用于改善搜索。模型用于改善搜索。BERT 模型可以借助某个单词前后的词来考虑其所处的完整语境,应用于搜索引擎后,更好的理解用户搜索意图。2019 年,谷歌宣布将 BERT 模型应用于用于英文搜索,随后又拓展至 70 余种语言,2020 年谷歌表示几乎所

46、有英文搜索应用了 BERT 模型。图图27:谷歌已将预训练模型用于改善搜索谷歌已将预训练模型用于改善搜索 资料来源:谷歌官网 2023 年年 2 月,谷歌推出对标月,谷歌推出对标 ChatGPT 的对话机器人的对话机器人 Bard。根据谷歌介绍,Bard是由 LaMDA 提供支持的全新实验性对话谷歌 AI 服务,寻求将世界知识的广度与谷歌大型语言模型的力量、智慧和创造力相结合。它利用来自网络的信息提供最新、高质量的回复。行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 19/32 图图28:2023 年年 2 月,谷歌推出月,谷歌推出对标对标 ChatGPT 的对话机器人的对话

47、机器人 Bard 资料来源:谷歌官网 Bard 基于基于谷歌谷歌 LaMDA 模型模型,表现已接近人类水平,表现已接近人类水平。LaMDA 同样以 transformer模型为基础,预训练数据库由1.56万亿个单词的文档和对话构成,参数量最高达1370亿,是 GPT-3 的 7.8 倍。根据谷歌的测试,经过微调后,LaMDA 已经在多个维度接近人类水平。目前谷歌聊天机器人 Bard 仍处于内测阶段,尚未对外开放。图图29:Bard 基于谷歌基于谷歌 LaMDA 模型,表现已接近人类水平模型,表现已接近人类水平 资料来源:谷歌官网 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明

48、 20/32 未来谷歌未来谷歌AI技术将率先应用于搜索业务。技术将率先应用于搜索业务。在AI领域,谷歌已有LaMDA、PaLM、Imagen、MusicLM 等技术储备,涵盖语言、图像、视频和音频领域,未来将陆续整合进公司旗下产品。谷歌表示,AI 技术将率先应用于搜索业务,自动提炼搜索结果便于了解全局。目前微软已经推出整合 ChatGPT 版本的搜索引擎 NewBing,未来或将与谷歌展开正面竞争。图图30:未来谷歌未来谷歌 AI 技术将率先应用于搜索业务技术将率先应用于搜索业务 资料来源:谷歌官网 行业深度报告行业深度报告 请务必参阅正文后面的信息披露和法律声明 21/32 4.3、百度百度

49、:AI 领域全栈布局,领域全栈布局,文心一言文心一言生态持续扩大生态持续扩大 百度是国内最有实力推出对标百度是国内最有实力推出对标 ChatGPT 产品的厂商之一。产品的厂商之一。百度在百度在 AI 领域深耕领域深耕数十年,数十年,在包括底层的芯片、深度学习框架、大模型以及最上层的搜索等应用人工智能四层架构中已形成全栈布局,拥有产业级知识增强文心大模型,具备跨模态、跨语言的深度语义理解与生成能力。(1)芯片:百度自)芯片:百度自研研 AI 芯片昆仑芯片昆仑芯芯 2 单卡算力达单卡算力达 128TFLOPS。2018 年,百度在 AI 开发者大会上发布自主研发中国首款云端全功能 AI 芯片“昆仑

50、芯”。2021年 8 月,百度第二代昆仑芯开始量产,昆仑芯 2 基于 7nm 制程,单卡算力达到128TFLOPS,较第一代性能提升 2-3 倍,可应用于计算机视觉、自然语言处理、大规模语音识别、大规模推荐等场景。第三代昆仑芯 3 将采用 4nm 制程,预计 2024年初量产。图图31:昆仑芯昆仑芯 2 单卡算力达单卡算力达 128TFLOPS 图图32:第三代昆仑芯第三代昆仑芯 3 将采用将采用 4nm 制程制程 资料来源:IT 之家 资料来源:中国日报(2)深度学习框架:百度)深度学习框架:百度飞桨飞桨是国内是国内规模第一的深度学习框架和赋能平台规模第一的深度学习框架和赋能平台。飞桨(Pa

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考研资料 > 公开课真题 > 033--【肖厂长【商业模式系统课】——创业七步法之创模式】第12课【战法招合集】超级专业IP-订阅制代理-自有品牌醉鹅娘模式拆解 > 033--【肖厂长【商业模式系统课】——创业七步法之创模式】第12课【战法招合集】超级专业IP-订阅制代理-自有品牌醉鹅娘模式拆解

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2