【国盛证券】ChatGPT技术篇：智能背后的秘密 2.pdf

资源描述

1、请仔细阅读本报告末页声明请仔细阅读本报告末页声明证券研究报告|行业周报 2023 年 02 月 26 日计算机计算机 ChatGPT 技术篇：智能背后的秘密技术篇：智能背后的秘密 ChatGPT 表现惊艳，网站流量一路狂飙式成长。表现惊艳，网站流量一路狂飙式成长。根据数据统计机构Similarweb 的估计，网站（即 ChatGPT 官网）在2023/1/27-2023/2/3 这一周吸引的每日访客数量高达约 2500 万，在1 月 31 日的流量高峰日，该网站吸引了 2800 万次访问。并且在 1/3-2/3 这一个月里，该网站的流量平均每天增长 3.4%，增速惊人。从从 Trans

2、former 到到 ChatGPT，有哪些历史性突破？，有哪些历史性突破？ChatGPT 用户数高速增长的根本原因，来源于其突破性的表现，其中最突出的有两点体现：1）ChatGPT 与人类“对齐”了偏好，其应答更适应人类习惯，并且能驳回一些反道德的提问，展现出显著优于前代的智能度。2）ChatGPT 具备了思维链（Chain-of-Thought，CoT）能力，能够处理一定程度的复杂思维逻辑。3）ChatGPT 在算数、国际音标转写、单词解读、问答、事实性问答、基础概念映射、多任务自然语义理解、上下文单词理解等 8 个指标上表现出全面综合的能力。量变到质变，规模超过特定阈值后模型性能陡增。量变

3、到质变，规模超过特定阈值后模型性能陡增。根据谷歌发布的论文Emergent Abilities of Large Language Models，可以看到多个NLP 任务随着模型规模扩大的性能变化曲线：前期性能和模型规模大致呈线性关系；然而当模型规模大到一定程度时，任务性能有了明显的“飞升”。海量代码训练，模型习得代码背后隐含的逻辑能力。海量代码训练，模型习得代码背后隐含的逻辑能力。根据熵简科技介绍，“代码”可以理解为一种具备高度逻辑性的文本语料，不具备强逻辑性的代码会无法执行，而不像普通文本语料那样有着较高的逻辑自由度。模型从对大量代码的学习过程中，逐渐掌握了隐藏在代码背后的抽象能力与逻辑能

4、力，进而涌现出我们在 ChatGPT 上感受到的“智能”。训练过程加入了人类反馈，模型偏好向人类看齐。训练过程加入了人类反馈，模型偏好向人类看齐。通过有人类反馈的加强学习（RLHF）训练，人类手动对 AI 给出的回复进行排名，让 AI模型理解人类偏好。由于训练过程中加入了人类反馈，有别于前代GPT-3 单纯使用海量数据的训练方法，ChatGPT 能够更好地理解用户指令，并作出反应。投资建议。投资建议。建议关注：1）应用型公司：金山办公、光云科技、当虹科技、同花顺、万兴科技、立方数科、云赛智联、神思电子、宇信科技、360、高伟达、寺库、知乎、汉王科技等；2）算力公司：浪潮信息、中科曙光、海光信息

5、、寒武纪、景嘉微、世纪华通、光通信产业链公司；3）相关技术公司：科大讯飞、云从科技、拓尔思、海天瑞声、海康威视、萤石网络、百度、阿里、腾讯；4）软件开发效率提升：赛意信息、润和软件、法本信息、游戏公司等；5）机器人：三花智控、鸣志电器、绿的谐波、晶品特装、微创机器人等。风险提示风险提示：AI 技术迭代不及预期风险；经济下行超预期风险；行业竞争加剧风险。增持增持（维持维持）行业行业走势走势作者作者分析师分析师刘高畅刘高畅执业证书编号：S0680518090001 邮箱：相关研究相关研究 1、计算机：首批 Azure OpenAI 服务落地万科，大模型商业化进程持续加速2023-02-2

6、1 2、计算机：ChatGPT 算力需求是如何扩张的2023-02-19 3、计算机：Chatgpt 需要多少算力2023-02-12 -48%-32%-16%0%16%2022-022022-062022-102023-02计算机沪深扫码进群领取3、最新业报告、公司研究、专业咖分享1、优质研报免费获取，业报告定期打包2、每推送业最新深度研报（精选10篇）2023 年 02 月 26 日 P.2请仔细阅读本报告末页声明请仔细阅读本报告末页声明内容目录内容目录 1.从 Transformer 到 ChatGPT，有哪些历史性突破？.3 2.ChatGPT 背后的秘密：智能来自何方？.5 2.1

7、量变到质变，规模超过特定阈值后模型性能陡增.5 2.2 海量代码训练，模型习得代码背后隐含的逻辑能力.6 2.3 训练过程加入了人类反馈，模型偏好向人类看齐.7 3、投资建议.8 4、风险提示.9 图表目录图表目录图表 1：ChatGPT 每日点击访问量统计.3 图表 2：ChatGPT 会主动驳回一些具有潜在道德风险的危险提问.4 图表 3：ChatGPT 已经具备了思维链能力.5 图表 4：模型规模超过特定阈值后模型性能陡增.6 图表 5：ChatGPT 模型家族谱系.7 图表 6：ChatGPT 使用 RLHF 方法进行训练.8 2023 年 02 月 26 日 P.3请仔细阅读本报

8、告末页声明请仔细阅读本报告末页声明 1.从从 Transformer 到到 ChatGPT，有哪些历史性突破？，有哪些历史性突破？ChatGPT 流量以每日流量以每日 3.4%的速度的速度快速快速成长成长，每日用户数已超，每日用户数已超 2500 万。万。根据数据统计机构 Similarweb 的估计，网站（即 ChatGPT 官网）在 2023/1/27-2023/2/3 这一周吸引的每日访客数量高达约 2500 万，在 1 月 31 日的流量高峰日，该网站吸引了 2800 万次访问。并且在 1/3-2/3 这一个月里，该网站的流量平均每天增长3.4%，增速惊人。图表 1：ChatGPT

9、每日点击访问量统计资料来源：Similarweb，国盛证券研究所 ChatGPT 用户数用户数高速高速增长增长的根本原因的根本原因，来源于其突破性的表现，来源于其突破性的表现，其中最其中最突出突出的有两点的有两点体现体现：1）ChatGPT 与人类“对齐”了偏好，其应答更适应人类习惯，并且能驳回一些反道德的提问，展现出显著优于前代的智能度。ChatGPT 模型比以往的人机对话模型（例如 GPT3等）更强大，例如，其敢于质疑不正确的前提和假设、主动承认错误以及一些无法回答的问题、主动给拒绝不合理的问题、提升了对用户意图的理解以及结果的准确性。与之前的 GPT3 不同，相比于此前海量学习数据进行

10、训练，ChatGPT 中，人对结果的反馈成为了 AI 学习过程中的一部分。初次之外，ChatGPT 甚至会主动驳回一些危险提问，例如：如果提问“如何霸凌 John”，上一代的模型 InstructGPT 会给出几种方法作为解答，而 ChatGPT 给出的答案则是“霸凌是不对的”。2023 年 02 月 26 日 P.4请仔细阅读本报告末页声明请仔细阅读本报告末页声明图表 2：ChatGPT 会主动驳回一些具有潜在道德风险的危险提问资料来源：ChatGPT 官网，国盛证券研究所 2）ChatGPT 具备了具备了思维链（思维链（Chain-of-Thought，CoT）能力，能够能力，能够处理

11、处理一定一定程度的程度的复杂复杂思维思维逻辑逻辑。对于一些逻辑较为复杂的问题，直接向大规模语言模型提问可能会得到不准确的回答，但是如果以提示（prompt）的方式在输入中给出有逻辑的解题步骤（即将复杂问题拆解为多个子问题解决再从中抽取答案）的示例后再提出问题，大模型就能给出正确题解。有时，甚至不用给示例，在输入后面接一句“Let s think step by step”，模型的输出就是一步一步“思考”后的各个子问题的结果，再将该输出拼到输入后构造第二次输入数据，大模型就能进一步将上一步的输出整合，得出正确的复杂问题的解。2023 年 02 月 26 日 P.5请仔细阅读本报告末页声明请仔细阅

12、读本报告末页声明图表 3：ChatGPT 已经具备了思维链能力资料来源：人大高瓴人工智能学院，国盛证券研究所 2.ChatGPT 背后的秘密：智能来自何方？背后的秘密：智能来自何方？2.1 量变到质变，规模超过特定阈值后模型性能陡增量变到质变，规模超过特定阈值后模型性能陡增随着算力的不断提升，语言模型已经从最初基于概率预测的模型发展到基于 Transformer架构的预训练语言模型，并逐步走向大模型的时代。当模型规模较小时，模型的性能和参数大致符合比例定律（scaling law），即模型的性能提升和参数增长基本呈线性关系。然而，当 GPT-3/ChatGPT 这种千亿级别的大规模模型被

13、提出后，人们发现其可以打破比例定律，实现模型能力质的飞跃。这些能力也被称为大模型的“涌现能力”（如理解人类指令等等）。根据谷歌发布的论文Emergent Abilities of Large Language Models，可以看到多个NLP 任务随着模型规模扩大的性能变化曲线：前期性能和模型规模大致呈线性关系；然而当模型规模大到一定程度时，任务性能有了明显的“飞升”，例如在算数、国际音标转写、单词解读、问答、事实性问答、基础概念映射、多任务自然语义理解、上下文单词理解等任务上。因此，当前研究通常以百亿/千亿级别参数量作为 LLM 的分水岭。2023 年 02 月 26 日 P.6请仔细阅读本

14、报告末页声明请仔细阅读本报告末页声明图表 4：模型规模超过特定阈值后模型性能陡增资料来源：谷歌论文Emergent Abilities of Large Language Models，国盛证券研究所 2.2 海量代码训练，模型习得代码背后隐含的逻辑能力海量代码训练，模型习得代码背后隐含的逻辑能力学界普遍推测，学界普遍推测，ChatGPT 的复杂思维能力（的复杂思维能力（CoT 能力）来自于代码训练。能力）来自于代码训练。根据熵简科技介绍，ChatGPT 的背后是 Text-davinci-002 模型，但如果回溯 ChatGPT 的“模型家谱”，Text-davinci-002 模型其

15、实是基于 Code-davinci-002 模型经过指令微调的产物。如果进一步回溯到起点，对于没有接受过代码数据训练的 GPT-3 模型，它的复杂推理能力是很弱的。GPT-3的一个分支对代码数据进行了专项训练，Codex模型中代码数据量约为159G，基于此产生的 Code-davinci-002 模型神奇的具备了思维推理能力。由于这一能力近来才出现，学界对于它是如何产生的尚无定论，但学界普遍推测：在模型训练的过程中，是否引入“代码数据集”，很有可能是模型是否具备复杂思维能力的关键变量。代码是一种强逻辑性的文字，模型在学习代码的过程中习得了逻辑能力。代码是一种强逻辑性的文字，模型在学习代码的过程

16、中习得了逻辑能力。“代码”可以理解为一种具备高度逻辑性的文本语料，不具备强逻辑性的代码会无法执行，而不像普通文本语料那样有着较高的逻辑自由度。模型从对大量代码的学习过程中，逐渐掌握了隐藏在代码背后的抽象能力与逻辑能力，进而涌现出我们在 ChatGPT 上感受到的“智能”。2023 年 02 月 26 日 P.7请仔细阅读本报告末页声明请仔细阅读本报告末页声明图表 5：ChatGPT 模型家族谱系资料来源：熵简科技，国盛证券研究所 2.3 训练过程加入了人类反馈，模型偏好向人类看齐训练过程加入了人类反馈，模型偏好向人类看齐通过有人类反馈的加强学习（通过有人类反馈的加强学习（RLHF）训练，

17、）训练，ChatGPT 能够更好地理解能够更好地理解人类偏好，从而人类偏好，从而给出更符合人类习惯的回答给出更符合人类习惯的回答。ChatGPT 使用 RLHF 方法训练了一个初始模型：人类 AI 训练员提供对话，他们在对话中扮演双方用户和 AI 助手，AI 训练员可以访问模型编写的对话回复，以帮助 AI 调整回复内容。为了创建强化学习的奖励模型，该研究需要收集比较数据，其中包含两个或多个按质量排序的模型回复。该研究收集了 AI 训练员与聊天机器人的对话，并随机选择一条模型编写的消息，抽取几个备选回复，让 AI 训练员对这些回复进行排名。由于训练过程中加入了人类反馈，有别于前代 GPT-3 单

18、纯使用海量数据的训练方法，ChatGPT 能够更好地理解用户指令，并作出反应。2023 年 02 月 26 日 P.8请仔细阅读本报告末页声明请仔细阅读本报告末页声明图表 6：ChatGPT 使用 RLHF 方法进行训练资料来源：ChatGPT 官网，国盛证券研究所 RLHF 具体训练步骤如下：具体训练步骤如下：第一步：首先从大量的包含人类真实意图的指令集合中采样指令作为输入数据，并聘请专职标注员标注这些指令的输出，这部分相对而言是一个高质量的小数据集。数据收集完成后，使用 GPT-3.5 在该数据集上进行有监督的微调（supervised fine-tuning）。第二步：得到上一步微调

19、好的 GPT-3.5 之后，再次从指令集合中采样指令作为输入数据，从 GPT-3.5 得到多个不同的结果，并聘请专职标注员标注这些输出的好坏顺序，例如输出 D输出 C输出 A输出 B。由于只需要标注模型不同输出的好坏，这部分标注的成本会降低很多，因此数据规模也会较大。得到这些人工标注的输出顺序之后，可以训练得到一个打分（reward）模型。第三步，获得打分模型之后，接着从指令集合中采样一些新的指令作为输入数据，并结合打分模型，使用 PPO（一种强化学习算法）方式来训练得到最终的 ChatGPT。3、投资建议投资建议建议关注：1）应用型公司：金山办公、光云科技、当虹科技、同花顺、万兴科技、立方

20、数科、云赛智联、神思电子、宇信科技、360、高伟达、寺库、知乎、汉王科技等；2）算力公司：浪潮信息、中科曙光、海光信息、寒武纪、景嘉微、世纪华通、光通信产业链公司；3）相关技术公司：科大讯飞、云从科技、拓尔思、海天瑞声、海康威视、萤石网络、百度、阿里、腾讯；4）软件开发效率提升：赛意信息、润和软件、法本信息、游戏公司等；5）机器人：三花智控、鸣志电器、绿的谐波、晶品特装、微创机器人等。2023 年 02 月 26 日 P.9请仔细阅读本报告末页声明请仔细阅读本报告末页声明 4、风险提示风险提示 AI 技术迭代不及预期技术迭代不及预期风险：风险：若 AI 技术迭代不及预期，NLP 技术理解人类意

21、图水平未能取得突破，则对产业链相关公司会造成一定不利影响。经济下行超预期风险：经济下行超预期风险：若宏观经济景气度下行，固定资产投资额放缓，影响企业再投资意愿，从而影响消费者消费意愿和产业链生产意愿，对整个行业将会造成不利影响，NLP技术应用落地将会受限。行业竞争加剧风险：行业竞争加剧风险：若相关企业加快技术迭代和应用布局，整体行业竞争程度加剧，将会对目前行业内企业的增长产生威胁。2023 年 02 月 26 日 P.10请仔细阅读本报告末页声明请仔细阅读本报告末页声明免责声明免责声明国盛证券有限责任公司（以下简称”本公司”）具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户

22、使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下，本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司认为可信的公开资料，但本公司及其研究人员对该等信息的准确性及完整性不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断，可能会随时调整。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态，对本报告所含信息可在不发出通知的情形下做出修改，投资者应当自行关注相应的更新或修改。本公司力求报告内容客观、公正，但本报告所载的资料、工具、意见、信息及推测只提供给客户作参

23、考之用，不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户，不构成客户私人咨询建议。投资者应当充分考虑自身特定状况，并完整理解和使用本报告内容，不应视本报告为做出投资决策的唯一因素。投资者应注意，在法律许可的情况下，本公司及其本公司的关联机构可能会持有本报告中涉及的公司所发行的证券并进行交易，也可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。本报告版权归”国盛证券有限责任公司”所有。未经事先本公司书面授权，任何机构或个人不得对本报告进行任何形式的发布、复制。任何机构或个人如引用

24、、刊发本报告，需注明出处为”国盛证券研究所”，且不得对本报告进行有悖原意的删节或修改。分析师声明分析师声明本报告署名分析师在此声明：我们具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力，本报告所表述的任何观点均精准地反映了我们对标的证券和发行人的个人看法，结论不受任何第三方的授意或影响。我们所得报酬的任何部分无论是在过去、现在及将来均不会与本报告中的具体投资建议或观点有直接或间接联系。投资评级说明投资评级说明投资建议的评级标准投资建议的评级标准评级评级说明说明评级标准为报告发布日后的 6 个月内公司股价（或行业指数）相对同期基准指数的相对市场表现。其中 A 股市场以沪

25、深 300 指数为基准；新三板市场以三板成指（针对协议转让标的）或三板做市指数（针对做市转让标的）为基准；香港市场以摩根士丹利中国指数为基准，美股市场以标普 500 指数或纳斯达克综合指数为基准。股票评级买入相对同期基准指数涨幅在 15%以上增持相对同期基准指数涨幅在 5%15%之间持有相对同期基准指数涨幅在-5%+5%之间减持相对同期基准指数跌幅在 5%以上行业评级增持相对同期基准指数涨幅在 10%以上中性相对同期基准指数涨幅在-10%+10%之间减持相对同期基准指数跌幅在 10%以上国盛证券研究所国盛证券研究所北京北京上海上海地址：北京市西城区平安里西

26、大街 26 号楼 3 层邮编：100032 传真：010-57671718 邮箱：地址：上海市浦明路 868 号保利 One56 1 号楼 10 层邮编：200120 电话：021-38124100 邮箱：南昌南昌深圳深圳地址：南昌市红谷滩新区凤凰中大道 1115 号北京银行大厦邮编：330038 传真：0791-86281485 邮箱：地址：深圳市福田区福华三路 100 号鼎和大厦 24 楼邮编：518033 邮箱：明确分析向明确分析向明确分析向明确分析向产品分析流程找报告，上烽研报烽研报全业研报聚合检索平台明确分析向明确分析向明确分析向明确分析向产品分析流程找报告，上烽研报烽研报全业研报聚合检索平台

展开阅读全文