收藏 分享(赏)

ChatGPT的技术发展路径和带来的影响-2023.3-31页.pdf

上传人:sc****y 文档编号:2322374 上传时间:2023-05-06 格式:PDF 页数:31 大小:1.88MB
下载 相关 举报
ChatGPT的技术发展路径和带来的影响-2023.3-31页.pdf_第1页
第1页 / 共31页
ChatGPT的技术发展路径和带来的影响-2023.3-31页.pdf_第2页
第2页 / 共31页
ChatGPT的技术发展路径和带来的影响-2023.3-31页.pdf_第3页
第3页 / 共31页
ChatGPT的技术发展路径和带来的影响-2023.3-31页.pdf_第4页
第4页 / 共31页
ChatGPT的技术发展路径和带来的影响-2023.3-31页.pdf_第5页
第5页 / 共31页
ChatGPT的技术发展路径和带来的影响-2023.3-31页.pdf_第6页
第6页 / 共31页
亲,该文档总共31页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、ChatGPT的技术发展路径和带来的影响2023-0301:人工智能和NLP发展路径02:GPT系列模型发展路径03:ChatGPT技术原理解析04:ChatGPT的影响和意义目录CONTENT3人工智能技术发展脉络人工智能诞生最早可以追溯到1956年的感知机模型,经过近70年的发展,已经渗透到各行各业。2011年之前 模型简单受制于当时计算机硬件的发展,模型普遍简单,能力也相对较弱 场景局限模型只能处理单一场景,通用能力非常弱,导致成本过高。2012年至今 大模型得益于底层技术原理的突破和硬件算力的发展,模型越来越大,GPT3(2020年)达到了惊人的1750亿个参数(一般人脑有神经元120

2、到140亿个)大数据庞大的模型需要对应于海量的数据,GPT3使用的数据量已达到45TB,包括了多种主流语言放置示意图 人工干预往往需要如制定规则,词表,标注样本等大量人工工作。多模态语音,文字,图像之间不再存在明显壁垒,模型处理复杂场景的能力明显增加4人工智能的任务类型一般来说,人工智能处理的任务可以分为两类:1.决策式:人工智能回答“选择题”,模型主要处理诸如:判别,分类,排序等任务。2.生成式:人工智能回答“问答题”,需要模型根据输入,自动生成一些新内容(客观世界可能从未出现)。5NLP发展的技术路径自然语言处理(NLP,Natural Language Processing)是研究人与计

3、算机交互的语言问题的一门学科。传统方法(2012年以前)神经网络(2012年2018年)大模型预训练(2018年至今)提示(Prompt)学习(2020至今)典型方法Word2vec的诞生标志着NLP和神经网络的结合,陆 续 出 现 了 FastText、TextCNN、LSTM、Attention等模型特点神经网络的出现,大量减少了人工干预的工作,同义词可以通过向量表征自动学会,句法分析,词性标注等都已经嵌入进模型结构。典型方法常用方法有SVM、TF-IDF、LDA、同义词表、句法解析,语义规则,BP神经网络。特点需要人工进行干预,如制定规则,词表,权重等。应用场景单一,都是针对特定场景进行

4、开发。需要做大量特征工程。典型方法2018年,GPT和Bert的先后出现,标志着大模型时代的到来,后续诞生的Bart、ERNIE,T5等方法不断探索大模型的能力边界。特点模型参数量、数据量均上升了一个台阶,但是大部分模型利用文本自身特点生成训练样本,省去了很多人工标注的工作。在特定场景使用微调技术,降低了大模型跨场景的门槛。典型方法特点将所有任务,都转变为生成式任务。模型不再需要微调,使得零样本和少样本学习成为可能。提示学习将下游任务的建模方式重新定义,通过合适的prompt来实现直接在预训练模型上解决下游任务,如GPT3,T5。01:人工智能和NLP发展路径02:GPT系列模型发展路径03:

5、ChatGPT技术原理解析04:ChatGPT的影响和意义目录CONTENT7GPT系列模型发展路径在这个大模型时代,国内外各大厂商均对大模型积极布局,呈现百家争鸣的现象。Nvidia或成最大赢家。各大厂商的布局三种技术流派 自从2017年,Transformer被提出来后,Google,Meta,OpenAI均在大模型上有所建树,并产生了三种技术流派:1.自编码(Bert等)2.自回归(GPT等)3.二者结合(T5,BART等)底层技术原理8NLP技术发展带来的影响最近10年,是NLP技术和业务场景发展最快的黄金时期,NLP本身的技术体系被重构,所影响的业务领域也不断扩大。技术体系的改变 中

6、间任务的消亡中间任务是指并不直接面向最终目标,而是为了解决最终目标的一些阶段性任务。因为神经网络的发展,诸如语法分析,词性标注,分词等特有的中间任务已经几乎无人问津。使用场景的扩大 搜广推等内容链接领域NLP最成功的的商业化应用场景就是搜索,推荐,广告,技术的发展催生出一系列巨头(谷歌,百度,字节)未来的发展 大模型时代ChatGPT的出现,标志着大模型已经突破了技术的天花板,让大模型这条技术发展路线更为坚定。All you need is Money现在完成一个NLP任务,需要的不仅是技术,而且还包括算力,数据等资源。这背后都是巨额的资金投入。丰富的人机交互各类聊天机器人,语音助手,等人机交

7、互场景趋于成熟。小模型时代大模型对于创业公司和中小企业来说无疑需要倾注大量的资源。轻量化预训练模型,给出了一个新的思考方向。内容领域的变革ChatGPT将会颠覆整个内容生态,内容型公司(如知乎,微博)的重点将从内容分发转变为内容生产。今后互联网将充斥着大量机器产生的内容,这对监管会带来极大的挑战。9OpenAI和ChatGPT的发展路径OpenAI,在美国成立的人工智能研究公司,核心宗旨在于“实现安全的通用人工智能(AGI)”,使其有益于人类。2015年2018年2019年BEGIN2022年2019 年 7 月 22 日,微软宣布将向 OpenAI 投资 10 亿美元,以 共 同 开 发 用

8、 于MicrosoftAzure 云平台的新技术微软率先宣布与OpenAI独家合作打造了一台性能位居全球前五,拥有超过28.5万个CPU核心、1万 个 GPU、每 GPU 拥 有400Gbps网络带宽的超级计算机Azure AI超算平台,主要用于大规模分布式AI模型训练。OpenAI 成立于2015年,是一家非营利性研究机构,它的愿景是构建出安全、对人类有益的通用人工智能(AGI),由 伊隆 马斯克、SamAltman 等人宣布出资 10 亿美元成立。GPT面世,标志着人工智能正式走向大模型时代GPT-3依旧延续自己的单向语言模型训练方式,只不过这次把模型尺寸增大到了1750亿,并且使用45T

9、B数据进行训练。2020年 2022年11月30日,ChatGPT上市。2022年12月5日OpenAI创始 人 山 姆 奥 特 曼 宣 布,ChatGPT的用户已经突破100万人,仅用时5天。2023年1月末 ChatGPT 用户数突破1亿,成为史上用户数增长最快的消费者应用。2023年1月末微软宣布向推出 ChatGPT的OpenAI公司追加投资100亿美元。10GPT-1系列模型发展路径GPT的全称是Generative Pre-Trained Transformer,顾名思义,GPT的目的就是通过Transformer为基础模型,使用预训练技术得到通用的文本模型。GPT模型结构 GPT

10、-1的无监督预训练是基于语言模型进行训练在GPT-1中,使用了12个transformer块的结构作为解码器,每个transformer块是一个多头的自注意力机制,然后通过全连接得到输出的概率分布。11GPT-1处理相关NLP任务GPT-1稍加处理,就可适配大部分NLP主流任务放置示意图分类任务将起始和终止token加入到原始序列两端,输入transformer中得到特征向量,最后经过一个全连接得到预测的概率分布。推理任务将前提(premise)和假设(hypothesis)通过分隔符(Delimiter)隔开,两端加上 起 始 和 终 止 token。再 依 次 通 过transformer

11、和全连接得到预测结果。语义相似度输入的两个句子,正向和反向各拼接一次,然后分别输入给transformer,得到的特征向量拼接后再送给全连接得到预测结果。问答类将n个选项的问题抽象化为n个二分类问题,即每个选项分别和内容进行拼接,然后各送入transformer和全连接中,最后选择置信度最高的作为预测结果。12GPT-1的使用的数据量和指标GPT-1使用的数据量和参数量在目前看并不算大,但是在2018年时,已经算非常大的突破。数据量和数据集 数据量GPT-1使用了约5GB的数据量。模型结构 数据集GPT-1使用了BooksCorpus数据集,这个数据集包含7000本没有发布的书籍,更能验证模型

12、的泛化能力。使用字节对编码,共有40,000个字节对;词编码的长度为 768;可学习位置编码,位置编码长度为3072;12层的transformer,每个transformer块有12 个头;Attention,残差,Dropout等机制用来进行正则化,drop比例为 0.1;激活函数为GLEU;训练的batchsize为64,学习率为,序列长度为512,序列epoch为100;模型参数数量为1.17亿。13GPT-2相关介绍GPT-2的最大贡献是验证了通过海量数据和大量参数训练出来的词向量模型有迁移到其它类别任务中而不需要额外的训练。数据量和数据集GPT-2的文章取自于Reddit上高赞的文

13、章,命名为WebText。数据集共有约800万篇文章,累计体积约40G。为了避免和测试集 的 冲 突,WebText 移 除 了 涉 及Wikipedia的文章。共计40GB的数据量。模型结构实验结果在8个语言模型任务中,仅仅通过zero-shot学习,GPT-2就有7个超过了state-of-the-art的方法;在“Childrens Book Test”数据集上的命名实体识别任务中,GPT-2超过了state-of-the-art的方法约7%;“LAMBADA”是测试模型捕捉长期依赖的能力的数据集,GPT-2将困惑度从99.8降到了8.6;在阅读理解数据中,GPT-2超过了4个basel

14、ine模型中的三个;在法译英任务中,GPT-2在zero-shot学习的基础上,超过了大多数的无监督方法,但是比有监督的state-of-the-art模型要差;GPT-2在文本总结的表现不理想,但是它的效果也和有监督的模型非常接近 同样使用了使用字节对编码构建字典,字典的大小为50257;滑动窗口的大小为1024;batchsize的大小为 512;Layer Normalization移动到了每一块的输入部分,在每个self-attention之后额外添加了一个Layer Normalization;模型参数数量为15亿。14GPT-3相关介绍除了几个常见的NLP任务,GPT-3还在很多非

15、常困难的任务上也有惊艳的表现,例如撰写人类难以判别的文章,甚至编写SQL查询语句,React或者JavaScript代码等。数据量和数据集GPT-3共训练了5个不同的语料,分别是低质 量 的 CommonCrawl,高 质 量 的WebText2,Books1,Books2和Wikipedia,GPT-3根据数据集的不同的质量赋予了不同的权值,权值越高的在训练的时候越容易抽样到。共计45TB的数据量。模型结构实验结果GPT-3超过了绝大多数的zero-shot或者few-shot的state-of-the-art方法。另外GPT-3在很多复杂的NLP任务中也超过了fine-tune之后的sta

16、te-of-the-art方法,例如闭卷问答,模式解析,机器翻译等。除了这些传统的NLP任务,GPT-3在一些其他的领域也取得了非常震惊的效果,例如进行数学加法,文章生成,编写代码等。GPT-3沿用了GPT-2的结构,但是在网络容量上做了很大的提升,具体如下:GPT-3采用了 96层的多头transformer,头的个数为96 词向量的长度是 12888 上下文划窗的窗口大小提升至2048 个token;使用了alternating dense和locally bandedsparse attention。15技术亮点:Few-shot,one-shot,zero-shot learningGPT-3在很多复杂的NLP任务中也超过了fine-tune之后的state-of-the-art方法,例如闭卷问答,模式解析,机器翻译等。在few-shot learning中,提供若干个(10100个)示例和任务描述供模型学习。one-shot laerning是提供1个示例和任务描述。zero-shot则是不提供示例,只是在测试时提供任务相关的具体描述。作者对这3种学习方式分别进行了实验,实验

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教育教学 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2