1、科技专题研究2023年2月16日中航证券研究所发布证券研究报告请务必阅读正文后的免责条款部分行业评级:增持ChatGPT狂飙破壁,现象级AI应用引发范式革命分析师:刘牧野证券执业证书号:S0640522040001股市有风险 入市需谨慎获取更多最新资料请加微信:ch e n s a s a 666核心观点现象级AI应用狂飙破壁,ChatGPT引发范式革命:ChatGPT推出仅两个月后,即2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。OpenAI 在2023年2月1日推出订阅服务,每月收费20美元,拉开了人工智能在C端变现的帷幕。由此引发了全球范围的关注和讨
2、论,国内大多数头部科技企业表示,已经拥有、在研对标ChatGPT相关的模型及产品。AI模型运算规模增长,算力缺口巨大:基于大量数据训练、拥有巨量参数的AI预训练模型GPT-3,引发了AIGC技术的质变,从而诞生ChatGPT。然而,预训练模型参数数量、训练数据规模将按照 300 倍/年的趋势增长,现有算力距离AI应用存巨大鸿沟。运算规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传输速度提出了更高的要求。AIGC跨越数据鸿沟,合成数据与日精进:ChatGPT的火速出圈,将AIGC推向新的高度。数据是人工智能的燃料和驱动力,人工智能发展所需的海量数据也能通过 AIGC 技术生成、合成
3、出来,即合成数据(synthetic data)。合成数据有望解决人工智能和数字经济的数据供给问题。Gartner 预测,到2030 年 AI 模型使用的绝大部分数据将由人工智能合成。建议关注:GPU:景嘉微、航锦科技,和未上市的地平线、黑芝麻、摩尔线程;AI训练芯片:寒武纪、商汤(港股)、燧原科技(未上市);存算一体化:恒烁股份、东芯股份;光模块:中际旭创、光迅科技、华工科技、天孚通信、德科立、源杰科技;硅光芯片:光库科技、声光电科、赛微电子;合成数据潜在受益标的:百度、阿里、腾讯、金山办公、中国电信。风险提示:AI算法、模型存较高不确定性,AI技术发展不及预期;ChatGPT用户付费意愿弱
4、,客户需求不及预期;针对AI的监管政策收紧获取更多最新资料请加微信:ch e n s a s a 666一、现象级AI应用狂飙破壁,ChatGPT引发范式革命二、巨量数据规模引发质变,AI模型算力紧缺目 录四、风险提示三、AIGC跨越数据鸿沟,合成数据与日精进获取更多最新资料请加微信:ch e n s a s a 666ChatGPT用户量两月破亿,现象级应用横空出世资料来源:UBS,中航证券研究所ChatGPT(Chat Generative Pre-trained Transformer)是由OpenAI开发的人工智能聊天机器人程序,于2022年11月推出。据瑞银集团,ChatGPT推出仅
5、两个月后,即2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。作为比较,TikTok达到1亿用户用了9个月,Instagram花了2年半的时间。图:应用程序达到1亿用户量所需时间(月数)获取更多最新资料请加微信:ch e n s a s a 666智能化生产工具,提高生产效率资料来源:Openai,百度,中航证券研究所ChatGPT是一个虚拟助手,可以帮助用户解决问题、提供信息和建议。通过人工智能技术实现自然语言处理和自然语言理解,ChatGPT能够快速准确地回答用户提出的问题。可以通过文本或语音与用户交互,并通过不断学习和改进来提高能力和服务质量。现有使用案
6、例中,用户可通过ChapGPT实现代码生成、修改程序bug、写诗等。图:根据要求连续改进回答图:提升编程效率图:原创七言绝句获取更多最新资料请加微信:ch e n s a s a 666重新定义搜索,跨时代AI产品资料来源:中航证券研究所整理ChatGPT在智能化方面有跨越式进步,在多轮对话能力以及对话交互友好性上展示了惊艳效果。能够较准确理解问题,把生成的答案用易于人类理解的语言组织起来,生成类似人类语言的文本答案。同时,ChatGPT的模型优化目标为有用、可信、无害,在道德上友善,符合大众的道德观。图:ChatGPT特点智能化支持意图识别和逻辑推理支持多轮次连续对话支持在一个prompt(
7、提示)中同时有多个问题支持上下文理解,以回答某些假设性的问题人性化主动承认错误,对用户指出的错误进行答案优化。质疑不正确的问题。承认自身的无知,承认对专业技术的不了解道德友善,驳回潜在的种族主义或性别歧视提示获取更多最新资料请加微信:ch e n s a s a 666GPT-3大模型驱动,引发AIGC范式革命资料来源:腾讯,中航证券研究所以ChatGPT为代表的AIGC应用在 2022 年的爆发,主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了 AIGC(AI Generated Content)技术变革,拥有通用性、基础性多模态、参数多、训练数
8、据量大、生成内容高质稳定等特征的 AIGC 模型成为了自动化内容生产的“工厂”和“流水线”。基础层是核心,GPT-3模型起关键支撑作用。GPT-3一个大规模的通用语言模型,已经在来自各种来源的大量文本数据上进行了训练。能够产生类似人类的反应,并可用于广泛的语言相关任务。ChatGPT基于目前较新的GPT-3.5模型版本进行研发,专注于自然语言对话,接受了更广泛的语言模式和风格培训,因此,能较GPT-3产生更多样化和微妙的响应。图:AIGC产业架构以预训练大规模模型为基础搭建的 AIGC 技术基础设施层。在基础层上生成场景化、定制化、个性化的小模型,实现不同行业、垂直领域的流水线式部署面向 C
9、端用户的文字、图片、音视频等内容生成服务基础层中间层应用层预训练模型重直化、场景化、个性化模型图像、语音和文字生成等各种各样的AIGC的应用获取更多最新资料请加微信:ch e n s a s a 666C端应用时代降临,拉开AI商业变现帷幕资料来源:腾讯,中航证券研究所OpenAI 在2023年2月1日推出订阅服务,名为ChatGPT Plus,每月收费20美元。订阅用户将获得全天候服务,并在高峰时段享有优先访问。用户还可提前使用新功能及改进功能,应用的响应时间也更快。OpenAI预计2023年ChatGPT将实现2亿美元的收入。微软计划将旗下所有产品全线整合ChatGPT。除了搜索引擎必应、
10、办公软件Office外,微软还将在云计算平台Azure中整合ChatGPT,Azure的OpenAI服务将允许开发者访问AI模型。图:ChatGPT商业模式基础层中间层应用层产品/服务GPT-3大规模语言模型ChatGPT小模型、Azure聊天机器人APP、必应、Office收费模式对模型的API调用进行收费,属于to B端软件即服务(SaaS)允许开发者访问AI模型,属于to B端模型即服务(MaaS)C端用户通过订阅模式获得更加智能化的服务获取更多最新资料请加微信:ch e n s a s a 666政策反应迅速,国内科技巨头布局资料来源:机器之心,中航证券研究所2023年2月13日,北京
11、市经济和信息化局发布2022年北京人工智能产业发展白皮书,提出全面夯实人工智能产业发展底座。支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。加强人工智能算力基础设施布局。加速人工智能基础数据供给。国内科技企业纷纷对ChatGPT发表看法,百度、华为、腾讯、阿里巴巴等大多数头部企业表示,已经拥有、在研对标ChatGPT相关的模型及产品。图:国内科技企业现有技术储备将在 2023年3 月上线百度版 ChatGPT:文心一言公司 2020 年在大模型领域开始有布局,2021 年基于昇腾 AI 与鹏城实验室联合发布了鹏程相关技术储备包括混元系列 AI 大模型、智能创
12、作助手文涌(Effidit)等提出业界首个通用的统一大模型(模态、任务和架构)M6-OFA,可能将 AI 大模型技术与钉钉生产力工具深度结合将推出产业版ChatGPTChatJD,ChatJD 将以125计划作为落地应用路线图,包含一个平台、两个领域、五个应用。获取更多最新资料请加微信:ch e n s a s a 666关注AI三驾马车投资机会资料来源:中国信通院,中航证券研究所算法、算力和数据是人工智能发展的三驾马车,也是推动人工智能发展的重要基础。算法层面,超大规模预训练模型推动AI效果不断提升。当前,预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长,继续通过增大模型和增加
13、训练数据仍是短期内演进方向。算力层面,单点算力持续提升,算力定制化、多元化成为重要发展趋势。计算技术围绕数据处理、数据存储、数据交互三大能力要素演进升级,类脑芯片、量子计算等方向持续探索。数据层面,以深度学习为代表的人工智能技术需要大量的标注数据,这也催生了专门的技术和服务,随着面向问题的不断具体化和深入,数据服务走向精细化和定制化。算法算力数据OpenAI谷歌Meta百度阿里腾讯华为拓尔思商汤光环新网科大讯飞海量数据景嘉微寒武纪地平线东芯股份恒烁股份龙芯中科海光信息中国长城国盾量子数据港光迅科技中科曙光中际旭创浪潮信息中国联通中国移动中国电信润泽科技英伟达神州数码获取更多最新资料请加微信:c
14、h e n s a s a 666一、现象级AI应用狂飙破壁,ChatGPT引发范式革命二、巨量数据规模引发质变,AI模型算力紧缺目 录四、风险提示三、AIGC跨越数据鸿沟,合成数据与日精进获取更多最新资料请加微信:ch e n s a s a 666大型预训练模型引发质变资料来源:腾讯,中航证券研究所Transformer基础算法模型的出现,为NLP和CV训练领域提供了强大支持。OpenAI的GPT预训练模型,以及百度的ERNIE模型,都是基于Transformer模型建立。Al 预训练模型,又称为大模型、基础模型(foundation model),即基于大量数据(通常使用大规模自我监督学
15、习)训练的、拥有巨量参数的模型,能适应广泛的下游任务。预训练模型能够满足真实内容消费场景中的灵活多变、高精度、高质量等需求。随着2018 年谷歌发布基于 Transformer 机器学习方法的自然语言处理预训练模型 BERT,人工智能领域进入了大炼模型参数的预训练模型时代。预训练模型成为 AI 技术发展的范式变革,许多跨领域的 AI 系统将直接建立在预训练模型上。基础的生成算法模型不断突破创新2014年VAE、生成对抗网络GAN2015年基于流生成的模型、扩散模型2017年Transformer模型2020年神经辐射场NeRF2021年CLIP模型预训练模型引发AIGC技术能力质变自然语言处理
16、(NLP)预训练模型谷歌:LAMDA、BERTOpenAI:GPT系列百度:ERNIE系列计算机视觉(CV)预训练模型微软:Florence多模态预训练模型Deep Mind:GatoOpenAI:CLIP&DALL-E获取更多最新资料请加微信:ch e n s a s a 666AI模型数据规模增长,AI算力需求井喷资料来源:中国信通院,中航证券研究所当前,预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长,继续通过增大模型和增加训练数据仍是短期内演进方向。未来使用更多种图像编码、更多种语言、以及更多类型数据的预训练模型将会涌现。当前算力距离AI应用存巨大鸿沟。根据 Open A
17、I 数据,模型计算量增长速度远超人工智能硬件算力增长速度,存在万倍差距。英特尔表示,目前的计算、存储和网络基础设施远不足以实现元宇宙愿景,而要想实现真正的元宇宙,目前的计算能力需量要再提高1000倍。图:大模型参数量和训练数据规模增长迅速获取更多最新资料请加微信:ch e n s a s a 666AI模型数据规模增长,AI算力需求井喷资料来源:华为,IDC,中航证券研究所据IDC预计,2021-2026年期间,中国智能算力规模年复合增长率达52.3%。2022年智能算力规模将达到268.0 EFLOPS,预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,达到1,2
18、71.4 EFLOPS。运算数据规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传输速度提出了更高的要求。图:中国智能算力规模百亿亿次浮点运算/秒(EFLOPS)图:2012至2019年算力需求增长近30万倍获取更多最新资料请加微信:ch e n s a s a 666算力升级:AI训练芯片空间广阔资料来源:IDC,松鼠厂,中航证券研究所IDC预计,到2025年人工智能芯片市场规模将达726亿美元。IDC全球范围调研显示,人工智能芯片搭载率将持续增高。目前每台人工智能服务器上普遍多配置2个GPU,未来18个月,GPU、ASIC和FPGA的搭载率均会上升。通用性递减,专用性增强,为A
19、I芯片的主要发展方向。2021年中国以GPU为主实现数据中心计算加速,GPU在算力芯片的市场占有率接近90%。ASIC,FPGA,NPU等非GPU芯片市场占有率超过10%。国际科技网络巨头公司谷歌、脸书,亚马逊等等在AI芯片领域从云端训练到终端产品应用,在开源框架赋能产业行业上有一定的领先优势。国内企业也在打造从AI芯片注重云端训练+AI芯片终端响应+AI算法框架开源的生态体系。建议关注面向 GPU 的创新企业,包括景嘉微、航锦科技,和未上市的地平线、黑芝麻、摩尔线程等。以及面向基于ASIC架构、感知识别等AI训练芯片公司,如寒武纪、商汤(港股)、燧原科技(未上市)等。图:中国数据中心AI芯片
20、市场规模占比发展方向一:从通用到专用芯片架构芯片特点代表公司专用性(L1到L5依次增强)CPUCPU的通用架构设计使运行效率受限。当前CPU虽然在机器学习领域的计算大大减少,但是不会被完全取代。英特尔L1GPU目前商用最广泛的AI芯片,可以执行深度学习和神经网络任务。GPU主要从事大规模并行计算,比CPU运行速度快,并且比其他专用AI处理器芯片价格低。英伟达、AMDL2DSP仅作为处理器IP核使用。目前基于DSP的设计有一定的局限性,一般都是针对图像和计 算机视觉的处理器IP核芯片,速度较快,成本不高。新思科技、CadenceL3FPGAFPGA具有三大优点:单位能耗比低、硬件配置灵活、架构可
21、调整。但是,FPGA的 使用有一定门槛,要求使用者具备硬件知识。赛灵思、微软L4TPU/ASIC当前为谷歌公司专用,还不是市场化产品。ASIC芯片不能像FPGA很快改变架构,适应变化,对企业而言成本较昂贵。谷歌L5发展方向二:颠覆经典冯氏架构,采用人脑神经元的结构来提升计算能力TrueNorth模仿人脑神经元和神经突触的结构,功耗非常低。有可能实现人工智能领域的通用化路径,但从短期来看,离大规模商业生产还有很远的距离。IBM表:AI芯片架构及发展方向获取更多最新资料请加微信:ch e n s a s a 666算力升级:冯氏架构“破壁者”,存算一体突破瓶颈资料来源:中国移动研究院,中航证券研究
22、所冯氏架构以计算为中心,计算和存储分离,二者配合完成数据的存取与运算。然而,由于处理器的设计以提升计算速度为主,存储则更注重容量提升和成本优化,“存”“算”之间性能失配,从而导致了访存带宽低、时延长、功耗高等问题,即通常所说的“存储墙”和“功耗墙”。存算一体作为一种新的计算架构,被认为是具有潜力的革命性技术。核心是将存储与计算完全融合,有效克服冯诺依曼架构瓶颈,并结合后摩尔时代先进封装、新型存储器件等技术,减少数据的无效搬移,从而提升计算效率。中国移动已将存算一体纳入算力网络的十大关键技术。图:存储计算性能存在“剪刀差”场景重点需求存算一体优势端侧低延时、低功耗、低成本、隐私性当前存内计算产品
23、已成功在端侧初步商用,提供语音、视频等AI处理能力,并获得十倍以上的能效提升,有效降低了端侧成本。边侧低延时、低功耗、低成本、通用性存算一体在深度学习等领域有独特优势,可以提供比传统设备高几十倍的算效比,此外存内计算芯片通过架构创新可以提供综合性能全面兼顾的芯片及板卡,预计将在边侧推理场景中有着广泛的应用,为广泛的边缘AI业务提供服务。云侧大算力、高宽带、低功耗存内计算可通过多核协同集成大算力芯片,结合可重构设计打造通用计算架构,存内计算作为智算中心下一代关键AI芯片技术,正面向大算力、通用性、高计算精度等方面持续演进,有望为智算中心提供绿色节能的大规模AI算力。表:存算一体化应用场景广泛获取
24、更多最新资料请加微信:ch e n s a s a 666算力升级:冯氏架构“破壁者”,存算一体突破瓶颈资料来源:中国移动研究院,中航证券研究所当前NOR Flash、SRAM等传统器件相对成熟可率先开展存内计算产品化落地推动。新型器件中RRAM各指标综合表现较好,MRAM寿命和读写性能较好,均有各自独特优势与发展潜力可持续推动器件成熟,同步进行存内计算探索。三星电子、SK海力士、台积电、美光、IBM、英特尔等都在进行存算一体技术的研究。国内公司中,亿铸科技、千芯科技、后摩智能专注于大算力存算一体芯片,闪易半导体、苹芯科技、知存科技、智芯科、九天睿芯专注于小算力存算一体芯片。上市公司中,推荐关
25、注研发布局NOR Flash的恒烁股份,以及拥有存算一体研发项目的东芯股份。图:存内计算器件对比分析器件SRAMNOR FLASHRRAMMRAMPCM易失特性易失非易失非易失非易失非易失多值存储否是是否是现有工艺节点5nm28nm28nm16nm28nm理论工艺极限2nm14nm5nm5nm5nm单比特存储面积(F2/bit)3007.520403024读写次数无限1061081015108应用场景云侧和边侧的 推理和训练边侧和端侧的 推理云侧、边侧和端侧 的推理云侧和边测的 推理和训练云侧、边侧和端侧的 推理获取更多最新资料请加微信:ch e n s a s a 666传输速度迭代不止,高
26、速光模块出货预计大幅增长。据lightCounting统计,2021年,200G、400G和800G的高速以太网光模块发货量达222万只,2022年预计将达600万只,同比170%以上,800G的产品有望在2022年开始逐步放量。据lightcounting2022年3月预测,未来随着AI、元宇宙等新技术不断发展,以及网络流量长期保持持续增长,以太网光模块销售额也将保持较快增长并不断迭代升级。预计到2027年,以太网光模块市场将达到100.11亿美元。图:高速光模块发货量预测(百万只)传输升级:高速光模块放量资料来源:光通信之家,lightcounting,中航证券研究所图:以太网光模块营收预
27、测(百万美元)获取更多最新资料请加微信:ch e n s a s a 666CPO(协同封装光子技术)提升数据中心应用中的光互连技术。CPO将光学器件和ASIC紧密结合在一起,通过 Co-packaging 的封装方式,大体积的可插拔模块被简单的光纤配线架所取代,因此前面板的物理拥塞得以缓解。而交换机和光学器件之间的电气通道大大缩短,因此CPO将增加带宽和缩小收发器尺寸,提升系统集成度,同时降低功耗和封装成本。据lightcounting预测,数据中心将率先使用CPO封装技术。同时,随着AI集群和HPC的架构正在不断演进发展,可能会看到CPO部署在GPU、TPU以及以太网、InfiniBand
28、或NVLink交换机上,另外有许多基于FPGA的加速器也可能受益于CPO。预测在2027年,CPO端口将占总800G和1.6T端口的近30%。据机构CIR预测,CPO市场规模将在2025年超过13亿美元,2027年达到27亿美元。建议关注中际旭创、光迅科技、华工科技、天孚通信、德科立、源杰科技等光模块产业相关标的。图:CPO交换机传输升级:CPO与硅光技术降本增效资料来源:易飞通信,lightcounting,CSDN,中航证券研究所图:CPO端口、可插拔以太网光模块和AOC出货占比预测获取更多最新资料请加微信:ch e n s a s a 666硅光芯片基于绝缘衬底上硅(Silicon-On
29、-Insulator,SOI)平台,兼容互补金属氧化物半导体(Complementary Metal OxideSemiconductor,CMOS)微电子制备工艺,同时具备了 CMOS 技术超大规模逻辑、超高精度制造的特性和光子技术超高速率、超低功耗的优势。硅光芯片商业化至今较为成熟的领域为数据中心、通信基础设施等光连接领域。目前,硅光技术在第一代4x25G光模块中主要应用于500m内的100G QSFP28 PSM4;在第二代1x100G产品中,应用有100G QSFP28 DR1/FR1和LR1,作用于500m-10km场景中;在400G产品中,主要聚焦在2km以内的中短距离传输应用场景
30、,产品有400G DR4。未来随着技术逐渐成熟,激光雷达、光子计算等领域的应用有望实现突破。建议关注光库科技、声光电科、赛微电子等硅光制造产业链相关标的。传输升级:CPO与硅光技术降本增效资料来源:华中科技大学武汉光电国家研究中心,易飞扬通信,中航证券研究所硅光芯片在光模块中的应用硅光芯片的未来主要应用场景展望获取更多最新资料请加微信:ch e n s a s a 666一、现象级AI应用狂飙破壁,ChatGPT引发范式革命二、巨量数据规模引发质变,AI模型算力紧缺目 录四、风险提示三、AIGC跨越数据鸿沟,合成数据与日精进获取更多最新资料请加微信:ch e n s a s a 666Chat
31、GPT狂飙出圈,AIGC迎发展快车道资料来源:同伴客数据,至顶科技,中航证券研究所AIGC(人工智能生成内容)的狭义概念是利用AI自动生成内容的生产方式。在AIGC场景下,人工智能可灵活运用于写作、编曲、绘画和视频制作等创意领域。初步估计,到2025年,人工智能生成数据占比将达到10%。根据Generative AI:A Creative New World的分析,AIGC有潜力产生数万亿美元的经济价值。ChatGPT属于AIGC技术在自然语言对话场景的应用。ChatGPT的火速出圈,将AIGC推向新的高度。名词概念含义优势劣势代表PGC专业生产内容由专业站长或专家提供 的内容,可控性强,可以
32、经过多层筛选,呈现在用 户面前更具权威,或者更 有用专家的力量是有限的,也许一篇文章能有很大吸引力,但是产出的数量方面却是很薄弱的.新浪、网易、搜狐等门户网站UGC用户生产内容不必操心网站的内容数量,总有无数的用户每日 每夜为网站提供新的血液内容的质量很难把关,水平 参差不齐,控制不好内容的好坏,网站很容易会被广告、垃圾信息所占据脸书、推特、抖音、微博、微信公众号、知乎等AIGC人工智能生产内容创作效率高,创作成本低,使用门槛低难以精准满足创作需求、对于细节控制力不够、技术成 熟度不够ChatGPT、小冰科技、同伴客数据、百度文心等表:PGC、UGC、AIGC对比获取更多最新资料请加微信:ch
33、 e n s a s a 666AIGC提供数据燃料,驱动AI技术发展资料来源:中国信通院,中航证券研究所AIGC正朝着效率和品质更高、成本更低的方向发展。根据ChatGPT能够快速、准确地生产聊天内容的表现,可大胆推测,未来AIGC技术将会把创造和知识工作的边际成本降至零,以产生巨大的劳动生产率和经济价值。数据是人工智能的燃料和驱动力,人工智能发展所需的海量数据也能通过 AIGC 技术生成、合成出来,即合成数据(synthetic data)。合成数据可以在数学上或统计学上反映真实世界数据的属性,因此可以作为真实世界数据的替代品,来训练、测试、验证 Al 模型。兴起深度学习快速突破海量数据需
34、求实现牵引AIGC1、数字孪生,映射现实世界应用的三个层次2、数字编辑,改变虚拟世界3、数字内容自我生成和演化驱动数据价值提供多样化、个性化的内容高品质、低成本的AI训练数据获取更多最新资料请加微信:ch e n s a s a 666跨越数据鸿沟,合成数据推进实现AI 2.0资料来源:腾讯,中航证券研究所合成数据将极大拓展人工智能发展应用的数据基础。Forrester 将合成数据和强化学习、Transformer 网络、联邦学习、因果推理视为实现人工智能2.0 的五项关键技术进展,可以解决人工智能 1.0 所面临的一些限制和挑战,诸如数据、准确性、速度、安全性、可扩展性等。Gartner 预
35、测称,到 2030 年合成数据将彻底取代真实数据成为 AI 模型所使用的数据的主要来源。数据质优量大实现数据增强和数据模拟,解决数据匮乏、数据质量等问题,包括通过合成数据来改善基准测试数据的质量等安全保密避免数据隐私/安全/保密题,利用合成数据训练 AI模型可以避免用户隐私问题,这对于金融、医疗等领域而言尤其具有意义公平纠偏确保数据多样性更多反映真实世界,提升Al 的公平性,以及纠正历史数据中的偏见,消除算法歧视准确可靠应对长尾、边缘案例,提高 Al 的准确性、可靠性,合成数据可自动创建、生成现实世界中难以或者无法采集的数据场景,更好确保 AI 模型的准确性提升训练速度在大多数情况下,每多采集
36、和标注一条数据,花费的时间是成倍的。但合成数据可通过芯片进行快速生产。图:合成数据为AI模型提供强大助力获取更多最新资料请加微信:ch e n s a s a 666合成数据为数据要素创造增量,潜在商业价值待挖掘资料来源:腾讯,Gartner,中航证券研究所根据 Cognilytica 的数据,合成数据市场规模在 2021 年大概是 1.1 亿美元,到2027 年将达到 11.5 亿美元。Grand View Research 预测,Al 训练数据市场规模到 2030 年将超过 86 亿美元。Gartner 预测,到 2024 年用于训练 Al 的数据中有 60%将是合成数据,到2030 年
37、AI 模型使用的绝大部分数据将由人工智能合成。合成数据作为数据要素市场的新增量,在创造巨大商业价值的同时,也有望解决人工智能和数字经济的数据供给问题。图:合成数据发展预测用于AI的数据目前未来合成数据现实数据 人工智能生成的数据 由简单的规则,统计模型,模拟和其他技术生成 直接测量得到的数据 被成本、物流、隐私等原因所限制获得获取更多最新资料请加微信:ch e n s a s a 666合成数据为数据要素创造增量,潜在商业价值待挖掘资料来源:中航证券研究所合成数据的赛道主要涵盖非结构化数据(图片、视频、语音等)、结构化数据(表格等)、测试数据(test data)、开源服务等几大方向。国外的主
38、流科技公司纷纷瞄准合成数据领域加大投入与布局。微软、英伟达、亚马逊等科技巨头均推出了合成数据的工具或者应用,用于训练自主飞行器、为AI训练构建具有物理属性的合成数据技术引擎等。合成数据相关创新创业方兴未艾,合成数据创业公司不断涌现,合成数据领域的投资并购持续升温,开始涌现了合成数据即服务(synthetic data asa service,SDaas)这一发展前景十分广阔的全新商业模式。AI.Reverie为其中较著名的初创公司,其开发的平台可以为AI项目自动生成大型合成训练数据集,公司于2021年被头部互联网企业Meta收购。国内建议关注进行AI算法研究,且拥有庞大数据的公司,包括百度、阿
39、里、腾讯、金山办公、中国电信等。获取更多最新资料请加微信:ch e n s a s a 666一、现象级AI应用狂飙破壁,ChatGPT引发范式革命二、巨量数据规模引发质变,AI模型算力紧缺目 录四、风险提示三、AIGC跨越数据鸿沟,合成数据与日精进获取更多最新资料请加微信:ch e n s a s a 666风险提示AI算法、模型存较高不确定性,AI技术发展不及预期ChatGPT用户付费意愿弱,客户需求不及预期针对AI的监管政策收紧获取更多最新资料请加微信:ch e n s a s a 666分析师承诺负责本研究报告全部或部分内容的每一位证券分析师,再次申明,本报告清晰、准确地反映了分析师本
40、人的研究观点。本人薪酬的任何部分过去不曾与、现在不与,未来也将不会与本报告中的具体推荐或观点直接或间接相关。风险提示:投资者自主作出投资决策并自行承担投资风险,任何形式的分享证券投资收益或者分担证券证券投资损失的书面或口头承诺均为无效。免责声明本报告由中航证券有限公司(已具备中国证券监督管理委员会批准的证券投资咨询业务资格)制作。本报告并非针对意图送发或为任何就送发、发布、可得到或使用本报告而使中航证券有限公司及其关联公司违反当地的法律或法规或可致使中航证券受制于法律或法规的任何地区、国家或其它管辖区域的公民或居民。除非另有显示,否则此报告中的材料的版权属于中航证券。未经中航证券事先书面授权,
41、不得更改或以任何方式发送、复印本报告的材料、内容或其复印本给予任何其他人。未经授权的转载,本公司不承担任何转载责任。本报告所载的资料、工具及材料只提供给阁下作参考之用,并非作为或被视为出售或购买或认购证券或其他金融票据的邀请或向他人作出邀请。中航证券未有采取行动以确保于本报告中所指的证券适合个别的投资者。本报告的内容并不构成对任何人的投资建议,而中航证券不会因接受本报告而视他们为客户。本报告所载资料的来源及观点的出处皆被中航证券认为可靠,但中航证券并不能担保其准确性或完整性。中航证券不对因使用本报告的材料而引致的损失负任何责任,除非该等损失因明确的法律或法规而引致。投资者不能仅依靠本报告以取代
42、行使独立判断。在不同时期,中航证券可发出其它与本报告所载资料不一致及有不同结论的报告。本报告及该等报告仅反映报告撰写日分析师个人的不同设想、见解及分析方法。为免生疑,本报告所载的观点并不代表中航证券及关联公司的立场。中航证券在法律许可的情况下可参与或投资本报告所提及的发行人的金融交易,向该等发行人提供服务或向他们要求给予生意,及或持有其证券或进行证券交易。中航证券于法律容许下可于发送材料前使用此报告中所载资料或意见或他们所依据的研究或分析。我们设定的上市公司投资评级如下:买入:未来六个月的投资收益相对沪深300指数涨幅10%以上。持有:未来六个月的投资收益相对沪深300指数涨幅-10%-10%
43、之间卖出:未来六个月的投资收益相对沪深300指数跌幅10%以上。我们设定的行业投资评级如下:增持:未来六个月行业增长水平高于同期沪深300指数。中性:未来六个月行业增长水平与同期沪深300指数相若。减持:未来六个月行业增长水平低于同期沪深300指数。中航科技电子团队介绍:首席:赵晓琨SAC执业证书:S0640122030028十六年消费电子及通讯行业工作经验,曾在华为、阿里巴巴、摩托罗拉、富士康等多家国际级头部品牌终端企业,负责过研发、工程、供应链采购等多岗位工作。曾任职华为终端半导体芯片采购总监,阿里巴巴人工智能实验室供应链采购总监。分析师:刘牧野SAC执业证书:S0640522040001约翰霍普金斯大学机械系硕士,2022年1月加入中航证券。拥有高端制造、硬科技领域的投研经验,从事科技、电子行业研究。研究助理 刘一楠SAC执业证书:S0640122080006西南财经大学金融硕士,2022年7月加入中航证券,覆盖半导体设备、半导体材料板块。研究助理 苏弘宇SAC执业证书:S0640122040021俄亥俄州立大学金融数学学士,约翰霍普金斯大学金融学硕士。2022年加入中航证券。获取更多最新资料请加微信:ch e n s a s a 666