1、-1-敬请参阅最后一页特别声明 市场数据市场数据(人民币)人民币)市场优化平均市盈率 18.90 国金通信指数 5482.82 沪深 300 指数 3851.75 上证指数 3096.42 深证成指 9843.43 中小板综指 9767.19 相关报告相关报告 1.MWC2019 深度分析:智能终端爆发,边缘计算崛起,看好时延.,2019.3.5 2.科创板前瞻之计算机视觉:AI 行业最具商业化价值赛道,关注 CV.,2019.2.25 3.5G 大涨之后,怎么看又该怎么办?国金通信电话会议-【国金证券.,2019.2.22 4.通信行业周报-车联网浪潮谁家受益,中联通大单影响几何?-通信.,
2、2019.2.19 5.5G 商用在即,边缘计算崛起-国金通信行业周报,2019.2.11 罗露罗露 联系人联系人 唐川唐川 分析师分析师 SAC 执业编号:执业编号:S1130517110001 人工智能人工智能视 听盛宴视 听盛宴来临来临 基本结论基本结论 作为作为 AI 时代的两个主要的入口,计算机视觉是时代的两个主要的入口,计算机视觉是 AI 行业最具商业化价值的赛行业最具商业化价值的赛道,智能语音产业即将进入爆发期。道,智能语音产业即将进入爆发期。首先,计算机视觉在 AI领域中应用场景最丰富,极具商业化价值。计算机视觉主要以图像和视频等高维、密集数据为主要处理对象,信息提取程度更深,
3、应用场景更加丰富。目前,国内外均有 40%以上的 AI企业聚集计算机视觉领域,市场规模在所有领域中全球第二、中国第一,商业成熟度较高,2017 年中国计算机视觉应用规模约为15.5 亿元,预计 17-22 CAGR 超 56%。其次,智能语音领域,根据 Gartner2018 AI技术成熟度曲线,语音识别、虚拟助理等相关智能语音技术历经淘洗已相对成熟,未来将推动产业走向爆发期,预计整个市场规模将从 18 年的 75 亿美元增长至 24 年的 215 亿美元,CAGR 达 19%。整体而言整体而言,传统科技巨头布局平台和生态,初创算法企业抢占垂直赛道。,传统科技巨头布局平台和生态,初创算法企业抢
4、占垂直赛道。具体来讲,计算机视觉领域,市场呈现出科技巨头把控基础层、初创算法企业领跑技术和应用、垂直领域龙头占据场景的格局。现阶段,计算机视觉行业已进入群雄逐鹿阶段,头部算法企业如商汤、依图横向建立平台,垂直领域龙头如海康、大华纵向深耕行业,科技巨头如阿里、华为立体式打造全产业生态。智能语音领域,当前国内外市场已相对集中,头部企业如 Nuance、Google、科大讯飞等占据了大部分市场份额,CR5 均超 80%。两大类市场玩家通用平台商如谷歌、百度致力于打造开放语音生态,专业应用商如云从、思必驰致力于抢占家居、车载等细分赛道。视 听盛宴来临,看好头部初创企业的发展。视 听盛宴来临,看好头部初
5、创企业的发展。计算机视觉领域,我们看好算法储备丰富、算力供应充沛、长期发展具有深厚底蕴的商汤,具备强大软硬件结合能力及阿里系背景的旷视,先发优势明显、实战指标领先的依图以及唯一的国家队云从;智能语音领域,我们看好 云端芯一体化发展、具备人才优势与先发优势的云知声。投资建议投资建议 计算机视觉领域,建议关注 CV四小龙:商汤、旷视、依图、云从;智能语音领域,建议关注云知声。风险风险提示提示 计算机视觉及智能语音初创企业商业模式不清晰、技术发展及应用落地速度不及预期、新竞争者的涌入导致行业竞争加剧等。114312271312139614801564180319180619180919181219国
6、金行业 沪深300 2019 年年 03 月月 19 日日AI 视觉与语音专题分析报告 国金通信 行业专题研究报告行业专题研究报告(深度深度)证券研究报告 创新技术与企业服务研究中心创新技术与企业服务研究中心 1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报告-2-敬请参阅最后一页特别声明 内容目录内容目录 1.计算机视觉:AI行业最具商业化价值的赛道.4 2.智能语音:产业进入爆发期,看好对话式人工智能发展.10 3.重点公司介绍.17 3.1 商汤:AI算法提供商龙头,平台化战略赋能公司和行业.17 3.2 旷视:优秀的
7、人脸识别平台企业,战略进军 AIoT.19 3.3 依图:注重实战,业务聚焦于安防和医疗.20 3.4 云从:AI国家队,银行、机场人脸识别产品第一大供应商.21 3.5 云知声:云端芯战略,重点布局家居、车载及医疗三大领域.22 4.风险提示.22 图表目录图表目录 图表 1:全球 AI企业应用技术方向分布.4 图表 2:中国 AI企业应用技术方向分布.4 图表 3:2017 年全球 AI市场结构.4 图表 4:2017 年中国 AI市场结构.4 图表 5:2017-2022 线上视频流量和非视频流量占比.5 图表 6:计算机视觉架构及各层级玩家示意.5 图表 7:2017 年中国计算机视觉
8、应用市场份额.6 图表 8:我国安防行业十年 CAGR 达 16%.6 图表 9:我国安防行业市场结构.6 图表 10:2018 年全球计算机视觉行业市场结构.7 图表 11:ImageNet 竞赛深度学习算法隐含层数与图像识别错误率变化趋势.8 图表 12:全球 AI人才分布.8 图表 13:中国 AI人才分布.8 图表 14:AutoML 工作原理(红色部分自动完成).9 图表 15:AutoML 内部工作机制.9 图表 16:语音识别已进入实质生产高峰期.10 图表 17:智能语音市场将维持高速增长(单位:亿美元).10 图表 18:全球智能语音市场格局.11 图表 19:中国智能语音市
9、场格局.11 图表 20:近几年语音识别准确率变化.11 图表 21:头部智能语音初创企业首款专用芯片发布梳理.12 图表 22:对话式人工智能人机交互流程.12 图表 23:对话式人工智能生态图谱.13 图表 24:美国语音助手使用场景统计(2018 年 9 月).13 图表 25:中国用户对对话式人工智能终端的期望度.14 图表 26:对话式人工智能在随身设备、智能车载、智能家居中的渗透率.14 1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报告-3-敬请参阅最后一页特别声明 图表 27:近三年全球智能音箱出货量情况.1
10、4 图表 28:全球智能语音助手市场份额预测.15 图表 29:Microsoft 申请的 silent voice input 专利.16 图表 30:商汤业务布局梳理.17 图表 31:商汤近年对外重要投资梳理.17 图表 32:2015-2017 三大顶级会议论文收录数.18 图表 33:算法和算力支撑公司应用拓展.18 图表 34:旷视对外投资梳理.19 图表 35:依图对外投资梳理.20 图表 36:FRVT(2018)比赛结果(部分).20 1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报告-4-敬请参阅最后一页
11、特别声明 1.计算机视觉:计算机视觉:AI 行业最具商业化价值的赛道行业最具商业化价值的赛道 计算机视觉是国内外计算机视觉是国内外 AI 企业最集中的领域,商业成熟度较高。企业最集中的领域,商业成熟度较高。从 AI 企业的应用技术方向分布来看,计算机视觉技术企业在全球 AI 企业中占比约 40%,在国内占比约 46%;无论国外还是国内,计算机视觉都是 AI 企业最集中的领域。从市场规模来看,2017 年计算机视觉市场占全球 AI 市场总规模的 16.9%,排在语音识别之后;而国内计算机视觉市场占 AI市场的 34.9%,排名第一。国内外计算机视觉的市场规模差异要远大于企业分布差异,说明国内计算
12、机视觉公司的总体盈利能力较其他 AI领域的公司较强,商业成熟度较高。图表图表1:全球:全球AI企业应用技术方向分布企业应用技术方向分布 图表图表2:中国:中国AI企业应用技术方向分布企业应用技术方向分布 来源:CISTP,国金证券研究所 来源:CISTP,国金证券研究所 图表图表3:2017年全球年全球AI市场结构市场结构 图表图表4:2017年中国年中国AI市场结构市场结构 来源:MarketsandMarkets,国金证券研究所 来源:中国信通院,国金证券研究所 计算机视觉是计算机视觉是 AI 领域应用场景领域应用场景最最丰富丰富、商业化价值最大的赛道商业化价值最大的赛道。目前,AI 技术
13、处理的数据类型不外乎四类:文字、语音、图像和视频。从信息维度来看,从文字到视频维度是递增的,文字的信息维度最少、包含的信息量也最少,视频的信息维度最多、包含的信息量最大。反映在数据量占比上,以线上数据为例,根据 Cisco 的研究,到 2022 年全球线上视频流量占总流量的比例将从2017 年的 75%上升到 82%,说明线上数据将越来越被视频数据所主导。信息维度更高加之数据量更大,因此以图像和视频为主要处理对象的计算机视觉要比以文字或语音为主要处理对象的其它 AI 技术具有更加丰富的应用场景和商业化价值。我们认为,当前资本市场也正以其资源配置、资产定价功能充分反映计算机视觉相对其它 AI 领
14、域的优势。例如,根据公开资料,当前计算机视觉行业四家头部初创企业(商汤、旷视、依图、云从)的总估值已经超过 1000 亿人民币,也超过了语音识别行业几家头部初创企业(思必驰、云知声、出门问问、图灵机器人、捷通华声)总估值加上 AI语音龙头科大讯飞的市值总和。40%13%28%20%计算机视觉 语音识别 自然语言处理 基础硬件 46%22%19%14%计算机视觉 语音识别 自然语言处理 基础硬件 34.9%16.9%48.2%语音识别 计算机视觉 其它 34.9%24.8%40.3%计算机视觉 语音识别 其它 1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1
15、 6:0 7计算机视觉专题分析报告-5-敬请参阅最后一页特别声明 图表图表5:2017-2022线上视频流量和非视频流量占比线上视频流量和非视频流量占比 来源:Cisco,国金证券研究所 市场格局上,科技巨头把控基础层,初创企业领跑应用层。市场格局上,科技巨头把控基础层,初创企业领跑应用层。计算机视觉架构从下至上:1)基础层核心芯片被 Intel、Nvidia 等传统芯片厂商把控,新型芯片厂商尚未崛起,规模应用有待时日;开源平台以谷歌的 Tensorflow、Facebook 的 Caffe 等为主,其它企业的深度学习框架多为二次开发;2)技术层算法,初创企业占优;云计算,几乎被 AWS、Go
16、ogle Cloud、Azure、阿里云等垄断;3)应用层垂直行业龙头占据场景,技术层初创企业向上渗透。根据 IDC,2017 年中国计算机应用市场总规模约为 15.5 亿元,商汤、旷视、依图、云从四小龙市场份额共计达 69.4%,至 2022 年中国计算机视觉应用市场规模将达到 146.1 亿元人民币。图表图表6:计算机视觉架构及各层级玩家示意:计算机视觉架构及各层级玩家示意 来源:公开资料,国金证券研究所 75%82%25%18%0%20%40%60%80%100%120%2017年 2022年 视频流量 非视频流量 基础层基础层芯片芯片ASICGoogle寒武纪DSPCEVA中星微FPG
17、AXilinx深鉴科技GPUNvidiaCPUIntel深度学习框架深度学习框架应用层应用层安防安防智能终端智能终端智能驾驶智能驾驶技术技术层层基础技术基础技术云计算云计算渗透渗透渗透渗透1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报告-6-敬请参阅最后一页特别声明 图表图表7:2017年中国计算机视觉应用市场份额年中国计算机视觉应用市场份额 来源:公开资料,IDC,国金证券研究所 目前中国计算机视觉算法企业在技术水平目前中国计算机视觉算法企业在技术水平、商业化、商业化程度程度以及融资能力(估值)以及融资能力(估值)上均领
18、先于国际同行。上均领先于国际同行。技术上,近年来中国计算机视觉头部算法企业在国际性图像识别竞赛如 ImageNet、FRVT、MSR IRC 等中频繁摘得桂冠;商业化上,根据公开报道,商汤、旷视、云从等在 2017 年均已实现盈利,而国际初创企业同行如 EverAI 等尚处于净投入阶段;另外,从估值上看,CV 四小龙均已达到数十亿美元估值,而国外尚没有仅靠人脸识别、图像识别就估值破十亿美元的初创企业。分析分析上述领先优势产生的上述领先优势产生的原因,我们认为,原因,我们认为,主要是由于主要是由于国内头部国内头部计算机视觉算法企业充分享受了安防行业(尤其是视频监控)发展的红利计算机视觉算法企业充
19、分享受了安防行业(尤其是视频监控)发展的红利:一是安防市场快速成长的红利,2007 年至 2017 年我国安防行业十年 CAGR 达16%,2016 年以后安防智能化趋势确定,计算机视觉技术率先得到应用;二是政策红利,与欧美国家相比,当前我国对公民生物特征的保护政策并不完善(见下文),因此国内计算机视觉算法企业可以从包括地方政府在内的各种机构中获得大量的人脸、人像数据用于模型训练和算法改进。根据 Quartz的报道,中国某头部计算机视觉算法企业声称拥有 20 亿张训练图,而国际最大的公开图库之一的 ImageNet 仅拥有 1300 万丈左右的训练图,相差 150 倍以上。图表图表8:我国安防
20、行业十年:我国安防行业十年CAGR达达16%图表图表9:我国安防行业市场结构我国安防行业市场结构 来源:CPS,国金证券研究所 来源:CPS,国金证券研究所 从市场结构上看从市场结构上看,国内外市场结构略有不同国内外市场结构略有不同:国内安防、金融、互联网为主,:国内安防、金融、互联网为主,国外消费、机器人(及机器视觉)、智能驾驶领先。国外消费、机器人(及机器视觉)、智能驾驶领先。根据 IDC 的市场跟踪,2018 年中国计算机视觉技术输出规模最大的 3 个行业是政府、金融和互联网,最大的两个场景为政府行业中的平安城市以及金融行业中基于人脸识别的身份20.6%17.3%16.4%15.0%30
21、.6%商汤 依图 旷视 云从 其他 0%5%10%15%20%25%010002000300040005000600070002007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017市场规模(亿元)增速(%)50.6%14.0%13.7%10.2%8.0%3.5%视频监控 出入口控制 实体防护及其他 智能家居 防盗报警 平台 1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报告-7-敬请参阅最后一页特别声明 认证。而根据 Tractica 的预测,2018 年全球计算机视觉技
22、术输出规模最大的 3个行业分别为消费、机器人(及机器视觉)以及智能驾驶。我们认为影响计算机视觉落地的三个主要因素为监管政策、行业接受度及用户接受度,三者并不割裂:监管政策表明了监管机构的态度,行业接受度体现了行业玩家的购买意愿,而用户接受度一定程度上会影响监管政策和行业接受度。造成国内外计算机视觉市场结构巨大差异的主要原因,我们认为是监管政策和行业接受度的不同。在欧美国家,生物特征作为关键的个人信息在被科技公司收集和使用时受到法律法规的严格保护。去年 5 月 25 日,欧盟史上适用范围最广、定则条例最严、处罚金额最昂贵的数据保护法案 GDPR 生效,该法案将指纹、人脸、视网膜等信息全部纳入个人
23、资产范畴,对科技公司利用上述信息盈利进行了严格规定和限制。因此,在欧美计算机视觉率先在政策较为宽松、用户接受度较高的领域落地,例如消费和智能驾驶等。在中国,首先,公民生物特征的保护政策并不完善;其次,基于安防效率和成本方面的考虑,政府是计算机视觉产品最早、最积极的买家之一。由于政府信用和购买力良好,加之安防行业成熟度高(利于计算机视觉技术集成)、图像及视频数据丰富(利于计算机视觉算法、模型训练),因此计算机视觉最先在安防领域落地。此外政策因素(如实名制、反洗钱等)也是导致国内金融业主动拥抱计算机视觉技术的主要原因。图表图表10:2018年全球计算机视觉行业市场结构年全球计算机视觉行业市场结构
24、来源:Tractica 预测,国金证券研究所 企业核心竞争壁垒企业核心竞争壁垒,中短期看是技术能力和,中短期看是技术能力和产品化能力产品化能力,长期看是生态构建能,长期看是生态构建能力。力。中短期来看,包括人脸识别、人体识别、图像识别等在内的主要计算机视觉技术均基于使用神经网络的深度学习算法,而神经网络的种类选择、结构设计以及参数调整等是一连串极其复杂的工作,因此算法的优劣和迭代速度将直接取决于算法设计人员的知识和经验储备,也会进一步决定计算机视觉技术的准确率、可靠性等关键性能。ImageNet 竞赛中神经网络隐含层数对图像识别准确率的影响最能说明问题。从 10 年至 15 年,随着神经网络隐
25、含层数的增多,图像分类 Top-5 错误率随之显著降低(见下图),但与此同时算法设计的复杂度越来越高,对技术人员的要求也越来越高。6%7%19%47%5%16%安全监控 医疗 机器人及机器视觉 消费 运动及娱乐 汽车 1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报告-8-敬请参阅最后一页特别声明 图表图表11:ImageNet竞赛深度学习算法隐含层数与竞赛深度学习算法隐含层数与图像识别错误率图像识别错误率变化趋势变化趋势 来源:ImageNet,国金证券研究所 此外,计算机视觉技术在场景中落地时需要企业具备大量的除算法以外
26、的know how,例如在软硬件结合以及保护终端用户隐私上的知识和经验等。现阶段,掌握技术的 AI 人才(尤其是顶级人才)主要分布在高校及科研院所,产业内的人才供应不足,加之多数场景下计算机视觉的落地能力不足,人才的争夺与落地能力的竞争将决定企业的发展速度。图表图表12:全球:全球AI人才分布人才分布 图表图表13:中国:中国AI人才分布人才分布 来源:CISTP,国金证券研究所 来源:CISTP,国金证券研究所 但是,技术层面,随着自动机器学习技术 AutoML 的出现,机器学习模型的设计门槛随之降低。AutoML 的出发点是用强大的算力通过更多次的训练提高模型的准确度,其最大特点是将机器学
27、习模型的设计过程自动化。算法设计人员只需了解模型的基本概念并提供标签数据即可,神经网络的参数及结构调整是自动完成的,无需人工干预。目前 AutoML 已经进入落地阶段。例如,去年 1 月谷歌发布了提供自定义图像识别系统自动开发服务的 Cloud AutoML Vision,用户从导入数据到训练模型都可以通过拖放式界面完成。AutoML 已经被谷歌应用于 CIFAR-10 高度基准测试数据集,并且训练出了与手工设计不相上下的模型。我们认为,随着 AutoML 技术的成熟,算法设计的门槛将越来越低,但相应的,算力的重要性会越来越明显,长期来看有可能成为计算机视觉企业的核心竞争力之一。28.2%25
28、.8%16.4%11.7%7.3%6.7%3.6%8 8 19 22 152 0204060801001201401600.0%5.0%10.0%15.0%20.0%25.0%30.0%ILSVRC10 ILSVRC11 ILSVRC12 ILSVRC13 ILSVRC14 ILSVRC14 ILSVRC15TOP-5错误率 神经网络隐含层数 浅层浅层 72.3%15.2%3.2%9.3%高校 研究机构 企业 其它 81.3%8.8%5.9%4.0%高校 研究机构 企业 其它 1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报
29、告-9-敬请参阅最后一页特别声明 图表图表14:AutoML工作原理(红色部分自动完成)工作原理(红色部分自动完成)图表图表15:AutoML内部工作机制内部工作机制 来源:Google,国金证券研究所 来源:Goolge,国金证券研究所 产品层面,我们认为,随着竞争的加剧,成功的企业不仅要具备大量的跟技术落地相关的 know how,还必须能够主动地挖掘甚至创造需求,具备类似苹果在智能手机上的理解力。这就要求企业在纵向上能够主导整个产业链,横向上能够接入更多开发者和场景,因此长期看生态构建能力将成为主要竞争壁垒。现阶段,头部算法企业横向建立平台,垂直领域龙头纵向深耕行业,科技巨头现阶段,头部
30、算法企业横向建立平台,垂直领域龙头纵向深耕行业,科技巨头立体式打造全产业生态。立体式打造全产业生态。头部算法企业的布局是横向拓展基础技术,建立基础平台。例如,商汤以人脸识别技术起家,逐渐拓展到人体分析、机器人、无人驾驶等领域,加上 GPU超算中心和云计算平台,逐渐将自身打造成一个基础的人工智能平台,然后探索在应用端的迅速落地。垂直领域龙头公司的布局是纵向打通计算机视觉框架,深耕所在行业。例如,安防设备龙头海康威视逐渐脱离了与初创算法企业的合作,自主研发关键技术,并在 ILSVRC(2016)图像分类获得第一名;此外,还推出了 AI Cloud 平台,着力解决算力问题。通过纵向打通基础层、技术层
31、和应用层,垂直领域龙头公司可以提出更加智能的行业解决方案。科技巨头公司的布局是以平台为核心立体式地推进,打造全产业生态。例如,Google 以 TensorFlow 及 Google Cloud 为核心,横向上进军图像分析、文字识别等技术,推出 Google Lens 等视觉服务产品;纵向上向下拓展基础硬件推出 TPU 芯片,向上拓展医疗(Verily)、无人驾驶(Waymo)等垂直领域,逐渐打造包括计算机视觉在内的人工智能大生态。1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报告-10-敬请参阅最后一页特别声明 2.智能语
32、音:产业进入爆发期,看好对话式人工智能发展智能语音:产业进入爆发期,看好对话式人工智能发展 智能语音技术逐渐成熟,未来几年市场将维持高速增长。智能语音技术逐渐成熟,未来几年市场将维持高速增长。根据 Gartner 发布的2018 年 AI 技术成熟度曲线,语音识别已经进入实质生产高峰期,意味着语音识别技术已被广泛接受,规模化落地即将开始。此外,像自然语言处理、虚拟助理等相关智能语音技术历经淘洗之后即将落入泡沫化低谷期,商业模式越来越成熟,也将进一步推动智能语音的落地。根据 ReportLinker 的预测,全球智能语音市场规模将从 2018 年的 75 亿美元增长至 2024 年的 215 亿
33、美元,其中医疗健康、移动银行以及智能终端智能语音技术快速增长的需求将成为主要的驱动因素。图表图表16:语音识别已进入实质生产高峰期:语音识别已进入实质生产高峰期 来源:Gartner,国金证券研究所 图表图表17:智能语音市场将维持高速增长(单位:亿美元):智能语音市场将维持高速增长(单位:亿美元)来源:ReportLinker,国金证券研究所 国内外市场均已相对集中,头部企业占据大部分市场份额。国内外市场均已相对集中,头部企业占据大部分市场份额。根据中商产业研究院的数据,2018 年智能语音全球市场 CR5 达到 88%,中国市场 CR5 达到84.6%,均已呈现出相对较为集中的市场格局。值
34、得注意的是,国内的市场格75 215 05010015020025020182024E1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报告-11-敬请参阅最后一页特别声明 局与国外存在着明显的差异,主导国外市场的巨头玩家如 Nuance、谷歌等并没有在中国市场取得同样的市场地位。我们认为,这种现象主要是由两方面原因造成的:一是由于中文与外语在分词及句法的逻辑等方面有着明显的不同,并且中国有大量独具特色的方言,这种语言上的差异使得国内企业在中文处理上独具优势;二是受益于国内互联网和移动互联网的高速发展,智能语音在国内具有更加丰富
35、的落地场景和商业化环境。这种天时、地利的优势使得中国企业领跑国内市场。图表图表18:全球智能语音市场格局:全球智能语音市场格局 图表图表19:中国智能语音市场格局:中国智能语音市场格局 来源:中商产业研究院(2018),国金证券研究所 来源:中商产业研究院(2018),国金证券研究所 现阶段,产品化能力是智能语音初创企业核心壁垒。现阶段,产品化能力是智能语音初创企业核心壁垒。一方面,从技术的角度,在无噪音环境下,机器的语音识别准确率已经达到相当高水平,未来上升空间有限。科研界将错词率(Word Error Rate,WER)视为衡量语音识别技术的核心指标(准确率=1-WER),其中人类的平均
36、WER 为 5.9%(即 94.1%的准确率),受过严格专业训练的速记员平均 WER 为 3%(即 97%的准确率)。自2016 年机器的语音识别准确率首次超过人类平均水平以来,目前最好的算法已经可以将准确率做到 97.03%,超越专业速记员。另一方面,从商业化角度,技术难以成为企业核心壁垒,产品化能力才是成长的关键。这是因为技术的门槛越来越低,单纯依靠提供技术的商业模式将面临越来越大的竞争因而难以持续,这一点从近几年头部智能语音初创企业如云知声、思必驰等纷纷从技术提供商转向产品/服务提供商就可以看出。图表图表20:近几年语音识别准确率变化:近几年语音识别准确率变化 31.6%28.4%15.
37、4%8.1%4.5%12.0%Nuance谷歌 苹果 微软 科大讯飞 其他 44.2%27.8%6.9%3.0%2.7%15.0%科大讯飞 百度 苹果 Nuance小i机器人 其他 94.1%94.1%94.5%94.4%94.9%96.04%97%97.03%92.5%93.0%93.5%94.0%94.5%95.0%95.5%96.0%96.5%97.0%97.5%1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报告-12-敬请参阅最后一页特别声明 来源:公开资料,国金证券研究所 技术全栈化已成为新趋势,产业链延伸是当前最
38、好策略。技术全栈化已成为新趋势,产业链延伸是当前最好策略。对于智能语音而言,多数场景下普遍存在的问题是落地体验不好,而这带来了技术上和产业上的两层影响:技术上,落地体验的改善有赖于从硬件到软件、从算法到产品各个环节的紧密协调,在这种情况下,头部企业多倾向于走技术全栈化路线,即打通全链条上的技术环节;产业上,为了实现更好地商业化,企业倾向于通过上下游延伸创造更多价值。最能说明上述两个趋势的例证是当前几乎所有的头部初创企业都在布局专用语音芯片,主要原因是专用语音芯片的应用性能可以达到通用芯片的 40-50 倍,而同时成本只有通用芯片的 1/4-1/3。图表图表21:头部智能语音初创企业首款专用芯片
39、发布梳理:头部智能语音初创企业首款专用芯片发布梳理 时间时间 公司公司 芯片芯片 2018.05.15 云知声 面向 AIoT 的 UniOne雨燕 2018.05.24 出门问问 AI 语音芯片模组问芯 Mobvoi A1 2018.07.02 Rokid AI 语音专用 SoC 芯片 KAMINO18 2019.01.04 思必驰 AI 专用语音芯片 TH1520 来源:公开资料,国金证券研究所 通用平台商打造开放语音生态,专业应用商抢占重点赛道。通用平台商打造开放语音生态,专业应用商抢占重点赛道。智能语音市场玩家大体上可以分为两种,一种是通用平台商,另一种是专业应用商。通用平台商如谷歌、
40、百度等科技巨头,致力于围绕智能语音开放系统打造智能语音生态。以百度为例,公司在 2017 年全面开放了语音接口,目前依托 DuerOS 打造出较为完整的技术、开发与商业生态系统,截至 2018 年 7 月底搭载 DuerOS 的智能设备激活数量已突破 1 亿台。专业应用商以垂直领域和细分场景为突破口,均有重点布局的赛道。例如,云知声重点布局家居、车载与医疗,思必驰重点布局家居、车载与机器人,两者多有重合但侧重上有差异。对话式人工智能即将规对话式人工智能即将规模化落地,看好智能家居、随身设备、智能车载三个场模化落地,看好智能家居、随身设备、智能车载三个场景。景。与一般的智能语音应用相比,对话式人
41、工会智能中人与机器之间是双向交互的,机器在追求理解人的意图的同时也会给人以反馈(比如要求人进一步明确意图或者给出选择等)。对话式人工智能的整个人机交互过程可分为唤醒、识别、理解、反馈四个环节。图表图表22:对话式人工智能人机交互流程:对话式人工智能人机交互流程 来源:IDC,国金证券研究所 从供需角度,对话式人工智能的供给方为对话式人工智能的硬件开发者与软件开发者,产品为对话式人工智能应用与服务,包括音乐、视频、游戏等;需求方为终端消费者,整个需求产业链条自下而上包括芯片商、方案集成商、终端语音唤醒语音唤醒语音识别语音识别自然语言自然语言生成生成语音合成语音合成语言理解语言理解语义搜索语义搜索
42、用户画像用户画像情感分析情感分析知识图谱知识图谱唤醒唤醒识别识别理解理解反馈反馈1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报告-13-敬请参阅最后一页特别声明 设备商、渠道商以及消费者。对话式人工智能的中间枢纽是对话式人工智能平台,由互联网科技巨头、初创 AI语音公司等提供。图表图表23:对话式人工智能生态图谱:对话式人工智能生态图谱 来源:IDC,国金证券研究所 我们认为对话式人工智能将率先在智能家居我们认为对话式人工智能将率先在智能家居、随身设备随身设备、智能车载三个场景中智能车载三个场景中实现大规模落地实现大规模落
43、地,原因是原因是:1)上述三个场景作为家庭 IoT、个人 IoT 以及车联网的重要入口,是头部企业争夺的重点,例如亚马逊的 Echo、苹果的 Siri、思必驰的飞歌 GS2 正是分别瞄准上述场景;2)上述三个场景对智能语音技术的要求相对较低,例如智能家居和智能车载都是在相对封闭的环境,语音唤醒成功率和语音识别的准确率会相对较高;3)上述三个场景中 C 端用户对交互式人工智能的接受程度较高,IDC 调研数据显示 89%的人有意向在未来两年内采用对话式人工智能终端,其中智能手机、智能电视、智能音箱、汽车等终端在美中两国用户中期望度最高、使用最为频繁。根据 IDC 预测,到 2020 年中国对话式人
44、工智能在智能家居、随身设备以及智能车载的渗透率将分别达到 27%、68%、51%。图表图表24:美国语音助手使用场景统计(:美国语音助手使用场景统计(2018年年9月)月)来源:Voicebot.ai,国金证券研究所 1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报告-14-敬请参阅最后一页特别声明 图表图表25:中国用户对对话式人工智能终端的期望度:中国用户对对话式人工智能终端的期望度 图表图表26:对话式人工智能在随身设备、智能车载、智能对话式人工智能在随身设备、智能车载、智能家居中的渗透率家居中的渗透率 来源:IDC(
45、2017H2),国金证券研究所 来源:IDC,国金证券研究所 FAMGA 布局启示:布局启示:车载、医疗、住宿以及企业级应用或是智能语音未来最主车载、医疗、住宿以及企业级应用或是智能语音未来最主要的落地场景,用户隐私和数据安全保护值得关注要的落地场景,用户隐私和数据安全保护值得关注。在对话式人工智能领域,Facebook、Amazon、Microsoft、Google、Apple 五巨头布局较早,整体上引领技术和产业潮流,相关动向对产业和投资布局具有极大的指导意义。目前看来,五家公司选择了截然不同的发展路径,背后主要原因是公司的业务基因与核心优势具有显著差异。我们梳理了五家公司在对话式人工智能
46、领域的布局和动向,具体如下:1)Amazon:优势领域在智慧家居,通过:优势领域在智慧家居,通过开放合作拓展其它开放合作拓展其它场景。场景。Amazon 是最早实现对话式人工智能规模落地的巨头之一,其智能音箱产品 Amazon Echo系列(包括 Echo、Echo Dot 等)自 2014 年推出以来,至去年年出货量已经达到 2420 万台,全球市场份额始终维持第一。图表图表27:近三年全球智能音箱出货量情况:近三年全球智能音箱出货量情况 来源:Statista,Canalys,国金证券研究所 由于在电商领域具有绝对优势,Amazon 在对话式人工智能领域的主要目标之一是主导语音购物市场。目
47、前语音购物主要发生在智能家居场景中,以智能音箱为载体实现。但是除语音购物以外,Amazon 在提供其他服务上并不具备优势,主要原因在于相对缺乏丰富的软件应用支持。因此,公司采取了相对开放的策略,最值得关注的动作之一是创建了 Amazon Connect Kit 协助开发者为用户提供更多可以接入 Alexa 的定制化硬件产品和应用服务。截至 2 月份,全0.0%20.0%40.0%60.0%80.0%100.0%手机 电视 汽车 家用机器人 空调 冰箱 扫地机器人 手表 故事机 音箱 34%68%22%51%8%27%0%20%40%60%80%2017201820192020随身设备 智能车载
48、 智能家居 5.9 22 24.2 0.2 11.2 23.4 1 8.9 0.1 7.1 3.6 0.15 0.5 10.8 051015202530201620172018Shipment in millions AmazonGoogleAlibabaXiaomiBaiduOthers1 9 9 4 7 4 3 1/3 6 1 3 9/2 0 1 9 0 3 2 0 1 6:0 7计算机视觉专题分析报告-15-敬请参阅最后一页特别声明 球已经有超过 4500 个品牌、2.8 万个智能家居终端接入到了 Alexa 上,家电巨头如 LG、三星、GE等都有产品接入。除智能家居场景外,Amazon
49、 也在拓展其他场景,例如去年 8 月推出了 Alexa Auto SDK 以帮助汽车制造商将 Alexa 语音控制功能集成到汽车娱乐信息系统上。我们认为我们认为 Amazon 在在对话式人工智能的对话式人工智能的场景拓展上的主要劣势在于场景拓展上的主要劣势在于缺乏其缺乏其竞争对手如竞争对手如 Google、Apple 等等均具备的均具备的手机、平板、手机、平板、PC 等等多种硬件级入口多种硬件级入口。根据 IHS 的预测,到 2020 年 Amazon Alexa 的市场份额将被显著压缩,跟我们的观点相符。图表图表28:全球智能语音助手市场份额预测:全球智能语音助手市场份额预测 来源:IHS,
50、国金证券研究所 2)Google:背靠强大的自然语言处理技术及丰富的软件群发力服务领域。:背靠强大的自然语言处理技术及丰富的软件群发力服务领域。Google 有着多年的自然语言处理技术沉淀,在底层对话式人工智能技术上占据相对优势。根据公开信息,2019 年 Google 将支持超过 30 种语言的语音识别与自然语言处理,并具备同时理解两种以上语言的能力。此外,Google 还拥有包括邮件、地图、搜索等在内的庞大 SaaS 软件群,同时拥有手机、平板、PC等多种硬件终端,使其可以收集并使用更丰富的场景下用户的语音数据来提升自身处理语音请求的能力。我们认为我们认为,上述两个优势是上述两个优势是 G