1、中国人工智能基础数据服务行业白皮书2019年22019.8 iResearch I摘要来源:艾瑞自主研究绘制。随着算法需求越来越旺盛,依赖人工标注不能满足市场需求,因此增强数据处理平台持续学习能力,由机器持续学习人工标注,提升预标注和自动标注能力对人工的替代率将成趋势。远期,越来越多的长尾、小概率事件所产生的数据需求增强,机器模拟或机器生成数据会是解决这一问题的良好途径,及早研发相应技术也将成为AI基础数据服务商未来的护城河。在经历了一段时期的野蛮生长之后,人工智能基础数据服务行业进入成长期,行业格局逐渐清晰。人工智能基础数据服务方的上游是数据生产和外包提供者,下游是AI算法研发单位,人工智能
2、基础数据服务方通过数据处理能力和项目管理能力为其提供整体的数据资源服务,不过AI算法研发单位和AI中台也可提供一些数据处理工具,产业上下游普遍存在交叉。数据安全、采标能力、数据质量、管理能力、服务能力等仍是需求方的痛点,需要人工智能基础服务商有明确具体的安全管理流程、能够深入理解算法标注需求、可提供精力集中且高质量的服务、能够积极配合、快速响应需求方的要求。2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86%,预计2025年市场规模将突破113亿元。市场供给方主要由人工智能基础数据服务供应商和算法研发单位自建或直接获取外包标注团队的形式组成,其中供应商是行
3、业主要支撑力量。SMS3序言算法、算力、数据是人工智能发展的三大要素,人工智能已经从讲技术教育市场的阶段,过渡到思考如何将技术与商业相结合落地的阶段,而数据作为AI算法的“燃料”,是实现这一能力的必要条件,因此,为机器学习算法训练提供数据采集、标注等服务的人工智能基础数据服务成为近年人工智能热潮中必不可少的一环。2018年1月,由国务院办公厅发布的科学数据管理办法中,明确了科学数据的责任、安全使用和共享利用等行为规范,政策层面的关注表明,科学数据是国家科技创新发展和经济社会发展的重要基础性战略资源,科技创新越来越依赖于大量、系统、高可信度的科学数据。当人工智能技术在更多场景尝试下沉时,AI基础
4、数据服务将迎来挑战,新兴垂直场景数据既难以获取,又需要有经验、有专业素养的人员进行标注,考验着从业玩家的研发、管理、培训能力,但也同样伴随着机遇。人工智能基础数据服务并非人们想象中的数据作坊,其发展依赖于基于技术的数据处理平台和工具,以及科学高效的管理。该赛道还是科技巨头早早布局的“逐鹿场”。以百度为代表的巨头企业纷纷建设数据采集与标注服务团队,在支撑自身人工智能技术研发的同时,对外输出数据采标能力,成为行业领先力量。随着高难度、前沿独特性需求渐成主流,数据服务行业早期鱼龙混杂的现象将改变,优势公司实力将逐渐凸显。艾瑞咨询研究院4人工智能基础数据服务行业概述1人工智能基础数据服务市场现状2人工
5、智能基础数据服务场景分析3人工智能基础数据服务需求分析4人工智能基础数据服务发展趋势与建议552019.8 iResearch I人工智能基础数据服务定义意指为AI算法训练及优化提供数据采集和标注等形式的服务人工智能基础数据服务指为AI算法训练及优化提供的数据采集、清洗、信息抽取、标注等服务,以采集和标注为主。人工智能概念爆发伊始,算法、算力、数据就作为最重要的三要素被人们乐道,进入落地阶段,智能交互、人脸识别、无人驾驶等应用成为了最大的热门,AI公司开始比拼技术与产业的结合能力,而数据作为AI算法的“燃料”,是实现这一能力的必要条件,因此,为机器学习算法训练、优化提供数据采集、标注等服务的人
6、工智能基础数据服务成为了这一人工智能热潮中必不可少的一环。如果说计算机工程师是AI的老师,那基础数据服务就是老师手中的教材。来源:艾瑞根据公开资料自主研究绘制。实现途径算力传统通用计算(CPU)AI计算架构AI芯片CPU+GPUTPUFPGA智能设备视觉类脑自动驾驶安防物联网支持系统计算平台硬件设备云服务储存设施网络传输数据采集数据可视化编程语言算法平台AI框架量子计算理论研究基础层应用层技术层数据数据存储数据处理数据挖掘信息抽取数据标注数据采集数据清洗算法机器学习算法监督式学习非监督学习半监督学习强化学习深度学习迁移学习早期算法搜索式推理专家系统智能代理计算机视觉图像识别人脸识别视频识别文字
7、识别视觉识别步态识别语音识别声音识别语音合成语音交互声纹识别自然语言处理信息理解机器翻译自然语言生成文字校对知识图谱通用型行业型人工智能技术框架AI基础数据服务62019.8 iResearch I初生期成长期成熟期质变期人工智能基础数据服务发展历程行业进入成长期,行业格局逐渐清晰伴随国内人工智能热潮爆发,大量的AI公司拿到融资,为了不断提高算法精度,数据采标需求也空前爆发,一度催生了行业的繁荣。但早期的AI基础数据服务门槛较低,玩家鱼龙混杂,使行业标准模糊、服务质量参差不齐。随着竞争加快,AI公司对训练数据的质量要求也不断提高,并且当产业落地成为主旋律,需求方对垂直场景的定制化数据采标需求成
8、为主流,众多小型AI基础数据服务公司从数据质量和采标能力上达不到要求,或被淘汰,或依附大平台,行业格局逐渐清晰,头部公司实力逐渐凸显。随着算法需求越来越旺盛,目前机器辅助标注、人工主要标注的手段需要改进提升,增强数据处理平台持续学习和自学习能力,增加机器能够标注维度、提升机器处理数据的精度,由机器承担主要标注工作将成为下一阶段的行业重心。未来,越来越多的长尾、小概率事件所产生的数据需求增强,人机协作标注的模式性价比不足,机器模拟或机器生成数据会是解决这一问题的良好途径,及早研发相应技术也将成为AI基础数据服务商未来的护城河。来源:艾瑞根据公开资料自主研究绘制。野蛮生长2010年-2016年格局
9、逐渐清晰向技术要市场未来随着人工智能在更多场景可用国内人工智能概念爆发,算法准确率是第一要义,大量数据标注需求产生,标注门槛低,行业内鱼龙混杂AI基础数据服务行业发展历程及展望2017年-2022年AI进入落地阶段,垂直场景数据成为主要需求,对数据类型、质量等要求明显提高,头部企业实力逐渐凸显,行业格局逐渐清晰2023年-人工标注数据的效率并不能完全满足算法的需求,增加机器能够标注的维度、提升机器处理数据的精度,是提高效率上限的重要方法,掌握高效、准确的机器标注技术将产生新的核心竞争力、降低成本,扩大市场边界-越来越多的长尾、小概率事件数据需求出现,人机协作标注的模式性价比不足,机器模拟或机器
10、生成数据或是解决这一问题的良好途径72019.8 iResearch I人工智能基础数据服务的行业价值目前有监督的深度学习是主流,标注数据是其学习根本人工智能是研究如何通过机器来模拟人类认知能力的科学,机器学习是现阶段实现人工智能的主要手段。机器学习方法通常是从已知数据中学习规律或者判断规则,建立预测模型,其中,深度学习可以通过对低层特征的组合,形成更加抽象的高层属性类别,自动从信息中学习有效的特征并进行分类,而无需人为选取特征。凭借自动提取特征、神经网络结构、端到端学习等优势,深度学习在图像和语音领域学习效果最佳,是当今最热门的算法架构。在实际应用中,深度学习算法多采用有监督学习模式,即需要
11、标注数据对学习结果进行反馈,在大量数据训练下,算法错误率能大大降低。现在的人脸识别、自动驾驶、语音交互等应用都采用这类方法训练,对于各类标注数据有着海量需求,可以说数据资源决定了当今人工智能的高度。由于应用有监督学习的AI算法对于标注数据的需求远大于现有的标注效率和投入预算,无监督或仅需要少量标注数据的弱监督学习、小样本学习成为了科学家探索的方向,但目前无论从学习效果和使用边界来看,均不能有效替代有监督学习,人工智能基础数据服务将持续释放其对于人工智能的基础支撑价值。来源:艾瑞根据公开资料自主研究绘制。机器学习与深度学习的实现路径深度学习将低层特征组合形成抽象的高层属性,自动学习特征并分类传统
12、机器学习描述样本的特征通常由专家来设计,这称为“特征工程”有标注样本数据人工设计特征分类模型有标注样本数据机器学习特征分类模型端到端学习深度学习分类器学习图像卷积层全连接层生数据采集与标注神经网络传统机器学习82019.8 iResearch I人工智能基础数据服务的主要产品形式定制服务为主要服务形式,数据集产品集中于语音类赛道目前,国内AI基础数据服务主要为数据集产品和数据资源定制服务,数据集产品往往是AI基础数据服务商根据自身积累产出的标准数据集,以语音数据集为主,主体偏普通话语音、英文语音、方言语音等;为保证算法优势,客户更多采用定制化服务,由客户提出具体需求,数据服务商或直接对客户提供
13、的数据进行标注、或对数据进行采集并标注。大型的需求方,为保障数据的安全,往往提供Web形式的自有标注平台给执行方,以此对整体项目进行把控,也有一些AI基础数据服务商向客户提供私有化平台建设服务,或将自身平台与甲方系统兼容;除以上两种形式外,部分AI基础数据服务商还向算法服务进行拓展,提供算法训练、模型搭建等服务。来源:艾瑞根据公开资料自主研究绘制。更适合算法处于早期研究阶段的客户使用适合算法训练、优化等需求,对于业务类需求有较强的支撑效果数据集产品形式一分为开源数据集和收费的数据集产品,主体主要分为语音类数据集、图像类数据集、NLP类数据集等,其中以语音类数据集为主数据资源定制服务形式二其他数
14、据资源应用服务形式三定制服务是AI基础数据服务行业最为主要的服务形式,涵盖采集和标注服务,数据内容以语音、图像、NLP、OCR等为主,根据需求方的具体要求设计方案,并执行部分AI基础数据服务商还向算法服务方向进行拓展,提供算法训练、模型搭建等服务倾向于AI中台概念中的部分能力AI基础数据服务行业主要产品形式92019.8 iResearch I2019.8 iResearch I251.1570.1819.81157.01573.020182019e2020e2021e2022e人工智能赋能实体经济所产生的市场规模(亿元)人工智能基础数据服务的发展背景人工智能经济崛起为基础数据服务提供长期向好
15、的基本面2010年语音识别和计算机视觉领域产生重大突破,国内开始萌生AI概念。到2015年,国内迎来人工智能创业热潮,独角兽不断涌现,融资记录被不断打破。2012年-2019年8月人工智能领域共发生2787件投融资事件,总融资额达4740亿元,人工智能成为最炙手可热的融资热点,百度、阿里、腾讯、京东、华为等科技企业也纷纷加注。2017年至今,产业落地成为AI行业的主流,人工智能赋能实体经济保持高速发展态势,涉及行业包括安防、金融、零售、交通、教育、医疗、营销、工业、农业、企服等众多领域。下游的爆发式增长为人工智能基础数据服务的发展提供了长期向好的基本面。来源:艾瑞2019年中国人工智能产业研究
16、报告。来源:艾瑞2019年中国人工智能产业研究报告。2018-2022e中国人工智能赋能实体经济市场规模366514580709260292376659122864220152016201720182019Q3投资事件数投资额(亿元)2015-2019年Q3中国AI领域投融资情况102019.8 iResearch I人工智能基础数据服务的发展背景数据量呈指数式增长,非结构化数据的应用依赖于清洗标注PC、互联网、消费级移动设备的兴起宣告了数据时代的来临,物联网的发展更使线下业务产生的大量数据被采集起来,数据量呈指数式增长,据IDC统计,全球每年生产的数据量将从2016年的16.1ZB猛增至20
17、25年的163ZB,其中80%-90%是非结构化数据。过去计算机主要处理结构化数据,人工智能模型却以处理非结构化数据见长,但“玉不琢不成器”,数据经过清洗与标注才能被唤醒价值,这就产生了源源不断的清洗与标注需求。在我国,每年需要进行标注的语音数据超过200万小时,图片则有数亿张。来源:柱状图数据来自IDC,文字来自艾瑞自主研究。2016-2025年全球数据量的爆发式增长CAGR=29.3%16.1 163.0 20162025e全球数据量(ZB)人工智能模型以处理非结构化数据见长,但数据经过清洗与标注才能被唤醒价值 我国每年需要进行标注的语音数据超过200万小时,图片则达数亿张112019.8
18、 iResearch I人工智能基础数据服务的发展背景人工智能政策向好,AI基础数据服务公司与政府积极配合人工智能是中国大力发展的新一代信息技术中重要的组成部分,相关促进、指导意见连续三年出现在总理报告中,2019年“智能+”的概念又首次被写入到政府工作报告中,其发展意义已上升至国家竞争力层面。作为人工智能产业链中必不可少的一环,发展AI基础数据服务成为了各地方推进AI建设的重要方向之一,贵州、山西、重庆等地相继出台指导意见,引入科技公司,共建数据基地、数据交易中心,打造具有地方特色的人工智能产业园。以百度(山西)人工智能基础数据产业项目为例,是在山西省综合改革示范区支持下,由百度智能云数据众
19、包团队筹建专业化、集中管理的AI数据标注基地。目前,基地拥有近1万平方米的办公场地,专业标注员和审核员达1500人,基地业务全方位覆盖了无人车、语音、人脸、图像、NLP、地图测绘等数据类型的标注和加工处理服务,是山西2019年重点推进项目。来源:艾瑞根据公开资料自主研究绘制。AI基础数据服务基地代表案例为惠水产业转型,建设新兴工业化路线而建设的新型园区总规划面积18平方公里,起步区百鸟河核心区域5平方公里园区自营超1500+席位的数据工场,提供了数以万计的数据标注和采集服务案例:贵州惠水百鸟河数字小镇案例:成都市促进大数据发展工作方案案例:百度(山西)人工智能基础数据产业项目 2020年,重点
20、培育3至5个大数据产业集聚区,推进政府数据开放数据集1000个以上 大数据从业人员规模达到6万人以上;大数据核心产业产值突破800亿元 近1万平方米的办公产地 1500名专业标注员和审核员 基地业务涵盖了无人车、语音、人脸、图像、NLP、地图测绘等数据类型的标注和加工处理服务贵州大数据产业发展较早,已形成一定的区域优势。2018年,省内软件和信息技术服务收入环比增长达到18%以上、电子信息制造增加值增长10%左右。2019年贵州打造10个省级、60个市州级试点项目,积极拓展新一代信息技术能力,实现产业转型与升级成都一直是我国大数据产业发展较强的地区,拥有大数据相关企业400余家,涉及数据采集、
21、数据存储、数据可视化、大数据应用等大数据全产业链。2018年中国大数据企业50强中,有超过70%入榜企业在成都设有分支机构或有关联企业,当地政府高度重视数据产业发展,未来将持续保持优势山西正处于由传统产业向科技型产业发展的转型期,数据标注行业是其重要的抓手。目前省内本土科技型公司和人才储备尚显不足,与巨头企业紧密合作带动整体发展,成为了切实可行的策略。山西省计划到2022年初步形成集数据采集、清洗、标注、交易、应用为一体的基础数据服务产业体系12人工智能基础数据服务行业概述1人工智能基础数据服务市场现状2人工智能基础数据服务场景分析3人工智能基础数据服务需求分析4人工智能基础数据服务发展趋势与
22、建议5132019.8 iResearch I提供生数据来源:根据公开资料和专家访谈,艾瑞自主研究绘制。人工智能基础数据服务产业链AI基础数据服务方是行业核心环节由AI基础数据服务方使用算法研发单位自有设备和工具进行服务提供外包采标人员任务对接平台数据生产者产能资源提供者个人用户企事业单位政府机构人力资源外包提供商个人AI基础数据服务方自建采标执行团队项目管理系统权限管控项目流程管理办公应用数据处理平台数据资源设计工具技术能力支撑语音识别技术储备CV技术储备NLP技术储备数据资源采集工具录制及拍摄工具显示与上传模块数据资源预标注及自动标注工具语音标注工具:切分、转写、实体标注图像标注工具:贴边
23、、打点、分类、标框文本标注工具:词性标注、分词、分类质检工具需要进行AI算法研发的单位标注工具采集设备AI算法研发应用自动驾驶智能交互机器视觉AI中台AI技术能力文字识别语音交互对话机器人标注工具模型构建模型部署机器学习图像识别人脸识别灰色图框表示固有模块及供应关系图例蓝色图框表示可能存在的模块及供应关系提供生数据提供外包采标人员提供内部全职采标人员提供预标注及自动标注工具提供完整的数据采集与标注服务提供管理系统支持提供数据需求理解及工具开发支持提供开发与部署能力2018年人工智能基础数据服务产业链代理商142019.8 iResearch I来源:根据公开资料和专家访谈,艾瑞自主研究绘制。人
24、工智能基础数据服务产业图谱产业上下游普遍存在交叉AI基础数据服务方的上游是数据生产和外包提供者,下游是AI算法研发单位,AI基础数据服务方通过数据处理能力和项目管理能力为其提供整体的数据资源服务。AI基础数据服务方整体有两大类,一种是具备自有的标注基地或全职标注团队,这类企业也参与产业上游部分直接提供产能资源,另一种是依靠众包或外包模式,专注于数据产品的开发与项目执行。下游部分AI公司拥有自己的标注工具,也可通过AI中台获取一些通用标注工具,同时一些数据需求大的企业还孵化了自己的数据服务团队。整体而言,产业上下游普遍存在交叉关系。数据生产者个人用户企事业单位政府机构产能资源提供者人力资源外包提
25、供商个人AI中台科技公司行业企业AI公司科研单位AI基础数据服务商具备标注基地或全职标注团队AI基础数据服务商上游:数据产生及产能资源中游:数据产品开发工具与服务管理下游:AI算法研发2018年人工智能基础数据服务产业图谱152019.8 iResearch I人工智能基础数据服务行业投融资融资规模集中于千万量级,早期融资项目居多从融资规模来看,人工智能基础数据服务市场的融资多集中在千万级别。从时间维度来看,2015年人工智能基础数据服务商获得的融资金额相对较高,标志着行业初露头角,受到资本的认可。从获得融资的企业数量来看,目前获得融资的玩家并不多,资本市场表现的活跃度不高。从融资轮次来看,大
26、部分融资仍然集中于早期融资,目前上市的企业仅挂牌新三板的数据堂一家(不考虑科技公司内部孵化的基础数据服务商)。人工智能基础数据服务毛利率普遍较高,但为保持与人工智能市场前沿算法的匹配,需要投入大量研发成本进行数据处理平台与工具的研发升级,因此对融资仍有较强依赖。来源:艾瑞咨询研究院根据IT桔子、鲸准对接平台数据,自主研究及绘制。融资金额(元)2019HI2018201720162015天使数百万数据堂龙猫数据倍赛爱数智慧数百万Pre-A2.4亿元B轮海天瑞声荟萃种子100万标贝科技Pre-A数千万A3370万天使1000万Pre-A数千万天使数百万星辰数据Pre-A数千万A5000万A数千万P
27、re-A数千万并购(金额不详)A数千万2015-2019年H1中国人工智能基础数据服务融资情况162019.8 iResearch I人工智能基础数据服务行业商业模式生产、获客、部署合力驱动发展人工智能基础数据服务行业是典型的To B型业务,商业模式较为稳定。在生产方面,主要通过自建标注基地或标注团队、搭建众包平台、采购供应商外包服务(BPO)等模式实现生产运营,大多企业主要采取众包与外包模式,百度数据众包、倍赛等企业自建标注基地或全职标注团队,对于培训较高素质工作人员、完善团队管理有积极意义;在获客方面,主要通过口碑传播、学术会议与展会及代理渠道等模式进入市场,对销售人员熟悉市场趋势、客户需
28、求的要求较高;在实施交付方面,有私有化部署和公有部署两类,能够较为灵活地应对客户对数据安全、交付周期与成本的个性化需求。来源:根据公开资料,艾瑞自主研究绘制。2018年中国人工智能基础数据服务商业模式自建标注基地或标注团队拥有专业标注人员,通过完善的管理制度和培训,提升产能质量与效率口碑通过提供优质服务,进入客户的供应商名录,是一种非标准化的获客模式私有化部署在数据生产者愈加重视数据隐私与安全的背景下,基础数据服务可以实现私有化离线部署,驻场标注,数据存储在客户本地生产模式获客模式实施模式搭建众包平台利用大众力量及资源,低成本、高效率地采集和制作专业数据学术会议、展会通过专业性学术会议与行业展
29、会,取得客户关注公有部署数据接入在公有云服务器,可降低项目实施成本,通过数据接口加密、定期巡查、反爬虫机制保证数据安全采购供应商外包服务(BPO)增强生产能力弹性,由供应商承担生数据采集和标注等基础操作,优化企业运营代理模式通过代理合作拓展下游客户172019.8 iResearch I2019.8 iResearch I86.2%12.9%0.9%2018年中国人工智能基础数据服务市场细分结构数据资源定制服务数据集产品其他数据资源应用服务人工智能基础数据服务市场规模2025年市场规模将突破百亿,行业年复合增长率为23.5%2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资
30、源定制服务占比86.2%,数据集产品占比12.9%,其他数据资源应用服务占比0.9%;行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。从整体增速来看,行业发展较为稳健,下游人工智能行业持续发力将形成长期利好。来源:根据专家访谈与模型推算,艾瑞自主研究绘制。来源:根据专家访谈与模型推算,艾瑞自主研究绘制。数据资源定制服务数据集产品其他数据资源应用服务25.86 34.91 45.38 57.18 70.33 83.70 97.93 113.59 35%30%26%23%19%17%16%2018 2019e 2020e 2021e 2022e 2023e 2024e 202
31、5e2018年-2025e中国人工智能基础数据服务市场规模市场规模(亿元)市场规模增速(%)182019.8 iResearch I2019.8 iResearch I4.717.6企业自建团队运营(亿元)供应商运营(亿元)2018年人工智能数据资源定制服务市场细分结构人工智能基础数据服务细分结构纯标注服务为主体,由供应商提供服务占79%2018年中国人工智能基础数据服务市场以语音、视觉、NLP领域的标注服务为主,同时提供采集与标注服务占比较少,这是由于生数据由需求方提供的情况较多,但这并不意味着市场中数据采集需求弱,相反,人工智能技术落地后产生了大量新兴垂直领域的数据需求,然而这些数据采集难
32、度大,能够提供相关采集工具和服务的供应商将获取竞争优势。市场供给方主要由企业自建或直接获取外包团队的形式以及供应商组成,又以供应商为行业主要支撑力量,占比79%。来源:根据专家访谈与模型推算,艾瑞自主研究绘制。注释:企业自建团队运营数据统计指企业在内部形成独立的团队/品牌或直接通过人力外包机构获取团队来负责数据采集与标注,不含由企业内部各岗位人员兼职地、分散地、非标地承担标注工作发生的成本,也不含内部孵化标注团队对外提供服务的收入。来源:根据行业专家及需求方访谈与模型推算,艾瑞自主研究绘制。6.4亿元6.6亿元4.3亿元2.8亿元1.9亿元NLP数据采集与标注服务0.3亿元21%79%1920
33、19.8 iResearch I人工智能基础数据服务市场格局自建标注团队增加,但未对行业产生挤出效应出于对数据安全性、成本和整体布局的考虑,人工智能和科技型互联网领域的头部公司开始组建自有标注团队,大部分采用聘用项目经理,执行团队外包的形式运营,所处理项目从少量较为简单基础的标注需求,逐渐向大量复杂任务发展,但由于数据需求总量大,未对市场产生明显挤出效应。其中AI公司的数据标注团队主要承担自身研发需求,而科技型互联网巨头组建的标注团队开始依靠集团优势,对外输出AI基础数据服务能力,形成了行业中较强的一方阵营。来源:艾瑞根据公开资料自主研究绘制。自建标注团队百度、阿里、腾讯、京东等科技公司和科大
34、讯飞、商汤科技等AI公司均开始自建标注团队任务量级和复杂性提升自建团队早期更多承担公司内部的算法研发和业务需求,往往标注内容较为简单,但随着团队经验的累计,任务量和复杂性明显推升代表性公司团队对外输出能力以百度数据众包为代表的数据标注团队成立较早,拥有大量活跃用户的众包平台,标注能力在集团中得到充足的锻炼,对外输出能力时也形成了较强的竞争力AI基础数据服务自建团队202019.8 iResearch I9%17%74%2018年人工智能基础数据服务市场份额人工智能基础数据服务市场格局行业将提升至较高集中度,CR5占26%市场份额目前人工智能基础数据服务行业CR5占26%市场份额,行业集中度较为
35、适中,既非寡占型市场也非充分竞争市场,这一方面是由于百度数据众包、海天瑞声、数据堂等企业进入市场较早,积累了较多客户资源,另一方面则是由于下游企业之前多采用公开数据集训练模型,对数据的高精度要求由来尚短,受生态传导效应滞后影响,市场门槛还不显著,资金与研发实力较为薄弱的中小企业还有较强的发展土壤。然而未来,随着下游企业发展壮大,直接使用外包团队成本低廉、数据安全可控性强,一些基础性需求将由下游企业自给自足,外部的数据服务商现有的存量市场面临下降,因此必须承担高难度、前沿独特性任务,这就要求其自身投入高精度、专业化数据处理工具的研发和人工智能算法基础研究,以把握客户需求,开拓增量市场,因此资金与
36、研发实力成为较高行业门槛,同时受近年资本市场冷却影响,一批中小型厂商面临业务收缩,再者部分厂商如倍赛开始在业内并购,参考海外数据服务市场发展情况(海外行业巨头Appen多次并购其他企业),并购也将成为市场趋势,多种因素叠加影响下,行业集中度将提升。来源:根据公开资料和专家访谈,结合统计模型推算,艾瑞自主研究绘制。适中行业集中度较高行业集中度现在2022年行业集中度厂商数量有限,大型厂商先入,把持较多客户资源下游对数据要求提高周期尚短,生态传导效应滞后融资限制部分厂商业务发展行业迎来并购研发重要性提升,资金与研发实力成为壁垒人工智能基础数据服务集中度趋势其他四大头部企业其余企业212019.8
37、iResearch I人工智能基础数据服务市场格局部分人工智能基础数据服务主要玩家策略矩阵业内玩家按照业务方向和进入市场的时机可做粗略划分,包括早期进入玩家、中晚期进入玩家、偏重视觉类业务玩家、偏重语音类业务玩家等。其中,业务更偏重语音类数据的玩家,通常拥有较多的自有知识产权数据集;拥有自建标注基地或全职标注团队的则多为偏重视觉类的玩家。来源:根据企业官网公开资料,艾瑞自主研究绘制。偏重计算机视觉较晚进入早期进入中期进入偏重语音百度云测数据堂海天瑞声慧听数据龙猫数据倍赛阿里众包爱数智慧标贝科技京东众智星辰数据部分人工智能基础数据服务主要玩家策略矩阵拥有自建标注基地或标注团队未于官网明确有自建标
38、注基地或标注团队图例腾讯云数据222019.8 iResearch Iw 确保资金周转能持续为企业回血,股东与企业管理层维持良好的沟通和业务协同机制 完善项目管理平台,建立全面的质量管理和人员培训机制,以降低管理成本、优化口碑 保持大量订单吞吐,建立激励机制,以降低有经验的标注人员流失率 强调数据安全性,通过私有部署、管理流程全程多层把控、自建标注基地或全职团队等方式实现对数据安全的有效管理人工智能基础数据服务竞争力要素优质人工智能基础数据服务供应商要素模型优质人工智能基础数据服务供应商的基本发展态势可从技术、产能、商务、数据资产、管理等五个方面判断。技术主要关注数据处理工具、平台和人工智能基
39、础技术研究,产能主要关注产能的充足性和调度能力,商务主要关注市场覆盖率和续单率,数据资产主要关注数据资产合规性、复用率,管理主要关注资金、项目管理平台质量与安全管控度、有经验人员保有率等。来源:根据公开资料,艾瑞自主研究绘制。销售团队对市场渠道的覆盖增强,针对不同类型的客户资源个性化维护,提升续单率 售前售中售后体系的完善程度商务商务 开发与时俱进的数据处理工具,以应对高精细化、高细粒度的数据处理需求,并保证针对差异化需求架构较快完成定制开发 增强数据处理平台终身学习能力,由机器学习人工标注,提升预标注和自动标注的能力 介入人工智能基础技术研究,紧跟下游需求变化技术 厂商应具备充足产能,一方面
40、拓展与上游供应商的合作关系,另一方面为众包平台引流。同时,下游客户对标注人员的素养和信誉度愈发看重,自建一部分专职标注团队承接高精度任务将带来竞争优势 产能调度方面,除项目经理调度外,尽早研发需求与供给规模分布模型,依据需求的时间与质量要求和产能人员的经验、信誉、负载等维度实现智能化任务分配,将优化产能提供效率、降低项目风险,获取竞争优势产能 对公司拥有知识产权的数据,确保数据授权的完备,避免合规风险,并合理配置,针对复用率高的数据类型建立数据资产库数据资产优质人工智能基础数据服务供应商要素模型管理23人工智能基础数据服务行业概述1人工智能基础数据服务市场现状2人工智能基础数据服务场景分析3人
41、工智能基础数据服务需求分析4人工智能基础数据服务发展趋势与建议5242019.8 iResearch I视图基础数据服务分类及应用场景主要对视图数据检测、框选、分割,新型产品需求不断攀升视图基础数据服务主要为计算机视觉算法模型提供场景对应的算法训练采集所需的视图数据,针对已采集数据进行框选、关键点标注、属性标注等标注工作,现主要应用于智慧城市、智慧零售、手机拍照、智能质检与预测性维护、商业地产、医学影像AI等领域。由于智慧城市等CV主赛道算法逐渐走向成熟,当前计算机视觉厂商对新赋能领域以及目前已进入领域中较为长尾化的细分场景需求开始增强,及时拓展相应新的精细化数据产品在视图基础数据服务市场中至
42、关重要。来源:根据公开资料和专家访谈,艾瑞自主研究绘制。注:本章将自动驾驶相关的数据服务单独阐述,因此本章视图基础数据服务均指除自动驾驶以外的视图基础数据服务。视图基础数据服务分类及应用场景 人像采集能力完备,可实现汉族、少数民族、白人、黑人、印第安人、中东人、中亚人、南亚人、东南亚人等多种人像采集 拥有人脸打点、物品分类、自动贴边等标注工具,人像标注准确率达到98%,单张人脸支持150点的精细标注 拥有复杂条件采集能力,可在不同光线、道具、表情、背景采集数据用于图片分类处理 视频数据标注服务对视频主体分类、进行人物及物体属性标记、主体行踪轨迹分析、主体朝向标记、画面起始点标记等 OCR数据服
43、务对含有文本的图片做框选标注,包括手写内容、卡片、票据等用于视频处理 人脸人像数据服务采集阶段提供不同姿态、不同年龄段、肤色的人像数据,标注阶段提供在图像中检测和跟踪人脸、人脸关键点标注、人脸特征标注等服务场景化图片数据服务采集数据后,对图片进行描点、划线、框选、目标检测、关键点标注、目标分割、属性标注等,可用于智慧零售、工业质检、人体识别、动物识别与监测等各类场景用于内容提取比对典型案例 x252019.8 iResearch I视图基础数据服务市场现状人像与OCR数据是视图基础数据服务的主流在不考虑自动驾驶的前提下,2018年视图基础数据服务市场达到6.6亿元,人像与OCR数据是视图基础数
44、据服务的主流,尤其人像数据占市场的42.9%。OCR占27%,其他的人体识别数据、商品识别数据、工业质检数据、医学影像数据及其他新场景数据等较为分散,合计占市场30.1%。来源:根据公开资料和专家访谈,结合统计模型推算,艾瑞自主研究绘制。2018年视图基础数据服务市场细分结构(不含自动驾驶)42.9%27.0%30.1%人像OCR其他人像OCR其他262019.8 iResearch I视图基础数据服务技术趋势针对算法研发方向判断数据需求,挖掘增量市场按照数据使用方向,可以划分为新算法模型搭建与研发、在已有算法基础上增加新模块、解决方案交付过程中定制优化等三类,其中新算法模型搭建与研发和在已有
45、算法基础上增加新模块类型的数据需求是可以根据相应机器视觉算法的前沿研发方向来判断预测的。例如,就智慧城市场景而言,针对汉族的人脸识别和视频结构化已较为成熟,在实际应用场景中还需针对少数民族和其他人种进行优化以提升整体算法准确率,此外,跨镜追踪成为场景研发热点,相应的跨摄像头数据如何标注对算法训练也会产生较大影响,再及,深度相机可以帮计算机读懂三维立体的监控视频,还能够较好地解决复杂光照条件下视图数据采集的问题,也将在未来成为重要的研发方向,综上,多民族、多人种数据、跨摄像头数据、3D数据的采集与标注服务将为视图基础数据服务市场的发展带来增量空间,OCR、手机、零售等其他领域也同理可针对算法研发
46、方向挖掘增量市场。来源:根据公开资料和专家访谈,结合统计模型推算,艾瑞自主研究绘制。OCR特定行业领域光学字符数据零售柔性商品数据体感识别数据医疗结合时空维度的数据智慧城市多民族、多人种数据跨摄像头数据3D数据手机3D数据骨骼关键点标注多表情数据机器视觉研究方向与数据使用趋势272019.8 iResearch I自动驾驶基础数据服务应用场景算法尚未成熟,对数据有长期需求,且缺口仍在L3级别以上的自动驾驶系统主要有感知、定位、预测、决策和控制五部分,其对于计算机视觉技术的需求度远高于ADAS,系统需要对雷达、摄像头等传感器采集的点云和图像数据进行抽取、处理和融合,构建车辆行驶环境,为预测和决策
47、做依据,这对于算法的准确性和实时性有极大考验。目前自动驾驶的视觉技术主要应用有监督的深度学习,是基于已知变量和因变量推导函数关系的算法模型,需要大量的标注数据对模型进行训练和调优。在世界级无人驾驶大赛中,主办方往往提供近亿张图片、数十万张标注图片供参赛团队训练使用;在路测或真实道路驾驶时,如人车混杂、分布稠密、行为多变等复杂环境问题更需要海量的真实路况数据不断对算法进行优化,才能保障无人驾驶车辆正常可用。如今国内自动驾驶飞速发展,AI公司、科技公司、高精地图厂商、车厂等参与者众多,该领域的数据采集和标注需求已经成为AI基础数据服务的主要项目之一,且自动驾驶算法应用仍待优化,数据需求缺口仍在,市
48、场远未饱和。来源:艾瑞根据公开资料自主研究绘制。环境映射环境映射环境映射环境映射环境映射自动泊车系统行人检测远程雷达激光雷达摄像头中、短程雷达控制决策预测定位感知摄像头激光雷达数据识别采集标注训练算法自动驾驶场景中AI基础数据服务的价值有大量数据采集标注需求高精地图侧视路况识别侧视路况识别高精度地图282019.8 iResearch I2019.8 iResearch I5.76 24.87 20182025e自动驾驶基础数据服务市场现状2025年采标规模将超24亿,科技公司和车厂是主要需求方自动驾驶基础数据主要是道路交通图像、障碍物图像、车辆行驶环境图像等,需求方以科技公司、汽车厂商和高精
49、地图厂商为主,2018年自动驾驶行业基础数据服务规模为5.76亿元,预计2025年将超24亿元,三方规模占比分别为49%、47.2%和3.8%,行业数据总任务量超一亿张,2D图像标注与3D点云标注任务量基本为2:1。其中高精地图厂商算法较为成熟,数据自动化标注程度可达90%左右,外包需求较少;以百度、图森未来为代表的自动驾驶科技公司一直是该领域基础数据服务的主要买方,平均各家算法训练图像数据累积需求在千万级以上,随着落地项目进程加快,将会有更多细分场景的需求产生;近几年,汽车厂商在ADAS和自动驾驶方向的投入明显,上汽、吉利等厂商年投入均可达数亿元,对于数据的采集和标注需求也逐年增加,预计未来
50、3年中,汽车厂商将成为需求主力。来源:通过对需求方和供应商项目结构的研究,利用模型测算2018年规模;根据需求方研发计划和供应商执行上线测算增速及未来规模。来源:通过对需求方和供应商项目结构的研究,得到当年的规模占比。CAGR:23.2%2018年-2025e中国自动驾驶AI基础数据服务规模2018年自动驾驶AI基础数据服务规模占比49.0%47.2%3.8%高精地图厂商规模占比车厂采标规模占比科技公司采标规模占比市场规模(亿元)292019.8 iResearch I自动驾驶基础数据服务技术趋势2D图像标注项目较多,3D点云数据采标能力门槛较高自动驾驶领域的视觉数据可分为车载摄像头采集的2D