1、1 高盛人工智能报告中文版高盛人工智能报告中文版 目录目录 高盛人工智能报告中文版.1 高管概述.2 人工智能是什么?.3 什么是神经网络?.3 为什么现在人工智能加速发展?.4 价值创造的主要驱动力.5 主要影响.6 AI 和生产力的矛盾:采访 Jan Hatzius.7 生态系统:云服务,AI 的下一个投资周期开源的关键受益人.9 AI 三个方向:自建,咨询服务和 AI 服务化.9 自建:云平台和开源系统正在成为 AI 的左膀右臂.10 咨询服务.11 AI 服务化.13 中国人工智能现状.15 机器人:用户界面的未来.17 行业应用.21 农业.21 零售.27 能源.34 人工智能创新
2、:GOOGL(谷歌),AMZN(亚马逊).40 人工智能创新:AAPL(苹果),MSFT(微软).41 人工智能创新:FB(Facebook),CRM.42 人工智能创新:NVDA(英伟达),INTC(英特尔).43 人工智能创新:Uber,IBM.44 人工智能创新:百度.45 2 高管概述高管概述 人工智能是信息时代的尖端科技。计算的飞跃建立在人类告知计算机如何表现的基础上,计算建立在计算机学习如何表现能够对每个行业有意义的基础上。虽然目前可能被视作在下一个 AI 冬天(图 8)之前的最新承诺和失望循环,这些投资和新技术至少将给我们带来机器学习产品的实实在在的经济利益。与此同时,人工智能、
3、机器人和自动驾驶已成为流行文化的前沿,甚至是政治表述。但是,我们去年的研究让我们相信这不是一个失败的开端,而是一个拐点。我们将在这个报告里看到,宏观(更多更快的计算和更多数据的爆炸式增长)和更加微观方面(在深度学习方面的有益进展,智能硬件和开源方面的增长)的拐点的原因。关于人工智能拐点的更多令人兴奋的方面之一是真实应用案例的增加。例如深度学习促进计算机视觉的发发展,这些技术做为自然处理语言引人注目地提升了苹果 Siri、亚马逊 Alexa和谷歌图片识别的质量,人工智能不是为了技术而技术。大数据和强力技术相结合,创造价值,获得竞争优势。例如,在医疗领域,图像识别技术可以促进癌症诊断的准确性。在农
4、业领域,农民和制种者可以利用深度学习促进产量增长。在制药行业,深度学习被用于发现新药。在能源行业,勘探效率和装备可靠性提升。在金融服务行业,同以前可能的相比,成本降低,新数据应用于更快速的分析,返回结果。人工智能在应用案例发掘的非常早的阶段使用,同时做为基于云服务共享的必要的科技,我们相信一波革新将到来,为每个行业创造新的冬天和失业者。人工智能广泛的适用性也让我们认识到它是全球经济的针移技术、提升效率和结束美国经济增长停滞的驱动。利用 GS 首席经济学家 Jan Hatzius 的研究,我们设计了当前的深度资本不景气指数和它对美国生产力的相关影响。我们相信人工智能技术驱动生产力提升的可能,就像
5、 1990 年一样,驱动更多的资本合作和人力效率提升项目,促进增长,促进盈利,扩大股票价值。我们发现人工智能实实地影响着每个公司、行业和经济因素,对投资者有四个方面值得注意。生产力生产力。人工智能和机器学习有引发生产力增长的潜力,有益于经济增长,公司盈利,资本回收和资产估值。根据 GS 首席经济学家 Jan Hatzius“原则上,人工智能看起来的确比上一波革新在统计学上有表现更好的潜力,人工智能降低成本和人力需求,更高的产品附加值类型。”例如,同 iPhone 应用的多样性和可靠性相比,统计学家可能更好的建立并获得这些商业部门的费用节减革新。广义的人工智能对商业部门的费用结构有广泛的基础性影
6、响,我由衷相信人工智能将被统计学家采纳,并在整体生产力数字中有所展现。”优质科技优质科技。人工智能和机器学习的速度价值有扭转更便宜的数据中心和网络硬件的趋势的潜力。我们相信这将驱动硬件、软件和服务领域市场费用的大量变化。例如,1 条运行在标准数据中心上的 AWS 工作量,同在人工智能优化后的 GPU 上运行所需的 0.9 美元相比,每小时实际计算成本只要 0.0065 美元。竞争优势竞争优势。我们看到人工智能和机器学习在改造各行业竞争订单方面的潜力。那些失败于投资和平衡这些科技风险的管理团队被竞争者超越,这些竞争者受益于他们创建的战略情报、获得的生产力和资本效率。在 41 页插图中,我们论证了
7、这些竞争优势是如何应用于医疗、能源、零售、金融和农业。新公司创建新公司创建。近 10 年来(图 6975)在人工智能和机器学习领域,我们已经识别出有超过150 家私营公司.我们相信人工智能的大部分价值将由拥有资源、数据、投资能力的大公司获得。我们希望风险投资家、企业家和技术专家继续驱动新公司的创建,反过来,驱动实质3 性的创新和价值创造,至少是,M&A,我们不能无视谷歌或脸书的人工智能出现的可能。接下来的内容中,我们深入了解人工智能,它的历史,由机器学习、围绕这些技术应用的一路领先的行业和公司所构建的应用生态体系。人工智能是什么人工智能是什么?人工智能是制造智能机器、可学习计算程序和需要人类智
8、慧解决问题的科学和工程。经典地,这些包括自然语言处理和翻译,视觉感知,模式识别,决策制定等,但应用的数量和复杂性在快速增长。在这份报告中,我们将大部分分析聚焦在机器学习、人工智能的一个分支、深度学习、机器学习的一个分支。我们总结了二个关键点:1.简化地,机器学习是从案例和经验(例如数据配置)中习得的算法,而不是依赖于硬件代码和事先定义的规则。换句话说,不是一个开发者来告诉程序如何区分苹果和橘子,而是算法本身通过喂养数据(训练),自己学会如何区分苹果和橘子。2.深度学习的主要发展是现有人工智能拐点的驱动力量之一。深度学习是机器学习的分集。大多数传统机器学习方法和特点(例如,可能预测的输入和属性)
9、由人来设计。特征工程是一个瓶颈,需要有意义的特定技术。在无人管理的深度学习中,重要特征不是由人类来定义,而是由算法学习和创建。什么是神经网络什么是神经网络?神经网络在 AI/机器学习的中充当一种模拟人类大脑的计算机体系结构,在其上可以构建AI/机器学习程序。它由聚合的连接节点组成,如人类大脑中的神经元般可以解决更复杂的问题并学习。什么是深度学习什么是深度学习?深度学习是一种需要训练大型神经网络的“深层”层次结构,且每层可以解决问题不同方面的机器学习,从而使系统能解决更复杂问题的。使用上面说到的火车的例子,深层学习系统包含了识别火车的不同特征的各个层。例如,底层将标识是否具有窗户。如果答案是肯定
10、的,下一层将寻找是否有轮子,接下来将会识别是否是长方形的车等等。直到这些层共同地将图片识别为火车或彻底否定。随着技术发展,可以支持大型神经网络的训练,深度学习作为增强机器学习能力的方法已经越来越普遍。什么是监督学习?无监督学习?监督和非监督学习是机器学习的两种类型。在监督学习中,系统给出一系列“正确答案”的例子。基于这些例子,系统将从正确的答案中学习什么是对的,从而进行正确预测的输出。监督学习的现实应用包括垃圾邮件的检测(例如,系统可能有一组标记为“垃圾邮件”并且学习正确识别垃圾邮件的电子邮件)和手写识别。在无监督学习中,系统没有给出正确的答案,而是提供需要自己去发现特征的未标记示例。一个示例
11、将基于大量客户数据中发现的,包括可以将客户分组的某些特征(例如,购买频率)。什么是一些类型的机器学习?分类。将电子邮件归类为垃圾邮件,识别欺诈,面部识别,语音识别等。聚类。对比图像,文本或语音找到相似的项目;识别异常行为的集群。预测。基于网络活动和其他元数据预测客户或员工流失的可能性;基于可穿戴数据预测健康问题。什么是通用,强大或真实的人工智能?通用,强大或真实人工智能是,机器智能算法完全复制人类智慧,包括人类的独立学习和决策能力。虽然像全脑模拟这样的技术被用于实4 现通用 AI 的目标,但是其所需的计算能力数量,仍然远远超出了当前的技术,使得通用的人工智能基本只存在于理论层面。为什么现在人工
12、智能加速发展为什么现在人工智能加速发展?请记住,我们并不关注于重复独立人类智能且在流行文化中常见的真实、强壮或普遍的人工智能。必然存在潜在突破点,例如谷歌深度思维 AlphaGo 系统,不仅击败了世界冠军,而且使用了没有人曾经做过的行为,我们关注人工智能即刻可触达的经济发展领域。深度学习能力方面的主要飞跃成为当前进行中的 AI 拐点的催化剂。神经网络,深度学习之后潜在的科技架构,已经存在了几十年,但是过去的 5 到 10 年,三件事发生了改变。1.数据数据。通过分布于全球持续增长无所不在的互相联系的设备、机器和系统产生的非结构化数据的数量呈现巨大的增长。拥有的数据越多,神经网络就变得越有效率,
13、意味着随着数据量的增长,机器语言可以解决的问题的数量也在增长。移动手机、物联网、低耗数据存储的成熟和处理技术(通常在云端)已经在数量、大小、可靠数据结构方面创造了大量的成长。例如,特斯拉至今已经搜集了 780mn 英里的驾驶数据,并且每 10 小时通过它连接的汽车增加百万公里的数据。Jasper(2016 年 2 月被思科以 14 亿美元收购)拥有一个平台驱动机器和机器的沟通,服务于多种汽车制造商和电话公司。Verizon在8月进行了一次类似的投资,宣布收购 Fleetmatics,它通过快速增长的无线网络,连接运输工具上的远程传感器到云端软件。5G 的首次展示将最适当地加速数据可被获取和转移
14、的机率。根据 IDC 的数字领域报告,到 2020 年,每年数据量将达到 44ZB(万亿 G),5 年内年复合增长率达到 141%,暗示我们刚开始看到这些科技可以达到的应用场景。2.更快的硬件更快的硬件。GPU 的再次使用、低成本计算能力的普遍化,特别是通过云服务,以及建立新的神经网络模型,已经极大的增加了神经网络产生结果的速度与准确率。GPU 和并行架构要比传统的基于数据中心架构的 CPU 能更快的训练机器学习系统。通过使用图像芯片,网络能更快的迭代,能在短期内进行更准确的训练。同时,特制硅的发展,比如微软和百度使用的 FPGA,能够用训练出的深度学习系统做更快的推断。另外,从 1993 年
15、开始超级计算机的原计算能力有了极大发展(图 2)。在 2016 年,单张英伟达游戏显卡就有了类似于 2002 年之前最强大的超级计算机拥有的计算能力。成本也有了极大的降低。英伟达 GPU(GTX 1080)有 9 TFLOPS 的性能,只要 700 美元,意味着每 GFLOPS 只要 8 美分。在 1961 年,要提供1GFLOPS,需要足够多的 IBM 1620s 串联在一起,计算下来费用要超过 9 万亿美元(根据通货膨胀调整)。3.更好更好、更普遍可用的算法更普遍可用的算法。更好的输入(计算和数据)使得更多的研发是面向算法,从而支持深度学习的使用。例如伯克利的 Caffe、谷歌的 Tens
16、orFlow 和 Torch 这样的开源框架。比如,刚开源一周年的 TensorFlow,已经成为最大的开发人员协作网站 GitHub 上最多分支(或活动)的框架。虽然不是所有的人工智能都发生于普遍可用的开源框架中,但开源确实在加速发展,而且也有更多先进的工具正在开源。方向 虽然本报告的重点是人工智能的发展方向以及公司如何把握这个方向,但是了解人工智能对我们生活的影响程度也是很重要的。在线搜索在线搜索。就在一年多以前,谷歌透露,它们已经开始将大量的搜索工作移植到了 RankBrain(一个人工智能系统),使其与链接(links)以及内容(content)成为了谷歌搜索算法的三个最重要的标志。推
17、荐引擎推荐引擎。Netflix,亚马逊和 Pandora 都在使用人工智能来确定推荐什么样的电影和歌曲,突出哪些产品。5 月,亚马逊开源了它们的深度可扩展稀疏传感网络引擎(the Deep Scalable 5 Sparse Tensor Network Engine(DSSTNE),简称Destiny),它被用于产品推荐,同时可以被扩展,以实现超越语言和语言理解的目的。人脸识别人脸识别。Google(FaceNet)和 Facebook(DeepFace)都投入了大量的技术,来确定照片中的脸和真实的脸是不是完全吻合。1 月,苹果采取了进一步措施,购买了 Emotient(一个致力于通过读取人
18、的面部表情来确定其情绪状态的 AI 创业公司)显然,这些技术远远不止于对照片进行标记。虽然个人助理应用产品有无数的用户,比如苹果的 Siri,信用贷,保险风险评估,甚至天气预测。在接下来的篇幅中,我们探讨企业该如何使用这些技术来加速增长,降低成本和控制风险。从这些技术及其使用这些技术的应用的发展速度来看,它们充其量不过可以为公司和投资者提供一些方向,以保持他们的竞争力。价值创造的主要驱动力价值创造的主要驱动力 经过深入分析,我们认为与 AI 主题相关的利润创造(和损失)可以分解为四个关键输入:人才,数据,基础设施和硅。这些投入也同时也是进入的壁垒。人才 AI(特别是深度学习)难度很大。根据我们
19、与领域中的风险投资公司和公司的对话,这种困难造成了人才短缺,以及大型互联网和云计算供应商对这类人才的竞争(见图 5)。对于 AI 人才的高度需求意味着获取必要的 AI 人才。随着技术和工具的成熟,人才可能变得不再是瓶颈。然而,我们相信人才会迁移到有趣的,差异化的数据集。因此,我们认为,当我们进入一个以 AI 为中心的世界时,大的差异化数据集是最可能的提高和增加利润的驱动力。数据数据:数据是 AI 的关键输入。深度学习效果与大数据集紧密相关,因为更大的数据集会阻碍模型过度拟合。例如,来自马萨诸塞州总医院和哈佛医学院放射科的研究人员使用卷积神经网络来识别 CT 图像,基于训练数据大小来评估神经网络
20、的准确性。随着训练规模的增大,精度将被提高(图 6)。今天的大多数深度学习是监督的或半监督的,意味着用于训练模型的所有或一些数据必须由人标记。无监督的机器学习是 AI 中当前的“圣杯”,因为可以利用原始未标记的数据来训练模型。广泛采用深度学习可能与大数据集(这是由于移动互联网和物联网产生)的增长以及无人监督的机器学习的发展有关。然而,我们认为大型差异化数据集(电子健康记录,组学数据,地质数据,天气数据等)可能是未来十年企业利润创造的核心驱动力。参考 IDC 报告,全世界创造的信息量预计到 2020 年将以 36的复合年增长率增长,达到 44 泽字节(440 亿 GB)。连接的设备(消费者和工业
21、领域),机器到机器通信和远程传感器的增加和组合可以创建大型数据集,然后可以挖掘洞察和训练自适应算法。在过去十年中,数据的可用性也大大增加,人口普查,劳动力,天气,甚至基因组数据可大量的免费在线查询。我们还留意到卫星图像的可用性增加,这需要大量的计算来支撑全方位的分析。美国地质调查局的 Landsat 7 和 Landsat 8 卫星每 8 天对整个地球进行成像,USGS 使这些图像可以免费使用-即使是在压缩时,超高清图像的文件大小也各为 1GB 左右。其他公司,如Orbital Insights,正在汇总图像数据并在多个行业创建商业解决方案。基础设施基础设施:硬件和基础设施软件是开展 AI 工
22、作所必需的。我们认为支持 AI 的基础设施将被迅速商品化。这个观点基于两个现象观察:1)云计算供应商能够将他们的产品扩展到 AI基础设施中,2)开源(TensorFlow,Caffe,Spark 等)已经成为 AI 中软件创新的主要驱动力。为了促进 AI 技术的应用,我们认为大型云供应商将继续开放基础架构资源,这将限制利润创造的潜力。6 硅技术硅技术:GPU 在深度学习领域的新用途成为我们目前 AI 春天的核心驱动力之一。在人工智能、机器学习生态系统中,存在二个主要应用来决定神经网络的表现,每个神经网络需要不同的资源。首先是学习算法的构造和使用。学习算法借助大数据(通常更大、更好)发现相互联系
23、,并且创建模型,提供新输入,可以决定输出的可能性。学习是资源密集型,并且大多数现代学习通过 GPU 驱动的系统来运行。一旦经过学习,模型和算法的使用将被称为推论。推论需要更少的计算资源,经常通过更小增量数量输入进行梳理。一些 GPU 被优化用于推论(例如英伟达 P4 系列和 M4 系列),给出单目标的自然推论。硅谷有针对性地发展用于该应用的专业技术,例如 FPGAs(现场可编程门阵列)和 ASICs(专用集成电路)。这种类型的集成电路被独创地用于原型机 CPU 中,但是逐渐地被应用于人工智能推论。谷歌的张量处理单元就是 ASIC 应用于 AI 和机器学习的一个例子。微软也在将 FPGA 应用于
24、推论。英特尔在 2015年收购了 FPGA 制造商 Altera,有观点认为,到 2020 年,三分之一的数据中心将在特殊定制化应用中使用 FPGA。赛灵思在 1980 年开发了可商业化的 FPGA,领先提出了云和大数据将做为有价值的增长途径,宣布和百度达成战略协作关系。数据中心业务大概占赛灵思 5%的营业收入。主要影响主要影响 促进未来生产力促进未来生产力 在经历了 90 年代中后期的高速发展和过去十年的平缓增长后,美国的劳动生产力近几年已经进入了增长停滞的阶段。我们相信实用的机器学习和人工智能的蓬勃发展可以将生产力典范作用广泛推广至全球各产业领域。人工智能和机器学习带来的自动化及效率提升在
25、普遍各领域都缩减了约 0.5%-1.5%的劳动工时,预计到 2025 年将带来 51-154 比特/秒的生产力提升。在期待未来人工智能和机器学习得以同时提升生产效率的分子和分母(标准工时和实际投入工时),最重要的是它带来的早期影响将会体现在低薪工作的自动化层面,用更少的工时驱动同比产出增长。我们基本认为人工智能和机器学习提速 97 比特/秒意味着在 2025 年 IT将为生产率增长贡献 1.16%效能,也即比 1995-2004 提高 11 比特/秒.技术与生产力增长 90 年代掀起的科技热潮伴随着生产力、资本深化和多因素生产力被异常放大,并与飞涨的股票估值紧密关联。资本深化资本深化 高盛的经
26、济学家 Jan Hazius 提供了他近期就资本深化(每工时资本量)反周期性趋势的分析,在扩张时期没有同等水平股本增长的情况下历史劳动工时一般趋于增长(参见 Jan 的报告:“生产率悖论 2.0 版本再探”2016 年 2 月 9 日发表)90 年代资本深化急剧增长,其中最显著的是非典型资本投资的增长超越了劳动力市场的增长。多因素生产力(MFP)2013 年 3 月,美联储研究的大卫 伯恩等研究后发现,90 年代在 IT 生产和一般操作流程中同时推广技术有助于促进增长呈三倍激增(每劳动工时的产出),其中从科技热潮前到1995至2004之间,年生产率平均每年增长中不超过49%的部分来自于IT 生
27、产部门。(展示 10)千禧年后停滞期千禧年后停滞期 在过去的十年中,有关 IT 应用(计算机硬件、软件和电信)的资本深化增长已经停滞了。IT 资本,与更广泛的市场资本类似,带来 IT 部分整体增长相比科技浪潮甚至其之前的时期内还低。总劳动时间一直在增加,但资本强度对生产力的贡献已经远远落后于上世纪 90 7 年代。日益精细且可利用的机器学习和人工智能可能成为一剂催化剂将资本密集度带回最前沿,在我们看来,将会带来类似 90 年代所看到的周期阶段,极大增加劳动生产率。对于方程另一侧的 MFP,我们更乐观些。高盛经济学家强调(“生产率悖论 2.0 再探”2016年 2 月 9 日发表),ICT 价格
28、的正偏差,非货币产出的输入增长(免费的在线内容、后端流程等)也在一定程度上反映了实际 GDP 和生产力增长。Facebook 和谷歌等互联网巨头的发展充分说明了复杂输入的劳动力和资本并不必然将标准生产力指标中的传统消费品转换为货币。人工智能人工智能/机器学习激发的生产力可以影响投资机器学习激发的生产力可以影响投资 我们认为人工智能/机器学习所带来日益增长的生产力产生的潜在影响之一可能是公司资本分配方式的转变。自 2011 年中期,股息和股票回购的增长大大超过了资本支出增长,然而管理层对于投资资本项目的冷淡依然保持了经济衰退后期的状态。生产率的提高有可能恢复管理层的信心,并鼓励公司像上世纪 90
29、 年代一样投资于生产性资本。根据高盛资本支出追踪,90 年代资本支出同比增长,持续性高于耶鲁大学教授罗伯特 希勒的 S&P 500 分析报告中的同比股息增长。我们有理由更相信投资者会支持提高生产率的这种转变。在资本支出投资和相关生产率的增长期内周期性调整股价收益率经历了严重的通货膨胀,而目前的估值才刚刚达到经济衰退前水平。AI 和生产力的矛盾和生产力的矛盾:采访采访 Jan Hatzius Health Terry:是什么造成了过去 10 年可度量的生产力增长过低?Jan Hatzius:1990 年是一个生产力提升爆发点,主要原因是技术推动的。技术的变化和推进非常快,给我们经济的增长提供了非
30、常强的动力。然而在最近的十年,这种生产力的增速降回了上世纪七八十年代,甚至比那时候还要更低。我认为这种增长可以有多个推动点,而不仅是技术。但是我注意到有三件事降低了这种增速,第一件事是循环效应(Cyclical Effect),我们依然受制于经济衰退后持续的过低的资产化,过低的投资率和告诉的雇员数增长。因为我们的生产力是按照人时换算了,在劳动力市场告诉增长时,我们的生产力也就会越低。另一个因素是技术增长的速度在放缓,在九十年代,互联网带来了一段时间的技术高速增长,但是现在看起来这种增速大大放缓了。第三点是在过去十年发展起来的新技术,比如移动通信和消费者聚焦技术(Consumer Focused
31、 Technology),让统计学家们很难具体量化到数字,也就很难定量。这种新奇和聚焦某一个边界的技术对统计人员的要求越来越高,但是统计人员还没有完全跟上脚步,造成了统计错误。Terry:回到 90 年代的生产力大爆炸,技术扮演了什么角色?Jan:半导体和计算机技术,他们在经济结构中的比例比 70 和 80 年代高了很多,而且统计学家们建立了好的计量规则。他们在九十年代做了很多努力去更快实现新的生产力的度量,比如处理器速度,更大内存,更多计算机硬件等。Terry:在过去 10-15 年,我们也见到很多新技术的产出,比如 IPhone,Facebook 和云计算,但是8 为什么他们没有给经济带来
32、同样的影响。Jan:我们并没有确切的答案,但是我认为度量能力的缺失是主要原因。这些新产品对经济的影响比较有限。现在丈量名义 GDP 比较容易,在任何事物中都允许有丈量误差,但我不认为是在名义 GDP 的计量中出现了误差。将名义 GDP 按照各个事物的通货膨胀造成的定价变化转化为实际 GDP 才是最困难的部分。因为这些技术的发展都从通用的硬件转化为了更为专业用途的软硬件和数字结合的产品,这都给我们的度量造成了误差。Terry:AI 和机器学习能对生产力提升造成什么影响。Jan:现在看来,这些新技术对生产力的贡献主要是在缩减成本和缩减劳动力需求,这些对统计员们来说会比 iPhone 中的 app
33、对经济的共享更好统计。我必须要做出一个警告,美国的经济规模非常大,在任何一个小行业被 180 万亿美元做分母时都会使他看起来没那么大影响,我们必须纠正这种观点,这些细分行业存在对经济造成巨大影响的可能。Terry:您刚才提到了成本,这些会影响定价吗?是否这为我们的通缩造成影响?Jan:成本的降低必然带来定价的降低。假如别的情况不变,改变这个定价确实能降低定价和降低成本,假如别的因素都是恒定不变的话,这会带来一定的通缩。但是现实的市场经济是不会有静态的场景的,有规则的制定者会让人工智能等取代的工作的劳动力转移到别的工作上。我不认为长期上这种成本的降低会带来更高的失业率和更低的通货膨胀,短期内可能
34、会有这种现象。规则的指定能够改变这种情况,总体上这些规则是为了维持一个非常稳定的失业率和通胀率。Terry:有的观点认为,AI 和机器人自动化会取代劳动力,你认为这种观点合理吗?Jan:我不认为这种情况会出现,人们确实有一些担忧,但是综合 19 世纪的例子,每一次技术的革新都会引起这种困扰。最后人们在技术革新后还是找到了很多需要人去做的工作,整体上我不认为会带来失业率的提高。Terry:在过去的十年里,在投资市场里我们看到很多企业的回购和拆分。Jan:投资和生产力是息息相关的。近年来受制于经济大衰退,股票市场和投资市场都不景气,但是我们依然认为今年的投资率在慢慢上升,投资对生产力的影响也在提升
35、,特别是在 2010年和 2011 年。更多的机会是在细分的市场里。Terry:在企业利润上升的时候,或者是发现新的利润点的时候,获得的利润结合历史应该如何分配才能获得更高的收益呢?Jan:从我对历史的研究中认为,在企业获得新的利润点的时候,可能短期内让企业的利润率飙升,但是很快就会有竞争介入,之后利润率就会恢复正常水平。Terry:您觉得新技术如 Ai 和机器学习对资产的股价会产生什么影响:9 Jan:过去一段时间,人们处于对于 90 年代技术快速提升带来的增长率的衰弱的恐惧,对股票的估值有了很大的变化。技术的高增长总体上会带来更高的估值。往回看 1990s,我们那段时间股价确实有一个高增长
36、,但是周期结束后跌的也很惨。我认为肯定会对估值有很大影响。生态系统生态系统:云服务云服务,AI 的下一个投资周期开源的关键受益人的下一个投资周期开源的关键受益人 我们相信利用人工智能技术的能力将成为未来几年所有主要行业竞争优势的主要定义属性之一。而战略将因公司规模和行业而不同,那些不专注于领导人工智能所带来的最终的产品创新,劳动效率和资本杠杆风险的管理团队将被遗忘。因此,我们认为公司需要投资这些新技术以保持竞争力,将推动对人才,服务和硬件底层人工智能的需求的激增。作为比较,20 世纪 90 年代技术驱动的生产力繁荣推动了相应的使能器的激增。对技术的资本支出推动了企业业务的增加,来抓住这种资本支
37、出。在不可避免的行业整合发生面前,软件、硬件和网络公司形成都受到了影响。下面的图例 13 强调了软件行业内的这种模式,在 2000 年代中期巩固之前,1995-1999 年期间,通货膨胀调整后近两倍的公共软件公司市值在 2 亿美元和 50 亿美元之间。我们看到与 AI 驱动生产力的下一个周期相似的热潮,随着企业投资利用 AI 的潜力,在软件,硬件,数据和服务提供商上创造价值。如上文图表 14 所强调的,进入人工智能创业公司的风险投资在这十年中大幅增加,大大的反映了这一机遇。企业 AI 投资的热潮也开始推动整合。云平台特别是对 AI 的大量投资,谷歌,亚马逊,微软和 Salesforce 自 2
38、014 年以来开展了 17 项与 AI 相关的收购。比较 AI,ML 和历史进程中的其他技术阶段,我们能得出一些非常有意思的结论。在过去的五十年里,计算力(摩尔定律)同事成为了技术进程的促进者和抑制者。例如计算机系统市场 CS 架构开始的,近些年发展到了 cloude/mobile 模式。这种变化的一个因素是计算能力,存储和带宽的提升。同时每次还贷的变化都伴随着新的开发语言的演变。AI 和神经网络的概念和原型的提出是在 1960 年代,但是计算能力的限制让它直到今年才出现了实用的应用。我们依然处于 AI 平台的初期,就像 1950 年的主机系统和 2000 年的智能手机和云。这会带来应用,工具
39、和服务的大爆炸。AI 三个方向三个方向:自建自建,咨询咨询服务服务和和 AI 服务化服务化 自建自建:有着大量私有高价值数据的公司会更喜欢在机器学习上投资。为了支持,出现了一大批开源可直接使用的 AI 栈上的组件,按照功能分层为(silicon,storage,infrastructure software,data processing engines,programming languages and tools)。产品和平台分别有Databricks,Cloudera,Hortonworks,Sykmind和Microsoft,Google,Amazon,Baidu提供的平台等。咨询服务
40、咨询服务:很多公司有自己的特殊数据集,并会有需求为内部,顾客和合作伙伴搭建 AI 服务。但是因为 AI 服务和计算能力现在是稀有资源,很多的专业服务商在搭建平台帮助人们获得这种计算能力。IBM 的 Watson group 正在做这件事。还有一些新入场的如 Kaggle。AIAI 服务化服务化:为了获取这种创新能力,很多企业会选择使用别的公司已经成熟的学习系统,而不是自己完全搭建。现在已有的是 Google 的 Clarifai 提供的图片 API。SalesF也在提供基于销售数据的服务。10 自建自建:云平台和开源系统正在成为云平台和开源系统正在成为 AI 的左膀右臂的左膀右臂 通过和大量公
41、司VC以及对世界五百强的访谈,AI/ML现在在互联网公司,工业服务提供商(如Board Institute)中应用非常多。阻碍企业应用 AI 的主要障碍是数据和人才。随着企业通过物联网,机器和顾客数据或者还有外部数据服务的改进,数据障碍正在逐渐扫清。越来月的多毕业生还有通过培训获得了 AI 相关只是和技能的人在填补人才的障碍。随着这些趋势,我们认为越来越多的公司会开始使用机器学习。因为是从无到有来创造的,现在 AI 相关的技术栈仍然是非常碎片化的。欣慰的是整个AI Stack 正在逐渐形成,现有的创新蓝图如下,具体覆盖了存储,工具,语言等各个层面,依然有非常多的创新等着我们。和之前的技术的一大
42、区别是 AI 技术非常依赖开元和云平台技术。数据量非常大,计算能力贵,幸亏几大公司已经在开始提供这些服务,能够降低费用。对 GPU 计算能力的需求是现在的 AI Spring 发展的一大诱因。在 AI/ML 系统中,有两个主要应用决定了整个神经网络的能力,这两个应用都有各自需求的资源系统。第一个是training algorithm,它在大量数据中寻找出关系,并提炼出模型,并通过模型决定对应新输入可能产生的输出。训练对资源非常敏感,多数的训练是在基于 GPU 的计算系统上。训练出的模型和算法被称为 inference.Inference 对计算能力的要求会低很多,并且多数是在更小的不断增加的数
43、据中梳理出来的。FPGAS 和 ASICs 等是已有的相关架构,但是这些是在 CPU 计算能力的基础上搭建起来的。Google 的 Tensor Processing Unit 是一个 ASIC结构的具体实现。微软使用 FPGA 也有一些实现。INTEL 等也在 FGPA 等方面在做一些具体的应用。考虑到搭建 AI 系统的投入和产出,我们认为只有少数公司会选择自己搭建自己的专用系统。多数公司会选择使用公共提供的服务,这也促使了入 Databricks 等开源服务提供者的出现,这些服务会成为多数公司的首选。下面列了一些具体的基于 GPU 的云服务提供商的不同的特点,可以作为选择哪个服务的参照点:
44、Amazon AWS:纸面上看起来是现在最强大的。自大提供 64 核 CPU,16 Tesla K80 GPUs,732GiB。内存,价格是 6.8 美元每小时。Micorsoft Azure:现在仍然是在预览阶段,24 cores,4 Nvidia Tesla K80 GPUs,224 GB of memory and 1.4TB SSD disk。Google Cloud Platform(GCP):Beta 阶段,Alibaba:只是透出来消息和 Nvidia 在合作使用 Tesla K80 GPUs.存储存储:在深度学习中,大量的数据能够为学习模型提高能力。考虑到成本和已有的 HDFS
45、 还有S3 等存储结构的成本,还有 EMC 等物理机器的成本。现在数据的增速太大太快,选择开源的存储结构和公共服务存储的同时或者相关的技术支持比自己搭建专用的整套系统更为合适。消息,流处理和数据转化是机器学习的关键组件。在模型的训练过程中,数据是作为流被传入存储系统中的,并在进入神经网络前经过加工。一旦模型被建立,来自传感器,网站和其他来源的活数据被流进模型进行分析,然后试试分析这些数据。在以前的 ETL 提供商(Informatica 和 IBM)还有消息厂商(TIBCO)提供了一些流提供和流处理技术。在过去的五年时间里,开源技术入 Kafka,Storm 和 Spark 被越来越广泛使用,
46、还有消息服务如 Amazon Kinesis 和 Google Pub/Sub。11 在神经网络中,数据是需要做预加工的。比如,图片和文本要被转化为相同大小或者颜色,或者格式。使用 SkyMind 的 DataVec 等工具,可以通过编程实现这些加工。可参照的公司:Confluent(Kafka),Databricks(Spark Streaming),Cloudera(Spark Streaming),Hortonworks(Storm,Spark Streaming),Amazon(Kinesis),Google(Cloud DataFlow),Skymind(DataVec),IBM(S
47、treams),Microsoft(Azure Data Flow).数据处理数据处理:数据库和数据处理技术一直是一个大市场,2015 年统计,数据库市场规模是$35.9bn。最大的公司是 S&P。在 AI 应用中,神经网络成为了一种关键的数据处理技术,神经网络从节点获取数据,然后产生输出。例如,输入可能是图片或者是邮件,输出可能是“spam”或者“cat”.已有的神经网络的具体实现有 Google TensorFlow or Caffe,能够帮助用户直接使用这些服务处理数据。在很多公司里 Spark 的应用已经比较广泛,发展也最快,应有超过 10 个 Github 星级项目,并获得了来自 I
48、BM,Cloudera,Hortonworks and Databricks(which has the bulk of the committers to the project)的投资。编程语言编程语言:现在编程语言的支持仍然是在非常初级的阶段。现有的用的最多的语言是 Python和 R。R 应用中 Microsoft(which acquired Revolution Analytics)and RStudio(an open source provider)是主要的支持者。分析工具:非 AI 行业相关的数据加工的工具,比较成熟的是 SAS Institute and SPSS,BI s
49、olutions such as Microstrategy and Business Objects,报表类的有 Crystal Reports。最近商业应用中 Tableau 提供的数据可视化服务也比较火。机器学习相关的工具,如 Microsofts Azure Machine Learning solution,为使用者提供了一种直接拖拽的界面,SAS 也提供了界面化的操作工具。可关注的工具:SAS(SAS Enterprise Miner),Tableau,Microsoft(Azure Machine Learning),Amazon(Amazon Machine Learning)
50、,Google(Cloud Machine Learning),Databricks 咨询服务咨询服务 已有一些咨询公司提供相关的服务,来解决人才的问题。已有的提供相关服务的公司有:IBM,Accenture and Deloitte,Teradata.在机器学习相关人才的培训和储备上,现在做的最好的是这几家公司:IBM,Huawei,Accenture and Deloitte Appirio,Bluewolf,and Fruition Partners 这些云计算相关的公司也在人才储备方面增长明显。表 21:AI-aaS 产品及定价 云平台 AI-aaS 产品示例 公司 产品 描述 定价(