ACCA-机器学习：科学向左科幻向右-2019.5-48页.pdf

资源描述

1、机器学习科学向左，科幻向右 The Association of Chartered Certified Accountants April 2019关于ACCA ACCA（特许公认会计师公会）是全球广受认可的国际专业会计师组织，为全世界有志投身于财会、金融以及管理领域的专才提供首选的资格认证。ACCA目前在大中华区拥有25,000名会员及108,000名学员，并在北京、上海、广州、深圳、成都、沈阳、青岛、武汉、长沙、香港和澳门共设有11个代表处。ACCA为全球179个国家的208,000名会员及503,000名学员提供支持，从雇主的技能需求出发，为会员和学员的事业发展提供完善的专业服务。AC

2、CA透过全球104个办事处和中心，以及全球超过7,300家认可雇主，为员工的学习与发展提供高标准服务。ACCA致力于维护公共利益，提倡适度的会计监管方式，同时，通过开展国际化研究，不断提升财会行业的声誉与影响力。目前，ACCA的核心ACCA专业资格正在进行重大创新，以确保我们的会员继续成为全球倍受推崇和青睐、与时俱进的专业会计师。自1904年成立以来，ACCA一直秉承着独特的核心价值，即机遇、多元性、创新、诚信和责任。了解详情，请访问ACCA网站：机器学习科学向左，科幻向右关于本报告本报告介绍了机器学习，并特别强调了财会行业对机器学习的需求。除了总体介绍机器学习外，本报告还围绕如何应用此项技术

3、、伦理道德考量、以及对未来所需技能的影响展示了一系列观点。了解更多信息：魏雅安（Narayanan Vaidyanathan）ACCA商业洞察主管4前言数字化对财会行业的影响是ACCA当前关注的重要主题，贯穿于我们所有的思考和行动中。我们以其为中心展开组织活动，构建推广最佳实践的领先思想。作为专业会计师组织，ACCA已将数字技术应用纳入了培训计划的内容与交付当中。我们的课程内容强调，从数据分析法到人工智能，专业会计师需要培养对一系列技术的理解能力。ACCA资格认证和后续职业教育（CPD）服务则致力于通过在线、灵活的数字化方法，为遍布180多个国家的会员和学员提供最优质的服务。我们的思想领导力同

4、样是建立在自身组织对数字技术应用的关注上的。我们开展着广泛而深入的技术研究从机器人流程自动化一直延伸至区块链，本报告提供的机器学习观点是这一强大研究组合的最新成果。报告首先以通俗易懂、切实可行的方式对机器学习的基础知识以及其如何在财会行业中运用进行了介绍。此外，本报告还探讨了与公共利益相关的道德问题和其他考量。这些事项都是ACCA使命的重要组成部分，也是我们与监管机构、标准制定者、合作伙伴、成员和学员开展对话时不可或缺的议题。当前，有关人工智能将给世界带来何种负面影响的讨论正如火如荼地进行，我们的目标在于，在普遍过分夸大的意见中加入深思熟虑、审慎周详的意见。我们由衷希望，本报告可以为关心人工智

5、能发展的人们提供实用的参考，并且支持那些有意义的、有建设性的讨论。郝飞（Alan Hatfield）战略与发展执行总监目录执行摘要 6引言 81.机器学习与财会职业 102.厘清术语 123.机器学习的应用 184.伦理道德的考量 255.机器学习环境中的技能 35结束语 37附录 1 38附录 2 国别概况 39英国 40中国 41马来西亚 42新加坡 43阿联酋 44爱尔兰 45巴基斯坦 46附录 3 47免责声明本报告的部分内容会提到来自第三方的机器学习产品或其他举措，这仅出于信息提供的目的，以便读者了解真实案例。报告并非是对所提及的特定产品或举措做出认可，也并非提供完整的清单。时至今日

6、，人工智能（AI）对大众观念产生着重大影响。使用数学算法来处理大型数据集的机器学习（ML）技术也正被越来越多地运用到由人工智能主导决策的商业应用程序之中。就在几年前，人们还普遍认为人工智能仅仅是科幻电影的素材。但现在，由于可以获得比以往更多的数据和拥有更强大的数据处理能力，机器学习似乎即将颠覆这种观点。人工智能领域有很多专业术语，每一术语的定义之间仍存在争议。ACCA面向会员和准会员的调查中，受访者对于人工智能、机器学习、自然语言处理（NLP）、数据分析法和机器人流程自动化（RPA）等术语相关理解的回复充分印证了这一点。对于任何给定的术语：62%的受访者表示没有听说过，或者虽然有所耳闻，但不清

7、楚其具体含义或只有基本的了解；仅有13%的受访者拥有深入或专家级的认识。这表明在加强教育和提高意识方面，仍有巨大的空间等待全球财会界去挖掘。对于人工智能一种定义即机器在与思考、理解、推理、学习或感知相关的领域中所展示出的类似人类的能力。机器学习作为人工智能的子集，通常被理解具备基于历史数据集的系统分析进行预测或决策的能力。从本质上讲，机器学习意味着，机器能够随着时间推移，学习整个数据集的特征并识别出各个数据点的特征。在这一过程中，其“学习”所获得的结果并不依靠事先的明确的编程。它们依托机器学习算法，随着不断吸收更多数据并确定其中的相关性而得出结论。6执行摘要7本报告首先介绍了基础知识。这对在

8、一定程度上建立对这些应用程序工作方式的认识、信任此类系统并且了解机器学习如何成为开发更高水平机器智能的基础都具有十分重要的意义。就此而言，“智能”是指无需以固定的、预先确定的方式依靠指令就能处理给定的数据集，在某些情况下做出决策或作出推论的技术能力。但这并不意味着，该技术突然形成了一种独立的意识机器人大行其道的时代尚未来临！五分之二的受访者表示其所在的组织在一定程度上使用了机器学习的技术，这表明市场正在认识到机器学习的力量。这其中包括：企业已在完全运行模式下处理实时数据（6%）；处于高级测试阶段，将在3-6个月内“上线”（3%）；早期准备阶段，将在12个月内“上线”（8%）；以及仍在初步讨论和

9、概念探索阶段（24%）。可选择的应用程序涵盖多个领域，包括发票编码、舞弊识别、公司报告、税务和营运资金管理等。本报告探讨了这些领域的各种产品与举措。这些研究发现突显出，由于各种组织都将越来越需要这些技能，财会行业需要优先考虑在这一领域中建立认知与理解。事实上，调查中所提及最多的技术应用的障碍，正是缺乏有经验的员工来牵头机器学习技术的应用（52%）。与任何技术一样，力量越大，责任越大。就机器学习而言，道德问题始终与之紧密相关。专业会计师需要考虑并恰当管理可能由算法决策引发的潜在道德妥协问题。谁应在这种情况下承担责任？机器学习算法将不可避免地产生所获取数据集所有偏差，那么这种偏差会引发哪些风险？约

10、五分之四的受访者认为，当通过机器学习算法做出决策时，组织有责任以某种形式披露这一信息。本报告考虑了一系列与专业会计师相关的道德因素，用以指导如何践行国际会计师职业道德标准委员会（IESBA）所制定的基本原则。媒体中经常会提到人工智能接替人类工作的能力。毋庸置疑，这些技术的确能够更有效地完成多种任务如前所述，本报告详细探讨了其中的一些领域。但即使像人工智能这样高深复杂的技术，似乎也难以匹敌人类所具备的完全理解和综合思考能力。尽管人工智能已取得诸多进步，但就例如建立客户关系、领导成功团队等，其都不可能完全脱离人为监督或考虑到人性因素。ACCA关于情商（EQ）的研究特别强调，在数字时代，人们需要与情

11、感智慧相关的能力（ACCA，2018年）。事实上，我们展望未来之时，数字商（DQ）与情商的结合能够为专业会计师带来最为显著的叠加效应。除了领导力等行为方式之外，核心专业技术活动也需要基于多种考虑因素进行判断和解读。机器学习可以利用成熟复杂的算法分析历史数据集，提供真正有深度的信息。但在某些情况下，人类可能会选择关注这些信息而出于完全正当的理由，用一种与以往决策模式不同的方式，根据其他因素做出决策。展望明天，专业会计师将有机会建立对新兴技术的核心理解，同时不断开发与传达释义、情境分析以及关系主导的技能。在此基础之上，他们便可在机器学习等技术支持下，对海量数据进行智能分析，真正受益于技术的强大能力

12、。与任何技术一样，力量越大，责任越大。就机器学习而言，道德问题始终与之紧密相关。机器学习:科学向左，科幻向右|执行摘要人工智能（AI）这一术语最早可追溯至1956年。该领域涵盖了一系列专业名词，机器学习（ML）也是其中之一。什么促成了这一局面？数据驱动型洞察力已成为驱动人工智能发展的“智慧”核心。与此同时，数据的可获得性呈现指数级增长以及前所未有的的处理数据的算力，共同推动了人工智能日益从科幻变为现实。有必要质疑这一观察结果。从广义上讲，人工智能有两个级别特定用途人工智能（或弱人工智能）以及通用人工智能。就目前的应用状态来看，“人工智能”这一术语主要是指弱人工智能。这意味着人工智能的应用仅限于

13、特定解决方案的应用程序中，例如识别大量交易中存在的固定模式。在当下，尚不可能达到通用人工智能的级别，即像电影和电视剧中经常出现的那样，机器人展示出人类的智慧与特征。虽然有些人坚信，后一种，即所谓的“感知能力”终将变成现实，但现有技术状态显然与此仍有很大的差距。正如许多专家指出的那样1，对类似下棋等单一活动建立高水平的成人级智能的难度要比对人类（甚至是婴儿）的活动或感知能力建模难度低得多。8大多数的早期人工智能项目依赖于“决策树”方法连接各种选项，例如国际象棋会罗列所有可能的开局打法和后续的对抗方法。但即使是相对简单的问题如为零售商提供针对特定客户的建议，决策树中大量选项也会导致组合出现爆发式的

14、增加，就连功能最强大的硬件也无法处理。这导致人们对人工智能的预期很低，由此出现的研究低潮被形容为-“AI（人工智能）冬季”。计算能力不仅无法满足理论方法，而且远远落后于人们创建有效应用程序的期望。然而近年来，人工智能重新受到了各方关注。这并非科幻小说中的场景；相反，它现在正越来越多地出现在消费技术和商业应用程序当中。引言1 通常被称为莫拉维克悖论：人工智能和机器人研究人员Hans Moravec、Rodney Brooks和Marvin Minsky在20世纪80年代发现，与传统假设相反，高级推理只需要进行很少的计算，而低级感觉运动能力需要依靠庞大的计算资源。露丝普雷迪（Ruth Preedy

15、），普华永道夏默斯雷（Shamus Rae），毕马威9由于机器学习日渐应用于会计软件和业务流程应用程序，作为一名财务专业人士，了解所有相关知识非常重要。本报告的目标便是推动这一进程。报告全面地介绍了机器学习。文中不仅阐释了其基础知识，而且还对应用这项技术的实际案例加以展示。其次，报告进一步深入探讨了财会专业人士可能需要思考的道德问题以及该技术对本行业所需未来技能的影响。除了听取该领域的专家意见、参考ACCA在技术领域的广泛的研究成果之外，报告的编制过程中，我们还面向1,897名ACCA会员和准会员展开调查，并与英国财务报告委员会（FRC）的学习与创新中心财务报告研究院（Financial R

16、eporting Lab）合作召开了“机器学习中的伦理道德”圆桌讨论。我们衷心感谢以下代表在圆桌讨论中发表意见：安德烈亚斯乔治奥（Andreas Georgiou），Sage公司多萝西卓（Dorothy Toh），伦敦国王学院丽莎温布利（Lisa Webley），伯明翰大学玛利亚莫拉（Maria Mora），富士通公司斯图尔特科比（Stuart Cobbe），Brevis公司托马斯图姆泽-史密斯（Thomas Toomse-Smith），财务报告研究院复式记账法起源于中世纪，自此成为全球商业记账的基础。随着时间推移，会计师编制账目记录业务流程以及独立审计师审阅账目记录的准确性与完整性

17、的方式一直在不断发展演变。机器学习的确可以做很多令人惊叹的事情，但会计师是否真的有此类需求，需要借助机器学习才能更好地工作？整体来看，答案似乎是肯定的，而且这不仅只是跟随潮流。伴随时代进步，机器学习将通过多种方式为专业会计师的工作提供帮助。能够推动该趋势的主要因素之一便是数据的激增。10尽管如此，十六世纪末和二十世纪末的会计师仍然可以进行有意义的专业交流，因为以复式记账法为基础的账目编制方法仍然保有足够多的共同的基本假设。在过去500年里，会计实务在与时并进、不断发展的同时，也保留了一些共同特征。如今，我们不禁要问，机器学习等技术将怎样引发一场新的重大变革？ACCA的调查显示，目前更多的人认为

18、人工智能是“泡沫”而非现实，但在不久的将来，这种情况必将发生改变（参见图1.1）。截至2018年年中，在线发布平台Medium表示，全球已有3400多家人工智能/机器学习初创企业。与其他风投项目一样，他们中的绝大多数会遭遇失败而许多企业之所以无法成功，是因为他们看上去提供了一个“解决方案”，然而这些方案并非针对一些特定的业务问题或需求提出切实的解决方案。1.机器学习与财会职业图 1.1:人工智能：在工作环境中，是“泡沫”，还是现实？备注：其余受访者表示“一半是泡沫，一半是现实”。全部/大部分是“泡沫”大部分/全部是现实26%58%n 现在 n 三年内34%13%70%60%50%40%30%

19、20%10%011据估计，全球90%左右的数字化数据是2016年以后产生的2。新数据生成的速度正在加快而且是指数级的增长，不再是以往的渐进式或线性增长。客观地讲，并非所有的数据都必然会引起会计师的关注。但即使从金融交易等他们更感兴趣的领域来看，出于各种原因数据量不断增加的趋势都显然与其息息相关：在世界很多地方，数字化支付方式正迅速取代现金，成为首选支付方式。例如在中国，移动支付正迅速削弱携带现金的必要性3。物联网（IoT）设备、流媒体服务，基于交易量收费、依托云技术的软硬件解决方案，推动了小额高频的金融交易的增长。全球范围内一系列普惠金融倡议的成功，促使更多人参与到全球金融系统当中。从2011

20、到2018年，超过12亿人首次注册成为金融系统用户，他们中的每个人都是新金融交易产生的来源4。机器学习:科学向左，科幻向右|1.机器学习与财会职业因此，如果不加以妥善管理，金融交易量的迅速增长可能会对会计师的工作产生威胁。对审计师来说，这可能与所需的样本以及样本的代表性有关，从而使他们可以跨越样本规模本身得出结论。正如福布斯5等机构所说，从现在到2025年，预计交易数据量将大幅增长，所需处理的数据将呈阶梯式攀升而非渐进式增长。同时，我们还有必要了解这一极速扩大数据池的分布与构成。这意味着，若想准确了解并评估的全部账务，利用现用资源，通过扩展程序并可靠地理解所处理的总体数据将面临压力例如应对更大

21、规模的样本量的能力。但事实上，机器学习之类的技术有望突破这一局限，通过详细审计帮助审计师实现特殊项目的探测。这样的发展可能使机器学习成为一种必备工具，而不再构成竞争优势；因为当大家都开始应用机器学习时，优势就将不复存在。据估计，全球约90%的数字化数据是2016年以后产生的。图 1.2:2010-2025年全球数据圈的年度规模资料来源：国际数据公司（IDC）全球数据圈（Global DataSphere）研究，2018年11月。2010180160140120100806040200泽字节2 https:/ https:/ 全球普惠金融数据集5 https:/ 2.1:人工智能涉及的各种术语

22、ML:机器学习 DL:深度学习 NLP:自然语言处理 AI:人工智能 DA:数据分析法 RPA:机器人流程自动化DARPAAIMLDLNLP在图2.1中，机器人流程自动化（RPA）被划分在了代表人工智能的圆圈之外。这是因为，虽然该术语有“机器人”一词，但其所指的机器人并非媒体经常所说的那种看起来类似于人的智能机器人；实际上，机器人流程自动化是一种执行预定义活动序列的编程软件，类似于非常高阶的Excel宏。这种技术里并不包含人工智能元素，其核心是流程自动化不知疲倦、动作迅速、准确无误地不断重复执行一项定义好的流程。虽然本节将这些术语作为静态名词加以讨论，但需要注意的是，因为这些技术正在快速发展变

23、化，这种理解可能过于简单化。同时，横跨不同技术的创新也并非孤立发生。在不断涌现创新的领域，机器人流程自动化与人工智能元素的结合即所谓的“智能流程自动化”（IPA）就是其形式之一。越来越多的科技公司正在探索这一领域，如阿里巴巴的阿里云。智能流程自动化是标准机器人流程自动化的一种形式，系统可以随时间推移，从其处理的数据和执行的流程中不断学习。在此基础上，随着时间的推移，智能流程自动化可能会像流程自动化一样，带来流程改进的机会。再回到图2.1，如该图所示，机器学习是人工智能的一个子集，其通常被理解为通过对历史大数据的分析进行预测或决策。从本质上讲，它是指随着时间的推移，机器学习能够学习数据集的特征并

24、识别单个数据点的特征。这有助于机器识别大型复杂数据集中的各种关系，而这个过程对人类来说往往更耗时也更困难。之所以认为此类系统可以“学习”，是因为随着时间推移以及输入的数据不断增加，机器可以提高对数据规律的识别能力，并将更强的识别能力应用到以往未曾见过的新数据集中。作为一种商业工具，机器学习如今正变得越来越重要，本节后面将对此进行详细讨论。深度学习（DL）和自然语言处理（NLP）通常被认为是机器学习的组成部分。它们可以处理更加复杂的数据，包括非结构化数据，如图像。这使其能够支持更复杂的数据规律，如图像识别和语言识别。本节稍后将对这些问题加以简要讨论。最后，从更广义的角度上讲，在谈到人工智能时，往

25、往还会提到“认知技术”一词。由于它可以泛指各种尝试复制人脑处理/解读信息方式的技术，故对该术语做出公认的定义相当困难。对“人工智能”一词存在的一种批评意见是，人们经常会认为它是一项将在未来5-10年才会实现的技术，然而在接下来的5-10年内它却会保持不变。事实上，技术处于不断发展变化的过程中，随着技术的进步，它们会不断拥有更多的“智能”特征。而且一旦某种功能得以实现并成为主流，人工智能的标签就将被嵌入常规技术和流程当中。如今，越来越多的机器学习技术已被深深植入各种应用程序和网站中，正在以可能不明显或不可见的方式取代传统软件，例如优步的定价系统。10年前这可能需要硬编码逻辑，而现在只需通过一个经

26、过训练的模型就可以来实现这些决策。它看起来一点儿也不像通用人工智能，但却能更准确地执行特定任务。从外部来看，这种人工智能软件的嵌入提高了整体运行效率虽不是根本性的变革，也却大大节约了成本。能充分说明人工智能已“常态化”的一个例子是光学字符识别（OCR），即从扫描的副本和文件中提取文本的能力。传统的方法需要事先设置一个基于规则的模板，系统提取文本并将这些文本与模板比对。但这些模板经常会变得非常复杂，比如处理数据表甚至分栏列出的文本。13机器学习:科学向左，科幻向右|2.厘清术语实际上，机器人流程自动化是一种执行预定义活动序列的编程软件，类似于非常高阶的Excel宏。在这方面，人工智能推动的跨越式

27、进步已消除了对规则模板的依赖。换言之，人工智能能够自行比对排版布局与对应文本或字符。随着这种技术的日益普及，人们通常只将其视为一种“OCR”技术，而忘记了在后端起着基础性支持作用的人工智能。在ACCA调查中，受访者对某些术语的了解程度较高。就平均而言，对于任何一个特定术语，三分之一的受访者表示要么没有听说过，要么听说过但不清楚具体是什么（参见图2.2）。尽管专业会计师可能不需要自行开发机器学习算法，但本节将简要介绍机器学习的背后工作原理。这一点很重要，因为它会影响我们对这项技术的信赖程度以及是否可信任这些系统所做的决策和所在的运行环境。另外，这对于充分了解机器学习与该领域其他常见术语的关联和区

28、别也很重要。在调查中，受访者对“数据分析法”的了解程度最高，只有五分之一的受访者表示不确定它和机器学习的区别（参见图2.3）。机器学习是具有巨大潜力的强大工具。这是因为人工智能涵盖了广泛的应用，其中包括推荐引擎；舞弊识别；检测和预测机器故障；优化期权交易策略；诊断健康状况；语音识别和翻译；实现与聊天机器人对话；图像识别和分类；垃圾邮件检测；各种预测从某人点击广告的可能性一直到医院可接纳多少新患者；无人驾驶汽车等等，不一而足。14机器学习:科学向左，科幻向右|2.厘清术语平均而言，对于所指出的每一个术语，约有三分之一的受访者表示要么没有听说过，要么听说过，但对它没有进一步的了解。图 2.2:对术

29、语的了解程度图 2.3:对于下面每个术语，您不确定与机器学习有何不同或有何相关。50%40%30%20%10%0我从未听说过我只是听说过我有中等了解我有基本了解我有高度了解我是专家平均.11%20%31%25%12%1%人工智能数据分析法机器学习机器人流程自动化自然语言处理自然语言处理人工智能26%20%34%34%40%35%30%25%20%15%10%5%0机器人流程自动化数据分析法什么是机器学习？机器学习是人工智能的一个子集，通常被理解电脑可以在事先没有对结果进行显式编程的情况下进行学习的能力。显式编程是指传统的“命令式”电脑程序；也就是说，它们为如何执行任务给出特定的指令。这

30、组特定的指令由人类程序员硬编码，通常包括序列步骤、逻辑检查、函数和循环等要素。因此，对一个数据集运行程序将根据程序中嵌入的一组固定规则得出结果。换言之，程序处理数据的方式是固定的即在程序编写的时候已经固定下来。相比之下，机器学习使用统计分析从数据集中动态生成结果。这一过程的核心是用来描述和（或）预测数据集特征的数学模型算法。首先，我们需要输入“训练”数据集。这些训练数据使模型能够“学习”单个数据点最为重要的特征有哪些。最关键的在于，这个算法随后可以与不属于初始训练数据集的新数据一起使用。如果新数据显示出额外或不同的规律，那么算法可以迭代地进行调整，再将其综合到对数据特征的最新理解中。这就使得机

31、器学习能够以传统编程所不能实现的方式适应新的陌生的数据。正是从这个意义上讲，机器学习能够从实例中“学习”，而不是严格遵守传统程序中事先设定的编码逻辑。机器学习进行的“学习”，依赖于对相关数据元素之间的规律识别。例如，如果数据一致显示出雨伞销量和降雨量具有相关性，那么算法可能会“学习”二者之间的这种关系。但这并不意味着它理解其背后的真正关系，也就是说，它并不理解被雨淋湿了非常不舒服或不方便。因此，这与人类意义上的“思考”仍迥然不同，人类的思考包括了更广范围的感知、横向思维和创造性思维以及处理情感信息的能力。举一个简单的例子，假设一家企业希望通过更好地了解最有可能拖欠的付款方，以改善营运资本。传统

32、的做法是：考察拖欠行为的驱动因素，然后人工创建一个程序。他们可能会将这类程序所用的规则创建一套基本评分系统，其目的在于标记符合某些特征的所有对手方例如其曾经出现延期付款，或是在某些司法管辖区运营、必须支付定金等等。该程序的运行结果通常是最有违约可能的高风险对手方名单。输入该程序的或许是被考察付款方的所有交易数据。而输出的则是满足程序所设置逻辑测试的所有付款方，由此标记最可能违约的交易对象。此举面临的挑战是，程序对“不良”付款方的认识会主要基于某种静态观点。也就是说，它基于程序员如何甄别可能违约者的特征这种在程序开发时所采用的看法将决定输入程序结构的信息。但在实践中，随着付款方、交易、业务构成和

33、交易量的不断变化，该看法很可能会改变。此外，由于需要考虑的变量不断增多（实际应用中很可能会这样），创建一套静态规则来预先确定筛选高风险付款方的标准将会变得越来越复杂和不准确。在这种情境下，或许可以利用机器学习来打造一套基于训练数据集的算法以甄别高风险付款方。同时，机器学习还可以引入更广泛的输入变量并最终识别出程序员编程时可能没有考虑到的相关性。通过持续完善，机器学习系统将逐步提高自身能力，匹配结果质量会得到日益改进而非下滑。15机器学习:科学向左，科幻向右|2.厘清术语机器学习的核心是用来描述和（或）预测数据集特征的数学模型算法。继续以这个简单例子为例，为了识别高风险付款方，机器学习还可以利用

34、更广泛的相关运营环境的宏观经济数据、第三方评级机构的信用评级数据或截止目前网上关于对手方的正面或负面信息等。然而需要注意的是，这种方法同样还是依赖于历史数据，只不过是基于一个更大的数据集。尽管如此，与传统程序不同，机器学习还可采用概率方法。它可利用数据并为数据可能存在的规律、相关性和特征建立统计基础。随着新数据的引入，算法能够动态地吸收新识别出的相关性。和所有统计数据一样，数据集越广泛、越具现实代表性，统计结果就越可靠。根据小型数据集得出结论的错误概率可能达20%，而根据能准确反映建模人群的大型数据集，得出错误结论的比例可能只有2%。因此，建立由高质量、大规模6的数据组成的数据集，对于机器学习

35、良好运作十分关键。目前，这种能力正显示出比人类更快且（或）更经济的潜质，且有望处理人类难以识别可能关系、为编程提供准确依据的海量数据。以舞弊检测等情境为例，人类很难跟上舞弊者操纵系统的各种新的创新方式。当在海量数据中寻找舞弊行为时，这个问题更为严重。由于舞弊者不断通过创建新的技术来“欺骗系统”，因此需要不断开发新领域来测试相关性，帮助识别潜在的舞弊行为，机器学习非常适合应对这类挑战。机器学习使用的方法本报告并不打算集中讨论这一复杂领域的所有细微差别。但在较高层面上，目前的大多数活动主要属于几种类型的机器学习。监督式学习涉及通过实例来“教”的算法，有实际的输入和输出。该算法根据试验数据提供的“正

36、确”答案将二者关联起来，以便算法可以形成对正确规律或关系的基线认识。监督式学习可用于图像识别等分类问题；将所给的例子“标记”内容用来训练模型以识别新图像。例如，可以通过预先将大量猫的图像标记为“猫”，从而“教”系统预测照片是否是猫。强化学习也是机器学习的一种类型，通常被用于没有实际输出的情况，但生成输出的质量可以用“好”或“坏”来衡量，并将该衡量结果反馈输入给算法，而该反馈可用来提高算法质量。无人驾驶就属于强化学习。这种算法的宗旨在于实现“良好”驾驶，避免撞车或危险行车，基于对遇到的（不可预测）情况所做出的判断，来形成一套反馈机制。但是，无人驾驶非常复杂，需要使用监督式学习算法来训练摄像头识别

37、物体人、汽车、骑行者、树木等。然后，将这些算法输入到一个强化算法中。由于各种“物体”的组合是无穷的，因此算法无法完全学习所有情况，它“只”需具备和人类一样善于解读物体的能力。16机器学习:科学向左，科幻向右|2.厘清术语由于舞弊者不断通过创建新的技术来“欺骗系统”，因此需要不断开发新领域来测试相关性，帮助识别潜在的舞弊行为，机器学习非常适合应对这类挑战。6 同样重要的是，必须知晓如何识别出过度添加了不能带来新价值、却会导致“过度拟合”的数据集。17机器学习:科学向左，科幻向右|2.厘清术语准备数据往往被认为是一个瓶颈，因为它耗时耗力，因此非监督式机器学习往往能够更快地获得结果。非监督式学习指的

38、是我们只拥有输入变量但是没有相关的输出变量（即没有确切的答案）。非监督式机器学习通过识别数据的异同、使用聚类学习等技术对没有被分类或标记的数据，在没有任何指导的情况下，对数据中潜在的结构和分布建模，以便对数据作更进一步的学习。该技术的常见用途包括，检测数据集的异常情况（例如查找舞弊交易），或发现相关联的规律（例如将某些产品放在购物车里一起购买）。监督式学习的结果通常更精确，但这种方法通常要求准备数据。准备数据往往被认为是一个瓶颈，因为它耗时耗力，因此非监督式机器学习往往能够更快地获得结果。深度学习和自然语言处理的适用范围深度学习是一种使用“神经网络”的特定机器学习的方法。神经网络【通常被称为“

39、人工神经网络”（ANN）】大体上是以人脑的生物学神经网络为基础。人工神经网络可以由许多层节点组成，信号流可以在各层上下传递从输入层开始，直到到达最后一层（输出层）。“深度学习”是指人工神经网络中输入和输出之间的层级深度。深度学习通过支持改进预测提高自然语言处理的准确性。在没有深度学习的情况下，自然语言处理通常通过分析前面四五个字词来确定下一个字词“很可能”是什么。而深度学习则可以利用前面所有的字词得出更可靠的结果。由于同一个字词可以在不同的语境中使用，自然语言处理被认定为人工智能的“难题”之一。如“book”一词，既可以指装订在一起的书页（名词），也能表示“预定”（动词）之意。虽然机器学习算法

40、都是面向认知领域的，但深度学习在感知领域尤其有用。与感知相关的应用实例包括：语音识别在Siri、Alexa和谷歌助手等数字化助理的在日常使用中得到了广泛普及。据估计，目前语音识别的速度平均是在手机上打字速度的三倍且错误率不到3%。这项技术仍在完善之中并面临着各种挑战，例如技术性词语的处理或带有地方口音的本地化语言。图像识别：人脸识别（如iPhoneX、Facebook、无人驾驶汽车、Imagenet）。2007年，斯坦福人工智能实验室主任李飞飞放弃尝试用电脑编程来识别物体，转而使用标签和深度学习技术。其成果 Imagene不但拥有庞大的图像数据集，而且错误率仅为5%，这使其能够做得“比人类更

41、好”，并成为图像认知技术的“转折点”。自然语言处理也是人工智能、机器学习和深度学习等技术许多发展中的核心要素，这在数字助理的涌现、以及聊天机器人的广泛商业应用中也最为明显。自然语言处理活动的例子包括：语言识别:语音文本转换；自然语言理解/解读:提供文本理解；机器翻译:不同语言间的文本翻译。18机器学习有各种各样的广泛应用，本节将介绍其中一些最受青睐的应用。正如可预期的，机器学习正以各种不同的方式得到应用。调查发现，有大约五分之二的受访者在积极参与探索机器学习的应用（参见图3.1）。他们所涉及的进展范围从探讨概念的早期讨论一直延伸到在完全运行模式下处理实时数据。受访者对不同领域基于机器学习的决策

42、表达了不同程度的满意度（参见图3.2），这些领域包括分类（53%）、测量（47%）、审计测试（43%）和舞弊检测（41%）。然而，在医疗数据或个人财务等某些更广泛的应用领域，受访者的满意度却较低。3.机器学习的应用n 在完全运行模式下处理实时数据，6%n 高级测试阶段，将在3-6个月内“上线”，3%n 早期准备阶段，将在12个月内“上线”，8%n 初步讨论和探索概念/想法，24%n 无应用计划，38%n 不清楚，21%24%21%38%8%6%3%图 3.1:我所在企业的机器学习应用情况图 3.2:您对以下基于机器学习的特定任务所做决策满意度如何？备注：请受访者用1-5来打分，数字越大表明满意

43、度越高；净满意的比例是打4、5分的受访者之和；净不满意的比例是打1、2分的受访者之和。医疗/健康相关决策，用于诊断53%60%50%40%30%20%10%0关于您的财务决策，用于投资规划舞弊测试招聘初选，即决定是否适合进入面试会计计量审计测试决策为会计和税务目的进行的交易和/或资产负债分类19%47%21%43%24%41%27%31%36%27%40%25%39%n 净比例：满意 n 净比例：不满意19机器学习:科学向左，科幻向右|3.机器学习的应用在考量机器学习与审计的相关性时，受访者普遍认为机器学习有可能成为一个有用的工具。受访者提及较多的一个因素是它能够帮助更好地识别体现舞弊交易的规

44、律。此外，在大数据无处不在的当今世界，机器学习被认为是分析某些生成信息的数量和复杂性所不可或缺的工具。但人们对于机器学习适用的领域和方式也表示担忧。例如，有人质疑由于依赖管理层提供的算法，机器学习的应用会影响外部审计师的独立性。显然，在机器学习成为财会工作主流的过程中必须对上述这些及更广泛的问题进行充分考量。技术应用是一个过程，在拥抱机遇之时，不可避免地会遇到各种障碍。其中约有半数受访者提到了缺乏熟练员工来推动技术应用以及成本因素这两个问题（参见图3.3）。此外，由于数据是实现机器学习至关重要的“原材料”，受访者还谈到了数据质量问题，约四分之一的受访者认为数据质量较差，17%认为缺乏充足的数据

45、量。约五分之一的受访者表示，缺乏采用机器学习可带来明确益处的案例。虽然这或许是因为这些案例未得到充分讨论或理解，但也可能反映了另一种观点对于正在设法解决的特定问题，机器学习并非总是最佳方案。因此，选择需要采用机器学习的出发点必须具备两项条件：商业合理性以及基于机器学习的方法能够最有效地解决该问题。除了对机器学习应用进行更广泛的概念性观察外，本节下文还讨论了一些具体示例。为反映目前的应用进展，我们尽可能地选取了现实生活中的实例。智能记账整体而言，机器学习的应用还处于相对早期阶段。大型会计师事务所已纷纷投资机器学习以探索在审计与合规等领域的各种应用可能。支持机器学习所带来的好处的公开数据很可能会不

46、断增加。在记账方面，机器学习系统已充分投入使用多个年头，特别是在中小型企业。例如，市场上不仅推出了能够扫描支出收据并自动对其进行分类的产品，而且部分还引入了更先进的强化学习和自然语言处理技术，自动对扫描的收据做出分析、提取和归类，无需人工输入任何辅助信息。例如，科技公司Expensify的官网显示，公司产品拥有超过600万用户，超过6万家企业正在使用其解决方案，每年处理数十亿笔交易。在线会计软件供应商Xero于2018年5月宣布，其机器学习软件自推出以来，已经向客户提出了超过10亿条建议，其中在发票编码和银行对账方面表现特别突出。这10亿条建议由7.5亿多条发票和账单编码建议和2.5亿多条银行

47、对账建议组成。Xero估计，每天通过其开出的发票约达80万张，相当于节约307个小时。大型会计师事务所都已纷纷投资机器学习以探索在审计与合规等领域对机器学习的各种应用可能。同时，随着时间的推移，支持机器学习所带来的好处的公开数据很可能会不断增加。图 3.3:受访者所在企业使用机器学习面临的主要障碍缺乏熟练员工来牵头应用数据质量较差52%60%50%40%30%20%10%0对成本的影响使用机器学习没有明显的收益不清楚/没有障碍监管/法律要求数据量不足道德困境其他49%24%21%19%17%14%11%4%20机器学习:科学向左，科幻向右|3.机器学习的应用在发票编码方面，不像传统使用默认代码

48、那样耗费大量人力，Xero软件会“学习”企业如何对常规项目进行编码并根据对历史的“理解”自动填写。采用这种方法，该软件只需四个实例就能对80%的交易实现正确编码。该公司的博客文章表示，该软件正采用逻辑回归方法进行最佳预测，但出于竞争原因文中没有详细介绍预测算法的具体细节，这也是可以理解的。Xero亚太区总裁凯文菲茨杰拉姆（Kevin Fitzgerald）表示：“我们看到机器学习算法能够帮助提供智能支持，以便专业会计师有更多时间专注于客户或所在企业的财务和战略议程。”在最初运营时，为了让算法学习用户行为，Xero将这些编码作为建议提供给用户并在必要时提供特定的（尽管很容易）验证或更正。公司表示

49、：“我们非常密切地关注客户选择其他编码方式、主动表达不同意见的比例以及后来对建议账户重新编码的比例。在重新编码时，系统完全可以从中学习。这是基本理念的一部分系统只知道教给它的内容。如果从正确的账目中学习，提供的建议将会更准确。”这超越了基于规则的静态方法，真正发挥了机器学习能力。在银行对账方面，Xero的机器学习软件已与许多银行的软件实现了整合，整合后自动向Xero输入账户交易记录。然后，机器学习软件将银行交易与Xero中的收支记录进行匹配，并根据之前类似交易的编码方式自动编码。与发票编码一样，银行对账的机器学习将用户修改与交易匹配相结合以改进建议。发票编码和银行对账模型都仅仅基于特定企业的经

50、验，而不是来自更广泛实体的经验。这自然就限制了软件所体现的“智能”程度，并阻止软件向新客户应用预先构建知识的操作。公司在早期就意识到了这方面的问题，“该软件确实有从其他企业学习的潜力，但我们早期研究表明，由于不同企业之间的实践和编码存在巨大差异，这远远超出了我们的预期。”这种有待实现的标准化被设想为未来的增强领域，因为它可以进一步提高客户活动的效率，但同时也凸显了创建“智能”编码机器人的难度。提高舞弊检测能力机器学习还可以帮助进行风险评估，具体是指根据实证数据和专业判断，评估舞弊、不准确性、虚假陈述等问题的可能性。在风险评估中，可采用监督式机器学习算法来帮助识别特定风险的类型或特点，以保障更严

展开阅读全文