1、第2 1卷第1期2 0 2 3年1月北京大学教育评论P e k i n g U n i v e r s i t y E d u c a t i o n R e v i e wV o l.2 1,N o.1J a n u a r y 2 0 2 3机器学习时代的人类学习 C h a t G P T引发的教育哲学反思余明锋(同济大学 人文学院,上海2 0 0 0 9 2)摘 要 C h a t G P T在自然语言 处理 上的 突 破开 启了 人工 智 能通 用化 的大 门。当下取得突破的,不是基于规则的早期人工智能,而是基于机器学习的新型人工智能。机器学习乃是算力、数据和算法三者的聚合,机器学习
2、时代的文明界面由此从人类才能识别的文字转变 成 了机 器能 够识 别 的数 据。目前 有关C h a t G P T和教 育人工智能的讨论,多着眼于机器学习的短期效应,我们有必要以机器学习时代的眼光理解C h a t G P T的挑战,以此为契机审视人类学习的重组。机器学习在带来种种挑战的同时,或许能让教育 机构 解 脱于 生存 机构 的纠 缠,回 归“学以 成人”的文 明理念。关键词 机器学习;C h a t G P T;教育人工智能;人类学习的重组中图分类号:G 4 0-0 5 7 文献标识码:A 文章编号:1 6 7 1-9 4 6 8(2 0 2 3)0 1-0 0 2 7-0 8D
3、O I:1 0.1 2 0 8 8/p k u 1 6 7 1-9 4 6 8.2 0 2 3 0 1 0 0 2所谓教育哲学,首要的任务是反思何谓教育、何谓学习。这种反思不是一蹴而就的,因为教育和学习的具体含义有其时代性,必定随时而变。当朱熹注解 论语 时,“学而时习之”的现实意涵已然大大不同于孔子的时代,因为朱熹的时代已经有了印刷术和科举制度,这时候主要学习的不再是礼仪的操练,而是经典的记诵和注解。进入2 1世纪,其意涵更是大不相同,学习的主要任务不是深入四书五经,而是融入现代知识体系,成为现代国家的公民。教育哲学的反思因此必定包含了一个历史哲学的维度,必定要在时代剧变中重新定义教作者简介
4、:余明锋,男,同济大学人文学院哲学系副教授,博士。基金项目:上海市哲学社会科学规划一般课题“尼采与现代德国美育思想研究”(2 0 2 0 B Z X 0 0 8);国家社科基金重大项目“人工智能伦理风险防范研究”(2 0&Z D 0 4 1)。虽然朱熹所强调的是心性的觉悟,可他的 四书章句集注 还是成为流传几百年的标准教科书。有关“学而时习之”,朱熹的解释与其说在追踪孔子时代的原义,不如说是在为理学作印证:“人性皆善,而觉有先后,后觉者必效先觉之所为,乃可以明善而复其初也。”(参见朱熹:四书章句集注,中华书局2 0 1 1年版,第4 9页。)2 8 北京大学教育评论2 0 2 3年育和学习,而
5、首要的任务是对时代本身的重新界定。“随时而变”在这个意义上并非随波逐流,而恰恰是要在加速流转、躁动不安的时代洪流中寻求清晰的定位。历史哲学的眼光和方位感可以让我们一方面敏感于A l p h a G o、C h a t G P T这样的新事物,另一方面又不至陷入媒体的夸大其词所营造的恐慌情绪。这个意义上的思想者在积极介入的同时处变不惊,着眼于时代深处远为沉静的涌动来理解河面上的激流。一、机器学习的概念C h a t G P T就是2 0 2 3年的这样一股激流。人工智能在自然语言处理上的突破意义重大,约略来说,在教育问题的讨论中,有两点值得着重指出。首先,自然语言处理(n a t u r a l
6、 l a n g u a g e p r o c e s s i n g,简称N L P)虽然仍是一个专用人工智能领域,可自然语言是人类文明的基本媒介,不但承载着人类的知识和思想,而且是人与世界、人与人相交往的主要通道,自然语言处理的突破意味着人工智能的“通用化”大门已经打开。这种通用化一方面指的是G P T-4已经呈现出某种通用人工智能的特征。微软研究院发表了一篇长达1 5 4页的重磅论文,题为 通用人工智能的火花:G P T-4早期试验(S p a r k s o f A r t i f i c i a l G e n e r a l I n t e l l i g e n c e:E a
7、 r l y E x p e r i m e n t s w i t h G P T-4),得 出 结 论 说:“鉴 于 G P T-4 能力的广度和深度,我们相信它应该被合理视作一个通用人工智能系统的早期(但仍不完整)版本。”所谓通用人工智能(a r t i f i c i a l g e n e r a l i n t e l l i g e n c e,简称AG I),就是不局限于下棋、驾驶、绘画等专项领域,而是“能够像人类那样胜任各种任务”,“具有跨领域的问题处理能力”。1 微软是O p e n A I的主要资金来源,所以微软研究院并非中立的第三方,这篇长文的惊人结论必定会遭遇同行的质
8、疑和挑战;可单从表现来看,在聊天、绘画、编程等等领域均表现不俗的G P T-4确实可谓“通用人工智能的星星之火”。有关于此,对通用人工智能和强人工智能的概念做一番区分,或许就能化解争论。强人工智能具有“真实心智”,而通用人工智能未必如此,只是它的表现会给人留下具备“真实心智”的印象。就此而言,我们要警惕自己高估C h a t G P T这样的大语言模型(l a r g e 但是,教育和学习难道没有超越时代的本质吗?哲学难道不是应该关注这个意义上的本质?这样一个超越于流变的本质之维,诚然存在于我们的思维结构之中。可即便假定它也存在于现实之中,其具体含义总要在历史语境中才能得到理解。就此而言,从历
9、史哲学出发,仍然是一条切实可行的路径。从历史哲学的反思中,我们或许还能比体系化进路更为有效地逼近这个意义上的本质。尼采采取了一种更激进的历史化进路,这种进路直接取消了本质之维。无论我们是否赞同尼采的进路,无论尼采的进路是否内在蕴含着悖论,他对哲学本身所固有的非历史化倾向的批判都发人深思:“哲人关于人的一切言论,其实都只是关于一个非常有限的时段中的人的鉴定。缺乏历史意识乃是所有哲人的遗传缺陷。”(参见尼采:人性的,太人性的,魏育青译,华东师范大学出版社2 0 0 8年版,第1 9页。)有关这一区分,可参见徐英瑾:人工智能哲学十五讲,北京大学出版社2 0 2 1年版,第9 29 3页。当然,还可以
10、进一步追问:如果背后无真实心智可言,那么所谓“通用人工智能”又能通用到何种程度?会不会只能停留于火花状态?第1期机器学习时代的人类学习2 9 l a n g u a g e m o d e l,简称L LM)。它并不是真的在“聊天”,因为背后并没有一个“真实心智”,它并不理解自己输出的句子,而只是在做准确度惊人的词频统计。因此,撇开有关通用人工智能的争论不说,在此所谓“通用化”,在另一方面,指的主要是自然语言处理的突破进一步扫除了人机交流的障碍,而这意味着人工智能向 生 活 世 界 的 全 面 渗 透。人 工 智 能 的 时 代 真 的 到 来 了。就 此 而 言,C h a t G P T确
11、实可谓人工智能发展史上的一座里程碑,意义不容低估。其次,这个正在到来的人工智能时代,准确来说,是一个机器学习(m a c h i n e l e a r n i n g)的时代。因为当下取得突破的人工智能,不是基于规则的早期人工智能,而是基于机器学习的新型人工智能。所谓基于规则的早期人工智能,是“让计算机执行某项任务的传统方式”,即“写下算法”或“一系列向计算机发送的指令”,以此直接规定计算机应如何执行任务。2而机器学习“涉及大量数据输入以预测全新的结果,而绝非直接命令得到的直接输出”。3换言之,“每个算法都有输入和输出:数据输入计算机,算法对其进行处理,然后输出结果。机器学习将这种情况颠倒过
12、来:输入数据和期望的结果,而输出的是将前者转化为后者的算法”4。机器学习所用的算法是“生成其他算法的算法”,是自动化本身的自动化。机器学习的方法分为三种,分别是监督学习、无监督学习和强化学习。所谓监督学习,用斯图亚特罗素(S t u a r t J.R u s s e l l)和彼得诺维格(P e t e r N o r v i g)的定义来说,就是通过“观察一些输入和输出的例子之后,获得了从输入映射到输出的函数”5。因此监督学习处理的是被标记过的数据,而无监督学习是在没有标记的数据中、没有明确反馈的前提下,从海量的输入中识别出模式。强化学习是让机器“从一系列的强化,即从奖励和惩罚中学习”。机
13、器学习在近十年的高速发展尤其要归功于基于“人工神经网络”的“深度学习”(d e e p l e a r n i n g)。所谓“深度”,就是在输入层和输出层之间设置了隐藏的中间层。如论者所言:“隐藏层是人工神经网络能力的关键,但也带来了一个问题。很难弄清楚人工神经网络是如何找到解决方案的。”6这也就是在有关C h a t G P T和G P T-4的讨论中备受关注、备受争议的“涌现”和“可解释性”问题。无论是否称之为“涌现”,机器着实在学习。机器的学习严格来说不同于人类的学习,只要强人工智能尚未产生,我们就只能从隐喻的意义上谈论“机器学习”,可机器经过层层训练之后,确实从海量数据中生成了一套相
14、当可靠的算法,这个过程是不妨称之为“学习”的,虽然其学习路径还呈现出一种黑箱性质。二、机器学习的时代我们无须在此深入相关的技术细节,而是满足于技术轮廓的勾勒,并从这种勾勒中体察当下时代的若干基本特征,说明我们为何主张以“机器学习”来为时代命名。3 0 北京大学教育评论2 0 2 3年首先,机器学习的广泛应用可谓1 9世纪中叶以来技术时代的一次重大变形。当下流行“A I时代”“智能时代”“数据时代”“算法时代”等等提法,可如果想要更准确地标识这一次发展,那就应该称之为“机器学习的时代”。因为机器学习是人工智能的当下形态,也是数据之所以变得如此重要,而算法之所以能够深入生活世界的关键所在。算力、数
15、据和算法三者缺一不可,仅仅强调三者之一,事实上都不能抓住机器学习成功的要害:“A I之所以能在过去十年中重获新生并呈指数级增长,都得益于机器学习领域取得的重要进展(就像我们已经注意到的一样,这都基于更快的计算机处理器,海量可利用的大数据以及新的计算方法)。”机器学习可谓算力、数据和算法的聚合。如技术史家所言,判断科技发展的方向,要看的不是单方面的突破,而是“一个浪潮的聚集势头”。7机器学习正是当下信息技术的聚集势头。其次,从机器学习的角度会发现,当下知识的承载形式或信息的交互界面正在从人类才能识别的文字转变成机器能够识别的数据。一方面是人类过往的知识库被做了数据化处理,另一方面数据的来源已经从
16、人类的思想扩展到互联网能够记录、传感器能够监测的一切,包括一些看似无意义的人类行为、身体器官的跳动和动物行为等等。智能手机、智能驾驶、植入人身和动物身体的各式传感器等每天都在搜集这样的数据。而机器由此绕过有意识的主体,通过数据总结规律、预测行为。这意味着当下文明的界面已然在相当程度上转移到了机器可识别的数据。据估算,2 0 0 0年左右,只有四分之一的信息以数据的形式存在;到了2 0 1 3年,这个比例已经超过9 8%。可以想象,近十年来,数据几乎覆盖了全部的信息。这个转变可谓印刷术之后最重要的信息革命,是文明界面的转移。有关于此,今天恐怕还很难做出足够充分地估量,因为我们仍然处在转变的早期阶段;不过从机器学习的角度来看,我们至少可以打开一个更为恰有关技术时代的广义和狭义的界定,参见余明锋:还原与无限,上海三联书店2 0 2 2年版,第6 0页和第9 29 3页。参见韦恩霍姆斯、玛雅比利亚克、查尔斯菲德尔:教育中的人工智能,冯建超等译,华东师范大学出版社2 0 2 1年版,第9 4页。有关数据的重要性,可参见萨斯坎德的论述:“数据对机器学习来说是至关重要的,如果数据太少,机器学习算法的