强化学习技术与应用课程建设探索

资源描述

1、第 4 期2023 年 4 月 10 日计算机教育Computer Education中图分类号：G64234基金项目：国家自然科学基金联合基金重点支持项目（U21A20519）。作者简介：刘驰，男，教授，研究方向为智能物联网与强化学习技术，。0引言2017 年，国务院发布新一代人工智能发展战略规划，其中“高级机器学习理论”专栏中明确指出：“研究统计学基础理论小样本学习、深度强化学习、无监督学习、半监督学习、主动学习等学习理论和高效模型”。中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要中明确指出：“加强原创性引领性科技攻关，瞄准人工智能、量子信息等前沿

2、领域，实施一批具有前瞻性、战略性的国家重大科技项目”“培育壮大人工智能、大数据等新兴数字产业，促进共享、平台经济健康发展”。因此，开展强化学习基础理论和方法的研究，将有力地支撑国家人工智能科技战略规划实施，具有重大意义。强化学习作为人工智能技术的重要组成部分，在控制、游戏、推荐、计算机视觉、自然语言处理、数学、生物信息学、智能交通等领域有广泛应用。1课程建设的背景与意义强化学习（Reinforcement Learning）是一种试错的机器学习方法，通过智能体与环境的交互，针对智能体做出的动作获得环境反馈，进而强化学习技术与应用课程建设探索刘驰（北京理工大学计算机学院，北京 100081）

3、摘要：针对强化学习技术人才缺乏现状以及目前课程教学中存在的问题，以强化学习技术与应用课程为例，提出“应用实例讲解、理论举例讲解、结构动画讲解、类比方法运用、算法总结对比”的“五位一体”核心内容教学方法，以及“手把手实验、理论实践对应、基础高级结合”的复合型多种类实验教学方法，并介绍相应的课程体系和教具体系。通过总结北京理工大学两年的实践，说明上述课程体系取得了较好的教学效果。关键词：强化学习；课程改革；实验实践文章编号：1672-5913(2023)04-0034-04更新智能体知识和经验，选择下一个动作再次对环境进行探索。从分类上讲，强化学习技术是机器学习技术的一部分，但与监督学习、非监督

4、学习等其他机器学习方法有明显不同：强化学习的学习过程中没有监督信号，只有奖励反馈和实验试错；强化学习的环境反馈具有延时性；智能体的动作会影响后续接收到的序列数据；强化学习的过程与时间序列相关，是一个序贯决策的过程。由于深度学习（Deep Learning）模型的快速发展，与传统强化学习的结合使得对复杂环境的表征成为了可能，形成了深度强化学习技术（Deep Reinforcement Learning），实现了将强化学习的决策能力与深度学习的表征能力的有效融合，面向自动驾驶、机械臂控制等复杂场景具有重要应用。其中最著名的深度强化学习应用当属2016 年谷歌 DeepMind 公司研发的基于强化学

5、习的围棋程序 AlphaGo，击败了世界围棋大师李世石，震惊世界的同时也拉开了深度强化学习从学术界走向大众认知的帷幕。此外，深度强化学习技术也可以应用在其他学科领域，如生物工程、机械制造、化学分析、药物合成等，能够促进众多有决策需求的学科发展。近年来，国内外高校逐步开设了强化学习、DOI:10.16512/ki.jsjjy.2023.04.0162022 年中国高校计算机教育大会（三）第 4 期35深度强化学习相关的课程1。在国外，英国伦敦大学学院 David Silver 教授于 2015 年开设了面向研究生的 Reinforcement Learning 课程；美国卡耐基梅隆大学 Kate

6、rina Fragkiadaki 助理教授于 2017 年开设了 Deep Reinforcement Learning&Control 课程，介绍了强化学习及控制领域的最新进展。在国内，清华大学李升波教授于 2018年开设了面向研究生的强化学习与控制课程，以理论基础与算法设计融合的方式介绍强化学习的框架体系；北京大学张志华教授于 2018 年开设了面向本科生和研究生的强化学习基础课程。上述强化学习相关课程的开设，在很大程度上帮助了学生了解强化学习技术，但同时面临着诸多教学困境。2课程教学现状与困境2.1选课学生受限国内外已经开设的强化学习课程，主要受众还是计算机、自动化相关专业的本科生或研究

7、生，这些专业的学生拥有相对较好的编程基础，因此教师在讲授强化学习算法以及指导实验实践的过程中，可以将理论与代码相结合。但是，强化学习技术不仅仅在计算机和自动化领域应用，在物理、化学、材料、生物、机械、金融等领域也具有广泛应用，这些专业的学生需求同样迫切，因此，强化学习技术的课程教学方法须改变，以适应各个专业、不同层面的学生群体2。2.2教学方式滞后当下，国内几乎所有高校都开展了机器学习、人工智能类相关课程的教学工作，但大多属于科普类专业课的讲授模式，即从监督学习、非监督学习到强化学习都有涉猎，但受限于课时数，每一部分都不深入，更鲜见学术前沿内容的讲授。这种教学模式使得学生通常只能做到“大致了解

8、”，但是对于其深层次的数学原理理解不透，对最新的前沿技术（可能来源于最新发表的学术论文）更是无法掌握。特别是强化学习技术，相比监督和非监督学习，有着更为完整的数学理论支撑，但往往无法讲透；同时，强化学习技术仍处于飞速发展期，内容更新迭代速度很快，而目前的强化学习课程多为普及型，主要讲解的是强化学习前期发展的一些技术算法，对于国际前沿科研机构和学者的最新成果往往无法囊括，使得无法直接应用于所在领域的科研，教学内容有一定的滞后性3。2.3教学实践断续强化学习是一门理论与实践结合十分紧密的课程。每一个强化学习算法，都有其实际应用的典型例子，例如单智能体强化学习经典算法DQN 最早成功应用于雅达利游戏

9、，但在目前强化学习授课过程中，教师往往会倾向于强化学习算法流程的教学，要么忽视了编程实践的重要性（例如只准备少量编程实验），要么实验内容与算法教学的呼应不强。这使得课程的算法理论教学与实践应用指导脱节，学生在学习时往往感到枯燥无味，甚至由于听不懂个别算法细节丧失学习兴趣，不利于学习质量的整体提升。3强化学习技术与应用课程教学改革思路与做法3.1构建基础扎实、前沿引领、实验丰富、循序渐进的课程体系针对“强化学习技术与应用”这门课程，为了保证不同年级、不同专业、不同程度的学生都可以在课程学习过程中有较好的收获，在课程体系设计方面，要采用基础扎实、前沿引领、实验丰富、循序渐进的教授方式，具体包括几下

10、几点。（1）在基础讲解方面，首先讲解课程导论并介绍课程评价方式，目的是使学生了解课程的内容、特点及其涉及的主要知识体系；其次介绍机器学习基础，由于强化学习是机器学习的一部分，因此不能把强化学习的讲授与机器学习技术分割开来；进一步介绍强化学习基础，主要介绍强化学习的概念、分类、发展历史等，同时精讲马尔可夫决策过程、动态规划算法、多臂老虎机方法、策略迭代算法、价值迭代算法等经典算法，这些算法是深度强化学习方法的基础，后期较为复杂的多智能体强化学习算法也离不开这些经典思想的运用。（2）在前沿引领方面，讲授顺序从单智能体算法逐步过渡到多智能体算法，引入学术前沿的202336计算机教育Comp

11、uter Education算法来着重解决强化学习算法中存在的问题，包括多智能体探索与合作、多智能体间通信决策等问题，追踪近 3 年发表在人工智能领域顶级会议NeurIPS、ICML、ICLR 的前沿论文，动态更新教学内容重点。（3）在实验布置方面，实验内容循序渐进，从最基础的强化学习基础仿真环境的搭建，到深度学习手写数字识别问题的解决，再到利用讲授的单智能体强化学习算法实现经典的像素小游戏。在有一定的编程实现基础后，教师及助教团队将带领学生利用多智能体强化学习经典算法COMA等来实现各种复杂游戏，让学生掌握一定的高级算法编程实现能力。最后，布置团队大作业，综合深度强化学习算法和实际应用场景，

12、逐步引导学生完成一个完整的科研课题，回顾整个课程的内容，分享收获，反思不足，展望未来。综上所述，在课程的体系设计上，从理论知识的讲解到实验实践，始终坚持由浅入深的渐进式教学方法，让所有学生，无论哪个专业、前期基础如何，都能够在课堂上掌握一定的强化学习知识和技术，未来都可以在自己的学科方向上较快地开展应用研究工作4。3.2“五位一体”核心内容教学方法“五位一体”核心内容教学方法是指“应用实例讲解、理论举例讲解、结构动画讲解、类比方法运用、算法总结对比”。（1）应用实例讲解。大量引入具体应用实例进行讲解，例如引入“双足机器人”行走视频，深化学生对强化学习中智能体与环境的探索交互过程认知。（2）理论

13、举例讲解。当遇到较为抽象的数学公式时采用该方法，将公式推导过程应用到实际问题的计算中，帮助学生快速理解公式意义。（3）结构动画讲解。对于较为复杂的算法（如面向连续动作空间的单智能体强化学习方法DDPG）采用该方法，通过幻灯片动画的形式，一步步展示深度模型的计算流程，从而使得原本繁杂的模型计算脉络变得清晰。（4）类比方法运用。当遇到晦涩难懂的概念解释时采用该方法，例如讲授单智能体强化学习算法 PPO 从 On-policy 到 Off-policy 变化的重要性时，将 On-policy 比喻为“一边下棋一边学”，将 Off-policy 比喻为“一边看别人下棋一边学”，以解释前者为“要学习的策

14、略与智能体和环境互动的策略相同”，而后者为“要学习的策略与智能体和环境互动的策略不同”，以便学生更容易理解吸纳。（5）算法总结对比。通过比较一类算法的异同，加深学生对知识的理解，例如比较Q-learning、DQN、DDPG、PPO 这 4 种算法，从迭代方法、On/Off-policy、Q 函数形式、状态空间、动作空间和探索策略 6 个方面讲授。3.3“教材课件视频代码”融合的教具体系本课程的教具包含了纸质教材、PPT 课件、教学视频以及带有详细注释的源代码文件共 4 个部分。其中，教材有两本，一是 Richard S.Sutton 等人编著的经典教材强化学习（第 2版），二是授课团队于

15、 2020 年编著的深度强化学习：学术前沿与实战应用。两本教材各有优势，Sutton 等人的教材对基础知识的讲授更为透彻，授课团队的教材对近两年的学术前沿跟踪更为紧密。教学视频来自于网络，包括强化学习的应用类视频和对某一个算法讲解的视频。实验源代码包括了课程中布置的 20 个基础实验和 4个高级实验的全部代码及解释，并开源于 Github网站。通过 4 种类型教具的提供，实现多元化教学，使学生可以更好地对知识进行学习、回顾与实践，实现教学质量和育人水平的全面提升。3.4“手把手实验、理论实践对应、基础高级结合”的复合型多种类实验教学方法实验教学过程中，教师及助教带领学生逐行学习代码的编写与运行

16、，并将重要的代码位置作为填空题留给学生思考填写，不断强化学生的代码实操能力5。“手把手实验、理论实践对应、基础高级结合”的实验教学模式包括以下几方面内容。（1）手把手实验。配备充足的、专业技术过硬且经验丰富的助教老师（由授课团队的青年骨干教师和博士后担任），在代码实操阶段真正实现一对一、手把手教学。这种方法特别适用于非计算机专业、编程基础不强的学生，可以使学生2022 年中国高校计算机教育大会（三）第 4 期37的问题在课堂上得到快速解决。（2）理论实践对应。在讲解代码时，不仅逐行解释代码的含义，同时强调代码中对关键强化学习算法步骤的实现。例如，在讲解 Q-learning算法编程时，将 Q 函数更新数学公式与代码一一对应，使学生可以准确地将二者联系，加深对算法的理解。（3）基础高级结合。安排学生先从最基本的强化学习环境搭建开始学习，接下来是深度学习的实验样例，然后才是 20 个单智能体强化学习算法的实验，最后进行 4 个多智能体深度强化学习算法的实验。实验难度逐步提升，让学生逐渐适应强化学习的代码实操，体会自己实现算法带来的无穷乐趣。4教学效果4.1多位本科生发表 CCF-A 类论文

展开阅读全文

强化学习技术与应用课程建设探索_刘驰.pdf