1、本栏目责任编辑:王 力信息化与计算机教育Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)第19卷第18期(2023年6月)产教融合下大数据系列课程的内容设计与教学模式探索王国卿,吴慧欣,韩珂(华北水利水电大学信息工程学院,河南 郑州 450046)摘要:大数据产业的发展造成了人才需求的急剧上升,承担着人才培养重任的高校纷纷开设大数据相关课程。由于大数据系列课程知识覆盖面广、理论性和实操性要求高等特点,采取产教融合方式,整合高校与企业优势,培养具有技能素养和创新意识等综合素质高的人才。基于鲲鹏产业学院培养方案,首先分析产教融合的必
2、要性及问题,然后从教学内容设计和教学模式两方面,探求解决方案,将教育链、人才链和产业链、创新链有机衔接。期望能给从事相关方面教学和学习的人士提供参考。关键词:产教融合;鲲鹏应用技术与实践;大数据应用案例中图分类号:G642 文献标识码:A文章编号:1009-3044(2023)18-0150-03开放科学(资源服务)标识码(OSID):0 引言随着云计算、物联网等技术的普及,中国大数据产业技术发展迅速,广泛运用在金融、农业、水利、教育、管理、医疗等各个领域,大数据产业发展造成了人才需求的急剧上升。高等院校承担着大数据人才培养的重任,因此,各高等院校非常重视大数据课程的开设,大数据课程已经成为信
3、息相关专业的重要核心课程1。大数据系列课程以计算机业界需求与发展态势映射为教学内容,以数学、统计学原理为基础,以Java等编程语言为工具,以企业实际案例为导向,旨在让学生了解和掌握大数据及其相关技术的基本概念、关键技术和典型应用,提升其对大数据行业的总体认知能力和分析复杂工程问题的综合能力。通过中国信息通讯研究院的大数据白皮书(2020年)了解到,我国目前大数据领域的企业超3000余家。大数据企业主要分布在北京、广东、上海、浙江等经济发达地区2。但是,在产教融合中,存在企业和高校目标不一致、学生基础参差不齐、课程内容涉及面广、双方一线教师合作交流少等问题,本文旨在分析这些问题的关键,探求通过设
4、计合理的课程内容、改革传统教学模式,将教育链、人才链和产业链、创新链有机衔接。为企事业单位、高校科研院所输送学以致用、具有探索精神和创新意识的复合型人才。1 问题分析华北水利水电大学信息工程学院秉承学校办学理念,于2020年获批成立示范性软件学院,设立了计算机科学技术、软件工程与人工智能三个专业,面向三个专业开设大数据系列选修课程,旨在拓宽学生专业范围,深化学生的专业知识应用,探索大数据专业的课程体系建设。当前在以鲲鹏应用技术与实践课程为产教融合契合点的背景下,我院设置大数据系列课程主要存在的问题如下:1.1 企业提供的大数据课程内容与学院培养方案及学情融合的问题首先,企业与高校培养目标不协调
5、的问题。企业运维成本比较高,安排入校的教师在时间上没有高校专职教师时间宽裕,因此,往往课程安排紧凑,一般集中在一至三周完成授课3。学生缺少消化吸收知识的缓冲时间,一个环节没有跟上,后续就难以继续保持学习的热情。例如大数据环境搭建复杂,配置烦琐,而这又是学习大数据的必要实验平台。大数据环境搭建失败,将导致实验无法进行,应用课程变成理论课程,学生学习兴趣下降、疲惫倦怠。无法领会课程精髓,最终与高校期望学生达到的目标相违背。其次,企业提供的大数据课程面向学院的三个专业培养方案不一致,在OBE产出导向下,大数据系列课程与毕业指标的映射关系问题。收稿日期:2022-10-31基金项目:本文受2021年度
6、河南省高等教育教学改革研究与实践项目“基于鲲鹏生态的特色骨干大学产教深度融合教学模式探索与实践研究”(项目编号:2021SJGLX167)资助;受教育部产学合作协同育人项目“案例驱动的大数据应用技术课程教学改革”(项目编号:220605841280050)资助;“河南省高等教育教学改革研究与实践项目(学位与研究生教育)成果”(项目批准号:2021SJGLX081Y)作者简介:王国卿(1986),女,湖南郴州人,讲师,博士,研究方向为大数据技术,下一代互联网。E-mail:http:/Tel:+86-551-65690963 65690964ISSN 1009-3044Computer Know
7、ledge and Technology 电脑知识与技术Vol.19,No.18,June 2023150DOI:10.14004/ki.ckt.2023.0857信息化与计算机教育本栏目责任编辑:王 力Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)第19卷第18期(2023年6月)遵循OBE理念,反向设计,正向实施,三个专业细化的毕业要求和毕业指标点也略有差别。从而导致各专业课程设置有所区分,学生对鲲鹏应用技术与实践课程的基础知识储备不一致。例如计算机科学技术和人工智能专业没有先修Java和Linux相关课程,而软件工程专业
8、学生已经系统学过Java和Linux操作系统;人工智能专业学生系统学过Python和机器学习等。学生没有系统学习过数据采集、数据可视化、Scala、R语言等相关课程。还有些学生虽然修过这些基础课程,但是知识掌握不扎实。1.2 企业与学院教师相互交流不够深入的问题大数据是一门综合交叉性学科,要求学生具备较强的数学(高等数学、线性代数、离散数学、数学建模等)、统计学(概率论与数理统计、多元统计分析等)基础,扎实的计算机编程(高级编程语言、算法、数据结构、程序设计、数据库、操作系统、数据挖掘等)能力,同时还应具备各相关领域知识1。这就要求学院提供既有扎实的理论储备、又拥有丰富的实践经验的双师型教师,
9、才能解答学生在理论学习和不同软硬件条件下遇到的各种问题。但是,学院缺乏双师型教师。企业教师具有一线开发经验,但对学生接受能力和动手能力等情况不够了解、对学生的课程体系及培养目标也没有宏观认识。目前的校企合作模式往往以课程为单位,在高校和企业之间以课程为单位划清界限,高校教师与企业教师交流不够深入,相互的优势难以在学生个体上体现。2 课程内容设计依据现有的培养方案,在鲲鹏应用技术与实践课程开设之前,开设32课时的 大数据技术基础 课程,该课程内容的选择可以解决上述学生学习基础不一致的问题,对后续大数据课程能否顺利进行起着至关重要的作用。在鲲鹏应用技术与实践课程开设之后,开设了结合学校特色的水利大
10、数据分析课程,深化校企合作,加强知识技能的应用。本节就这三门课程内容的选择提出如下建议,探求解决上述问题的方案。2.1 数学理论基础在大数据的研究和应用中,数学是其坚实的理论基础,在数据预处理、数据分析与建模、模型评价预优化等过程中,数学方法扮演着至关重要的角色4。该部分包含如下内容:微积分基础、线性代数基础、概率论与数理统计基础、数值计算基础、多元统计分析和运筹学等。这些数学基础的大部分内容学生已经在低年级学习过,如微积分、线性代数、概率论和数理统计等,但是这些课程往往是由数学科学学院开设,更注重数学理论的严谨性,从理论的层面来研究大数据相关的基础和技术。因此,在大数据技术基础课程中应当注重
11、理论与应用的联系。在微观方面将理论知识点用Python或R语言实现出来,例如用计算机计算函数的导数、积分和拐点,求解线性方程组等;从宏观上串联这些理论知识点与大数据技术之间的关系。例如极限论是微积分的基础,微积分是概率论的基础,微积分和概率论又应用到机器学习中的优化算法;用矩阵表示大数据中数据与数据之间的关系,矩阵的运算用于分析大数据中对象的特征;统计工作本身就是对数据进行搜集、整理、分析和解释,统计方法是大数据常用到的算法如朴素贝叶斯、Apriori关联规则等的基础等。2.2 计算机基础大数据技术之所以受到热捧,主要在于以Hadoop和Spark为代表的分布式框架解决了以较低的成本实现海量数
12、据的存储和计算的问题1。考虑到Linux系统的便捷性和稳定性,Hadoop集群一般搭建在Linux系统上,并且使用虚拟机软件,构建多台机器的虚拟环境,由于Hadoop由Java开发,其关键的分布式计算框架MapReduce均由Java语言编写。据此,学生需要先修Linux操作系统和Java编程语言。Spark作为大数据计算平台的后起之秀,在2014年打破了Hadoop保持的基准排序记录,使用约十分之一的计算资源,获得了比Hadoop快约3倍的速度。Spark的主要编程语言是Scala,也支持Java、Python和R作为编程语言。其生态系统中的Spark SQL组件,使得开发人员可以使用SQL
13、命令进行查询及更复杂的数据分析。因此,学生需要先修Scala语言和数据库系统相关课程。此外,还有其他方面的基础,如数据预处理方面:获取网络数据的Python爬虫技术和建立数据仓库的Kettle工具等。2.3 核心技术大数据的核心技术主要包括存储、处理、分析,在本科高年级开设的鲲鹏应用技术与实践课程中,注重技术与应用的交叉结合,增强学生学习兴趣和动手能力,将理论与实验穿插进行,相互巩固。以Hadoop和Spark生态系统为核心,选取以下知识点作为教学内容:鲲鹏云与Hadoop集群搭建,HDFS分布式文件系统,MapReduce分布式计算框架,Zookeeper分布式协调服务,HBase分布式数据
14、库,Hive数据仓库;Spark集群部署,Spark Core处理引擎,Spark SQL数据管理与查询,Spark Streaming实时流数据处理等。在相应知识点理论讲解结束之后,及时安排如下实验(如表1所示),巩固学习内容,锻炼学生实际操作能力:表1 学生实验示例实验1实验2实验3实验4实验5实验6实验7实验8实验9实验10Hadoop集群搭建HDFS的Shell访问MapReduce的应用(排序、矩阵乘法等)Zookeeper的Java API操作HBase的Java API操作Hive的基本操作Spark集群部署及访问HDFS文件的方法基于RDD的Spark应用程序开发Spark S
15、QL编程及内置函数的使用Spark Streaming处理HDFS数据源数据151本栏目责任编辑:王 力信息化与计算机教育Computer Knowledge and Technology电脑知识与技术第19卷第18期(2023年6月)第19卷第18期(2023年6月)2.4 应用案例大数据技术是一个完整的体系或生态,高校开设的各门大数据课程的实验教学往往是松散的、各自为政,缺少从技术体系角度设置的综合性实验5。大数据综合实训案例建设涉及知识面广,数据获取困难等问题,目前存在数据分析处理算法(如机器学习、数据挖掘、统计分析、模糊集理论、神经网络等)与传统理解的大数据框架Hadoop和Spark
16、分离的情形,不能很好地将算法与大数据平台的优势有机融合。应用案例的开发应当结合高校和企业优势,将算法理论有机融入结合新需求如智慧水利等场景,形成完整的综合案例,贯穿大数据知识点,锻炼学生知识的综合运用能力和解决复杂工程问题的能力。3 教学模式探索目前已有许多高校建立了大数据专业,但是本学院拟在已有的3个专业的基础上拓展大数据方向,即将大数据融入已有专业中,这与建设完整的大数据专业有较大区别。因此需要探求合适的教学模式,才能让学生在有限的课时内,达到教学目标,获得相应的能力。3.1 线上线下混合式大数据技术基础课程的开设,不只是单纯地按专业给学生分班,而是设计一套基础知识和技能的问卷调查。该套问卷针对上文阐述的数学理论基础和计算机基础进行调查,使用线上教学平台统计功能,按学生知识短板分类,分出24类学生,有针对性地制定授课内容。该课程主要讲授的基础性知识,已经有很多优质的线上资源,教师筛选出合适的无版权纠纷的教学视频放置在一个教学平台上,并配套相应的练习题。学生可以自主调整播放速度及播放次数,完成习题巩固和检验所学知识,过关斩将,环环相扣,增加了学习的趣味性。学生把握了学习的主动性,真正