1、第 5 期2023 年5 月电子学报ACTA ELECTRONICA SINICAVol.51 No.5May 2023采用多头注意力机制的C&RM-MAKT预测算法王炼红,罗志辉,林飞鹏,李潇瑶(湖南大学电气与信息工程学院,湖南长沙 410082)摘要:针对深度知识追踪模型中普遍存在知识状态向量可解释性弱、缺失历史序列数据语义特征信息、忽视历史序列数据对预测结果影响程度等问题,本文提出了一种融合认知诊断理论和多头注意力机制的预测模型C&RM-MAKT(Cognitive&Response Model-Multi-head Attention Knowledge Tracing).C&RM-M
2、AKT 采用 Word2Vec 和 BiLSTM(Bi-directional Long Short-Term Memory)网络将时序数据变换为低维连续实值向量,引入C&RM训练出的可解释性参数来建模学生学习状态,在模型机理层面将知识状态向量扩展为知识状态矩阵.最后,C&RM-MAKT使用多头注意力机制计算出历史序列数据对预测结果的影响程度,以提高模型的可解释性与精度.预测实验结果表明:C&RM-MAKT在HNU_SYS1、HNU_SYS2、Math1和Frcsub四个数据集上都取得了最佳性能结果,尤其在HNU_SYS2中,C&RM-MAKT相较于现有知识追踪模型在AUC(Area Uder
3、 the Curve)、ACC(ACCuracy)和F1(F1-Measure)指标上分别提升了4.3%、3.6%和5.9%.此外,HNU_SYS2数据集上的可解释性分析表明:C&RM-MAKT模型内部参数可解释性强,一定程度上缓解了深度模型的“黑箱”特性.关键词:预测算法;知识追踪;认知诊断;注意力机制;LSTM网络;时序数据;语义特征基金项目:国家重点研发计划(No.2019YFE0105300);中国高等教育学会数字化课程资源专项研究课题(No.21SZYB15)中图分类号:TP391文献标识码:A文章编号:0372-2112(2023)05-1215-08电子学报URL:http:/D
4、OI:10.12263/DZXB.20220790C&RM-MAKT Prediction Algorithm Using Multi-Head Attention MechanismWANG Lian-hong,LUO Zhi-hui,LIN Fei-peng,LI Xiao-yao(School of Electrical and Information Engineering,Hunan University,Changsha,Hunan 410082,China)Abstract:To address the problems of weak interpretability of k
5、nowledge state vectors,lackness of the semantic feature of historical sequence data,and failure to consider the influence of historical sequence data on performance prediction in existing deep knowledge tracking models,this paper proposes a predictive model C&RM-MAKT(Cognitive&Response Model-Multi-h
6、ead Attention Knowledge Tracing)integrating cognitive diagnostic theory with multiple attention mechanisms.C&RM-MAKT uses Word2Vec and BiLSTM(Bi-directional Long Short-Term Memory)networks to transform the time series data into low-dimensional continuous real vectors,and applies C&RM to pre-train th
7、e interpretable parameters for student state modeling,and extends the knowledge state vectors into a knowledge state matrix at the model mechanism level.C&RM-MAKT utilizes multiheaded attention mechanism to estimate the influence degree of historical exercises on the performance prediction to improv
8、e the interpretability and accuracy of the model.The prediction experiment results show that C&RM-MAKT performs the best on datasets HNU_SYS1,HNU_SYS2,Math1,and Frcsub.Especially on dataset HNU_SYS2,C&RM-MAKT improves the existing knowledge tracking models by 4.3%,3.6%,and 5.9%in terms of AUC(Area U
9、der the Curve),ACC(ACCuracy),and F1(F1-Measure),respectively.In addition,according to the interpretability analysis on dataset HNU_SYS2,the internal parameters of the C&RM-MAKT model are highly interpretable,which alleviates the“black box”characteristics of the deep model to a certain extent.Key wor
10、ds:prediction algorithm;knowledge tracking;cognitive diagnosis;attention mechanism;LSTM(Long Short-Term Memory)network;time series data;semantic featuresFoundation Item(s):National Key R&D Program of China(No.2019YFE0105300);Special Research Project on Digital Curriculum Resources of China Associati
11、on of Higher Education(No.21SZYB15)收稿日期:2022-07-08;修回日期:2022-10-03;责任编辑:覃怀银电子学报2023 年1引言近年来,知识追踪成为解决学生习题表现预测问题的主流方法.其中,认知诊断系列静态知识追踪模型 13 和贝叶斯知识追踪(Bayesin Knowledge Tracing,BKT)46 的主要优点在于其强大的可解释性.然而,受限于传统模型的表征能力弱,它们在大规模数据集上的预测表现欠佳,难以对海量的学生、习题、知识点同时进行追踪.深度知识追踪模型(Deep Knowledge Tracing,DKT)7 能够在大规模数据集上
12、实现对多个知识点的追踪,充分利用习题的时间序列信息,在不依赖专家标注的同时能够得出知识点间的依赖关系.继 DKT 后,基于RNN(Recurrent Neural Network)及其网络变体的深度知识追踪成为国内外学者的研究热点812.纵观上述模型主要缺点在于:在深度网络中将神经网络的隐状态视为知识状态过于抽象,追踪结果可解释性较差,模型中的参数在揭示学生知识掌握状态上没有明确的指导意义.总之,现有的深度知识追踪系列模型主要存在如下问题:(1)深度知识追踪模型的初始知识状态影响知识追踪结果的可解释性和模型收敛速度,通常采用的随机初始化参数手段导致其可解释性差;(2)学生知识状态被建模为整体的
13、知识状态向量,难以揭示学生在各知识点上的掌握水平的变化;(3)现有方法未考虑历史作答习题对预测习题结果的贡献程度,无法关注到能对预测习题有重大影响的历史作答习题.为了解决上述问题,本文提出了一种基于认知诊断模型和多头注意力机制的学生表现预测算法C&RM-MAKT(Cognitive&Response Model-Multi-head Attention Knowledge Tracing),旨在融合传统模型参数可解释性良好、深度学习模型表征能力强的优势,提高知识追踪结果的可信度和习题表现预测的精度.2相关理论基础2.1认知反应模型认知诊断模型经历了从低阶到高阶的发展过程.研究表明,高阶模型更符
14、合学习者的真实认知结构,如高阶DINA(Deterministic Input Noisy And gate)模型 13、高阶IRT(Item Response Theory)模型 14.有学者在高阶模型的基础上,优化了层级间参数的建模形式 15,16.王等 17 扩展了能力层级架构,引入与能力参数具有补偿性质的努力参数,提出认知反应模型(Cognitive&Response Model,C&RM).本文采用认知反应模型,用于训练深度模型中的初始“知识水平”参数及“习题-知识点考察程度”参数.C&RM的结构见图1.模型参数及其表示含义见表1.C&RM模型引入能力特征参数与努力特征参数的联合补偿
15、机制,基于联合补偿机制建模学生的知识水平,如式(1)(3)所示.ik=kwk11+exp-D(i-dk1)+kwk21+exp-D(i-dk1)(1)k=11+wk2exp-D(i-dk2)(2)k=11+wk1exp-D(i-dk2)(3)其中,wk1、wk2分别表示知识点k对学习者能力特征、努力特征的考察权重,k、k分别为能力特征及努力特征对知识水平作用效果的衰减系数.dk1、dk2、dk1、dk2分别表示知识点k在能力特征及努力特征上的难度参数与区分度参数.D为连续型认知诊断模型的一个经验常数,通常取值1.7.知识水平至习题掌握层级中,学习者i对习题t的掌握程度it依赖于学习者i对习题t
16、考察的知识点k的弱项参数litk.见式(4)和式(5).it=1-max(lit1litK)(4)litk=(k)t(1-ik)(5)其中,(k)t表示知识点k对作答习题t的重要性,即“习题-知识点考察程度”参数.学习者对习题的掌握程度与学习者最终的习题作答结果的建模关系见式(6):P(rit=1|it0t1t)=11+exp-D1t(it-0t)(6)其中,0t、1t分别表示习题t对学习者而言的难度与区图1C&RM结构图表1C&RM中参数及含义参数名ii=(12K)=(12T)Q=(a1a2aT)itikrit含义学习者i的能力特征学习者i的努力特征知识特性习题特性习题知识点学习者i对习题t的掌握水平学习者i对知识点k的掌握水平学习者i在习题t上的作答结果1216第 5 期王炼红:采用多头注意力机制的C&RM-MAKT预测算法分度.此处D与式(1)(3)一致,是经验常数,通常取值为 1.7.C&RM 中,习题t的特征向量被定义为t=(0t1tt),知 识 点k的 特 征 向 量 定 义 为k=(wk1wk2dk1dk1dk2dk2),学习者i的能力特征为i、努力特征为i.其中,努力特