1、第 30 卷 第 4 期北京电子科技学院学报2022 年 12 月Vol.30 No.4Journal of Beijing Electronic Science and Technology InstituteDec.2022基于深度学习的多通道多任务学习判决预测模型郭子晨 李昆阳 娄嘉鹏北京电子科技学院,北京市 100070摘 要:针对目前深度学习在判决领域多聚焦于独立处理单一任务,无法捕捉到法条和罪名预测任务间的关联性,使得罪名预测效果存在准确率瓶颈并缺少法条依据和支持的问题。本文将法条和罪名预测相结合,提出一种基于深度学习的多通道多任务学习判决预测模型。针对词嵌入模型 Word2Vec
2、 无法解决一词多义及动态优化的问题,引入基于 Transformer 的双向编码表征(Bi-directional Encoder Representation from Transformers,BERT)词嵌入方法,实现词向量的多任务输送,并通过搭建不同的特征抽取层,提出了基于注意力的双向编码表征法条预测模型(BERT-BiGRU-Attention,BERT-BA)和基于注意力和卷积神经网络的双向编码表征双通道罪名预测模型(BERT-BA-BERT-Convolutional Neural Network,BERT-BABC)。模型从多个视角捕捉多个维度的特征向量,获取更丰富的语义要素,
3、以提升模型的预测效果和泛化能力。实验结果表明,在法条预测中模型准确率达到了 87.24%,在罪名预测中模型准确率达到了 88.21%,准确率均高于基准模型。关键词:司法智能;深度学习;多任务学习;法条预测;罪名预测中图分类号:TP391.1 文献标识码:A文章编号:1672-464X(2022)4-105-114 基金项目:国家重点研发计划基金资助项目(项目编号:2017YFB0802705)作者简介:郭子晨(1996-),男,硕士研究生,计算机技术专业。E-mail:guozichen9696 李昆阳(1998-),男,硕士在读,电子与通信工程专业。E-mail:948189823 娄嘉鹏(
4、1977-),男,通信作者,硕士,讲师,研究方向:网络安全。E-mail:1301597 引言 在我国传统司法领域,裁判文书是由检察院、法官、律师等专业领域人士的专业问题解答和法院审理过程及结果组成。对于以往的法律判决,法院只能依靠法律条文,按照司法程序人工的处理各类案件。但随着案件数量的爆炸式增长,司法人员的工作负担大大增加,司法程序周期增加,传统的人工判决已不能满足司法需求。在 1987 年,Gardner 等人1初步进行了人工智能与司法决策相互融合的研究,并提出了一系列构建规范预测模型的规则要素。但由于缺乏大规模标注数据集,初期的研究任务主要是围绕基于知识工程采取手动设计规则的方法展开,
5、用以解决特定场景的法律判决预测任务。随着机器学习技术的蓬勃发展,为了更好实现法律智能判决,许多学者将罪名预测和文本分类任务结合。如 Liu 等人2使用 K 近邻算法对罪名进行分类;Katz 等人3采用随机树方法预测美国最高法院的审判;Lin 等人4提出了聚焦于中文法律文书的机器学习模型;Sulea 等人5北京电子科技学院学报2022 年基于法国最高法院的案件和判决,开发了基于多个支持向量机的预测集成系统。上述这些基于机器学习的罪名预测方法,任务可分成特征工程和分类器两部分,均存在一定缺陷,主要有以下几点:1)特征工程需要由相关专业人士来设计大量的各领域相关案件特征,工程量庞大而且可移植性较差。
6、2)这些方法在文本表示上多是采用语义语序缺失的词袋模型和稀疏高维的 TF-IDF 等方法,均在特征的表达能力上具有一定局限性。3)各个方法中所使用的训练数据集规模相对偏小,因此遇到文书复杂或数据规模大的情况将难以处理。近年来,随着神经网络在自然语言处理各任务上取得重大成果。研究人员也尝试借助神经网络较好的特征抽取能力去提升模型表现,将神经网络应用于罪名预测。其中,在针对基于案件事实描述进行罪名预测的研究上,邓文超等人6使用了多种基于深度学习的文本分类方法对罪名预测任务进行实验;Long 等人7将机器阅读理解方法用于解决民事案件的裁判预测问题;He 等人8使用序列增强的胶囊网络进行低频罪名的预测
7、;王加伟等人9使用层次注意力机制对犯罪事实进行语义差异性建模,并将多标签罪名预测转化为单标签罪名预测问题。另外,在利用其他辅助信息进行罪名预测的研究中,Luo 等人10提出了一个分层的基于注意力的神经网络框架,使用相关法律条文提高罪名预测的准确性;Hu 等人11为罪名标记了属性信息,面向低频罪名和易混淆罪名,提出引入区分性属性的罪名预测;Kang 等人12从法条的罪名定义中提取有关规范术语作为案件事实描述的辅助信息;Zhong 等人13将司法判决预测中罪名预测、法条预测、刑期预测等不同任务之间的相互依赖关系进行建模,形成一个有向无环图(DAG),并提出拓扑学习模型以同时提升子任务性能;Yang
8、 等人14在拓扑学习模型的基础上设计了多视角的前向预测和后向验证框架,以增强子任务之间的依赖性。最后,针对为罪名预测过程提供解释的研究,Ye 等人15使用融入罪名标签的Seq2Seq 模型生成具有解释性的法院观点;Jang等人16采用深度强化学习方法在案情描述中提取判决依据;Liu 等人17将罪名预测建模为一个顺序决策过程,提出的策略控制模型可以在阅读文本过程中的某一时刻做出罪名预测并给出裁判依据,使总文本阅读量减少了 30%40%。对于法条预测任务,预测模型也随着神经网络的发展不断完善,Luo 等人18提出了一种基于注意力机制的神经网络联合学习模型,该模型实现了对罪名及法条预测任务进行联合学
9、习建模;Liu 等人19使用文本挖掘方法,实现了为基于日常用语描述的案件寻找相应的法条支持;Liu 等人20采用基于实例的分类和内省学习的方法完成法条分类。综上,目前的法条和罪名预测研究已经取得显著进步,但基于法条和罪名的数据分布极其不平衡,而且数据中存在很多易混淆罪名,这对于模型预测效果提升仍是一项重大挑战。另外,上述研究大多聚焦于单一任务的处理,而忽略了法条和罪名预测任务间的复杂逻辑关系,这使得罪名预测效果存在准确率瓶颈并缺少法条依据和支持。因此,结合上述问题,本文针对汉字复杂多义、特征提取粗糙和效率低等问题,构建法条和罪名双通道模型,引入 BERT 预训练语言模型,提出一种基于深度学习的
10、多通道多任务学习判决预测模型,主要贡献如下:1.本文提出并设计了基于多任务学习的罪名及法条预测的整体框架。整体框架通过双通道实现,首先在法条预测通道中预测法条结果,并将提取的法条结果送入下游结构辅助罪名预测通道进行预测,罪名预测通道通过拼接案情和法条结果综合得出罪名结果。通过双通道的多任务联合模型,从多个视角捕捉多个维度的特征向量,获取更丰富的语义要素,提升判决模型的预测效果和泛化能力。其中 BERT-BA 模型实现601第 30 卷基于深度学习的多通道多任务学习判决预测模型 对法条的预测,BERT-BABC 模型联合 BERT-BA模型的法条预测结果实现对罪名综合预测。2.针对法条预测通道,
11、构建了基于 BERT 语言预训练模型的法条预测模型 BERT-BA,该模型在特征提取层采用 BiGRU-Attention 进行特征抽取,通过 BiGRU 结构实现长文本上下文语义信息的提取和参数规模的缩减,并基于注意力机制实现关键特征信息的提取。3.针对罪名预测通道,构建了基于 BERT 模型的双通道罪名预测模型 BERT-BABC,该模型通过 BiGRU-Attention 捕捉案情中的犯罪特征,BERT 特征提取器使用自注意力捕捉内部语义特征作为特征补充,实现了多视角的罪名特征信息提取;同时将法条预测通道的结果与罪名预测通道的结果拼接合并,送入卷积神经网络(Conv-olutional
12、Neural Networks,CNN)进行深层特征提取,得到罪名分类预测结果,实现了双通道结合判决预测。4.使用 CAIL2018-Small 数据集进行大规模数据训练测试实验,实验结果表明本文的法条预测模型和罪名预测模型得出的法条及罪名预测结果评价指标高于基线模型,提高了判决预测效果和性能。1多通道多任务学习判决预测模型 基于深度学习的判决预测方法主要有两种类型:第一类是基础的预测方法,通过结合不同神经网络针对特定的情境只在案件事实描述的基础上进行建模,来预测罪名及相应的法条;第二类是运用辅助信息的方法,以罪名预测为例,辅助信息包括法律法条、刑期等信息。这些方法通常是联合训练罪名预测任务和
13、辅助信息相关的任务,可以实现信息共享,进一步丰富所提取的案情特征。为了增强罪名预测的依据性以及提高罪名判决准确率,本文在案情事实描述建模的基础上联合法条辅助信息,建立双通道模型以从多视角提取不同的案情特征,同时采取 BERT 词嵌入方法将训练好的词向量输送至罪名和法条预测任务中,聚焦于优化提升辅助信息模块和神经网络编码器模块,提出了一套基于深度学习的罪名及法条预测多任务学习总体框架,其整体框架流程如图 1 所示。将案情描述分别输入到罪名预测和法条预测模块。在法条预测模型预测案件相关法条,进而提供支持罪名成立的法条依据,然后输出法条预测结果。在罪名预测模型,负责接收法条预测相关特征并整合案情描述
14、,经罪名预测模型得到罪名预测结果。图 1 整体框架流程图1.1 法条预测模型由于汉字的复杂多义性,案情描述的特征提取及词义表达的准确性会下降,进而影响法条预测模型训练的效果,为了解决这一问题,本文提出了一种基于 BERT 和 BiGRU 的法条预测模型21,22,该法条预测模型的结构由输入层、特征抽取层和分类预测层三部分组成,如图 2 所示。在法条预测模型中输入案情描述文本,利用BERT 预训练模型,获得包含文本总体信息的动态词向量,接着将新的词向量输入到 Bi-GRU 网络进行特征提取,捕捉案情描述的特征信息,最后引入注意力机制,得到输入案情的最终法条预测概率表达,选取概率最高的法条即为法条
15、预测结果。模型的第一层是输入层。由于汉字的数目量级大和多义复杂,本研究使用 BERT 中的WordPiece 嵌入模型进行案情描述,以文本中单个汉字进行词嵌入编码,大大减少了编码规模和案情文本的复杂性。针对于数据集的统计,超过701北京电子科技学院学报2022 年图 2 BERT-BA 模型结构90%的案情描述文本在 300 字以下,因此在词嵌入训练过程中最大序列长度设置为 300 个汉字。在输入层中,使用了 BERT 预训练语言模型进行了词嵌入,生成了词向量,由于文本描述最大范围为 300 个汉字,词向量 xi=x1,x2,x300,xi Re。输入到 BiGRU 对输入词向量 xi进行正向
16、编码和反向编码,编码方式如公式(1)、(2),生成隐藏向量 h?i、hi。后将 h?i、hi进行拼接操作生成隐层向量 hi,融合了上文和下文的语义信息,其可看作案情文本的犯罪特征信息的概览。h?i=fGRUxi(),i 1,300(1)hi=fGRUxi(),i 300,1(2)hi=Concat h?i,hi()(3)模型的第二层是特征抽取层。由于本研究的输入是案情事实文本,属于篇章文本的量级,而且文本描述的犯罪特征存在着较强的依赖关系,为了更准确的把握文本的依赖关系和提升语义的准确性,本文使用 BiGRU 模型提取语义特征,并融入注意力机制(Attention)可以更好地关注和提取关键特征信息。在本研究中,注意力机制实现流程如下:1.使用 MLP 对 Bi-GRU 模型的输出向量 hi做非线性变换,得到中间隐含状态 ui,如公式(4)所示;2.将 ui和上下文权重参数向量 uc进行相似度计算,在本文中使用余弦相似度计算,得到文本的注意力得分 si,如公式(5)所示;3.使用 Softmax 函数对注意力得分进行数值转化并归一化,得到注意力权重 i,如公式(6)所示;4.使用文本向量