1、1172023.02人工智能0 引言运营商在为客户服务过程中,外呼人员和客户在多轮对话场景下电话语音内容包含很多用户需求和感受方面的信息,充分了解用户的真实感受可以更深入全面地服务好客户,因此,在客服语音多轮对话场景下对语音转录文本进行用户意图和需求识别,提供客服实时辅助、AI 智能服务质检、FAQ 知识图谱应用等高端服务能力,可以快速精准地提供高质量客户服务。本文介绍一种基于深度学习算法的多轮对话意图识别全流程创新应用,具备高精度的意图识别准确率,可以为客户提供更多的精准服务,提升服务质量,增强客户满意度。1 意图识别技术路线用户意图识别的任务可以抽象为自然语言处理中的文本分类任务,可以使用
2、相关算法实现自动意图识别代替人工识别操作。文本分类是指对给定的非结构化文本,根据相应的分类算法或模型,得到文本对应的类别,用于相关判断。传统的机器学习算法基于人工特征工程提取文本特征,在文本分类上的准确率和鲁棒性上都存在一定局限。基于传统循环神经网络和卷积神经网络的深度学习算法对于训练数据的质量要求较高,需要研究选择一种更加准确有效的分类算法,用于实现用户意图分类识别。本文介绍的意图识别技术基于深度学习及预训练语言模型,通过纯半监督学习构建携带用户意图标注的语音转写文本,采用 Soft-masked BERT 模型和开源语料进行文本纠错,构建待识别语料的对话角色信息特征和拼音信息特征,利用嵌入
3、方式将对话角色和汉字拼音映射为高维稠密向量,通过训练基于 RoBERTa 预训练模型的意图识别模型,预测语音对话文本所属用户意图类别并作为意图识别结果输出。节省了大量以往意图识别任务中大量的人工标注成本,独创性地引入角色信息特征和拼音信息特征,降低了语音转录带来的噪声,通过深度学习模型算法的创新性组合应用,实现了高精度的多轮对话场景下的对话意图识别准确率,在各行业客服质量提升和对话意图识别方面有着较为广泛的应用前景。2 技术方案对话意图进行识别所使用的数据源主要由对话文本组成。将原有的业务系统中相关数据进行抽取、清洗、加工、整理、加载到数据仓库中,在数据仓库中形成基础的分析数据的存储。如图 1
4、 所示。运用 Roberta-CNN 对对话文本进行自然语言处理分析,建模预测分析提供实时应用和进一步的业务模型分析应用。建模流程如图 2 所示。3 建模流程基于深度学习的多轮对话意图识别技术在运营商的应用实践唐维东中国电信股份有限公司南京分公司摘要:本文介绍一种基于深度学习算法的运营商客服多轮对话意图识别技术,采用 RoBERTa 模型作为方法的预训练模型,然后以 TextCNN 作为分类模型进行意图识别任务,创新实现模型组合和应用流程,独创性地对角色特征、文本拼音特征、文本对话特征进行多维度建模,实践证明预测准确率因此能够获得稳定提升。在实现客服实时辅助、智能质检等高端服务能力方面具有较好
5、的技术参考价值,助力提升服务质量,增强客户满意度。关键词:意图识别;深度学习;模型组合;客户服务;多轮对话;运营商1182023.02人工智能本算法建模技术流程如下:(1)对已有的客服语音文本进行数据预处理,利用正则表达式进行文本替换、抽取,得到客服对话文本信息中的有效数据;预处理方式是通过编写正则表达式对文本进行过滤,识别出指定字段的内容,再对字段内容进行清洗,得到有效数据。(2)将清洗过的有效数据进行拼音转录,将文字转写成汉语拼音,按照7:2:1的比例划分为拼音训练集、拼音验证集、拼音测试集,以tsv文件的格式进行存储,得到拼音文本数据集;原始客服对话文本数据中存在语音转录错误的文字,通过
6、将汉字转写成汉语拼音,能较好的减少转录错误的文字所带来的误差,并将拼音作为文本特征加入模型训练。(3)将清洗过的有效数据进行标签化和数据集划分,按照 7:2:1 的比例划分为训练集、验证集、测试集,以 tsv 文件的格式进行存储,得到字符文本数据集;对清洗好的数据,根据用户意图的类别进行标签化工作,根据业务人员的已有经验,将数据和正确的业务类别一一对应,实现标签化。对完成标签化的数据进行划分,按照7:2:1的比例划分为训练集、验证集、测试集,用于模型训练和测试。(4)使用字符文本数据集,使用Jieba分词工具进行分词,使用Word2Vec模型在分词后的字符文本数据集上进行预训练,得到的“对话方
7、 0”,“对话方 1”的词向量,作为对话角色特征参数进行存储。通过对对话文本分析,对话意图可能会通过客服人员做出较为准确的定位,所以加入对话角色特征进入模型训练和测试。(5)使用划分好的字符文本数据集和拼音文本数据集进行模型预训练,特征提取模型选择 RoBERTa 模型,RoBERTa是由 FaceBook 开源的 NLP 预训练模型(pre-training model),图 1 系统框架图图 2 建模流程图1192023.02人工智能使用海量语料进行无监督训练得到一个蕴含海量语义信息的语言模型,在多项任务中都达到 state-of-the-art,采用 Dynamic Masking 任务
8、进行句级别特征提取,以 CLS 输出作为对话嵌入,将对应的模型参数保存;RoBERTa 预训练模型针对中文语料(维基百科、微博、新闻等),采用 Dynamic Masking(动态掩码)方法,使用中文“词”粒度进行训练,更适合中文NLP 任务;在处理完数据后,对使用的深度学习模型进行预训练,用于对新的客服对话文本数据进行自动判断和预测。如图 3 所示。(6)加载 RoBERTa-TextCNN 分类模型进行文本分类训练,利用与训练好的 RoBERTa 模型对客服对话语句进行嵌入,输出 CLS 作为对话嵌入结果,句嵌入结果和角色嵌入通过Concat 操作进行拼接,作为隐层向量输入 TextCNN
9、 进行篇章级别特征提取,以 TextCNN 的输出作为 softmax 分类器输入,最后进行模型参数的逆向传播,将对应的模型参数保存;本算法技术流程使用 RoBERTa 进行特征提取,在下游文本分类计算任务中使用 TextCNN 模型,以计算客服对话文本与对话意图之间的匹配关系。由于客服对话文本数据存在样本不均衡问题,某些类别数据量较少,对比通常在分类任务中使用的交叉熵损失,在训练中采用 Focal Loss 能让模型更多关注样本较少的用户意图种类,提高对小比例用户意图种类的预测准确度。多分类情况下目标函数:(1)其中为第 t 种用户意图种类预测概率,用于调整权重的陡峭程度,用于调整不同类别之
10、间的比例。负样本远比正样本多的话,模型会倾向于数目多的负类(全部样本都判为负类),这时候,负类的很小,而正类的很大,这时候模型就会开始集中精力关注正样本。Focal Loss 与其他损失函数效果经过对比,使用 Focal Loss能够有效解决样本不均衡问题,提升模型效果。如图5所示。(7)使用训练完成的模型在测试集上进行效果验证,预测对话文本中的对话意图类型,加载预训练好的 RoBERTa-TextCNN 模型进行文本分类,将客服对话文本输入模型进行分类判断,作为最终的对话意图类别输出。4 性能分析性能评估指标如图 7 所示。评估指标测试结果:精准率为82.53%,召回率为86.43%,F1
11、为 0.8443。5 结束语意图识别采用深度学习模型,能够达到很高的识别准确图 3 原始文本向量映射图 4 通过 RoBerTa 模型将字符转换为向量表示图 5 Focal-Loss 效果示意图1202023.02人工智能率,系统的整体识别判断准确率能达到 80%以上。通过深度学习技术,能不断地从历史数据中学习意图判断的规则,不断进行迭代优化,自动生成标注数据,可节省大量标注任务人工,高精准度的意图识别是高层次客服 AI 能力和客服实时 AI能力的关键,本深度学习的算法流程在实践应用中效果良好,该技术具有较多的应用场景,本文也是实现意图识别的技术路径和应用价值的有益的技术参考。作者简介:唐维东(1969),男,江苏南京人,高级工程师,江苏省人工智能学会专业委员会委员;研究方向:人工智能在运营商的应用,运营商网络分析。(收稿日期:2022-10-14;责任编辑:韩菁菁)图 6(a)图 6(b)图 6 TextCNN 模型文本分类原理和实例图图 7 性能评估指标