收藏 分享(赏)

基于神经网络的医疗文本分类研究_许浪.pdf

上传人:哎呦****中 文档编号:2515082 上传时间:2023-06-27 格式:PDF 页数:7 大小:1.09MB
下载 相关 举报
基于神经网络的医疗文本分类研究_许浪.pdf_第1页
第1页 / 共7页
基于神经网络的医疗文本分类研究_许浪.pdf_第2页
第2页 / 共7页
基于神经网络的医疗文本分类研究_许浪.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 基于神经网络的医疗文本分类研究*许 浪1,2,李代伟1,2,张海清1,2,唐 聃1,2,何 磊1,2,于 曦3(1.成都信息工程大学软件工程学院,四川 成都 6 1 0 2 2 5;2.四川省信息化应用支撑软件工程技术研究中心,四川 成都 6 1 0 2 2 5;3.成都大学斯特灵学院,四川 成都 6 1 0 1 0 6)摘 要:传统的医学文本数据分类方法忽略了文本的上下文关系,每个词之间相互独立,无法表示语义信息,文本描述和分类效果差;并且特征工程需要人工干预,因此泛化能力不强。针对医疗文本数据分类效率低和精度低的问题,提出了一种基于T r a n s f o r m e r双向编码器表示

2、B E R T、卷积神经网络C NN和双向长短期记忆B i L S TM神经网络的医学文本分类模型CMNN。该模型使用B E R T训练词向量,结合C NN和B i L S TM,捕捉局部潜在特征和上下文信息。最后,将CMNN模型与传统的深度学习模型T e x-t C NN和T e x t R NN在准确率、精确率、召回率和F1值方面进行了比较。实验结果表明,CMNN模型在所有评价指标上整体优于其他模型,准确率提高了1.6 9%5.9 1%。关键词:自然语言处理;医疗文本分类;B E R T;C NN;B i L S TM中图分类号:T P 3 9 1文献标志码:Ad o i:1 0.3 9

3、6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 3.0 6.0 1 9M e d i c a l t e x t c l a s s i f i c a t i o n b a s e d o n n e u r a l n e t w o r kXU L a n g1,2,L I D a i-w e i1,2,Z HANG H a i-q i n g1,2,T ANG D a n1,2,HE L e i1,2,YU X i3(1.S c h o o l o f S o f t w a r e E n g i n e e r i n g,C h e n g d u U

4、n i v e r s i t y o f I n f o r m a t i o n T e c h n o l o g y,C h e n g d u 6 1 0 2 2 5;2.S i c h u a n P r o v i n c e E n g i n e e r i n g T e c h n o l o g y R e s e a r c h C e n t e r o f S u p p o r t S o f t w a r e o f I n f o r m a t i z a t i o n A p p l i c a t i o n,C h e n g d u 6 1

5、0 2 2 5;3.S t i r l i n g C o l l e g e,C h e n g d u U n i v e r s i t y,C h e n g d u 6 1 0 1 0 6,C h i n a)A b s t r a c t:T h e t r a d i t i o n a l m e d i c a l t e x t d a t a c l a s s i f i c a t i o n m e t h o d s i g n o r e t h e c o n t e x t o f t h e t e x t.E a c h w o r d i s i n

6、d e p e n d e n t o f e a c h o t h e r a n d c a n n o t r e p r e s e n t s e m a n t i c i n f o r m a t i o n.T h e t e x t d e s c r i p t i o n a n d c l a s s i f i c a t i o n e f f e c t a r e p o o r,a n d f e a t u r e e n g i n e e r i n g r e q u i r e s m a n u a l i n t e r v e n t i

7、o n,s o t h e g e n e r a l i-z a t i o n a b i l i t y i s n o t s t r o n g.A i m i n g a t t h e p r o b l e m s o f l o w e f f i c i e n c y a n d l o w a c c u r a c y o f m e d i c a l t e x t d a t a c l a s s i f i c a t i o n,t h i s p a p e r p r o p o s e s a m e d i c a l t e x t c l a

8、s s i f i c a t i o n m o d e l CMNN b a s e d o n b i d i r e c t i o n a l e n c o d e r r e p r e s e n t a t i o n s f r o m T r a n s f o r m e r(B E R T),c o n v o l u t i o n a l n e u r a l n e t w o r k(C NN)a n d B i-d i r e c t i o n a l l o n g a n d s h o r t-t e r m m e m o r y(B i L S

9、 TM)n e u r a l n e t w o r k.T h e m o d e l u s e s B E R T t o t r a i n w o r d v e c t o r s a n d c o m b i n e s C NN a n d B i L S TM t o c a p t u r e l o c a l l a t e n t f e a t u r e s a n d c o n t e x t u a l i n f o r m a-t i o n.F i n a l l y,t h e p r o p o s e d m o d e l i s c o

10、m p a r e d w i t h t h e t r a d i t i o n a l d e e p l e a r n i n g m o d e l s T e x t C NN a n d T e x t R NN i n t e r m s o f a c c u r a c y,p r e c i s i o n,r e c a l l a n d F1 s c o r e.T h e e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e CMNN m o d e l o u t p e r f o r m

11、s o t h e r m o d e l s o n a l l e v a l u a t i o n m e t r i c s,a n d t h e a c c u r a c y i s i m p r o v e d b y 1.6 9%5.9 1%.K e y w o r d s:n a t u r a l l a n g u a g e p r o c e s s i n g;m e d i c a l t e x t c l a s s i f i c a t i o n;B E R T;C NN;B i L S TM*收稿日期:2 0 2 2-0 9-2 7;修回日期:2

12、 0 2 2-1 1-1 5基金 项 目:欧 盟 项 目(5 9 8 6 4 9-E P P-1-2 0 1 8-1-F R-E P P KA 2-C B HE-J P);国 家 自 然 科 学 基 金(6 1 6 0 2 6 0 4);四 川 省 科 技 厅 项 目(2 0 2 1 Y F H 0 1 0 7,2 0 2 2 Y F S 0 5 4 4,2 0 2 2 N S F S C 0 5 7 1)通信作者:于曦(y u x i c d u.e d u.c n)通信地址:6 1 0 2 2 5 四川省成都市成都信息工程大学软件工程学院A d d r e s s:S c h o o l

13、o f S o f t w a r e E n g i n e e r i n g,C h e n g d u U n i v e r s i t y o f I n f o r m a t i o n T e c h n o l o g y,C h e n g d u 6 1 0 2 2 5,S i c h u a n,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第6期2 0 2 3年6月 V o

14、 l.4 5,N o.6,J u n.2 0 2 3 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 6-1 1 1 6-0 71 引言随着信息化时代的快速发展,在线医疗咨询平台越来越受到人们的欢迎。患者可以在线描述自己的健康状况,方便、及时地咨询医生,从而获取用药和治疗方案等信息。这种通过网络进行诊疗的方式,可以很大程度上解决线下医疗面临的地理不便、服务 能 力 分 布 不 均、医 患 信 息 不 对 称 等 问题1,2,提高了有限优质医院资源的利用效率。更重要的是,近年来,人工智能作为新一轮技术革命和产业变革的重要动力,极大地推动了智能医疗的发展3。I s o b e等4开发

15、了辅助康复治疗的医疗A I系统。D i n g等5基于深度学习算法,利用大脑的1 8 F-F D G P E T对阿尔茨海默病进行早期预测。其中,根据患者病症自动正确地推荐科室是网络问诊的重要组成部分。因此,基于自然语言处理和深度学习技术的智能医疗指导受到越来越多的关注,而医学文本分类是其中不可或缺的一部分。本文提出了一种混合文本分类模型,该模型通过预训练模型B E R T(B i-d i r e c t i o n a l E n c o d e r R e p r e s e n t a t i o n s f r o m T r a n s-f o r m e r)对 文 本 向 量 进

16、 行 编 码,然 后 利 用C NN(C o n v o l u t i o n a l N e u r a l N e t w o r k)提取局部特征,接 着 根 据 使 用B i L S TM(B i-d i r e c t i o n a l L o n g S h o r t-T e r m M e m o r y)网络的高内存容量捕捉到的长期依赖关系将提取的特征正确连接起来,从而保证了文本分类的准确性。实验结果表明,本文提出的模型比其他基线模型具有更好的性能。本文的重点如下:(1)为进一步提高文本分类效果,提出了一种结合预训练模型、C NN和B i L S TM的医学领域文本分类方法,可有效提高文本分类准确率。(2)为了提高词向量表示的能力,本文在文本向量化过程中使用B E R T模型训练词向量。新模型还利用了C NN和B i L S TM的独特优势。C NN从空间角度提取文本的局部特征,B i L S TM得到句子的序列特征。(3)与其他先进的优化模型进行了深入的比较,从准确率、精确率、召回率和F1值方面进行评估。本文其余部分的组织如下:第2节介绍词嵌入技术和文本分类在医

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2