带有反馈调节的远程医疗专家自适化推荐.pdf

资源描述

1、第3 2卷第5期 2 0 2 3年9月系统管理学报J o u r n a l o f S y s t e m s&M a n a g e m e n tV o l.3 2 N o.5S e p.2 0 2 3 文章编号:1 0 0 5-2 5 4 2(2 0 2 3)0 5-0 9 6 0-1 6收稿日期:2 0 2 2-0 3-2 7 修订日期:2 0 2 2-0 9-0 1 基金项目:国家社会科学基金资助项目(2 1 B T Q 0 5 3)作者简介:路薇(1 9 9 4-),女,博士。研究方向为信息系统与信息管理。通信作者:翟运开(1 9 8 0-),男,教授。E-m a

2、 i l:z h a i y u n k a i z z u.e d u.c n 带有反馈调节的远程医疗专家自适化推荐路薇1,2,4,高盼1,4,翟运开1,3,4(1.郑州大学管理学院,郑州 4 5 0 0 0 1;2.郑州大学第一附属医院,郑州 4 5 0 0 5 2;3.互联网医疗系统与应用国家工程实验室,郑州 4 5 0 0 5 2;4.河南省智能健康信息系统国际联合实验室,郑州 4 5 0 0 0 1)【摘要】医生推荐能够从专业层面帮助患者快速准确地找到符合需求的医生,确保医疗服务价值的有效实现。从隐私保护出发,提出了一种带有反馈调节的远程医疗专家自适化推荐方法,更强调推荐结果

3、的适应性及可接受性。通过对患者病历和专家长、短期知识特征建模,挖掘知识特征间的相似性,据此缓解专家推荐中的冷启动问题并生成专家推荐指数;将专家活跃度、兴趣度及反馈机制纳入推荐框架,在考虑专家个体行为变化与患者偏好的同时实现专家推荐的动态闭环调整优化,使推荐结果更具解释性和自适性,提升推荐能力;多组对比分析实验验证了融合推荐策略的有效性,实现了患者需求和服务能力的有效适配。研究成果不仅能为远程医疗实践提供借鉴,也为后续相关研究提供理论参考。关键词:专家推荐;反馈调节;兴趣度;活跃度;长短期知识中图分类号:R-0 5 5;G 2 0 3 文献标志码:A D O I:1 0.3 9 6 9/j.i

4、 s s n 1 0 0 5-2 5 4 2.2 0 2 3.0 5.0 0 8 A n A d a p t i v e R e c o mm e n d a t i o n M e t h o d f o r T e l e m e d i c i n e S p e c i a l i s t s w i t h F e e d b a c k A d j u s t m e n t L U W e i1,2,4,G A O P a n1,4,ZHA I Y u n k a i1,3,4(1.S c h o o l o f M a n a g e m e n t,Z h e n g z h

5、 o u U n i v e r s i t y,Z h e n g z h o u 4 5 0 0 0 1,C h i n a;2.T h e F i r s t A f f i l i a t e d H o s p i t a l o f Z h e n g z h o u U n i v e r s i t y,Z h e n g z h o u 4 5 0 0 5 2,C h i n a;3.N a t i o n a l E n g i n e e r i n g L a b o r a t o r y f o r I n t e r n e t M e d i c a l S y

6、 s t e m s a n d A p p l i c a t i o n s,Z h e n g z h o u 4 5 0 0 5 2,C h i n a;4.H e n a n P r o v i n c e I n t e r n a t i o n a l J o i n t L a b o r a t o r y o f I n t e l l i g e n t H e a l t h I n f o r m a t i o n S y s t e m,Z h e n g z h o u 4 5 0 0 0 1,C h i n a)【A b s t r a c t】D o c

7、t o r r e c o mm e n d a t i o n c a n h e l p p a t i e n t s f i n d t e l e m e d i c i n e s p e c i a l i s t s w h o m e e t t h e i r n e e d s q u i c k l y a n d a c c u r a t e l y a t a p r o f e s s i o n a l l e v e l,a n d e n s u r e t h e v a l u e o f h e a l t h c a r e d e l i v e

8、 r y.A n a d a p t i v e r e c o mm e n d a t i o n m e t h o d f o r t e l e m e d i c i n e s p e c i a l i s t s w i t h f e e d b a c k a d j u s t m e n t w a s p r o p o s e d f r o m t h e p e r s p e c t i v e o f p r i v a c y p r o t e c t i o n,w h i c h e m p h a s i z e s t h e a d a p

9、t a b i l i t y a n d a c c e p t a b i l i t y o f r e c o mm e n d e d r e s u l t s.T h r o u g h t h e m o d e l i n g o f p a t i e n t e l e c t r o n i c m e d i c a l r e c o r d s a n d s p e c i a l i s t l o n g-a n d s h o r t-t e r m k n o w l e d g e f e a t u r e s,s i m i l a r i t i

10、 e s b e t w e e n k n o w l e d g e f e a t u r e s w e r e m i n e d,t h e r e b y a l l e v i a t i n g t h e c o l d-s t a r t p r o b l e m i n s p e c i a l i s t r e c o mm e n d a t i o n a n d g e n e r a t i n g s p e c i a l i s t r e c o mm e n d a t i o n i n d i c e s.T h e n,t h e i n

11、 t e r e s t a n d a c t i v i t y o f s p e c i a l i s t s a n d f e e d b a c k m e c h a n i s m w e r e i n c o r p o r a t e d i n t o t h e r e c o mm e n d a t i o n f r a m e w o r k,w h i c h r e a l i z e d t h e d y n a m i c c l o s e d-l o o p a d j u s t m e n t a n d o p t i m i z a

12、t i o n o f s p e c i a l i s t r e c o mm e n d a t i o n w h i l e c o n s i d e r i n g t h e i n d i v i d u a l b e h a v i o r c h a n g e s o f s p e c i a l i s t s a n d p r e f e r e n c e s o f p a t i e n t s,m a k i n g t h e r e c o mm e n d e d r e s u l t s i n t e r p r e t a b l e

13、a n d a d a p t i v e,a n d i m p r o v i n g t h e r e c o mm e n d a t i o n 第5期路薇,等:带有反馈调节的远程医疗专家自适化推荐9 6 1 a b i l i t y.F i n a l l y,t h e e f f e c t i v e n e s s o f t h e f u s i o n r e c o mm e n d a t i o n s t r a t e g y p r o p o s e d i n t h i s p a p e r w a s v e r i f i e d b y

14、 c o n d u c t i n g m u l t i-g r o u p c o m p a r a t i v e a n a l y s i s e x p e r i m e n t s,w h i c h a c h i e v e d t h e e f f e c t i v e a d a p t a t i o n o f p a t i e n t s n e e d s a n d s e r v i c e c a p a b i l i t i e s.T h e r e s e a r c h r e s u l t s n o t o n l y h a v

15、 e g u i d i n g s i g n i f i c a n c e f o r t h e p r a c t i c a l t e l e m e d i c i n e,b u t a l s o p r o v i d e a t h e o r e t i c a l r e f e r e n c e f o r f u t u r e r e s e a r c h.K e y w o r d s:s p e c i a l i s t r e c o mm e n d a t i o n;f e e d b a c k a d j u s t m e n t;i

16、n t e r e s t;a c t i v i t y;l o n g-a n d s h o r t-t e r m k n o w l e d g e 远程医疗是解决医疗资源不均衡问题的战略途径,因其能够借助互联网技术提供跨区域、跨机构的诊疗服务而得到了蓬勃发展1-3。远程医疗在使用过程中已收集、积累了大量代表患者健康状况的临床数据,明显增加了可用于面向患者决策的数字信息,使得数据驱动个性化医疗服务成为可能。但梳理业界实践发现,现有远程医疗服务并未充分利用和发挥其大数据价值。患者最关心的是如何找到最专业的医学专家来解决他们的健康问题4,但对患者而言,为自己挑选合适的专家极具挑战性,尤其

17、是在没有合适匹配机制的情况下。面对信息体量的快速增长,由于患者缺乏专业的医疗背景和知识,他们在寻找合适的专家时不知所措5,面临巨大的时间和搜索成本,使得问题不能得到及时有效的解决,甚至造成医疗资源的浪费,降低诊疗效率6。目前大多采用调度人员人工分配的方式为患者选择会诊专家,但随着会诊量的增加,人工分配的方式无法保证医疗服务的专业性和质量,加之医疗信息的不对称性,易引起患者不信任,进而影响医患关系和患者满意度。同时,快速变化的制度环境和日益增长的患者自主权之间的障碍使医生推荐更加复杂化。为此,探究智能化专家推荐方法,为患者推荐合适的会诊专家显得十分必要。个性化推荐是解决信息过载7和知识迷向8问题

18、的有效途径,能够帮助患者和调度人员过滤掉大量不相关的医疗专家,从专业层面快速准确地找到符合患者需求的远程医疗专家,降低患者搜索成本,辅助医疗决策,确保医疗服务价值的有效实现,从而为患者和远程医疗机构增益。目前,医疗保健领域的个性化推荐技术主要应用于在线健康社区,医疗资源的推荐方法主要分为两类:一类是基于投票评分机制的医生推荐9-1 0,该方法本质上是赋予医生一个静态或动态的综合权威排名,并根据排名为患者推荐医生;另一类是基于相似性的医疗资源推荐1 1-1 2,此类方法在协同过滤和内容推荐思想的基础上,借助语义网技术和社交网络技术来计算患者问题与医生标签之间的相似性,并以此为依据为患者推荐相关医

19、生。尽管推荐系统已被运用于医疗保健领域,但已有研究也存在以下不足:(1)大多患者与医生之间的交互数据较少,且出于隐私保护,患者不愿在在线平台上透露过多个人信息,数据稀疏性问题导致患者偏好难以捕捉,从而导致推荐效果不佳1 3。(2)仅从患者对医生的特征偏好以及医患之间的特征匹配能力出发实施推荐,忽视了患者对不同推荐方式的偏好1 0以及医生兴趣和活跃度及其随时间的变化1 4,导致匹配成本增加,影响整个系统性能。(3)忽略反馈机制在推荐系统中的作用,未能形成推荐模型的闭环调整优化,影响推荐结果的时效性及服务质量1 5。(4)存在冷启动问题,新注册医生由于历史数据的不足缺乏展示机会,难以被发现1 6。

20、同时,以下原因使远程医疗情境下的医生推荐仍具有挑战性:区别于传统推荐,极少患者就不同种类的医疗保健项目进行投票或评分,这给协同过滤机制带来了困难;健康相关数据较为敏感,在远程医疗情境下,患者无法获得其他类似患者的信息,其决策行为不会受到其他患者的影响,这给采用基于社交网络的推荐系统带来了困难。鉴于此,本文在隐私保护前提下,患者被视为独立个体,提出了一种融合专家活跃度和兴趣度以及反馈机制的专家自适化推荐方法。1 相关研究1.1 医疗推荐系统推荐系统通过推荐符合个人兴趣/需求的项目来帮助用户有效处理信息过载问题,并为用户提供个性化服务。推荐技术已广泛应用于电子商务、在线搜索、新闻推送和社交媒体等

21、众多领域1 7,其在医疗领域也逐渐获得关注,相关技术和方法已应用于医生及其他医疗资源的推荐,以更好地支持医疗决策。一般而言,有4种类型的推荐系统:基于协同过滤的推荐、基于内容的推荐、基于深度学习的推荐9 6 2 系统管理学报第3 2卷以及混合推荐。基于协同过滤的推荐是诞生最早且应用最为广泛的推荐算法,它基于“物以类聚、人以群分”的思想,使用评级将用户与一群志趣相投的用户联系起来,利用用户-项目行为矩阵计算用户之间或项目之间的相似性来实施推荐策略。当有足够的评级信息时,协同过滤技术表现出良好的性能。然而,矩阵稀疏性问题一直是制约其推荐效果的主要瓶颈。当前最广泛的解决方法是通过收集更多用

22、户偏好或品味信息来自动预测用户兴趣。R e n等1 8将经常与患者疾病代码共同出现且高相关的搜索词结合,为临床医生推荐特定患者的搜索词,以便从患者大量记录中快速找出所需信息,提高诊断效率。高山等1 9提出了一种融合多种用户行为的协同过滤推荐算法,根据用户多种就医行为下的历史偏好信息进行推荐,缓解了用户在单一模式下评分数据稀少带来的冷启动问题。但此类方法需要提交大量额外的用户行为数据,且基于用户评分的相似性度量亦存在主观性过强的问题2 0。为了弥补协同过滤方法的不足,基于内容的推荐方法被提出。它依赖于项目的内容表示来定位与目标用户喜欢的项目内容相似的项目,并为用户推荐相似内容。一些研究使用了其他

23、类型的用户生成信息,如标签、成员关系和信任关系等以提高推荐的准确性。J u等2 1根据患者的症状、诊断结果、地理位置以及医生的专业与所在科室向患者推荐科室和医生;患者的情境信息如性别、季节、数据特征、年龄、保险等也被融入个性化药品推荐系统中,从而支撑细粒度的诊断与处方2 2。该方法充分展示用户偏好,但容易导致“信息茧房”效应2 3,使用户无法接触到其他领域优质内容,不利于创新。基于深度学习的推荐主要表现为使用神经网络或基于关联规则的推荐,前者通过提取并学习数据潜在特征以达到预测效果;后者通过对不同条目的关联分析挖掘潜在规则,并将关联项目推荐给用户。为最大限度地利用发达医院的先进医疗技术和医生丰

24、富的医学知识,C h e n等2 4对疾病症状进行聚类,并引入A p r i o r i算法对疾病诊疗规则进行关联分析,为患者和缺乏经验的医生推荐适当的诊疗方案。此类方法借助元数据挖掘隐含知识,进而产生用户意想不到的结果,但其关联规则发现需要大规模数据集且极为耗时,其规则有时难以解释,质量或难以保证,且深度学习的“黑箱子”特性导致推荐结果可解释性不足,进而降低用户信任和满意度2 5。兼顾各类推荐方法的优缺点,有学者提出了混合推荐方法2 6,用以优化推荐效果。H u a n g等2 7提出了一种基于协同的医学知识推荐方法,根据临床医生对过去知识项的评价行为所隐含的信任因素来衡量医生信任情况,并将

25、其融合到协同过滤技术中,以提高推荐质量。李鹏飞等2 8对疾病的药物治疗过程进行建模,将患者历史用药数据进行主题聚类,形成药物功效组合标签,并借助X G B o o s t分类模型进行患者药物推荐。1.2 医疗推荐方法医疗推荐的核心是患者和医疗资源的内容建模,通过探知患者的信息/服务需求和医疗资源的服务能力,实现面向患者需求和兴趣的个性化推送,解决信息过载和知识迷向问题。从用户建模视角出发,医疗推荐方法可以划分为主题建模和特征建模。主题建模是广泛应用于自然语言处理的强大智能技术,能够从无序文档或语料库中发现主题和挖掘潜在语义2 9。例如:在问答社区中,从用户发布问题和医生回答中提取词项形成用户

26、模型,依据用户内容间的相似度得到推荐医生候选集,并通过L D A主题模型筛选具有类似专业的其他医生以扩展候选集,最终通过相似度融合6,1 2、患者决策机理3 0、图计算2等方法为患者推荐合适的医生;A l i等3 1将患者病史、食物和处方药物进行本体设计,基于语义W e b规则语言和模糊逻辑提取风险因素以确定患者健康状况,进而从模糊本体中检索药品和食物信息,为患者智能化推荐食品和药品;G a o等3 2利用L D A主题模型训练用户调用记录来提取用户和服务的潜在主题,并基于相似用户形成兴趣子集,最后采用服务关联规则生成感兴趣的链式模式。特征建模聚焦主体或服务的细节,将信任、偏好、绩效等融入推荐

27、方法中。Y u a n等3 3考虑了用户之间的信任和不信任关系,提出了一种基于深度学习的社会化医疗服务推荐模型来预测医疗服务的可靠性。P a n等3 4提出了患者偏好学习算法,向患有不同疾病的患者提供个性化的医生推荐;也有学者考虑了患者对不同推荐方式的偏好以及偏好指标之间的相互依赖性1 0;患者基本信息、疾病特征及用户行为也被纳入推荐框架3 5,构建场景化信息推荐模型,辅助患者获得更为精准的医疗信息。推荐系统的可解释性也逐渐被关注,成为增强患者信任的重要手段。深度学习和知识图谱3 6-3 7等技术被用来生成准确、可解释的医生推荐,从知识图中提取医患的交互特征来反映医生服务质量的个体特征,并将特

28、征输入深度神经网络,基于学习得到注意力权第5期路薇,等:带有反馈调节的远程医疗专家自适化推荐9 6 3 重进而生成易于使用和可解释的推荐结果。综上所述,主题建模和特征建模已成为医生推荐中广泛使用的方法,推荐解释也成为增强患者信任的重要手段。然而,当前研究在对医生特征建模时,大多依托在线医疗或在线问答社区情景,从医生回答文本集3 8、行为网络3 9、患者预约记录3 4、患者评价信息4 0等历史交互数据中提取医生特征,单一地聚焦医生短期内的交互信息或其衍生的评价信息而忽略了长期积累的医学背景。单一数据并不能完全揭示事物的特征,进而缺乏对决策服务的充分、全面支持4 1,而多源数据能够从不同角度描述

29、事物,实现数据之间的相互补充及印证4 2,打破数据孤岛4 3。短期知识特征体现了专家近期的关注与兴趣变化,长期知识特征体现了专家持续性的特质,相对较稳定。两者结合能够更加全面地刻画专家的领域知识信息,提高推荐的准确性和科学性,尤其是对于短期交互信息不足的医生而言,长、短期知识的相互补充能够较为完整地反映医生特征及擅长领域,更好地支撑管理决策。因此,本文将专家的长、短期知识背景结合进行专家特征表征,不仅能够全面刻画专家的知识领域信息,提高推荐的准确性和科学性,也在一定程度上解决了专家推荐中的冷启动问题。2 带有反馈调节的远程医疗专家自适化推荐模型构建本文借助患者病历和专家长、短期知识背景进行特

30、征建模,通过患者特征的相似性获得初始专家推荐指数和推荐专家集合,并基于专家长、短期知识特征的相似性更新新注册专家推荐指数和推荐专家集合。之后,融合专家推荐指数、活跃度和兴趣度形成专业推荐模型,并将其与效用推荐及反馈机制纳入同一框架来构建带有反馈调节的自适化推荐模型,实现专家推荐的闭环调整与自适更新。这在确保推荐结果准确性和相关性的基础上,不仅使推荐结果分布向最频繁、最活跃的专家倾斜进而提升推荐能力,也在考虑患者偏好的同时使推荐更具时效性和自适性。依据研究目标构建了如图1所示的远程医疗专家推荐框架,主要包含4个模块:数据集成与预处理。将多源数据进行收集、提取、聚合及预处理操作,以提高数据质量,生

31、成可靠语料库。基于电子病历的患者特征建模。引入停用词表、自定义用户字典等对可靠语料进行文本分词操作,将患者病历进行文本矢量化描述,并通过挖掘患者与专家诊断背景的契合度实现患者特征到专家特征的映射。面向长短期知识的专家特征建模。基于专家长期积累的知识背景构建专家长期知识特征模型,基于病历库构建专家短期知识特征主题模型,通过挖掘专家知识特征间的相似性,在一定程度上解决冷启动问题并实现从文档到隐主题空间的映射。带有反馈调节的专家自适化推荐模型构建。在患者特征和专家长短期知识特征的基础上,融合专家活跃度和兴趣度形成专业推荐策略,并根据反馈机制调整不同推荐策略间的关系及动态更新专家属性,实现推荐模型的动

32、态闭环调整优化,增强推荐模型的可解释性、自适性及时效性。图1 带有反馈调节的远程医疗专家自适化推荐框架F i g.1 A d a p t i v e r e c o mm e n d a t i o n f r a m e w o r k f o r t e l e m e d i c i n e s p e c i a l i s t s w i t h f e e d b a c k a d j u s t m e n t9 6 4 系统管理学报第3 2卷2.1 数据集成与预处理数据来自双渠道,即远程医疗平台中积累的业务数据和在线医疗平台中的医生简介,原始数据较为粗糙,在进行文

33、本挖掘前需对其进行预处理:提取、整合、存储相关数据,并对数据进行规范化、完整性检查,剔除异常数据、基于填补规则补充缺失值;创建自定义用户字典以使医疗领域专业词汇能够被正确识别;创建停用词列表过滤掉对本次研究无意义的词、数字和符号,进而形成可靠语料,以便后文的数据分析,提高推荐准确率。2.2 基于电子病历的患者特征建模本文基于电子病历进行患者特征建模,形成患者-信息特征模型,并通过患者特征间的交互计算映射获得专家初始推荐指数,进而形成推荐专家候选集。文本分词和矢量化表示利用词的上下文信息将高维语句转换成低维实数向量,并提取出描述患者特征的关键词,形成患者特征模型。具体步骤如下:步骤1 特征词标

34、化。患者病历以专业化的术语组成了患者病症的特征描述,面对专业性强、表述方式因人而异的医学术语,本文加载同义词字典、特征词字典和停用词表进行患者病历规范化处理、中文分词、文本标注和特征词提取。这一策略可增强文本的表征力,使得专业术语能够被正确识别和划分,压缩特征空间维度,提高数据处理效率和预测准确性,增强决策鲁棒性。步骤2 文本矢量化表示。借助w o r d 2 v e c模型计算文本中每个关键词的向量,并对不重复的词向量取平均,进而合成句向量表示文本的最终向量4 4。如患者pi的病历di由f个特征词构成,其规范化表示为:p.f e a t u r e_p r o f i l e=wkwkdi,

35、k=1,2,f,其中,di表示患者pi的病历文本,wk为第k个特征词,其对应的词向量为:vk=vk1,vk2,vk p。步骤3 特征词权重计算。词频(T e r m F r e q u e n c y,T F)是指给定单词在文本中出现的频率,而逆文档频率(I n v e r s e D o c u m e n t F r e q u e n c y,I D F)是衡量单词重要性的指标4 5。据此定义dpi中关键词wk的t f-i d f值为:t f-i d f(wk,di)=t f(wk,di)i d f(wk)(1)t f(wk,di)=nk,ifk=1nk,i(2)i d

36、f(wk)=l o gm1+d:wkd(3)式中:nk,i为特征词wk在病历文档di中出现的频次;m为所有病历的数量;d:wkd 为包含特征词wk的病历数量。但是,若病历中不包含wk,除数将变为0使公式无意义,故 d:wkd 通常表示为1+d:wkd。t f-i d f的值越大,该特征词在病历中的重要程度越高,反之亦然。因此,本文采用t f-i d f值作为特征词权重,刻画特征词的重要程度。病历di的特征向量为di=1ffk=1vkt f-i d f(wk,di)(4)步骤4 文本相似性测度。矢量化的文本可以利用余弦相似度计算文本间的相似度,即各文本与目标文本的相似度S i m(di,dj)。

37、余弦相似度是一种最简单、有效的向量相似度计算方法,其公式为S i m(di,dj)=c o s=didj(di)2(dj)2(5)步骤5 生成推荐专家候选集。以专家诊断过的相似患者的最高相似值作为专家初始推荐指数i n i_s c o r e,完成患者特征到专家特征的映射,即通过目标患者特征与专家诊断的患者特征之间的相似性映射医-患背景的相似性。相似患者的诊治专家组成初始推荐专家候选集。为推荐优质医生,需返回高相似度患者的会诊专家,但是由于远程会诊患者并不是常见疾病或特征,故设置相似度阈值会限制推荐结果。综上所述,本文设置以下两个条件:统计所有相似专家,将其相似患者的最

38、高相似度作为专家初始推荐指数,并按照初始推荐指数进行降序排序;从排序结果中取T o p-1 0纳入候选集。2.3 面向长短期知识的专家特征建模病历库反映了专家在一定时间段内诊疗的疾病特征,而网页上公布的专家简介表征了专家持续性积累的经验及长期关注的疾病领域,因此,专家短期知识特征以病历库为基础,专家长期知识特征从专家简介中提取。2.3.1 基于知识视图的长期知识特征模型基于患者病历文本相似性确定推荐专家候选集的推荐策略只能发现诊断过与目标患者相似病情的专家,对于系统中新注册或业务数据较少的专家(统称为“新注册专家”),由于业务量少、缺乏足够的数据支撑,以至于被推

39、荐机会不高。为解决新注册专家的冷启动问题,利用知识属性快速建立专家之间的关联,即通过计算知识属性的视图相似性来表征专家长期知识之间的相似度,并据此更新新注册专家初始推荐指数,进而增加他们的被推荐机会,在一定程度上缓解冷启动问题。具体步骤如下:步骤1 特征表示。针对知识的多样性,根据第5期路薇,等:带有反馈调节的远程医疗专家自适化推荐9 6 5 其所属领域、研究专长等赋予其不同的属性,如医生和疾病之间存在多对多关系,即一个医生可能擅长多种疾病,一种疾病也可被多个医生擅长,医生专长可以用向量表示,且取值为0,1,1表示医生擅长该疾病,0表示不擅长该疾病。因此,本文通过计算医生知识属性的视图相似性

40、来表征医生长期知识领域之间的相似度,构建如表1所示的专家知识属性矩阵。表1 专家知识-属性矩阵T a b.1 S p e c i a l i s t s k n o w l e d g e-a t t r i b u t e m a t r i x专家知识属性A1A2AgS1a1 1a1 2a1gS2a2 1a2 2a2gSnan1an2an g 专家简介信息的不完整使得特征模型面临数据稀疏性问题。如果取所有医生同时具有的属性作为填充值,则相似度偏低,为保持中立,采取频次统计方法进行缺失值填充。具体地,假设aj p为缺失值,即专家Sj的第p个知识属性未知,若nj=1aj pS0.5,则令aj

41、p=1;否则,aj p=0。其中,S为专家总数,专家长期知识特征规范化描述为 d.f e a t u r e_p r o f i l e=aj p,j=1,2,n;p=1,2,g 步骤2 知识视图相似度测度。根据医生擅长疾病构建其知识结构,并通过计算医生之间的知识视图相似性来预测医生的能力匹配。基于知识的属性特征,采用J a c c a r d系数计算知识之间的属性相似性,其计算公式为J a c c a r d(j,h)=A(j)A(h)A(j)A(h)(6)式中:A(j)和A(h)分别为专家Sj和Sh的知识属性集;A(j)A(h)为专家Sj和Sh同时拥有的知识个数;A(j)A(h)为专家Sj

42、和Sh共有的知识个数。此外,基于不同知识的贡献和重要程度的差异性,通过权重对不同知识加以区分,得到加权的J a c c a r d知识视图相似度:S i mK n o w l e d g e(j,h)=aA(j)A(h)(a)aA(j)A(h)(a)(7)式中,(a)为知识属性的权重。为充分利用属性信息,通过信息熵的大小为属性确权,权重是从数据中学习的,避免了专家确权的主观性过强,即 (a)=-p(a)l o g2p(a)-(1-p(a)l o g2(1-p(a)(8)p(a)=n(a)|S|(9)式中:p(a)为属性a出现的概率;n(a)为属性a出现的次数。步骤3 新注册专家初始推荐

43、指数更新。为返回具有相似知识领域背景的专家,设置专家相似性阈值为0.7,若S i mK n o w l e d g e0.7,则返回该专家索引值。同时,更新新注册专家的初始推荐指数,即 i n i_s c o r e j=i n i_s c o r ej+1qqh=1i n i_s c o r ehS i mK n o w l e d g e(j,h)(1 0)式中:i n i_s c o r eh为符合阈值要求的相似专家的初始推荐指数;q为新注册专家的相似专家数量。最后,按照相似性排序更新推荐专家候选集。2.3.2 基于L D A的专家短期知识特征模型仅通过寻找相似患者形成推荐专家候选集的

44、推荐策略是片面的,系统中可能存在其他符合目标患者需求的专家。L D A主题概率模型将专家知识特征映射至隐主题空间,在同一主题下寻找具有相似概率分布的专家,能够从语义层面有效识别出擅长诊治相似疾病的专家,大大降低寻找相似专家的规模和时间成本。因此,本文选用L D A主题模型凝练专家诊断过的病历文本,从中识别代表疾病类别的隐藏主题,这些主题代表专家擅长的疾病特征,每个专家属于一个或多个隐藏主题,生成基于主题的专家短期知识特征描述框架,在语义层面扩展推荐专家候选集。(1)L D A主题模型。L D A模型是一种用于语料库建模的非监督产生式概率方法,是主题建模4 6最常用的方法,其基本思想4 7是文档

45、被表示为隐含主题的随机混合物,其中主题由若干个特征词以特定概率分布构成。L D A根据文档和词汇的概率分布将高维文本-词汇矩阵分为两个低维的文档-主题矩阵和主题-词汇矩阵,从而得到文档的主题分布。一条文本的生成过程可以形式化表述为:从D i r i c h l e t()分布中抽取文档d下的多项式主题分布d,即dD i r i c h l e t();从D i r i c h l e t()分布中抽取主题t下的多项式词分布t,即tD i r i c h l e t();对于文档d中的词wk,从以d为参数的多项式分布中抽取主题zn,即zn Mu

46、l t i(d);从以zn为参数的多项式分布中抽取文档d中的第k个单词,即wk Mu l t i(zn)。概率模型如图2所示。9 6 6 系统管理学报第3 2卷图2 L D A概率模型F i g.2 L D A p r o b a b i l i s t i c m o d e lL D A的建模过程可以描述为每个资源寻找主题的混合,即文档中的每个词以特定概率选择某个主题,并从主题中以一定概率选择某个特征词来得到,该过程可形式化为P wkdi =Tn=1P wkzn P zndi (1 1)式中:P(wkdi)为给定文档di中第k个特征词的概率;zn为潜在主题,其数量是预设的;P(w

47、kzn)为特征词wk出现在主题zn的概率;P(zndi)为从文档di的主题zn中选择特征词wk的概率。(2)专家短期知识特征主题模型。在远程医疗情境中,一位专家可以诊疗多名患者,一名患者也可以通过多次申请享受同一位或多位专家的服务。本文侧重于由专家诊断过的患者病历文本组成的专家短期知识,专家与患者对应关系对本文影响不大,故后文不再对医患对应关系进行强调。鉴于此,本文在隐私保护基础上,在隐主题空间上构建面向短期知识特征的专家知识模型,其建模过程为:步骤1 整合专家诊断过的患者病历文本作为专家短期知识背景,进而形成L D A训练语料库,以便于专家短期知识特征模型的训练与构建。步骤2 通过主题

48、聚类凝练出隐藏的主题t o p i c(t)=t o p i c1,t o p i c2,t o p i ck及每个医生的“文档-主题”分布d.t o p i c_p r o f i l e=t1,t2,tk,k为经过L D A主题聚类出的主题数。步骤3 L D A主题聚类生成的“主题-词项”概率分布可完成对专家短期知识特征的表达:d.f e a t u r e_p r o f i l e=,i=1,2,n,其中,fi为主题下的特征词,i为特征词的权重,n为特征词个数。步骤4 基于“文档-主题”概率分布的相似性得到与推荐专家候选集中具有相似知

49、识特征的专家,并以此作为面向专家短期知识特征的推荐指数s h o r t_s c o r e,这些相似专家也具有诊疗目标患者的能力。在L D A模型中,采用服从D i r i c h l e t分布的主题概率向量来衡量,若使用余弦夹角来计算文本相似度就失去了主题模型的优势。K L散度作为一种衡量两个概率分布差异性的方法,常被用来计算文档主题分布向量的相似度4 8。则两个分布P和Q的K L散度为DK L(PQ)=xXP(x)l o gP(x)Q(x)(1 2)但由于K L散度的不对称性使其不能用作距离测量,即DK L(PQ)DK L(QP),故作为K L散度的变形,具有对称性的J S散度被提出并

50、弥补K L散度的不足。DJ S0,1,DJ S的值越小,表示两个分布越相似,当两个分布相同时,DJ S=0。则两个分布P和Q的J S散度为DJ S(PQ)=12DK LPP+Q2 +12DK LQP+Q2 (1 3)两个分布越相似,DJ S的值越小,因此,为了方便进行相似度计算,对J S散度值进行转换,转换方式为s h o r t_s c o r e=S i mD o c t o r(P,Q)=11+DJ S(PQ)(1 4)式中:为调节因子;相似度取值范围为0,1。2.4 带有反馈调节的专家自适化推荐模型构建患者并不是被动地接受服务推荐,而可以提出自身需求和偏好,并在需求得到满足后对服务质

展开阅读全文