1、,信息通信基于深度学习的医学影像报告自动生成研究综述梅周俊森,孙水发,李小龙(三峡大学计算机与信息学院,湖北宜昌4430 0 2)摘要:当今医学领域面临着大量的图像数据,自动生成医学影像报告成为了一个备受关注的研究领域。自动生成医学影像报告可以为医生提供快速准确的诊断信息,提高医疗服务的效率和质量。现有的研究主要采用深度学习和自然语言处理技术来生成医学影像报告。文章从影像报告的结构、数据集、现有模型、评估指标介绍该领域目前的现状。最后总结了目前该领域存在的问题与未来研究方向。关键词:深度学习,自然语言处理;文本生成;医学图像处理中图分类号:TP393Methods for automatic
2、generation of medical imaging reports:a survey(College of Computer and Information,Three Gorges University,Yichang 443002,China)Abstract:With the enormous amount of medical imaging data available today,automatic generation of medical image reportshas become a highly researched field.Automatic report
3、 generation can provide doctors with rapid and accurate diagnostic infor-mation,improving the efficiency and quality of medical services.Existing research primarily employs deep learning and naturallanguage processing techniques for report generation.This article introduces the current status of the
4、 field of automatic gener-ation of medical image reports,including the structure of image reports,available datasets,existing models,and evaluation met-rics.Finally,it summarizes the current problems and future research directions in this field.Key words:deep learning;natural language processing;tex
5、t generation;medical image processing1 引言医学影像报告是通过使用影像技术(例如X射线、CT扫描、核磁共振或超声波)对患者进行诊断和监测的结果的文件。报告中包含了医生对影像结果的解释和诊断,并可以为临床医生提供有关患者健康状况的重要信息。医学影像报告自动生成任务旨在通过给定的医学影像,生成清晰(clear)、正确(correct)、简洁(concise)、完整(complete)、一致(consistent)、连贯(coherent)即6 C特点的报告内容。这通常需要撰写的医生对相关专业及影像学诊断方面的知识有扎实的了解。自动收稿日期:2 0 2 3-0
6、2-16作者简介:梅周俊森(19 9 4-),男,湖北宜昌人,研究生,硕士,主要研究方向:医学图像处理,自然语言处理。ii2023年第0 5期(总第2 45期)文献标识码:A文章编号:2 0 9 6-9 7 59(2 0 2 3)0 5-0 0 2 1-0 4MEI Zhoujunsen,SUN Shuifa,LI Xiaolong生成高质量的医学影像报告可以大大加快工作流程的自动化,减轻医生工作负担,降低错误报告的出现概率,提高医疗报告的质量和标准化,因此它已经成为人工智能与智慧医疗领域中热门研究对象。目前,自动生成医学影像报告领域的研究正在迅速发展,已经有许多相关的研究成果。这些研究结果表
7、明,使用深度学习技术的自动生成医学影像报告系统可以生成较为简洁、一致的报告,为医生提供有价值的信息。但也存在一些挑战和问题需要解决,如数据集标准化、生成的报告准确性和可靠+3结语针对计算机视觉在大型建筑结构表面位移监测精准度和靶点定位得难度性这一问题,本文基于计算机视觉光流技术,结合Python-opencv的相关算法,提出一种具有无需安装人工靶点、远距离、鲁棒性高等特点的位移监测算法。(1)借助Python-opencv所编写的光流算法程序相较于传统的特征模板匹配算法在运算速度上有了较大的提升,而且通过二维Gabor滤波器对图像的像素进行增强处理,从而提高了光流匹配过程中的精确性。(2)将本
8、文所提出得算法应用到模拟位移试验和开源DIC算法进行对比,结果表明。本文方法与开源DIC算法的的误差小于0.1%,且计算速度也提高了40%。证实了该方法具有运算速度的优势和鲁棒性。参考文献:1晏班夫,李得睿,徐观亚,等.基于快速DIC与正则化平滑技术的结构形变测试 J.中国公路学报,2 0 2 0,33(0 9):19 3-2 0 5.212叶肖伟,张小明,倪一清,等.基于机器视觉技术的桥梁挠度测试方法 J.浙江大学学报(工学版),2 0 14,48(0 5):8 13-8 19.3 Ye XW,Dong CZ,Liu T.Environmental effect on visionbased
9、 structural dynamic displacement monitoring.Proceedingsof the Second International Conference on Performance-basedand Life-cycle Structural Engineering.Brisbane:Universityof Queensland,2015.261-265.4】韩建平,张一恒,张鸿宇.基于计算机视觉的振动台试验结构模型位移测量 .地震工程与工程振动,2 0 19,39(4):2 2-2 9.5周颖,张立迅,刘彤,等.基于计算机视觉的结构系统识别.土木工程学报
10、,2 0 18,51(11):17-2 3.6 DAUGMAN J G.Uncertainty relation for resolution in spa-ce,spatial frequency,and orientation optimized by two-di-mensional visual cortical filters J.Journal of the OpticalSociety of America A Optics&Image Science,1985,2(7):1160-9.7苏勇,高越,泽仁,等.光绘:自由开源的数字散斑图像生成和评价软件 J.实验力学,2 0 2
11、1,36(1):17-2 8.Changjiang Information&Communications性、解释性等。因此,在未来的研究中,还需要加强对数据预处理、模型训练和评估等方面的研究,以提高自动生成的医学影像报告的准确性和可靠性,使其在实际应用中得到更广泛的应用。2报告结构及相关数据集2.1医学影响报告的结构性与非结构化的医学影像报告相比,结构化的医学影像报告具有以下优点:包含关键信息,并以标准格式呈现,因此更为可靠;信息按照标准模板组织,不会因为表达方式不同而导致理解困难;信息以标准格式呈现,方便对数据进行分类、归档、检索等操作;相比于非结构化的报告,生成一份结构化的报告更为容易。一
12、些著名的放射影像医学协会也强调了结构化报告的必要性,以准确描述放射学结果。对于一份结构化的医学影像报告,它通常包含以下几个方面:(1)患者信息:包括患者的姓名、年龄、性别和其他相关信息;(2)检查信息:包括影像检查的类型、日期、时间和相关技术参数;(3)检查结果:影像结果的描述,包括对正常和异常结构的说明;(4)诊断结果:医生对检查结果的诊断,包括是否存在疾病或潜在问题的说明;(5)建议:医生对接下来的诊疗计划的建议。对于自动生成医学影像报告任务,重点是生成检查结果与诊断结果这两个部分的内容。2.2数据集同时包含医学影像和影像报告的公开数据集比较少,其中又以胸部x光的医学影像报告(CXR)为主
13、。相关研究人员也更倾向与使用较大且先前研究人员使用过的数据集,这样训练出来的模型鲁棒性较好,方便对比不同模型间的性能。目前较为主流的医学影像报告公开数据集如下:IU X-RAYl(The Indiana University Chest X-Ray Collec-tion):由印第安纳大学收集,广泛用于评估医疗报告生成模型的性能。数据集包含7 47 0 对图像和39 55份英文放射报告,每个报告由以下部分组成:impression、f i n d i n g s、t a g s、c o mp a r i-sons 和 indication。ChestX-Rayl2:由美国国立卫生研究院(NIH
14、)临床中心收集,包含32,7 17 名独特患者的1,0 8,9 48 幅正面CXR图像,包含带有手工标记的boundingbox,为评估疾病定位性能提供了标准。MIMIC-CXR3:MIMIC-CXR是最近发布的迄今为止最大的数据集,包括37 7 110 张胸部X射线图像和2 2 7 8 35份来自Beth Israel DeaconessMedical Center的6 458 8 名患者的英文放射学报告。Padchestl4:数据集包含6 7,0 0 0 名患者的16 0 0 0 0 多张六视图的CXR图像,分为6 8,8 55和37,8 7 1异常和正常病例。这些报告按照 Unifed
15、Medical Language System(UMLS)标准共有17 4种放射学结果、19 种诊断。3报告生成模型及评估指标医学影像报告自动生成任务属于图像描述任务(ImageCaption)中的子类任务,因此有相当一部分针对医学影像报告生成模型源于图像描述模型,或者对其做出一定的优化。这些模型可以大致分为3类:(1)基于编码-解码结构;(2)基于图结构;(3)基于强化学习。3.1编码-解码模型编码-解码的模型起源于机器翻译领域,其中的编码器使梅周俊森等:基于深度学习的医学影像报告自动生成研究综述用卷积神经网络(CNN)提取图像特征,解码器使用递归神经网络(RNN)生成报告。编码-解码模型的
16、原理是将高维的输入数据映射到一个低维的表征空间中,解码器再将特征向量重构成为输出数据的一个高维近似,如图1所示。具体到医学影像报告自动生成中,编码器从影像中提取图像特征,解码器通过读取大量影像报告训练语言模型,图像特征作为输入初始文本输入编码器中,语言模型根据输入的初始文本预测下一个词语,再将预测的词语添加到初始文本中,并作为新的输入再次预测下一个词语,重复上述步骤直到生成的文本满足预期长度或文本生成结束。编码器图1编码-解码结构模型目前主流的编码-解码模型使用VGG或Resnet等卷积神经网络作为编码器。CNN在提取图像的局部特征方面具有很大的优势,但是由于卷积运算的局限性,它不能很好地处理远距离关系。将卷积神经网络与自注意力的形式结合起来的Vi-sionTransformer(ViT)用于图像的分类或者通过使用自注意力来进一步处理CNN的输出,取得了较好的效果,尤其是在一些大规模数据集上。Dai等人5将ViT中的HybridArchitecture用在医学图像分类上,提出了TransMed模型,其结合了CNN和Transformer的优点,可以有效地提取图像的低级特征并建立模态之间