基于模块化降噪自编码器的视网膜OCT图像降噪方法_代豪.pdf-资源下载-蜗牛文库-知识共享服务平台

基于模块化降噪自编码器的视网膜OCT图像降噪方法_代豪.pdf

1、0110001-1研究论文第 43 卷第 1 期/2023 年 1 月/光学学报基于模块化降噪自编码器的视网膜 OCT图像降噪方法代豪1，2，3，杨亚良1，2*，岳献1，2，3，陈燊1，2，31中国科学院光电技术研究所，四川成都 610209；2中国科学院自适应光学重点实验室，四川成都 610209；3中国科学院大学，北京 100049摘要针对光学相干层析成像（OCT）过程中，光线散射、目标微动和硬件抖动等原因引起的噪声干扰，尤其是视网膜OCT 图像中存在的严重噪声干扰问题，提出了一种基于模块化降噪自编码器的渐进式 OCT 图像降噪方法。使用多层卷积和反卷积构建自编码器，以模块化深度神

2、经网络的架构为基础搭建了具有多个自编码器模块的神经网络，每个自编码器模块可依次输出降噪程度逐渐升高的过程结果，以满足不同的使用需求。以均方误差、峰值信噪比和结构相似度作为降噪结果的评价指标，对编码器模块数量 T的研究结果表明，所设计的编码器在 T=4时具有最佳性能。利用所提方法和各种主流方法对正常眼和病眼的视网膜 OCT 图像进行降噪处理，结果表明所提方法在各项指标上均取得最优结果，可以有效地对视网膜 OCT图像进行降噪处理和大幅提升图像的质量。关键词图像处理；视网膜光学相干层析图像；图像降噪；降噪自编码器；深度学习中图分类号 TP391.4 文献标志码 A DOI：10.3788/AOS2

3、208151引言光学相干层析成像（OCT）是一种非侵入和无损伤的内部“光学切片”观察技术，具有高分辨率、高灵敏度和快速等优点，已被广泛应用于生物、医学、工业亚表面检测和文物鉴定等领域中1-2。OCT 技术在眼科中应用最为成功和广泛，其已成为眼科临床上必不可少的日常检查工具和疾病诊断金标准。OCT 具有高纵向分辨能力，该能力使其成为眼底视网膜在体成像的强大技术手段，这是因为视网膜的纵向结构异常复杂，在不到 0.5 mm 的厚度范围内包含着多层组织结构和分界膜，对它们的分层观察和定量测量有助于找到病变的原因。受到组织的高散射性和成像过程中目标的微动或硬件的抖动等因素的影响，OCT 图像中总是携带

4、着以散斑噪声为主的噪声信号3，它会淹没有用的目标信号、使细节信息丢失和降低图像的对比度 4，从而使得后续处理环节精度下降。对于视网膜 OCT 成像而言，由于视网膜是半透明组织，由其返回至探测器的光信号非常微弱，再加上眼组织像差和眼球微颤引起的目标抖动等因素的干扰，故噪声干扰非常严重，这给后续的视网膜亚层分割和厚度测量等工作带来了困难5-6。因此，自视网膜 OCT 成像技术出现以来，如何对图像进行降噪处理以提高图像的质量一直受到研究人员和产业界的高度关注。已有多种 OCT 图像降噪方法被提出，其中提出最早和应用最为广泛的是基于多帧 B-Scan图像（纵截面内的二维图像）平均的方法7-8，该方法通

5、过对同一目标区域进行多次扫描（横向一维往返扫描）来获取多幅OCT 图像，再将它们配准并平均成一幅图像来降低噪声，但该方法存在着信号采集时间较长、图像错位（由信号采集过程中发生的微位移引起）和图像易模糊等缺陷9。一些经典的图像处理算法也被用于 OCT 图像降噪，包括基于滤波10-12、基于块匹配13-14和基于稀疏表示的方法15-16等。基于滤波的方法主要包括均值滤波10、中值滤波11和高斯滤波12等，基于块匹配的方法包括非局部均值滤波13和三维块匹配（BM3D）算法14等。这些方法虽然取得了一定的降噪效果，但是会过度平滑图像，从而导致边缘对比度降低和细节信息丢失17。此外，基于块匹配的方法通常

6、包含多个步骤，当图像数据量较大时，存在着耗时长和任务复杂度高等问题。Fang等15提出了一种针对谱域 OCT（SD-OCT）图像的字典学习降噪算法，这是一种基于稀疏表示的方法。Zhang等16在分析 SD-OCT 图像噪声的收稿日期：2022-03-17；修回日期：2022-04-27；录用日期：2022-06-20；网络首发日期：2022-06-30基金项目：国家自然科学基金（61575205）、中国科学院光电技术研究所前沿部署项目通信作者：*0110001-2研究论文第 43 卷第 1 期/2023 年 1 月/光学学报基础上，提出了基于噪声估计和全局字典的稀疏表示的降噪算法。这类方法需

7、要根据先验信息来估计噪声水平和手动调节表征稀疏程度的超参数，若噪声水平估计不准确，则降噪效果会变得不理想。近年来的大量研究成果和临床实践经验均表明，深度学习在眼科图像处理领域的应用日益广泛且效果显著。在 OCT 领域中，深度学习主要被用于图像的分割18-19、分类20-21和降噪22-24等，而其在图像降噪方面的应用还只处于起始阶段。用于 OCT 图像降噪的深度学习网络目前主要有降噪自编码器（DAE）和生成对抗网络（GAN）。Vincent 等22提出了将多个 DAE 堆叠而成的深度神经网络，取得了高质量的降噪结果。Ma 等23提出了一种边缘敏感条件 GAN，用于商用OCT 成像仪的图像降噪。

8、Halupka等24提出了一种具有感知相似性的 GAN，以增强商用仪器 OCT 图像的质量。这些基于深度学习的方法通过最小化定义的损失函数来实现降噪前后的端到端映射，这意味着降噪的程度是不可控的。然而，在实际环境中，噪声的大小有可能发生变化，其程度不可控将会导致模型的泛化能力降低。对于医生而言，患者的病情不同，所要求的降噪程度也会不同，基于端到端的深度学习网络限制了对降噪程度的自主把控。若按同一标准降噪，难免会出现部分图像降噪不彻底而另一部分图像过度降噪的问题，前者会导致图像中仍含有残余噪声，而后者会导致图像模糊不清，故均应避免。因此，Shan 等25提出了一种通过克隆多个自适应神经网络模块来

9、实现端到过程的图像降噪方法，并且在计算成像领域中取得了显著的降噪效果。为了降低视网膜 OCT 图像的噪声，并针对基于端到端的深度神经网络的不足，本文将模块化的方法应用到视网膜 OCT 图像领域中，提出了一种基于端到过程的深度学习网络来实现视网膜 OCT 图像的降噪。采用模块化自编码器结构对视网膜 OCT 图像进行循环降噪，将每个自编码器网络输出的降噪图像作为下一个自编码器网络的输入，直到输出的降噪图像达到预期要求，从而实现端到过程的降噪，使得医生可根据任务需求来对降噪过程进行自主控制。本文使用杜克大学公开的视网膜 OCT 数据集来训练搭建的深度神经网络，并基于测试集对所提模型和其他主要方法进行

10、比较，以验证所提方法的可行性和优越性。2方法2.1降噪自编码器原理DAE 是一种将损坏或有噪声的数据点作为输入，经过训练后能够提取出输入数据的高维深层特征，从而输出未损坏或干净的原始数据点的神经网络19。DAE 的原理如图 1所示，包含编码器和解码器两个部分，首先将x?映射到隐藏层中编码成 h，这一过程可表示为h=f(x?)=(wx?+b)，（1）式中：w 是编码权重；b 是偏置量；是激活函数，如Sigmoid、ReLU 和 ELU 等；h是x?在高维潜在空间中的表达；f()为编码函数。编码之后又将 h 解码成 y，这一过程可表示为y=g(h)=(wh+b)，（2）式中：w是编码权重；b是偏

11、置量；y是x?经过自编码器重构后的样本；g()为解码函数。因此，可以得到重构误差为L(y，x?)=y-x?22，（3）对训练集的每个样本的误差求和，得到关于 w 和 b 的误差函数J(w，b)=i=1nL(yi，x?i)。（4）因此，对 DAE 的训练目的就是找到最优的参数 w和 b，以使生成的降噪图像和目标图像之间的重构误差最小，从而迫使 DAE能够提取输入图像的高维深层特征。然后，将噪声点根据数据特征映射到估计的高概率点上，从而达到图像降噪的目的26。2.2模块化降噪自编码器结构所提模块化降噪自编码器（MDAE）由多个相同的自编码器组成，模块化自编码器的结构原理可描述为Iout=m(T)(

12、Iin)=(m m )m(Iin)K，（5）式中：Iin为输入的带有噪声的 OCT 图像；Iout为网络输出的 OCT 图像；K 为理想的无噪声的 OCT 图像；m 代表一个自编码器模块；为操作符，用于将多个函数进行组合处理；T 为自编码器模块的数量，其取值由具体任务决定。图 1DAE原理示意图Fig.1Schematic diagram of DAE principle0110001-3研究论文第 43 卷第 1 期/2023 年 1 月/光学学报不同于直接输出单幅降噪图像的模型，MDAE 是端到过程的模型，可以输出多幅降噪图像，实现渐进式交互降噪操作，其网络结构如图 2 所示。每一个自编

13、码器模块均包含编码器和解码器两个部分：编码器由4个卷积层构成，用于提取图像特征，每个卷积层包含32 个大小为 33 的卷积核，使用 ReLU 作为激活函数；解码器由反卷积层构成，用于解码潜在表达，反卷积层包含 32 个大小为 33 的反卷积核。为了减少参数量和提高训练速度，所有模块共享参数，即所有模块的参数相同。参数 T的选择可由以下三个因素中最早满足者决定：1）医生通过肉眼直观感受当前降噪图像是否达到临床使用要求，如达到则停止降噪，并将当前输出的降噪图像作为最终结果；2）设定评价指标阈值，若当前模块输出图像的评价指标相较于上一模块的变化小于该阈值，说明继续降噪已无明显收益，则停止降噪；3）若

14、有非常高的降噪要求，则将 T 设置为模型本身或计算能力所允许的最大值，达到该值后停止工作。因此，该工作模式可根据任务需求来灵活调节参数 T，实现过程可控，其中因素 1）有利于人工参与，而因素 2）和因素 3）可保证无人值守时 MDAE的自动运行。2.3数据集自编码器是一种神经网络，对它的训练也需要大量数据的支持。本文使用杜克大学公开的 TMI_2013OCT 数据集27，这些视网膜 OCT 图像由Bioptigen公司的 840 nm 波段 SD-OCT 成像仪（轴向分辨率约为 4.5 m）采集。图像来自正常人群和患有年龄相关性黄斑变性（AMD）患

15、者，包含了 72 组训练样本对和 18组测试样本对，每组样本对均由含噪声的初始图像和多帧平均降噪后的图像（视为无噪声的理想图像）组成，训练集和测试集的比例为 4 1。利用训练集对搭建的 MDAE 网络进行训练，为了考察网络的泛化能力，本文结果部分用到的正常眼和 AMD 病患眼的图像均来自于测试集。为避免训练数据量不足引起的模型欠拟合问题的出现，需采用数据增强手段来扩充训练集规模。散斑噪声是一种乘性噪声，服从正态分布，可表示为p(I)=1vexp(-Iv)，（6）式中：v是图像 I有噪声时的方差。为尽可能获取真实 OCT 图像的散斑噪声，需进行三步操作：1）将图像读取为数值矩阵X，使用标准三维正

16、态分布N(r，c，h)生成随机值，其中r、c和h分别为图像的行数、列数和通道数；2）设置一散斑噪声强度系数，其取值范围为 01，平均间隔取 10 份；3）通过计算(1+)X来得到新的数值矩阵，再将该矩阵图像化，从而得到带噪声的图像。对训练集中的每一幅图像都随机生成 10幅加入噪声的图像，从而使训练集的规模增加 10倍，再将像素数为 900450的图像裁剪成100 幅像素数为 9045 的无重叠子图，最后可得到79200组训练样本对。2.4实验环境和参数设置MDAE 模型的搭建基于开源深度学习框架Keras。实验设备的内存大小为 16 GB，同时使用NVidia K80 GPU 加速模型训练。为避免均方误差（MSE）损失函数带来的图像过度平滑问题29的出现，本文采用均方绝对误差作为损失函数。学习率会影响网络收敛速度和精度，综合考虑数据规模和训练时间两个因素后，本文将初始学习率设置为 0.001。同时，为避免采用固定学习率导致的训练过程中梯度下降陷入局部最优解的问题的出现，采用 Adam 优化器根据梯度的一阶矩估计和二阶矩估计来动态地调整

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？