基于重构对比的广义零样本图像分类_许睿.pdf-资源下载-蜗牛文库-知识共享服务平台

基于重构对比的广义零样本图像分类_许睿.pdf

1、基于重构对比的广义零样本图像分类许睿邵帅曹维佳刘宝弟陶大鹏刘伟锋摘要广义零样本图像分类中常使用生成模型重构视觉信息或语义信息用于再进一步学习然而，基于变分自编码器的方法对重构样本利用不够充分，表示性能欠缺因此，文中提出基于重构对比的广义零样本图像分类模型首先，使用两个变分自编码器将视觉信息和语义信息编码为同维度的低维隐向量，再将隐向量分别解码到两种模态然后，使用投影模块投影视觉信息与语义模态的隐向量重构的视觉模态信息最后，对投影后的特征进行重构对比学习在保持变分自编码器重构性能的基础上增强编码器重构的判别性能，提高预训练特征在广义零样本图像分类任务上的应用能力在

2、个标准数据集上的实验证实文中模型的有效性关键词广义零样本图像分类，变分自编码器，对比学习，语义信息，视觉信息引用格式许睿，邵帅，曹维佳，刘宝弟，陶大鹏，刘伟锋基于重构对比的广义零样本图像分类模式识别与人工智能，（）：中图法分类号；，o，oo o，o o o oo o oo o o，o oo o o o oo oo o o o o o，oo o o o oo o oo，o o o o o oo oo o o o o o o，o o o o o ，o o oo o o oo oo o o o o，oo o o o oo oo o o o ，o收稿日期：；录用日期：，；o，国家自然科

3、学基金项目（o）、中国石油天然气集团公司重大科技项目（o）、模式识别国家实验室开放项目（o）、中国石油大学项目（华东）研究生创新基金项目（o）资助o o oo o（o），o oo o o（o），o o o oo o oo（）（o），oo o o o o（）（o）本文责任编委陶卿o o o 中国石油大学（华东）控制科学与工程学院青岛之江实验室基础理论研究院杭州中国科学院空天信息创新研究院遥感卫星应用国家工程研究中心北京云南大学信息学院昆明 o o oo ，o o（），o o o，oo，o o o o o，o oo ，o，oo o oo ，第卷第期模式识别与人工智能o

4、 o 年月 oo o o ，o o o oo o oo o o oo o o o oo o，o oo，o，oo，oo ，oo o o oo o oo ，（）：近些年，随着深度学习的兴起，基于深度学习的分类方法取得巨大突破此类方法往往需要依赖大量的有标签数据然而，在很多真实场景中，收集标签昂贵甚至不切实际因此，如何让深度模型可在没有标签或标签不足的条件下依然达到令人满意的精度，受到学者们的广泛关注，进而延伸出对应的零样本学习（oo，）和小样本学习（o，）零样本图像分类亟待解决的问题为：如何通过可见类样本中的信息对不可见类样本进行分类，其中可见类样本和不可见类样本没有交叉为了让该任务更贴

5、合实际应用，研究者又提出广义零样本学习（，），旨在同时对可见类样本和不可见类样本进行分类广义零样本图像分类任务中的样本主要包含两种模态信息：视觉模态信息和语义模态信息视觉模态信息指图像特征表示；语义模态信息指类别属性或类标签表示，可见类和不可见类具有共享的属性空间在此任务中，为了获得较好的视觉模态信息，往往借助预训练模型（如）提取特征当前大多数广义零样本图像分类方法首先学习视觉模态信息和语义模态信息之间的映射，即从可见类中学习属性在图像特征中的通用表示，然后以属性为纽带，将共享知识迁移到对无标签样本的分类中根据模态映射形式的不同，广义零样本图像分类方法主要包括类）将视觉模态信息映射到语

6、义模态，学习两个模态信息在语义空间上的关系；）将语义模态信息映射到视觉模态，再在视觉模态空间学习；）将视觉模态信息和语义模态信息映射到共享子空间，再在子空间进行学习；）两个模态信息互相映射，即把两种模态信息都映射到另一个模态空间，学习两个模态信息的对齐关系在这类模型中，）、）、）类都包含将一种模态特征映射为另一模态信息的过程，即重构图像或语义，这些过程的本质是生成任务，需要使用生成模型在第）类模态映射形式中虽然没有直接生成某种模态信息，但是将某种模态信息映射到子空间，同样可用生成模型实现综上所述，基于生成模型的方法是零样本学习领域的一个重要研究方向生成模型的主流方法有两种：变分自编码器（

7、o oo，）和生成对抗网络（o，）等提出，使用不可见类的语义信息生成不可见类的图像，用于扩充训练样本，在扩充后的样本集上训练分类器，提高模型对不可见类样本的分类性能由于容易产生模式崩溃问题，较稳定，学者们提出一些基于条件变分自编码器的零样本学习算法，如（oo o oo）、（o）和（o ）但是这些方法未关注模态对齐，忽略不同模态信息尺度不同的问题为了更好地进行模态对齐，等提出（o o ），通过分布对齐损失和交叉对齐损失，学习跨模态共享的隐向量，提升模型效果然而在基于的模型中，通常仅使用约束距离实现各种对齐，编码器重构的样本判别力仍存在不足对比学习可缓解这一问题对比学习通过构造相似实例

8、和不相似实例，即正例和负例，习得一个表示学习模型通过这个模型，使相似的实例在投影空间中较接近，而不相似的实例在投影空间中距离更远，使模型学习到更有判别性的表示方法，现已成为近年来的研究热点等提出（oo o o o），结合对比学习与数据增强，提高模型的表示能力，在无监督学习的实验中取得媲美有监督学习的结果等提出（o o），结合的生成模型，提出带有对比嵌入的混合框架，提升模型的分第期许睿等：基于重构对比的广义零样本图像分类类准确率上述模型都已证实对比学习的有效性在的模型中，重构样本可为对比学习提供大量的正例和负例因此本文将对比学习引入的广义零样本图像分类方法中，并提出基于重

9、构对比的广义零样本图像分类模型此外，在对比损失之间引入可学习的非线性映射，大幅提高学习表示的质量，学习更有用的表征本文借鉴在对比损失之间引入可学习的非线性投影模块的思想，在预训练特征和语义信息生成特征的投影子空间特征之间构建正例和负例，使模型学习更具有判别性的表示，增强编码器的性能在传统的标准数据集上，在广义零样本和广义小样本图像分类设置下对本文模型进行广泛的实验评估，验证模型的优越性基于重构对比的广义零样本图像分类模型本文提出基于重构对比的广义零样本图像分类模型，在预训练特征的投影和变分自编码器使用语义信息重构的视觉特征的投影之间引入对比学习，其中投影模块提取两部分特征中更本质的表示

10、对比学习使投影特征之间判别性更强，从而增强的编码性能，充分挖掘预训练的视觉特征在零样本学习中，定义训练集（），（），其中，（）表示第个样本的特征，表示该样本对应的标签，（）表示该样本对应的属性信息，表示可见类，表示训练样本的个数测试集（），（），其中：表示不可见类，它与可见类类别不同，即；表示测试样本的个数训练集和测试集样本不同，即而在广义零样本图像分类中，识别集中不仅包括不可见类，同时也包括可见类，即（），（）本文的目标是根据训练集提供的信息，预测测试集样本的标签模型整体框架如图所示模型的输入包含两种模态信息：视觉模态信息（）和语义模态信息（）视觉模态信息使用预训练的提取

11、原始图像特征，语义模态信息是专家标注、原始图像相同类的属性每个模态由一个独立的变分自编码器模块进has_wing_color:greyhas_back_color:greyhas_eye_color:blackhas_nape_color:whiteH()hih+CL1L预训练的特征提取模型ix(2)ixE2E1D1D2D1D2(2)iz(1)iz2CALCALDAL2VAELH()最大化相似度,(2)(2)(1),(1)(1)1VAE图本文模型框架图 o o oo o模式识别与人工智能（）第卷行编码解码，基于视觉模态的编码器模块（）和基于语义模态的编码器（）将不同维度的视觉特征和语义特

12、征嵌入相同维度的低维空间除了变分自编码器损失的约束，模型还添加重构对比模块，对齐两个模态信息，并在低维空间训练一个分类器变分自编码器模块变分自编码器能利用神经网络同时拟合生成模型和推断模型推断模型是自编码器中的编码层，生成模型是自编码器中的解码层使用表示原始数据特征，z 表示编码器得到的隐向量变分推断的目的是找出隐向量上的真实条件概率分布（z）由于分布的相互作用性，可使用变分下限最小化其距离，找到最近的代理后验分布（z）以近似变分自编码器的目标函数为：（z）（z）（z）（z）（）其中：公式第项表示经生成模型解码后数据与原始数据的差异，为重构误差；第项表示推理模型（z）和（z）之

13、间的散度，度量两个分布之间的距离损失先验的一个常见选择是多元标准高斯分布设定编码器预测均值和方差，后验分布服从（z）（，），通过重参数化技巧生成一个隐向量 z本文模型使用个独立的变分自编码器，视觉模态的变分自编码器对应图中的编码器和解码器编码器把视觉模态信息映射到一个低维空间，获得该模态的隐向量 z（）为了减少信息损失，变分自编码器通过解码器（）将隐向量 z（）重构为原始数据语义模态的变分自编码器对应图中的编码器和解码器在图中使用标注视觉模态变分自编码器的损失，标注语义模态变分自编码器的损失，根据式（）得到视觉模态和语义模态的个变分自编码器损失和：（）（）（）（）（

14、）z（）（）（z（）（）（）（z（），（）其中，（）表示视觉模态隐向量的真实条件概率分布，（）表示视觉模态隐向量的近似后验分布，z（）表示语义模态编码器生成的隐向量，（）表示语义模态隐向量的真实条件概率分布，（）表示语义模态隐向量的近似后验分布，表示散度的权重系数重构对比模块为了使变分自编码器学习跨模态的相似表示，本文使用部分损失对两种模态的对齐进行约束，分别是分布对齐（o，）损失、交叉对齐（o，）损失和重构特征对比损失分布对齐损失目的是对齐视觉和语义两个模态在公共的低维隐向量 z（）、z（）的多元高斯分布，本文模型用距离表示个分布距离由于编码器预测的对角线协方差矩阵为交换矩阵，这个

15、距离可简化为（）（）（）（）o）（）交叉对齐损失目的是对齐跨模态重构的特征在两个模态对齐的情况下，使用另一模态的隐向量重构的特征应和当前模态的原始特征相似使用变分自编码器模块使两个模态信息在编码后得到相同维度的隐向量z（）、z（）视觉模态的解码器（）对语义模态编码后的隐向量 z（）解码重构出和视觉模态预训练特征相同维度的特征（z（）语义模态的解码器（）对视觉模态编码后的隐向量 z（）解码重构出和语义模态特征相同维度的特征（z（）因此，度量跨模态重构的特征和原始特征可得到交叉对齐损失：（）（）（）（z（），（）其中，（）表示视觉模态的编码器，（）表示语义模态的编码器，（）表示视觉模态的解码器，

16、（）表示语义模态的解码器，表示个交叉对齐损失之和，表示视觉模态的预训练特征和语义信息重构的视觉特征之间的交叉对齐损失，表示语义模态的原始特征和视觉信息重构的语义特征之间的交叉对齐损失因为视觉模态和语义模态被认为是同等重要的，因此和的权重系数相同重构特征对比损失计算视觉模态预训练特征和属性信息重构的视觉特征同类样本投影后的对比学习损失跨模态重构的特征是真实视觉特征增强后的特征，对于真实视觉特征和增强特征，可建立一个分类子问题区分唯一的一个正例（）和全部的负第期许睿等：基于重构对比的广义零样本图像分类例，正例（）与（）具有相同的类标签，而负例的类标签与（）的类标签不同遵循的策略，在投影空间中添加一个非线性投影模块（），对视觉样本（）的嵌入记为（），对于对应的增强样本的嵌入记为（）具体来说，对于个正例和个负例，分类问题的交叉熵损失计算如下：（，）|k|k|，（）其中，表示对比嵌入的温度参数，k表示负例，表示负例数通常大量的负例能使模型捕获同类样本中真实样本和重构样本共享的强判别信息和结构在这一过程中编码器（）、解码器（）直接参与生成语义模态重构的

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？