基于矩阵分解的标签语义约束跨模态检索

资源描述

1、现代计算机Modern Computer第 28 卷第 24 期2022年12月25日文章编号:1007-1423（2022）24-0057-05DOI:10.3969/j.issn.1007-1423.2022.24.010基于矩阵分解的标签语义约束跨模态检索梁林清，冯士华（贵州师范大学数学科学学院，贵阳550025）摘要：跨模态检索是指在不同类型的模态中搜索具有相似语义的数据。现有方法未充分利用样本对多标签信息，且未充分利用标签的语义信息。基于此，提出一种基于矩阵分解的标签语义约束跨模态哈希方法。首先，分别为各模态的样本学习语义表示；然后，根据多标签信息构造语义相似度矩阵来约束模态间语义

2、相关性；最后，利用语义表征学习哈希码及哈希函数。实验结果表明，本方法优于大多数矩阵分解哈希跨模态检索领域的方法。关键词：哈希算法；语义约束；矩阵分解；跨模态检索0引言随着社交媒体的发展和普及，互联网上产生了大量的多媒体数据，如图像、文本、视频等。大量多模态数据的产生导致单一模态的数据处理方法已不能满足人们的需求，而是需要跨不同模态分析这些数据。例如从一种模态的数据出发，查询与其语义相关的另一种模态数据，即跨模态检索。由于不同模态数据存在异构鸿沟与语义鸿沟，跨模态检索面临的关键挑战是如何弥合语义差距，以便获取来自不同模态的异构数据之间的语义相关性。为解决这些问题，直观的思路是利用异构数据学习一个

3、共同的空间，并在此空间中直接度量来自不同模态数据之间的相似性。这种思路代表性的方法有 CCA1，由于不同模态数据有不同的特征空间，CCA方法只考虑共同语义表征的相关性显然不够。除此之外，现有的子空间方法需要计算大规模高维数据，计算量非常大。近年来，跨模态哈希检索方法2由于存储成本低和查询速度快得到了大量的研究。跨模态哈希的主要思想是学习公共汉明空间，从而保留异构数据之间的语义3相似性。现有的跨模态哈希方法主要包括无监督方法和有监督方法。无监督方法通过探索模态数据之间的相似性来学习公共汉明空间，如无监督深度跨模态谱哈希（DCSH）4等。然而，在无监督信息的情况下学习能保持异构数据的语义相似性的哈

4、希码并不简单，所以在样本标签的指导下，监督方法可以学习到更有判别性的哈希码。例如，Liu等5提出通过集体矩阵分解的图正则化来保持多模态原始特征之间的相似性。虽然上述方法通过探索各种语义监督信息取得了改进，但不同模态数据的异构鸿沟并未有效弥合，我们应该考虑公共语义表示是否能准确描述模态特定的表征。已有的很多工作都使用集体矩阵分解方法来建模公共语义表示，但只有共同的潜在语义表示，并不能充分表达各模态数据的特征，同时这些基于矩阵分解的方法都忽略了多标签样本对，不能发掘多标签样本对的语义信息。为了解决该问题，本文提出了一种标签语义约束矩阵分解哈希方法，在学习模态特定的语义表示的同时，充分考虑到多标签样

5、本对于模态间的语义相似性建模的重要性，即利用不同模态样本的标签信息来构建语义相似度矩阵，以表征模态特定的语义表示的相关性。图1为本文所提方法的框架图，包括训练集哈希函数学习阶段和训练集以外的样本的哈希码检索阶段。框架图的基本流程如图1所示：首先学习不同模态的潜在语义表征V1和V2，57现代计算机2022年然后利用标签语义相似度矩阵对特定模态的语义表征V1和V2的相关性进行建模。最后，将所有特定模态的语义表示都投影到二进制码中，得到哈希码的封闭解。我们在一个多标签数据集上做了广泛的实验，其结果表明，所提出的方法优于大多数现有的方法。X1X2W1U1U2V1SV2W2R1R2BR1W1R2W2V1

6、V2BB图 1本文所提方法的框架图1研究现状Yao 等6提出了一种有效的离散监督哈希（EDSH），该方法首先通过集体矩阵分解学习公共空间，然后学习正交旋转矩阵，将共享空间与汉明空间之间的语义相关性连接起来，最后学习离散哈希码。集体矩阵分解是将原始表示分解为共同的潜在语义表示，但由于不同模态的数据有不同的统计属性，学到的共同语义表示并不能充分表达各模态的信息。为了分别表达不同模态的独特，Wang 等7提出使用联合和私有矩阵分解哈希（JIMFH），该方法使用联合矩阵分解和私有矩阵分解方法，并同时学习特定模态表示和共同语义表示，然后通过量化公共语义表示获得哈希码。Xiong等8提出了一种特

7、定模态的矩阵分解哈希（MsMFH），该方法首先使用矩阵分解来学习特定模态的语义表示，然后使用正交旋转矩阵进行对齐。Mandai等9提出了一种基于哈希的标签一致矩阵分解来学习特定模态的哈希函数。为了充分利用语义信息的判别性，Liu等10提出了一种有效的快速鉴别离散哈希（FDDH）方法，该方法利用正交基将目标哈希码化归到相应的语义标签上，并利用拖拽技术保证了较大的语义边缘。以上方法都没有考虑到具有多个类别标签的样本对信息。事实上，在许多标准的跨模态基准数据集中，如 MIRFLICKR-25K11，NUSWIDE12，每对实例对都具有多个标签，若能充分利用多标签样本对这一信息，则

8、模态间和模态内的语义相似性都能被准确挖掘。在大多数情况下，多标签包含丰富的语义信息，可以为语义相似度的计算提供更详细的语义信息。为此我们提出了特定模态的标签语义约束矩阵分解哈希算法。2方法提出2 2.1 1符号说明符号说明本文重点研究图像文本的跨模态检索。给定N个图像文本实例对X=xi,yiNi=1，并且iNxij=0,iNyij=0。样本对的语义标签为L=l1,l2,lN0,1c N，其中c为样本类别数，当第i个样本对xi,yi属于第j类别时，Lij=1；否则Lij=0。B=-1,1k N是这N个实例对的哈希码，其中k为哈希码长度。2 2.2 2数学建模数学建模受特定模态矩阵分解方法8,13

9、的启发，为充分利用各模态数据的语义，分别学习各个模态的表征，然后在语义空间中对各表征进行对齐，建模如下：J1=1X-U1V12F+2Y-U2V22F+()U12F+U22F+V12F+V22F（1）其中，Ut Rdt k和Vt Rk N分别是基矩阵和表示矩阵，t(t=1,2)和为平衡参数。在跨模态检索的研究中，有样本对中存在多个标签的情况，因此为了更好地保留模态间的信息，定义一个语义相似矩阵S=sij RN N，其中sij的定义如下：sij=li lj li+lj-li lj（2）其中，li为第i个样本对的标签向量，lj为第j个 58梁林清等：基于矩阵分解的标签语义约

10、束跨模态检索第24期样本对的标签向量，是零范数。由sij的定义可看出，其值越大，则表明第i个样本对与第j个样本对在语义上更为相似。因此使用语义相似矩阵对模态间的语义关系进行约束建模：J2=S-VT1V22F（3）其中为平衡参数。同时，为了保留模态间的信息，本文从潜在语义表示中分别引入正交旋转矩阵Rt,t=1,2用以生成哈希码，并且有：J3=B-R1V12F+B-R2V22F（4）其中Rt Rk k,t=1,2。通过该公式，可以在训练阶段直接获得哈希码，能在最大程度上减少量化误差。为了处理训练集外的样本，我们将对图像和文本分别学习哈希映射函数，以将原始的图像和文本特征分别映射到潜在的空间中：J4

11、=V1-W1X2F+V2-W2Y2F+()W12F+W22F（5）其中Wt Rk d,t=1,2分别是图像和文本的哈希映射矩阵，为平衡参数。联合公式（1）、（3）（5），得到总的目标函数如下：argmin J1+J2+J3+J4s.t B-1,1k N,RtRTt=I,t=1,2（6）2 2.3 3算法实现算法实现公式（6）对所有变量而言都是非凸函数，但固定其他变量时，公式（6）关于非固定变量是凸函数，因此采用最优化算法来对各变量进行更新。若将除U1以外的所有变量都固定，则公式（6）可变为argminU11X-U1V12F+U12F（7）将公式（7）对变量U1求导，并令该导数为0，得到关于Ut

12、的封闭解如下：U1=XVT1()V1VT1+1I-1（8）同理，可求出其他变量的封闭解如下：U2=XVT2()V2VT2+2I-1（9）V1=()1UT1U1+()+I+V2VT2+RT1R1-1()1UT1X+V2ST+W1X+RT1B（10）V2=()2UT2U2+()+I+V1VT1+RT1R1-1()2UT2Y+V1ST+W2Y+RT2B（11）W1=V1XT()XXT+I-1（12）W2=V1YT()YYT+I-1（13）B=sgn()R1V1+R2V2（14）由于Rt Rk k,t=1,2是正交矩阵，故可使用奇异值分解算法（SVD）来求解。重复以上迭代步骤，直至收敛。事实上，以上每

13、个变量都能获得封闭解。整体算法如算法1：算法1：基于矩阵分解的标签语义约束跨模态检索输入：训练数据X,Y，相应的样本标签，哈希码长度k以及平衡参数1、2、1：随机初始化B、V1、V2、R1、R2，以及哈希投影矩阵W1、W22：for 从第一步开始 do3:利用公式（8）更新U14:利用公式（9）更新U25:利用公式（10）更新V16:利用公式（11）更新V27:利用公式（12）更新W18:利用公式（13）更新W29:利用公式（14）更新B10:使用SVD更新Rt Rk k,t=1,211：返回输出：输出投影矩阵Rt，以及哈希投影矩阵Wt,t=1,23实验3 3.1 1数据集说明数据集说明本文所

14、提方法在公开数据集 NUSWIDE 上进行了验证。NUSWIDE12是一个真实世界的图像数据集。包括 186776对图像-文本对，每个 59现代计算机2022年图像-文本对从 10个语义类别中进行标记。其中，随机选择5000对图像-文本对作为训练集，并选择1867对图像-文本对作为测试集。3 3.2 2实验细节和评估指标实验细节和评估指标本文通过实验确定了参数：t=1,=1,=1,=5,t=1,2。验证了本文所提出方法的两个检索任务：图像检索文本（I2T）和文本检索图像（T2I）。此外，使用平均精度（mAP）来评估本文方法的最终性能。3 3.3 3实验结果和分析实验结果和分析本文方法与

15、 CCA1、STMH13、CMFH5、SMFH2、EDSH6、JIMFH7、MsMFH8、SCMFH14方法进行比较。表 1 为本文方法和其他方法在 NUSWIDE数据集上的 mAP分数，其中，哈希码长度从 8位到64位。从表1可以看出，本文方法在多数情况下都是优于其他方法的，这是因为我们采用了对各个模态数据的矩阵分解以学习到特定于各模态的语义表示，同时也利用标签做语义相关性，这样能极大地提高检索精度。与此同时可以看到，在大多数方法上，T2I 检索任务的性能优于 I2T 检索任务，这是因为文本数据比图像数据编码更多的鉴别信息。表 1各方法在NUSWIDE数据集上哈希码长度从8到64之间的mAP

16、methodsCCASTMHCMFHSMFHEDSHJIMFHMsMFHSCMFHoursI2T8 bits0.3760.3480.4340.3920.4940.5000.5180.5260.51316 bits0.3680.3720.4580.3970.5090.4940.5490.5870.59732 bits0.3630.3860.4690.4050.5380.4860.5630.6020.63364 bits0.3590.3790.4700.4070.5540.5010.5680.6180.637T2I8 bits0.3720.3910.4300.4280.4740.6070.6790.7130.70916 bits0.3660.4150.4460.4360.4830.6260.6900.7450.73732 bits0.3610.4210.4580.4420.5210.6240.6990.7590.76264 bits0.3580.4300.4650.4460.5530.6350.6860.7500.7844结语本文提出了一种用于跨模态检索的标签语义约束矩阵分解哈希算法，首先

展开阅读全文

基于矩阵分解的标签语义约束跨模态检索_梁林清.pdf