随着互联网图像等多媒体内容的爆炸式增长,在线Web图像的语义场景检索问题引起了学者们的研究兴趣。传统的研究工作聚焦在基于单概念的图像检索上,未能很好检索含有复杂语义场景的图像。为解决语义场景Web图像检索问题,我们提出了一种基于多模态深度学习的语义场景图像检索方法(SSIR)。首先,使用一个多模态CNN训练网络作为概念分类器;其次,通过计算语义概念之间的依赖关系来精炼概念的语义分数,以进一步增强分类器的场景识别能力;最后,为提升对稀疏场景概念的检索性能,应用梯度下降算法来补偿在真实应用中不平衡图像集上语义概念的频率差。在MIR Flickr 2011标准图像数据集上对比了其他传统方法,结果表明我们的语义场景检索方法性能更优。 With the explosive growth of multimedia objects such as Web images over the Internet, online semantic scene image retrieval has been receiving increasing research interest. Conventional studies focus on single-concept-based image retrieval and cannot effectively retrieve semantic scene images including multiple concepts that describe characteristic semantic scene. To tackle this issue, i.e., semantic scene Web image retrieval, we propose a novel approach called multi-modal deep learning based Semantic Scene Image Retrieval (SSIR) in this paper. In particular, we first train a multi-modal Convolutional Neural Network (CNN) as a concept classifier for images and texts. Second, semantic interdependencies of the subconcepts included in the images are utilized to refine the predicted semantic scores in order to enhance holistic scene recognition. Finally, to improve the performance of retrieving rare scene concepts, a gradient descent algorithm is used for compensating the varying frequencies of concepts derived from imbalanced image datasets. The results of our experiments on MIR Flickr 2011 have shown that our proposed approach performs favorably compared with several traditional methods.
徐海蛟,张展鸿,何佳蕾,方钰敏
广东第二师范学院,计算机科学系,广东 广州
收稿日期:2019年7月28日;录用日期:2019年8月12日;发布日期:2019年8月19日
随着互联网图像等多媒体内容的爆炸式增长,在线Web图像的语义场景检索问题引起了学者们的研究兴趣。传统的研究工作聚焦在基于单概念的图像检索上,未能很好检索含有复杂语义场景的图像。为解决语义场景Web图像检索问题,我们提出了一种基于多模态深度学习的语义场景图像检索方法(SSIR)。首先,使用一个多模态CNN训练网络作为概念分类器;其次,通过计算语义概念之间的依赖关系来精炼概念的语义分数,以进一步增强分类器的场景识别能力;最后,为提升对稀疏场景概念的检索性能,应用梯度下降算法来补偿在真实应用中不平衡图像集上语义概念的频率差。在MIR Flickr 2011标准图像数据集上对比了其他传统方法,结果表明我们的语义场景检索方法性能更优。
关键词 :语义场景图像检索,卷积神经网络,深度学习
Copyright © 2019 by authors and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
在Web 2.0/3.0时代,社交媒体获得了前所未有的发展,“互动”是图像等社交多媒体最重要的传播特征和要求,用户常常自由地给予这些Web图像共享的文本社交标签(社会化标签) [
对于在线图像检索,传统的单模态方法要么仅使用了图像模态数据 [
近年来,卷积神经网络(CNNs) [
图1. 语义场景图像检索示例图
验结果看,这种设计能显著提高分类器对多概念语义场景的判断识别能力。具体来说,首先,设计一个多模态CNN以识别多概念语义场景。每个CNN分为卷积块层与全连接分类器层。学习时,图像(视觉模态)与关联文本(文本模态)被分别送入各自模态的卷积块层与全连接分类器层。全连接分类器层包含两类分类器,即适合单概念识别的单概念目标分类器以及有助于整体场景识别的多概念场景分类器。第二,语义概念之间的依赖关系被用来计算概念的语义分数,以进一步增强分类器的判断识别能力。假若一个概念c与其关联概念们以较高的频率共现在图像集中,一旦发现关联概念们频繁出现,c的预测分数值将被提高。最后,通过融合运算,SSIR方法整合了视觉模态和文本模态的预测分数值。为改善对稀疏概念的检索性能,应用梯度下降算法来补偿在真实应用中不平衡图像集上语义概念的频率差。
设多模态图像训练集为 L = { ( I 1 , T 1 ) , ⋯ , ( I N , T N ) } ,多模态图像测试集为U。每个图像文本对 ( I i , T i ) ∈ L 或者 ( I , T ) ∈ U 表示一幅图像及其关联的若干个弱语义文本标签,分别由低层视觉特征和低层文本特征组成。给定一个包含有K个不同语义单概念的强语义单词表 V = { c 1 , ⋯ , c i , ⋯ , c K } ,其中每一个语义概念 c i ∈ V 是一个语义单概念(例如“rainbow”或者“wedding”)。在训练集L中的每幅图像被标注若干个语义单概念ci,而测试集U中的图像没有任何强语义标注。每个语义场景多概念 C i = { c 1 , ⋯ , c k } 是V的幂集中的一个元素即 C i ∈ 2 V 或者 C i ⊆ V ,其中k是Ci的长度即 k = | C i | 。给定一个多概念语义场景查询 Q = { c 1 , ⋯ , c t } ∈ 2 V 和带强语义标注的训练集L以及未标注图像测试集U,目标是寻找包含所有t个目标单概念的最相关图像 I ∈ U 。
SSIR检索框架如图2所示,包含3个部分:卷积块层、分类器层、在线检索。卷积块层学习出两类特征:深度视觉特征与深度文本特征。通过视觉卷积块层,将图像像素转换为视觉特征向量;通过文本卷积块层,将关联的文本社交标签转换为词嵌入 [
图2. SSIR系统框架
每个多概念 C i ∈ V * 可视为单个抽象场景概念Ci,也可视为k个分离的单概念ci。对于多概念单词表V*的生成,为避免产生无意义的语义概念排列组合,SSIR模型基于训练集L上的共现规则选择出有场景语境的多概念Ci用以生成一个强语义多概念单词表V*:
| C i | ≤ t (1)
| N r ( c 1 , ⋯ , c k ) | ≥ s (2)
其中 表示所有k个语义概念ci在训练集L中的共现总数,即多概念频率。如果集合V*太大,可以控制共现阈值s以减少训练开销。
任何CNN网络都可融入我们的检索模型,不失一般性,我们选择了近年来一个有影响力的高效CNN模型ResNet [
p ( C j | I ) = exp ( q j ( I ) ) ∑ k exp ( q k ( I ) ) , (3)
其中, q j ( I ) 是图像I在第j个概念Cj的离散概率分布,它由ResNet分类器产生。为最小化ResNet预测概率与真实概率的KL距离,我们使用如下场景多概念softmax损失函数:
f softmax = − 1 N ∑ i ∑ j p ¯ i , j log ( p ( C j | I ) ) , (4)
其中, p ¯ i , j 是一个图片I的指示器函数:当概念Cj在图片I中存在则 p ¯ i , j = 1 否则 p ¯ i , j = 0 ;N是图像总数。传统的单概念CNN基本结构为卷积块层后接分类器层。卷积块层学习出深度特征,而分类器层执行从I到Cj的映射,识别出语义概念Cj。我们设计的SSIR场景检索模型包含两类分类器:单概念分类器和多概念场景分类器。当 | C j | = 1 时,Cj为一个传统的单概念;当 | C j | > 1 时,Cj为一个场景多概念,其作为一个整体概念参加学习。
对于文本CNN网络,很多适合自然语言处理的CNN网络都可融入我们的场景检索模型,不失一般性,我们选择了一个有影响力的高效CNN模型SentenceCNN [
首先生成语义邻居集 R ( Q ) ⊂ V * ,通过选择出概率p(Q|Ci) > 0的邻居概念Ci,这个对称的语义概率p(Q|Ci)表示两个概念Q和Ci之间的相关性,它可以基于多模态图像训练集L如下定义:
p ( Q | C i ) = 2 × N r ( Q , C i ) N r ( Q ) + N r ( C i ) (5)
其中Nr(Q)与Nr(Ci)表示多概念Q与Ci的共现频率,Nr(Q, Ci)表示同时包含有两个概念Q与Ci的图像数,每一个多概念Ci被看做是自己的语义邻居并且服从约束条件p(Ci|Ci) = 1。
其次,选择出所有的查询零件 C i ∈ Q 到集合Rrc(Q)。最后从剩余的语义概念中选择出最相关的r个概念Cr到集合Rrc(Q),于是包含Krc个元素的查询上下文Rrc(Q)就生成了。后续实验中,在验证集上将Krc试验取值范围为2~20执行交叉验证,发现当设置Krc = 8时性能最佳,因此Krc = 8作为后续实验的默认值。为了保持语义相关性的概率属性,语义关联概率p(Q|Ci)被如下归一化:
p ( Q | C i ) = { p ( Q | C i ) ∑ r = 1 K r c p ( Q | C r ) if C i , C r ∈ R r c ( Q ) 0 elsewhere . (6)
对于查询概念Q,上述Krc个有语义相关性的元素 C i ∈ R r c ( Q ) 联合参与未标注多模态图像文本对(I, T)的相关性计算,输出相关性估值 r ( Q , ( I , T ) ) :
r ( Q , ( I , T ) ) = r ( Q , I ) + r ( Q , T ) (7)
r ( Q , I ) = α 1 × r s ( Q , I ) + α 2 × r m ( Q , I ) (8)
r ( Q , T ) = α 3 × r s ( Q , T ) + α 4 × r m ( Q , T ) (9)
其中,r(Q, I)和r(Q, T)分别表示图像I和文本T各自模态关于查询概念Q的相关性估值; r s ( Q , . ) 和 r m ( Q , . ) 分别表示CNN单概念分类器和CNN多概念分类器输出的单模态相关性估值; { α 1 , α 2 , α 3 , α 4 } 是SSIR场景检索方法的待优化参数,且服从约束条件: α 1 + α 2 + α 3 + α 4 = 1 。公式(7)体现了多模态预测数据的后期融合,公式(8)与(9)体现了单概念分类器与多概念场景分类器预测数据的后期融合。 r s ( Q , . ) 和 r m ( Q , . ) 相关性估值的计算如下,体现了SSIR场景检索方法对于语义相关性的利用。
r s ( Q , I ) = ∏ i = 1 t p ( c i | I ) , (10)
r m ( Q , I ) = ∑ i = 1 K r c p ( Q | C r ) × p ( C r | I ) , C r ∈ R r c ( Q ) , (11)
r s ( Q , T ) = ∏ i = 1 t p ( c i | T ) , (12)
r m ( Q , T ) = ∑ i = 1 K r c p ( Q | C r ) × p ( C r | T ) , C r ∈ R r c ( Q ) , (13)
其中,后验概率p(Ci|I)和p(Ci|T)经由视觉CNN多概念分类器和文本CNN多概念分类器计算;语义相关性p(Q|Cr)可以看做是后验概率p(Ci|I)和p(Ci|T)的权重。
为找出较好的参数 α = { α 1 , α 2 , α 3 , α 4 } ,使用在训练数据上的极大对数似然函数方法。令 y Q i ∈ { 0 , 1 } 表示语义场景多概念Q是否出现在多模态图像数据 ( I i , T i ) ∈ L 中,相关性预测值p(yQi)如下给出:
p ( y Q i = 1 ) = r ( Q , ( I , T ) ) , (14)
p ( y Q i = 0 ) = 1 − r ( Q , ( I , T ) ) , (15)
p ( y Q i ) = p ( y Q i = 1 ) y Q i p ( y Q i = 0 ) 1 − y Q i (16)
因此,检索概念Q的对数似然函数被如下改写:
L Q = ∑ i = 1 N n Q i log p ( y Q i ) (17)
其中nQi是正反例数目N+和N−的不平衡性惩罚因子。假若yQi = 1,设置nQi = 1/N+;否则,nQi = 1/N−。将公式(17)中的p(yQi)项用公式(14)到(16)替换,可以获得下列对数似然函数:
L Q = ∑ i = 1 N n Q i log { ( α β ) y Q i ( 1 − α β ) 1 − y Q i } (18)
其中,
β = { ∏ i = 1 t p ( c i | I ) , ∑ i = 1 K r c p ( Q | C r ) × p ( C r | I ) , ∏ i = 1 t p ( c i | T ) , ∑ i = 1 K r c p ( Q | C r ) × p ( C r | T ) } .
通过梯度下降法 [
评价实验采用了公开数据集MIR Flickr 2011 [
由于MIR Flickr 2011数据集中的概念最高频数是11,因此设定公式(1)的参数t = 11。s控制计算V*的计算开销,经验设置s = 200。于是,V*含有15,970个场景多概念。为测试语义场景检索性能,我们构建了检索测试集Q*:所有的单概念 c j ∈ V 加入Q*;随机生成500个双概念场景查询;随机生成500个三概念场景查询;随机生成500个四概念场景查询。这样,Q*共计包含1599个语义场景查询。
表1列出了与最新图像标注方法的对比实验结果。对于被比较的传统单概念检索方法,采用公式(10)和(12)计算语义多概念估值。
检索方法 | 全部概念 | 双概念 | 三概念 | 四概念 |
---|---|---|---|---|
GResNets [ | 0.23 | 0.25 | 0.18 | 0.17 |
DANE [ | 0.22 | 0.24 | 0.16 | 0.18 |
AlexNet串联并联 [ | 0.18 | 0.21 | 0.15 | 0.15 |
VGGNet-Dropout [ | 0.18 | 0.20 | 0.15 | 0.14 |
VGGNet + KNN [ | 0.18 | 0.21 | 0.15 | 0.14 |
VGGNet + SVM [ | 0.18 | 0.21 | 0.14 | 0.13 |
MKL [ | 0.16 | 0.19 | 0.13 | 0.12 |
Autoencoder [ | 0.19 | 0.23 | 0.16 | 0.15 |
DBM [ | 0.20 | 0.23 | 0.16 | 0.16 |
SSIR (Ours) | 0.26 | 0.28 | 0.24 | 0.23 |
表1. 语义场景图像检索性能比较
从该表中可见,我们的SSIR方法超越了其他对比方法,获得了更好的场景检索性能。与表中最好的对比检索方法GResNets比较,提出的SSIR方法的全部场景概念MAP提高了13%。一方面,多概念场景分类器有助于识别语义场景,另一方面,概念间语义依赖关联性更能准确判断多概念形成的语义场景,缓解误判率。在图像检索任务中,这两种类型的相关性都提供了有用的信息,具有一定的互补性,从这个角度上说我们的SSIR方法可提高图像检索的性能。此外,应用梯度下降算法来补偿在真实应用中不平衡图像集上语义概念的频率差,缓解了稀疏场景概念的误判率,所以,在不平衡数据集MIR Flickr 2011上,我们的SSIR方法具有更好的场景检索效果。
2019年广东第二师范学院校级教学质量与教学改革工程项目(编号:2019jxgg18);广东第二师范学院软件工程重点学科建设项目(编号:9030-1700207);广东省自然科学基金项目(编号:2018A0303130169);广东省科技计划项目(编号:粤财农[
徐海蛟,张展鸿,何佳蕾,方钰敏. 基于深度学习的语义场景图像检索Deep Learning Based Semantic Scene Image Retrieval[J]. 计算机科学与应用, 2019, 09(08): 1561-1568. https://doi.org/10.12677/CSA.2019.98175