设为首页 加入收藏 期刊导航 网站地图
  • 首页
  • 期刊
    • 数学与物理
    • 地球与环境
    • 信息通讯
    • 经济与管理
    • 生命科学
    • 工程技术
    • 医药卫生
    • 人文社科
    • 化学与材料
  • 会议
  • 合作
  • 新闻
  • 我们
  • 招聘
  • 千人智库
  • 我要投搞
  • 办刊

期刊菜单

  • ●领域
  • ●编委
  • ●投稿须知
  • ●最新文章
  • ●检索
  • ●投稿

文章导航

  • ●Abstract
  • ●Full-Text PDF
  • ●Full-Text HTML
  • ●Full-Text ePUB
  • ●Linked References
  • ●How to Cite this Article
Journal of Image and Signal Processing 图像与信号处理, 2014, 3, 1-8
http://dx.doi.org/10.12677/jisp.2014.31001 Published Online January 2014 (http://www.hanspub.org/journal/jisp.html)
Emotional Image Classification Based on Color Scale
Invariant Feature Transform Feature and
Spatial Pyramid Model
Pengxiao Lv, Guanghua Gu*, Chengru W ang, Yangjun Li
School of Information Science and Engineering, Yanshan University, Qinhuagdao
Email: *guguanghua@ysu.edu.cn
Received: Nov. 26th, 2013; revised: Dec. 9th, 2013; accepted: Dec. 14th, 2013
Copyright © 2014 Pengxiao Lv et al. Th is is an open access arti cle d istributed under the C re ative Co mmons At tribution License, wh ich per mits unre-
stricted use, distribution, and reproduction in any medium, provided the origin al work is properly cited. In accordance of th e Creative Commons At-
tribution License all Copyrights © 2 014 are reserved for Hans and the owner of the intellectu al property Pengxiao Lv et al. All Copyright © 2014 are
guarded by law and by Hans as a guardian.
Abstract: The purpose of emotional image classification is that the computer can express the emotion reaction when
observing the image, and classify the images into the different emotional categories automatically. In this paper, we
proposed an emotional classification framework based on the spatial pyramid representation. First, we extracted the
SIFT (Scale Invariant Feature Transform) feature of the colour, and performed the clustering method to form the code-
book. Then, each image is described by using LLC (Local-constrained Linear Coding) scheme, and image representa-
tions were performed by the methodology of spatial pyramid. Finally, we performed the emotional categor ization b y the
training classifier. As the colour information is significant to human visual perception we added an extra colour feature.
In the experiments made on the IAPS (International Affective Picture System) and KDEF (Karolinska Directed Emo-
tional Faces), an ideal classification result was obtained.
Keywords: Image Processing; Emotional Categorization; Colour-Scale Invariant Feature Transform; Spatial Pyramid;
Local-Constrained Linear Coding
C-SIFT 特征结合空间金字塔描述的情感图像分类
吕鹏霄,顾广华*,王成儒,李扬骏
燕山大学信息科学与工程学院,秦皇岛
Email: *guguanghua@ysu.edu.cn
收稿日期:2013 年11 月26 日;修回日期:2013 年12 月9日;录用日期:2013 年12 月14 日
摘 要:情感图像分类的目的是希望计算机能够表述人类观察图像时所引起的情感反应,并根据这种反应把图
像分到不同的情感类别。本文提出了一种基于空间金字塔的情感图像分类方法,首先对图像提取颜色尺度旋转
不变特征,并聚类形成视觉特征词典;其次对图像进行空间金字塔分块,使用局部约束线性编码方法表示各子
块图像,形成图像的空间金字塔描述;最后通过训练分类器实现对情感图像的分类。该方法在 SIFT 的基础上加
入了具有表征感情色彩的颜色特征,提取了独特的图像情感特征。本文方法分别在国际情绪图片系统(IAPS)数
据库和人脸情感数据库(KDEF)上进行了实验,取得了较为理想的情感分类结果。
关键词:图像处理;情感分类;颜色尺度旋转不变特征;空间金字塔;局部约束线性编码
*
通讯作者。
OPEN ACCESS 1
C-SIFT 特征结合空间金字塔描述的情感图像分类
1. 引言
图像能够唤起人类的情感,而目前的图像处理
和应用大多忽略了情感因素。图像蕴含大量的情感
信息,它们存在于图像语义分类层次[1]的最高层情感
层。人类在观察图像时,会产生不同的情感,比如,
春色满园会让人觉得特别舒畅、教堂使人感觉到肃
穆等。图像情感分类就是希望计算机能够描述人类
观察图像时引起的情感反应,并根据这种反应把图
像分到不同的情感类别。由于情感语义相对于认知
层的语义来说具有更多的主观成分,这无疑是图像
情感分类的一个巨大挑战,并且类间相似性也是分
类的一大障碍。图像的情感分类隶属于图像语义理
解,它能够有效的组织图像,并按一定的规则分类
图像,方便人们快捷的浏览检索图像[2],虽然现在这
项技术仍然处于初级阶段,但其具有深远的研究意
义和广泛的应用前景。
情感图像分类的关键问题是提取有效的情感特
征及生成正确表示特征分布的图像描述。除此之外,
图像情感分析也是情感图像分类必不可缺的研究。图
像情感分析是机器视觉、模式识别、图像理解、人工
智能等研究领域中重要的研究方向,因此。国内外学
者进行了广泛的研究,已经取得不少了不少的成果。
针对图像情感语义分析技术中的图像特征提取、视觉
词典生成、特征映射和图像描述等问题,提出新颖的
方法,有效的建立图像特征与情感之间的映射关系,
提高情感图像分类识别率,使计算机识别图像的能力
接近人的理解水平,这必将对图像分类与图像检索研
究领域的发展起到促进的作用。
近年来随着计算机技术的深入发展,国内外许多
研究机构和大学也开始研究如何利用计算机实现情
感图像分类的研究。早期图像情感分类大多数都是基
于机器学习理论的图像情感分类算法,就是采用直接
采用低层图像特征,如颜色、纹理、形状等描述图像
的内容,再结合监督学习方法利用分类器对图像的情
感类别进行推理的一种情感图像分类方法。也就是我
们通常所说的“黑匣子”的情感图像分类方法。例如
Yanulevskaya 等[3]提取 Wiccest 特征和 Gabor 特 征 ,采
用有监督的支持向量机方法实现情感图像的分类。由
于Yanulevskaya 等[3]提取图像的低层特征,与高层语
义之间存在“语义鸿沟”,因此这种简单的利用机器
学习算法很难找到图像特征与情感属性之间的映射
关系,所以这种基于“黑匣子”的情感分类算法所获
取的结果总是不太理想
随后对情感图像分类的方法逐渐扩展到基于语
义主题的情感图像分类算法。Li等[4]结合词包模型提
出了一种情感图像分类方法,使用无监督的概率潜在
语义分析(probabilistic Latent Semantic Ana lysis, pLSA)
模型,将表示图像的高维向量映射到潜在语义空间的
低维表示。pLSA 模型反映的是潜在主题和视觉单词
本身的概念关系,该方法有效的构建了“语义鸿沟”
的桥梁,在一定程度上提高了分类的正确率。刘硕研
等[5]提出了基于情感概率潜在语义分析(Affective-
probabilistic Latent Semantic Analysis, Affective-pLSA)
模型的图像情感分类算法。Affective-pLSA 分析模型
扩展了 pLSA 模型试图挖掘出潜在语义主题和视觉单
词共生频率的概念关系,而这种概念关系恰能有效地
契合视觉认知理论[5]。虽然文献[4,5]考虑低层特征和高
层语义之间的映射关系,但是都忽略了颜色信息。众
所周知,颜色具有唤醒情感的力量,主要在于颜色的
象征性往往使人们联想到某些特定的情感,颜色具有
的感情色彩特征不能被忽略[6]。另外,这些方法忽略
了图像的空间结构信息。
考虑颜色及空间结构信息,本文基于 SIFT (Scale
Invariant Feature Transform)引入具有表征感情色彩的
颜色特征,分别提取 R、G、B三个颜色通道的 SIFT
特征,串联在一起形成 384 维的 C-SIFT 特征;然后
引入空间金字塔匹配模型,将图像分割成分辨率越来
越精细的子区域,计算在多个空间分辨率下的视觉单
词分布来形成图像的空间金字塔表示,有效的利用了
图像的空间结构信息。
2. 情感图像分类
情感图像分类通常包含四个步骤:特征提取与描
述、视觉词典生成、图像描述、分类。具体过程为:
首先提取情感图像的稠密 C-SIFT特征,对图像特征
聚类生成视觉词典,将图像的特征映射到视觉词典中
的视觉单词中,结合空间金字塔模型,分析特征分布
形成图像描述;其次对训练图像进行学习,训练SVM
分类器;最后根据学习得到的模型完成对测试图像的
分类。过程如图 1所示:
OPEN ACCESS
2
C-SIFT 特征结合空间金字塔描述的情感图像分类
情感类别
输入训练图像样本
特征提取及描述
输入测试图像
样本
情感分类判决
视觉单词生成
图像描述
情感分类模型
Figure 1. The structure of emotional classification system
图1. 情感图像分类系统组成图
2.1. C-SIFT 特征提取与码本生成
2004 年Lowe提出尺度不变特征变换(Scale Inva-
riant Feature Transform, SIFT)[7],该特征是图像的局部特
征,对尺度缩放、图像旋转、亮度变化具有不变性,对
视角变化、仿射变换、噪声也保持良好的鲁棒性。本文
在SIFT 的基础上增加颜色特征,在提取图像特征时首
先采用均匀网格分块来生成图像的局部区域,图像块大
小为 16 × 16,间隔为 8像素。然后,对每个图像块分
别提取 R
、
G
、
B三个通道的局部SIFT 特征。在本文中
设xr
、
xg
、
xb分别表示为 R
、
G
、
B三个通道的局部 SIFT
特征,则图像的 C-SIFT 特征
;;
r gb
x xxx

=
。由于
C-SIFT 特征为 384 维,并且数据库图像信息量丰富,
特征数比较多,为了提高处理速度及节省存储空间,需
要对特征进行降维[8] ,本文采用了主元素分析法
(Principal Component Analysis, PCA) 对特征降维,在保
留95%原信息的条件下,把高维的特征映射到低维空间,
降维后的特征为 116 维。训练图像的特征个数为
n
,特
征集为
[ ]
12
,,,
n
X xxx=
,则协方差矩阵为:
( )
T
1
1
n
s kk
k
E xx
n
=
= ⋅
∑
(1)
协方差矩阵奇异值分解:
T
ss ss
E UMU=
(2)
式(2)中Ms是一个对角阵,其包含 d个奇异值(d
为C-SIFT 特征维数),并且按降序形式对奇异值进行
排列
12 d
mm m≥ ≥≥
,
{ }
12
,,,
sd
U uuu
=
中的特征
值一一对应。
1
1
11
min
dd
kk
dkk
mTm
= =
≥
∑∑
(3)
低维空间特征维数 d1由式(3)决定,其中 T为控
制变量代表保留信息量,在本文中采用 T = 0.95 表示
在最小均方误差条件下对特征保留95%的信息量,以
避免丢失过多有用的信息而影响实验结果。取
T
s
U
的
前d1行特征向量作为转换矩阵
{ }
1
12
,, ,
sd
P uuu=
,则
特征由高维空间向低维空间转换的过程如下:
s
y Px=
(4)
对每个情感类别的 C-SIFT 特征均采用传统的
k-means 方法聚类得到每个情感类别的类视觉词典 vi,
则总的图像数据库的视觉词典为
{ }
12
,,,
C
V vvv=
,C
为所有场景类别数。
2.2. 特征映射
特征映射指的是利用视觉单词对图像视觉特征
进行量化编码,生成视觉特征在视觉词典中的描述。
令
[ ]
12
,, ,
DN
N
X xxxR
×
= ∈
表示一幅图像的特征数据
集,其特征维数为 D,特征个数为 N;令
[ ]
12
,,,
DN
M
B bbbR
×
= ∈
表示词典容量为 M的视觉词
典。
向量量化(vector quantization, VQ)方式是传统的
特征量化编码方式,采用最近邻方法,对每一个特征
向量计算其与 M个视觉单词之间的欧式距离,用与该
特征向量距离最近的视觉单词替代。VQ 编码方式虽
然简单,但是编码结果太过粗糙,容易丢失信息。为
了克服缺点,改善编码性能,Yang 等[9]采用稀疏编码
(Sparse Coding, SC)方法,改善了VQ 编码方式中有且
只有一个非零元素的局限性;随后 Yu等[10]改进了 SC
方式,提出局部坐标编码 (Local Coordinate Coding,
LCC)方式,阐述了稀疏性不能保证局部性,局部性必
然能够保证稀疏性的观点;Wang 等[ 11]在LCC 方式的
基础上,改进局部约束条件,得到局部约束线性编码
(Local-constrained Linear Coding, LCC)的方式。
22
T
min
. .11,
i iii
c
xBcd c
st i
λ
− +Θ
= ∀
∑
(5)
式(5)为LLC 编码方式优化的目标函数为,其中
Θ
表示对应元素相乘运算,
1M
i
dR
×
∈
是局部适配器,
ci是对应于特征包
[ ]
12
,, ,
DN
N
X xxxR
×
= ∈
中每个特
征的编码结果。
2
ii
dcΘ
满足相似的特征描述符生成
相似的编码。对于每个基向量 bj,根据其与输入特征
OPEN ACCESS 3
C-SIFT 特征结合空间金字塔描述的情感图像分类
xi的相似度,得
( )
,
exp
i
i
dist xB
d
σ

=


,
( )()()()
12
, ,,,,,,
ii iiM
distxBdistxb distxbdistxb

=

( )
,
ij
distxb
表示特征
i
x
与视觉单词
j
b
之间的欧氏距
离,
σ
用于调整局部适配器权重的衰减速度。本文采
用LLC编码方式,并且在对局部区域块形成描述时,
采用最大合并法。
2.3. 空间金字塔匹配
传统的词包模型(Bag of Word, BoW)把图像表示为
无序的局部特征集合,并且取得了很好的结果。但是
BoW 模型忽略了特征的空间分布信息,严重限制了描
述能力。为了克服其不足,Lazebnik 等在对图像的特
征描述中加入了特征的空间信息,提出了空间金字塔
匹配模型[12]。该模型将图像分割成分辨率越来越精细
的子区域,计算每个子区域内的局部特征直方图并组
合得到图像的特征描述,在图像描述中成功地融合了
空间结构信息。
用空间金字塔方法对图像进行分块,金字塔层次
记为
0,1, ,lL=
,L是金字塔的最高层,图2为图像
三层金字塔网格结果,其中第一幅图像代表原始图像,
中间图像表示将原始图像分割为 2 × 2的网格,第三幅
表示将原始图像分割为 4 × 4的网格。各层的子区域个
数为
l2
2
,则 L = 2时分块区域总数为 21(1 + 4 + 16)。
本文采用空间金字塔分块方法,统计在各层下所
有网格单元内的每幅图像所有视觉单词的个数,形成
多级空间金字塔脂肪图描述
{ }
l
i
h
,其中
2
0,1, ,;0,1, ,2
l
l Li= =
,l层的描述结果为
],;;[ 2
2
21l
lll l
hhhh =
;的将所得到的各层图像描述
串联,形成图像空间金字塔描述
]
ˆ
,,
ˆ
,
ˆ
[
10 L
hhhh =
,
对hl 加权
ˆ
l
ll
h
h wh= ⋅
,其中加权函数为:
1
1,0
21,0
2
l
L
h
Ll
l
w
l
−+
=


=
≠


(6)
3. 实验结果与分析
3.1. 实验设置
本文采用美国 NIMH 研究院情绪与注意研究中心
l=0 l=1 l=2
Figure 2. Display of three level spatial pyramid model
图2. 三层金字塔网格示意图
Anger(A) Amusement(A)
Sadness(S) Contentment(C)
Disgust(D) Excitement(E)
Fear(F) Awe(A)
Undifferentiated negative(Un)Undifferentiated Positive(Up)
Figure 3. Example images of picture system of IAPS
图3. IAPS 系统图像库示例图
提供的国际情绪图片系统[ 13](International Affective
Picture System, IAPS)作为实验数据库。不同图像集中
的一些图像样本见图3,IAPS 是提供情感实验调查研
究的经过量化评定的情绪刺激图像系统,包括美丽风
光、鬼怪、可爱动物、娱乐旅游、亲情、受伤、恐怖
动物、车祸等 1182 幅语义类别广泛的情感图像,其图
像大小均为 1024 × 768 像素。其中 396 幅图像被心理
学家 Mikels 等人手工划分为 10 个情感类别:包含 5
个消极情感(Anger, Disgust, Fear, Sadness, and Undif-
ferentiated Negative) 和5个积极情感类别(Amusement,
Awe, Contentment, Excitement, and Undifferentiated
Positive)。这 396 幅图像都有确定的感情标签,目前已
经成为图像情感类别领域中最常用的基准测试集。由
于anger 类别图像集中只有 8幅图像,样本过少,在
目前实验中暂时没有使用这一类图像集。其中左边是
5个消极的情感类别(Anger, Disgust, Fear, Sadness, and
Undifferentiated Negative),右边是 5个积极的情感类
别(Amusement, Awe, Contentment, Excitement, and
OPEN ACCESS
4
C-SIFT 特征结合空间金字塔描述的情感图像分类
Undifferentiated Positive)。在实验中,随机选取每个情
感类别 70%的图像作为训练图像,剩下30%的图像为
测试图像。
另外,本文还采用 KDEF[14](Karolinska Directed
Emotional Faces,)数据库进行情感分类实验。该数据库
包含 140 位业余演员 7种不同的情感(Neutral, Happy,
Angry, Afraid, Di s g ust , Sa d , Surprise)的图像,并且每个
情感分别从 5个角度(−90˚, −45˚, 0˚, 45˚, 90˚)拍摄,共
4900 幅人类面部表情。本文在实验时,分别把原数据
库中同一情感的 140 个人分为一类,这样 7种情感 5
个角度共为 35类。实验时从每一种情感选取两个角
度的图像构建新的数据集,共 14类情感,这个数据
库综合考虑了同一个人的不同表情以及同表情的不
同角度。不同图像集中的一些图像样本见图 4,其中
左边是左侧脸(角度为−90˚)的7种情感,右边为正面
脸(角度为 0˚)的7种情感。图像大小均为 562 × 762
像素。在实验中,随机选取每个情感类别50%的图像
作为训练图像,剩下 50%的图像为测试图像。
在实验中,重复 10次实验,最终的实验结果为
10 次的平均值。IAPS 和KDEF 数据库为 RGB 彩色图
像,以 32 像素为间隔,64 × 64大小局部区域内对图
像提取稠密 C-SIFT特征,特征维数为 384 维,采用
PCA 降维方法,保留 95%特征信息,降维后的特征为
116 维。采用 k-means 对特征聚类生成视觉词典,LLC
的编码方式结合空间金字塔形成图像描述,
Linear-SVM 实现情感图像的分类。本实验采用计算分
类正确率的方法作为评价标准,若分类正确的图像数
目为 n,图像的总数目为 N,则分类正确率 p为:
100%
n
pN
= ×
(7)
3.2. 实验结果
本文对两个数据库均设置了三个实验,分别讨论
码本容量、编码方式与最近邻个数、空间金字塔层数
对分类正确率的影响。
实验一:C-SIFT 特征及码本容量对分类正确率
的影响
图像的情感分类必须考虑到颜色能够唤醒情感的
力量,颜色对情感表达的作用不容忽视,本文提出提
取彩色图像的 C-SIFT 特征。基于词包模型[15,16]的图 像
Figure 4. Example images of picture system of IAPS
图4. KDEF 系统图像库示例图
分类往往通过增大视觉词典的长度来达到提高分类精
度的目的,虽然短码本计算简单,但判别力差,不能
达到理想的分类效果;大码本具有良好的判别力,能
较准确的区分不同类别,但是又会造成计算量过大和
内存要求过高的问题,因此选取合适的视觉词典也是
提高识别率的一个关键问题。实验一针对上述两个问
题做了验证,分别提取带有情感色彩的 C-SIFT 特征及
灰度图像的 SIFT 特征,并且 对多个大 小的 类视觉词 典
进行了实验,每一类生成的视觉单词的数量分别为 25、
50、100、150、200、250、300、350、400、450。
在实验一中分别提取图像的 C-SIFT 特征、SIFT
特征,均以 32 像素为间隔,64 × 64 大小局部区域内
对图像提取稠密特征,C-SIFT 特征维数为 384 维,
SIFT 特征维数为 128 维,IAPS 数据库的每幅图像的
特征个数为 713 个,KDEF 数据库每幅图像的特征个
数为 352 个。采用PCA 降维方法,保留 95%特征信
息,降维后的特征分别为 116 维、59 维。采用k-means
对特征聚类生成视觉词典,LLC 的编码方式结合空间
金字塔形成图像描述,LLC 编码方式取最近邻个数为
5,金字塔层数为0,1 复合层,Linear-SVM 实现情感
图像的分类。图 5为分类正确率随类视觉词典大小变
OPEN ACCESS 5
C-SIFT 特征结合空间金字塔描述的情感图像分类
Figure 5. Performance comparisons with different category visual
dictionaries
图5. 分类性能随类视觉词典大小变化的趋势
化的趋势图,红色实线为KDEF 数据库提取 C-SIFT
实验结果图,蓝色实线为IAPS 数据库提取 C-SIFT 结
果图,红色虚线为KDEF 数据库提取 SIFT 实验结果
图,蓝色虚线为 IAPS 数据库提取 SIFT 结果图。
由图 5可以看出 C-SIFT特征要比 SIFT特征效果
好,对于 IAPS 数据更为明显,由此可以看出颜色对
于美丽风光、鬼怪、可爱动物、娱乐旅游、亲情、受
伤、恐怖动物、车祸等图像情感表达的重要性。由于
KDEF 数据库是人脸数据库,情感差异主要由模特五
官体现,色彩的效果不是很明显,但分类正确率也稍
微提高了一点。同时可以看出类视觉词典的大小也影
响着分类结果,通过两个数据库的分类结果曲线可以
明显看出,当类视觉词典单词数量比较少的时候分类
正确率比较低,随着单词数量的增大分类正确率也在
逐渐提高,但是当类视觉词典单词数量为 350 时,达
到了最大值,之后随着视觉单词数量的增大分类正确
率逐渐降低。这是因为,类视觉词典比较小时,判别
力比较差,不能达到理想的分类效果,随着类视觉单
词的增多,词典判别力也在逐渐增强,但是类视觉词
典比较大时,可能会造成信息冗余,同时会造成计算
量过大和内存要求过高的问题,影响分类结果。
实验二:编码方式及最近邻个数对分类正确率的
影响
在形成图像描述时有两个可变因素,一个是编码
方式,一个是近似LLC、SC 编码时用到的最近邻个
数knn 的选取,实验对这两个可变因素与分类正确率
之间的关系进行了研究。实验二特征获取方法与实验
一相同,降维后的 C-SIFT 特征为 116 维 ,采 用k-means
对特征聚类生成视觉词典,类视觉单词的数量为300;
Table 1. Performance comparison with different coding schemes
表1. 不同编码方式下分类正确率(%)
编码方式 VQ SC LLC
KDEF 55.36 65.95 70.61
IAPS 42.18 64.07 65.56
分别采用 LLC、SC、VQ的编码方式结合空间金字塔
形成图像描述,其中LLC、SC 编码方式最近邻个数
分别选取 2、5、8、11,金字塔层数为 0,1 复合层;
采用 Linear-SVM 实现情感图像的分类。
表1为两个数据库的分类结果,可以看出在三种
编码方式中,LLC 编码效果均最好,其次为 SC编码,
VQ 最差。原因在于 VQ编码方式有且只有一个视觉
单词来表示图像特征,这样比较容易丢失信息,所以
分类结果比较不理想。LLC、SC 两种编码方式克服了
这种不足,用多个视觉单词来表示图像特征,保留了
大量信息,提高了分类正确率。而局部性必然保证稀
疏性,但是稀疏性不能保证局部性,所以 LLC编码方
式的分类效果要好于 SC编码方式。
图6列出了 knn 分别为 2,5,8,11时LCC 和SC
编码方式的分类正确率。其中菱形符的为 IAPS 数据库
分类曲线图,圆圈为KDEF 数据库分类曲线图,红色、
青色线为 LLC 编码方式的正确率变化曲线,蓝色、绿
色线为 SC 编码方式的正确率变化曲线。可以看出,随
着knn 数的增加分类正确率也在升高。这是因为随着
knn个数的增大,向量量化过程中丢失的信息也在减少,
因此分类正确率就会升高,对于 SC 编码方式当 knn 为
5时,分类正确率达到了最高,对于 LLC 编码方式当
knn 为8时,分类正确率达到了最高,随后都又会随着
knn 的增大逐渐降低。这是由于当 knn 过大时一方面会
造成信息冗余,另一方面特征并不能被正确的表示。例
如,某个特征只有 6个最近邻,但此时 knn 为10,也
许另外 4个视觉单词就不能很好的表示特征,这样在形
成图像描述的时候也会造成误差,影响正确率。
实验三:空间金字塔层数对分类正确率的影响
实验三验证了空间金字塔分层对分类正确率的
影响。考虑到金字塔层数对分类正确率性能的影响,
分别测试了不同层数时的分类正确率。随着金字塔层
数的增加,对计算机内存的要求也越来越高,并且
KDEF 数据库样本多,为了保证实验时内存不溢出,
减少了 KDEF 数据库的训练和测试样本,每类分别选
OPEN ACCESS
6
C-SIFT 特征结合空间金字塔描述的情感图像分类
Figure 6. Performance comparison with different k nearest neigh-
borhood
图6. 不同近邻个数下的分类正确率(%)
取30 幅训练图像和 30 幅测试图像,并且类视觉词典
中的视觉单词为 100 个。需要指出的是,由于实验数
据偏小,且类视觉词典也较小,实验正确率比较低,
但是并不影响实验三突出体现金字塔分层对实验正
确率影响这一目的。IAPS 数据库依然是随机选取每个
情感类别 70%的图像作为训练图像,剩下 30%的图像
为测试图像。
在实验三中特征获取方法与实验一相同,降维后
的C-SIFT 特征为 116 维。实验采用 k-means 对特征聚
类生成视觉词典,两个数据库类视觉词典数量分别为
100、300;LLC 的编码方式结合空间金字塔形成图像
描述,其中 LLC 编码方式最近邻个数为 8,金字塔层
数分别为 0层、1层、2层、0,1复合层、0,1,2 复合层;
Linear-SVM 实现情感图像的分类。0层为原始图像,
即没有采用空间金字塔分层,1层为把图像分为 2 × 2
的网格,2层为把图像分为 4 × 4的网格,0,1 复合层
为5 (1 + 2 × 2)个网格, 0,1,2 复合层为 21 (1 + 2 × 2 +
4 × 4)个网格,分层后把各个区域的图像描述级联起来
形成总的图像描述。表 2为实验结果。
由表 2可以看出,空间金字塔分层(0,1复合层) 的
实验结果由于加入了特征的空间信息,且保留了原始
图像的全局信息,分类正确率较 0、1层图像有明显
提高。此外,1层的也要比 0层的正确率高,这是由
于1层把图像分割为 2 × 2个子区域,各子区域的图
像描述级联起来为总的图像描述,增加了图像的空间
信息,与实验算法理论相吻合。随着空间金字塔层数
的增多,分类正确率逐渐升高,显然采用空间金字塔
模型有助于提高识别正确率。在金字塔 0,1 复合层取
Table 2. Performance comparison with different levels of pyramid
表2. 不同层数空间金字塔的分类正确
金字塔层数 0 1 0,1 2 0,1,2
KDEF 35.32 37.33 42.13 36.10 38.69
IAPS 63.70 64.07 64.30 62.19 60.24
分类识别率70.61%
Figure 7. The confusion matrix of emotional images categorization
图7. 情感图像分类混淆矩阵
得最高分类结果,随后又随着层数的增多分类结果呈
下降趋势。原因在于随着空间金字塔层数的增多,加
入的空间信息越丰富,所以分类正确率越来越高。但
是随着层数的增加,可能会产生过分割现象,即将图
像中的目标过分细分,势必影响实验结果;同时区域
块个数呈指数增加,区域块过多必然会造成计算量过
大,也会使结果会有所下降。所以必须选择适当的金
字塔分块层数才能达到较理想的分类效果。
经以上三个实验的结果与分析,本文的算法在类
视觉词典大小为400,LLC 编码最近邻个数为 8,金
字塔 0,1 复合层时,取得最佳实验结果,IAPS 数据库
平均分类识别率为 65.56%,KDEF 数据库平均分类识
别率为 70.61%。KDEF 数据库的情感图像分类混淆矩
阵如图 7所示,该数据库由7类情感图像组成,并
且每类情感图像分别包含正面人脸和侧面人脸情感
图像,混淆矩阵奇数列为左侧面人脸分类正确率,偶
数列为正面人脸分类正确率。
最后,本文算法与 Yanulevskaya[3]算法、刘硕研 [5]
算法进行比较。Yanulevskaya 和刘硕研采用 IAPS 图
OPEN ACCESS 7
C-SIFT 特征结合空间金字塔描述的情感图像分类
Table 3. Performance comparison with different methods
表3. 不同方法的情感分类算法比较
分类模型 类别 分类正确率
Yanulevskaya[3]算法 “词包模型” + SVM 8 54.00%
刘硕研[5]算法 Affective-pLSA + SVM 8 57.00%
本文算法 SPM + SVM 9 65.56%
像数据库中八类情感。本文采用 IAPS 图像数据库中
九类情感。三种算法分类性能比较结果如表 3所示,
其中 Yanulevskaya 算法和刘硕研算法的实验结果源自
文献[5]。
4. 结论
本文提取了 C-SIFT 特征,利用K-means 对特征
聚类形成视觉词典,采用 LLC 编码方式结合空间金字
塔匹配模型的图像表示方法,通过 SVM 分类器实现
了情感图像的分类。本文提出的方法具有情感特征分
辨力,原因在于既考虑到特征的情感信息,也结合了
特征的空间结构信息。但是,由于数据库较小,在一
定程度上限制了分类性能。扩充图像数据库和寻求更
简单有效的算法,以提高情感图像分类识别率将是下
一步研究的问题。
项目基金
国家自然科学基金青年科学基金项目(61303128)、
河北省自然科学基金面上项目(F2013203220)、河北省
高等学校科学研究青年基金项目(Q2012047)。
参考文献 (References)
[1] 高隽, 谢昭 (2009) 图像理解理论与方法. 科学出版社, 北京,
1-30.
[2] 徐思敏 (2012) 基于语义的图像检索关键技术研究. 硕士论
文, 沈阳航空航天大学, 沈阳.
[3] Yanulevskaya, V. and van Gemert, J.C. (2008) Emotional va-
lence categorization using holistic image feature. International
Conference on Image Processing (ICIP), 101-104.
[4] S. Li, Y.-J. Zhang and H.-C. Tan. (2010) Discovering latent
semantic factors for picture categorization. International Confe-
rence on Image Processing (ICIP), 1065-1068.
[5] 刘硕研 (2011) 面向感知的图像场景及情感分类算法研究.
硕士论文, 北京交通大学, 北京.
[6] 吴或 (2013) 基于颜色特征的网络不良视频检索技术研究.
成都检测台.
[7] 付赛南 (2013) 基于特征降维的场景分类方法研究. 硕士论
文, 上海交通大学, 上海.
[8] Lowe, D. G. (2004) Distinctive Image Features from Scale-
Invariant Keypoints. International Journal of Computer Vision,
60, 91-11 0.
[9] Yang, J., Yu, K., Gong, Y. and Huang, T.S. (2009) Linear spatial
pyramid matching using sparse coding for image classification.
IEEE Conference on Computer Vision and Pattern Recognition,
Miami, 20-25 June 2009, 794-1801.
[10] Yu, K. and Zhang, T. (2010) Improved local coordinate coding
using local tangents. Proceedings of the 27th International Con-
ference on Machine Learning, 215-1222.
[11] Wang, J.J., Yang, J.C., Yu, K., et al. (2010) Locality-constrained
linear coding for image classification. IEEE Conference on
Computer Vision and Pattern Recognition, San Francisco, 13 -18
June 2010, 360-3367.
[12] Lazebnik, S., Schmid, C. and Ponce, J. (2006) Beyond bags of
features: Spatial pyra mid matching f o r recogn izing natural scen e
categories. IEEE Conference on Computer Vision and Pattern
Recognition, New York, 17-22 June 2006, 2169-2178.
[13] Lang, P.J., Bradley, M.M. and Cuthbert, B.N. (1997) Interna-
tional affective picture system (IAPS):Technical manual and af-
fective ratings. NIMH Center for the Study of Emotion and At-
tention.
[14] Lundqvist, D., Flykt, A. and Öhman, A. (1998) The Karolinska
directed emotional faces KDEF. Department of Clinical Neuros-
cience, Psychology Section, Karolinska Institute.
[15] 李凤彩 (2012) 基于码本模型的场景图像分类研究. 硕士论
文, 燕山大学, 秦皇岛.
[16] 涂潇蕾 (2012) 上下文特征结合空间金字塔模型 的场景分类
算法研究. 硕士论文, 燕山大学, 秦皇岛.
OPEN ACCESS
8

版权所有:汉斯出版社 (Hans Publishers) Copyright © 2012 Hans Publishers Inc. All rights reserved.