设为首页 加入收藏 期刊导航 网站地图
  • 首页
  • 期刊
    • 数学与物理
    • 地球与环境
    • 信息通讯
    • 经济与管理
    • 生命科学
    • 工程技术
    • 医药卫生
    • 人文社科
    • 化学与材料
  • 会议
  • 合作
  • 新闻
  • 我们
  • 招聘
  • 千人智库
  • 我要投搞
  • 办刊

期刊菜单

  • ●领域
  • ●编委
  • ●投稿须知
  • ●最新文章
  • ●检索
  • ●投稿

文章导航

  • ●Abstract
  • ●Full-Text PDF
  • ●Full-Text HTML
  • ●Full-Text ePUB
  • ●Linked References
  • ●How to Cite this Article
Computer Science and Application 计算机科学与应用, 2012, 2, 84-89
http://dx.doi.org/10.12677/csa.2012.22016 Published Online June 2012 (http://www.hanspub.org/journal/csa)
Content-Based Image Retrieval Using Three Pixels Color
Co-Occurrence Matrix*
Guanghai Liu1, Zuoyong Li2
1The College of Computer Science and Information Technology, Guangxi Normal University, Guilin
2Department of Computer Science, Minjiang University, Fuzhou
Email: liuguanghai009@163.com, fzulzytdq@126.com
Received: Apr. 24th, 2012; revised: May 16th, 2012; accepted: May 27th, 2012
Abstract: A new color descriptor, namely three pixels color co-occurrence matrix, is proposed in this paper. It imple-
ments content-based image retrieval via representing the spatial correlation of the same three pixels. The proposed de-
scriptor first converts color image from RGB color space to Lab color space. The original color image is then quantized
into 90 colors and co-occurrence matrix used for image analysis. Finally, 90-dimensional vector is adopted to describe
image features. Image retrieval experimental results shown that the performances of the proposed descriptor are better
than that of gray level co-occurrence matrix and MPEG-7 color layout descriptor. It has good discriminative power of
color structure distribution, and can combine the color and texture features.
Keywords: Image Retrieval; Gray Level Co-Occurrence Matrix; Lab Color Space; Three Pixels Color Co-Occurrence
Matrix
基于三像素彩色共生矩阵的图像检索*
刘广海 1,李佐勇 2
1广西师范大学,计算机科学与信息工程学院,桂林
2闽江学院计算机科学系,福州
Email: liuguanghai009@163.com, fzulzytdq@126.com
收稿日期:2012 年4月24 日;修回日期:2012年5月16日;录用日期:2012 年5月27 日
摘 要:本文提出一种新颖的颜色特征描述子——三像素彩色共生矩阵。它通过描述三个相同像素的空间相关
性来实现基于内容的图像检索。它首先将彩色图像从RGB颜色空间转换到 Lab 均匀颜色空间,然后将彩色图像
量化为 90 种颜色,并且对图像进行共生矩阵分析,最后采用 90 维特征向量来描述图像特征。实验结果表明,
三像素彩色共生矩阵的检索性能优越于灰度共生矩阵和 MPEG-7颜色布局描述子。它能够描述图像的颜色结构
分布信息,能够整合颜色和纹理特征。
关键词:图像检索;灰度共生矩阵;Lab 颜色空间;三像素彩色共生矩阵
1. 引言
图像是人类交流的主要媒介之一。如何高效、快
速地实现图像信息共享已经成为了图像应用领域的
公开难题,图像检索则因此而产生。图像检索已经成
为人工智能和模式识别领域的一个研究热点。在一定
程度上,图像检索和模式识别两者之间的方法是可以
融会贯通的。目前,图像检索技术已经应用到很多领
域,内涵也在不断扩大,并且已经形成了一个重要的
产业链。例如:社会安全,视频监控数据查询,数字
*资助信息:广西自然科学基金(No. 2011GXNSFB018070)福建省省
属高校科研专项(JK2011040) ,福建省教育厅A类科技项目
(JA10226)。
Copyright © 2012 Hanspub
84
基于三像素彩色共生矩阵的图像检索
图书馆、工业生产质量控制、医学图像资料管理以及
辅助诊断、商标版权管理等诸多领域。
图像检索可以分为基于文本的图像检索、基于内
容的图像检索和基于语义的图像检索。基于内容的图
像检索不同于传统的文本检索,它主要依据颜色、纹
理和形状等低层特征来进行描述图像内容。基于语义
的图像检索通过对图像内容的抽象描述来进行图像
查询,它比图像低层特征更能够表达图像内容。鉴于
人工智能和认知科学的发展,目前还无法真正实现语
义检索,因此,基于内容的图像检索仍然具有非常重
要的学术研究价值和应用前景。
图像检索技术主要包括特征提取和图像匹配两
个核心技术。近三十年来,纹理特征在计算机视觉和
模式识别中得到了广泛研究,出现了不少经典的纹理
特征描述子。灰度共生矩阵就是一种非常经典的纹理
分析工具[1],它已经被广泛地应用到纹理分析、对象
识别以及图像检索中,并且取得了较好的效果[2-4]。颜
色、纹理和形状特征是图像内容的基本属性。鉴于形
状特征提取需要精确的图像分割,而图像分割仍然是
一个公开的难题,所以基于形状特征的图像检索并没
有广泛地应用。它只局限于某些特殊领域的图像检
索,例如二值图像和商标图像检索等等。由于人类视
觉系统对颜色特征非常敏感,并且彩色纹理特征能够
表达物体表面颜色信息与结构分布之间的相互关系,
因此,从颜色结构分布来描述图像内容能够较好地结
合颜色和纹理特征。
本文针对灰度共生矩阵的缺点,从颜色结构的角
度出发,结合灰度共生矩阵的优点,提出了三像素彩
色共生矩阵(Three Pixels Color Co-occurrence Matrix,
TPCCM)来描述图像 内容 。三 像素 彩色 共生 矩阵 能够
表达颜色结构信息的空间分布属性,检索性能高于灰
度共生矩阵[1]和MPEG-7 的颜色布局描述子[5]。
2. 灰度共生矩阵
20 世纪 70年代,R. Haralick等人提出了灰度共
生矩阵(Gray Level Co-occurrence Matrix, GLCM)的纹
理统计方法[1]。共生矩阵采用两个像素之间的联合概
率密度来定义。它能够反映灰度像素的分布特征,也
能够反映相同像素或者相似像素的空间分布信息,是
一种经典的二阶统计特征,也是分析灰度纹理信息的
经典方法之一。
假设灰度级为 w的灰度图像

,

f
xy。图像的灰
度值表示




,,0,1fxy ww,,1w


假设有两个像
素点


111
,ypx ,


222
,pxy,

1
f
pw,


2ˆ
f
pw

。
如果像素对


12
,pp
,d
之间距离为 d,它们同时出现的概
率为 ,则共生矩阵
Pr

CM 可以定义为:








,1212 12
ˆ
,Pr
dppfpwfpwp pd


 CM
(1)
其中

一般取 0˚,45˚,90˚,135˚四个方向。Haralick
等人在共生矩阵的基础上,定义了14 个统计量来描
述灰度纹理特征[1],最常用的统计量是能量、对比度、
熵,均匀度和相关性等。
3. 三像素彩色共生矩阵
灰度共生矩阵作为经典的纹理分析方法,具有空
间描述能力,但不具备描述颜色特征和形状特征的能
力。灰度共生矩阵通过扩展以后完全可以克服这些弱
点,具备描述颜色和形状特征的能力,甚至能够综合
低级视觉特征。在文献[2-4]中,经过延伸和拓展后的
共生矩阵在图像检索中取得了良好的检索性能,能够
描述颜色、纹理和形状信息。
本文在 CLE Lab 颜色空间的基础上,提出了三像
素彩色共生矩阵来描述图像内容。它是一种新型的图
像特征描述子,它是对灰度共生矩阵的一种延伸和拓
展,它能够描述三个颜色点的空间属性和结构分布特
征。三像素彩色共生矩阵算法主要涉及选择颜色空
间、颜色量化以及特征描述三个技术环节。
3.1. Lab颜色空间
颜色空间与人类视觉系统密切相关,常见的颜色
空间有 RGB,Lab,LUV,YUV,HSV,YIQ,HSL,
HIS,YCbCr 等等[6,7]。RGB 颜色空间是一个不均匀的
颜色空间,不符合人类视觉感知特性[6]。常见的视觉
感知颜色空间主要包括CLE Lab,CLE Luv以及 HSV
等颜色空间。HSV,HSL 和HIS 颜色空间属于心理感
知颜色空间,Lab 和Luv 属于 CLE 定义的均匀色差颜
色空间[8]。
Lab 颜色空间由 CLE 在1976提出,目的是根据
人眼对颜色感知表示线性化,创建一个更加直观的颜
色系统[6]。RGB空间转换为 Lab 空间,首先要经过
Copyright © 2012 Hanspub 85
基于三像素彩色共生矩阵的图像检索
RGB 颜色空间转换为标准化的XYZ 颜色空间,它如
下所示:
0.412453 0.357580 0.180423R
0.212671 0.715160 0.072169G
0.019334 0.119193 0.950227B
X
Y
Z
 
 

 
 
 
(1)
则L、a和b分量可以表示为
13
13
11616 for0.008856
903.3 for0.008856
nn
nn
YY
LYY
YY
LYY












(2)


500 n
afXXfY



n
Y
(3)



200 n
bfXXfZZ

n
(4)
其中


13 for 0.008856
16
7.787 0.008856
116
f
f
 



 


(5)
Xn,Yn和Zn为X,Y和Z白光参考值。根据D65
作为参考白光点,




, ,
nn
XY 0.950,1000 1.088754
n
Z504.00 0,,具体细节
可以参考[6]。
3.2. 颜色量化
颜色特征对图像平移、尺度、旋转变化不敏感,
能够表现出较强的鲁棒性[7]。鉴于 RGB 颜色空间和人
类视觉系统感知颜色模式不具备相似性,为了充分考
虑人类视觉系统的颜色感知属性,本文将在 Lab颜色
空间中进行颜色量化。在 Lab 颜色空间,一幅大小为
M × N的彩色图,设Bin(L),Bin(a)和Bin(b)分别表示
L,a和b分量的颜色量化数。一般情况下,基于 Lab
颜色空间的量化,Bin(L) ≥ 10,Bin(a) ≥ 3和Bin(b) ≥ 3。
一般来说,颜色量化数目越多,算法对颜色的分辨能
力就越强,但计算量也会增大。很多研究证明,单纯
地增加颜色量化数目不一定能提高图像检索性能。为
了减少计算量和存储空间,同时不影响检索性能,本
文在 Lab颜色空间中将彩色图像量化为10 × 3 × 3 =
90 种颜色。在本文中,90 种颜色的索引图像表示为
,其中

,Cxy
3.3. 特征描述
在文献[2],笔者提出了基元共生矩阵(Texton
Co-occurrence Matrix, TCM)的图像描述方法并应用于
基于内容的图像检索。TCM 采用12 维特征向量来描
述图像特征,具有颜色、纹理和边缘特征描述能力。
因为能量、对比度、熵,均匀度和相关性等统计量并
不能够很好地体现彩色图像内容,对于大规模的图像
库而言,它的描述能力以及检索性能并不稳定,检索
效果也不理想。为此,本文在灰度共生矩阵基础上,
对它进行改进和拓展,提出三像素彩色共生矩阵来描
述图像特征并且应用于基于内容的图像检索。
假设一幅颜色数目为w的彩色索引图像


,
f
xy,


0,1, ,1xM

,


0,1, ,1yN

,它的颜色索引
值为




,,fxy w 0,1,,1ww

。假设有三个像素
点


000
,pxy,


1
,y

222
,pxy
11
px 和 ,三个像素点位
于同一方向


上,其中为后点, 为三个像素的中
心点,而为前点。三个像素的颜色索引值分别为
1
p0
p
2
p


11
f
pw

,


00
f
pw

,

22
f
pw
。如果像素对


10
,pp
,d
之间距离为 d,而像素对 之间距离也
为d,假设它们同时出现的次数为 ,则三像素
共生矩阵

0
,
N

2

pp



C可以定义为:




,0
10 21020
log and
dw
Nw wwppdppd



C
(6)
其中 102
www

,方 向

的取值一般为0˚,45˚,90˚,
135˚四个方向。考虑到计算量因素,本文仅仅考虑 d =
1的情况,既只考虑与中心点相邻的像素点。因为能
量、对比度、熵,均匀度和相关性等统计量并不能够
很好地体现彩色图像内容,所以本文方法直接采用三
像素出现次数的对数属性来描述图像特征,而不再采
用Haralick 提出的 14 个统计量。
4. 实验与性能分析



0,1, ,1xM,


0,1, ,1yN。
为了验证本文算法的检索效果,分别采用灰度共
生矩阵(GLCM)[1],MPEG-7 的颜色布局描述子(CLD)[5]
和本文提出的三像素彩色共生矩阵(TPCCM) 进行对
比实验。GLCM 采用常用的能量、对比度、熵,均匀
度,相关性等共 9个统计量,在 RGB 三个颜色通道
中同时提取9个统计量,总共 9 × 3 = 27维特征向量。
Copyright © 2012 Hanspub
86
基于三像素彩色共生矩阵的图像检索
GLCM 算法采用 L1距离进行图像匹配。CLD采用
MPEG-7 默认推荐的数目6 + 3 + 3 = 12,既 Y,Cb 和
Cr 分别取6,3和3个系数。
4.1. 图像库
本文实验系统采用两个图像集。第一个图像库为
Corel-test 图像库,它包含 1000 张图像,它们来源于
http://wang.ist.psu.edu/~jwang/test1.tar.它包括土著人、
海滩、建筑、巴士、恐龙、大象、花卉、马、山脉和
食物等 10类图像。每类图像的数目为100 张,大小
为256 × 384像素或者 384 × 256像素,图像格式为 jpg
格式。
第二个图像库为 Corel-10K 图像库。它包含 10,000
张图像,大小为192 × 128 像素,图像格式为 jpg格式。
它们来源于 Corel 图像库。它包括热气球、海滩、落
日、老虎、花卉、鱼类、建筑、海浪和赛车等 100类
图像。每类图像的数目为100 张。
4.2. 特征匹配
特征描述是影响图像检索性能的关键因素之一,
而图像匹配同样也是一个关键因素。本文采用三像素
彩色共生矩阵来提取特征,每一幅图像可以得到90
维特征向量


12 90
,,,TT TT应用于基于内容的图像
检索。假设例子图像的特征为


12 90
,,,QQQ Q,本
实验采用 L1距离来进行图像匹配,因为 L1 距离计算
简单,并且计算量和复杂度都非常小,非常适合于大
规模图像检索。L1 距离可以表示为:

90
1
,ii
i
DijTQ


 (7)
当 值越小,则说明两幅图像内容越相似。

,Dij

4.3. 性能评价
图像检索性能不仅与特征描述以及特征匹配有
着密切关系,并且还与图像库样本选择和样本数量、
界面返回图像数量,例子图像的选择等因素有着密切
关系。
在图像检索实验中,本文采用精确度(P)和查全率
(R)的来评价图像检索性能[9]。它们的定义分别如下所
示:
N
PIN (8)
N
RIM (9)
其中 IN是界面上相似图像的数目,M相似图像的总数
目(M = 100),N是界面返回的图像数目(N = 12)。
假设从每个图像类别中随机挑选出QN 张例子图
像,已知图像库中有 CN 个图像类别,则例子图像总
数目为 QN × CN,本文分别定义平均精确度( )和平
均查全率( )为:
ave
P
ave
R
 
1
QN CN
ave i
PPiQN



CN (10)
 
1
QN CN
ave i
RRiQN



CN (11)
为了便于绘制检索性能曲线,本文分别定义某个
图像类别的精确度(

j
o
P)和查全率(

j
o
R)为:


1
QN
j
oi
PPi

QN (12)


1
QN
j
oi
RRi

QN
CN
(13)
其中 1, 2,,j


 
。依据上面公式,则可以获得 CN
个图像类别的精确度 和查全
率
 

12
00 0
,,,
CN
o
PPPP
 


0
,
CN
R
12
00
,,
o
RRR,由这些数据可以绘制出检
索性能曲线图,例如图1所示。
4.4. 实验结果分析
根据表 1和图 1,在Corel-test 图像库中,TPCCM
平均精确度分别比 GLCM 和CLD 提高了20.74%和
(a)
(b)
Figure 1. The performance curves of three methods. (a) Corel-test
dataset and (b) Corel-10K dataset
图1. 三种方法的检索性能曲线。(a) Corel-test库;(b) Cor el-10K库
Copyright © 2012 Hanspub 87
基于三像素彩色共生矩阵的图像检索
Copyright © 2012 Hanspub
88
Table 1. The average precision and recall of three methods
表1. 三种方法的平均检索精确度和查全率
方法
图像库 性能
GLCM CLD TPCCM
平均精确度(%) 46.05 59.91 66.79
Corel-test 平均查全率(%) 5.53 7.19 8.03
平均精确度(%) 19.37 28.39 37.28
Corel-10K 平均查全率(%) 2.34 3.41 4.48
6.88%。在 Corel-10K图像库中,TPCCM 分别比 GLCM
和CLD 提高了17 .91%和8.89%。
图2和图 3给出了两个三像素彩色共生矩阵的检
索实例,例子图像分别为红色巴士和红色花卉,以便
于说明颜色的空间分布属性。从颜色信息分布规律来
看,大部分返回图像的颜色结构构成和分布都具有相
似性,这也说明本文提出的算法能够结合颜色和纹理
特征,具备颜色结构和空间分布信息的描述能力,主
要原因是它只考虑一定距离内,相同或者相似三个像
素颜色的结构分布情况。
本文的图像检索实验系统采用Windows 7操作系
统(64 位)为开发平台,开发工具为Visual C# 2010。台
式计算机的硬件配备为:四核 CPU,单核主频为2.83
GHz,6 GB内存和 1 TB硬盘。图像特征保存在 SQL
Server 2005数据库中。对一幅大小为384 × 256像素
的Corel 彩色图像提取特征,灰度共生矩阵,颜色布
局描述子和三像素彩色共生矩阵所耗费时间分别为:
162.23/ms,141.04/ms 和198.39/ms。三像素彩色共生
矩阵所耗费的时间最大,而颜色布局描述子所耗费的
时间较小,三像素彩色共生矩阵所耗费时间主要集中
于判断三个像素的颜色索引值是否相同。特征抽取所
耗费的时间并非绝对地反映某种算法所耗费的计算
量。它与计算机系统和源代码等方面也有着非常密切
的关系。
Figure 2. An example of bus image retrieval
图2. 巴士图像检索示例
Figure 3. An example of flower image retrieval
图3. 花卉图像检索示例
基于三像素彩色共生矩阵的图像检索
灰度共生矩阵反映了像素之间关于方向、
隔和变化幅度之间的综合信息[1]。MPEG-7 的颜色布
局描述子(CLD)利用离散余弦变换来计算颜色特征,
它能够表达颜色的空间分布信息[5,7]。三像素彩色共生
矩阵能够描述局部颜色结构的空间分布,即反映了相
似或者相同颜色之间的结构分布属性。它在一定程度
保持了灰度共生矩阵的优点,又考虑了局部颜色结构
类型以及结构分布对图像特征的影响,所以,它的检
索性能高于灰度共生矩阵和颜色布局描述子。
根据图像检索结果来看,灰度共生矩阵在自然图
像检索过程中所体现出的性能并不佳,主要原因是共
生矩阵统计量的描述能力偏弱。事实上,灰度共生矩
阵的统计量尽管不能够很好地描述彩色图像内容,但
却提供了一个经典的空间关系计算模式,使得它在目
前仍然成为非常流行的图像分析工具,得到广泛应用
[2-4]。正是因为共生矩阵统计量并不能够较好地描述自
然图像内容,所以本文才提出三像素彩色共生矩阵来
描述颜色特征,并应用于基于内容的图像检索。
MPEG-7 所提供的颜色布局描述子利用 DCT 来
计算图像的颜色特征,以获得颜色的空间分布信息,
仅仅用 12 维特征向量就能够获得不错的检索效果,
并且检索效果还随着系数数目而变化[8]。变换过
程中,图像的能量主要集中在变换域的左 即频
率系数比较低的区域。对变换区域的系数 Zigzag
量化,高频区域已经为零,可以去掉视觉 ,
具有良好的可伸缩性[10]。 变换具有,全
程度[6],因此基于布局 (CLD
在大规模图像检索中,效果稳定性有所降低。
综合前面分析可以知道, 三像素 共生 矩阵
(TPCCM) 检索性能优越于灰度共生矩阵(GLCM)和颜
色布局描述子(CLD)。
本文针对灰度共生矩阵的特点,提出了三像素彩
色共生矩阵来描述图像特征。它首先将彩色图像从
RGB 颜色空间转换到Lab 均匀颜色空间,然后量化为
90 种颜色,并且对图像进行共生矩阵分析,最后利用
90 维特征向量来描述图像特征。
三像素彩色共生矩阵主要借鉴了灰度共生矩阵
的优点,并且对它进行了改进和拓展,直接采用三像
素出现次数的对数属性来描述图像特征,而不再采用
Haralick 提出的14 个统计量。它能够较好地描述图像
的颜色信息和颜色结构分布信息。实验结果表明三像
素彩色共生矩阵的性能优越于灰度共生矩阵和
MPEG-7 的颜色布局描述子。
参考文献 (References)
[1] R. M. Haralick, S. Dinstein. Textural feature for image classifi-
cation. IEEE Transactions on System, Man and Cybernetics, 1973,
3(6): 610-621.
[2] G.-H. Liu, J.-Y. Yang. Image retrieval based on the texton co-
occurrence matrix. Pattern Recognition, 2008, 41(12): 3521-
3527.
[3] G.-H. Liu, L. Zhang, et al. Image retrieval based on multi-texton
histogram. Pattern Recognition, 2010, 43(7): 2380-2389.
[4] G.-H. Liu, Z.-Y. Li, L. Zhang and Y. Xu. Image retrieval based
on micro-structure descriptor. Pattern Recognition, 2011, 44(9):
2123-2133.
[5] B. S. Manjunath, J.-R. Ohm, V. V. Vasudevan and A. Yamada.
Color and texture descriptors. IEEE Transactions on Circuit and
Systems for Video Technology, 2001, 11(6): 703-715.
[6] W. Burger, M. J. Burge, 著, 黄华, 译. 数字图像处理: Java语
言算法描述[M]. 北京: 清华大学出版社, 2010.
[7] 陆建江, 张亚非等, 编著. 智能检索技术[M]. 北京: 科学出
版社, 2009.
[8] 陈俊杰, 李海芳等, 编著. 图像情感语义 分析技 术[M]. 北京:
电子工业出版社, 2011.
[9] H. Müller, W. Müller, D. G. Squire, S. M. Maillet and T. Pun.
Performance evaluation in content-based image retrieval: Over-
view and proposals. Pattern Recognition Letters, 2001, 22(5):
593-601.
[10] 沈兰荪, 张青, 李晓光, 著. 图像检索与压缩域处理技术的研
究[M]. 北京: 人民邮电出版社, 2008.
相邻间 5. 总结
DCT
上角,
进行
冗余信息
全局属性
描述子
DCT
局变换不能够捕捉到信号的空间位置和变换的强烈
变换的颜色
DCT )
Copyright © 2012 Hanspub 89

版权所有:汉斯出版社 (Hans Publishers) Copyright © 2012 Hans Publishers Inc. All rights reserved.