![]() Computer Science and Application 计算机科学与应用, 2012, 2, 84-89 http://dx.doi.org/10.12677/csa.2012.22016 Published Online June 2012 (http://www.hanspub.org/journal/csa) Content-Based Image Retrieval Using Three Pixels Color Co-Occurrence Matrix* Guanghai Liu1, Zuoyong Li2 1The College of Computer Science and Information Technology, Guangxi Normal University, Guilin 2Department of Computer Science, Minjiang University, Fuzhou Email: liuguanghai009@163.com, fzulzytdq@126.com Received: Apr. 24th, 2012; revised: May 16th, 2012; accepted: May 27th, 2012 Abstract: A new color descriptor, namely three pixels color co-occurrence matrix, is proposed in this paper. It imple- ments content-based image retrieval via representing the spatial correlation of the same three pixels. The proposed de- scriptor first converts color image from RGB color space to Lab color space. The original color image is then quantized into 90 colors and co-occurrence matrix used for image analysis. Finally, 90-dimensional vector is adopted to describe image features. Image retrieval experimental results shown that the performances of the proposed descriptor are better than that of gray level co-occurrence matrix and MPEG-7 color layout descriptor. It has good discriminative power of color structure distribution, and can combine the color and texture features. Keywords: Image Retrieval; Gray Level Co-Occurrence Matrix; Lab Color Space; Three Pixels Color Co-Occurrence Matrix 基于三像素彩色共生矩阵的图像检索* 刘广海 1,李佐勇 2 1广西师范大学,计算机科学与信息工程学院,桂林 2闽江学院计算机科学系,福州 Email: liuguanghai009@163.com, fzulzytdq@126.com 收稿日期:2012 年4月24 日;修回日期:2012年5月16日;录用日期:2012 年5月27 日 摘 要:本文提出一种新颖的颜色特征描述子——三像素彩色共生矩阵。它通过描述三个相同像素的空间相关 性来实现基于内容的图像检索。它首先将彩色图像从RGB颜色空间转换到 Lab 均匀颜色空间,然后将彩色图像 量化为 90 种颜色,并且对图像进行共生矩阵分析,最后采用 90 维特征向量来描述图像特征。实验结果表明, 三像素彩色共生矩阵的检索性能优越于灰度共生矩阵和 MPEG-7颜色布局描述子。它能够描述图像的颜色结构 分布信息,能够整合颜色和纹理特征。 关键词:图像检索;灰度共生矩阵;Lab 颜色空间;三像素彩色共生矩阵 1. 引言 图像是人类交流的主要媒介之一。如何高效、快 速地实现图像信息共享已经成为了图像应用领域的 公开难题,图像检索则因此而产生。图像检索已经成 为人工智能和模式识别领域的一个研究热点。在一定 程度上,图像检索和模式识别两者之间的方法是可以 融会贯通的。目前,图像检索技术已经应用到很多领 域,内涵也在不断扩大,并且已经形成了一个重要的 产业链。例如:社会安全,视频监控数据查询,数字 *资助信息:广西自然科学基金(No. 2011GXNSFB018070)福建省省 属高校科研专项(JK2011040) ,福建省教育厅A类科技项目 (JA10226)。 Copyright © 2012 Hanspub 84 ![]() 基于三像素彩色共生矩阵的图像检索 图书馆、工业生产质量控制、医学图像资料管理以及 辅助诊断、商标版权管理等诸多领域。 图像检索可以分为基于文本的图像检索、基于内 容的图像检索和基于语义的图像检索。基于内容的图 像检索不同于传统的文本检索,它主要依据颜色、纹 理和形状等低层特征来进行描述图像内容。基于语义 的图像检索通过对图像内容的抽象描述来进行图像 查询,它比图像低层特征更能够表达图像内容。鉴于 人工智能和认知科学的发展,目前还无法真正实现语 义检索,因此,基于内容的图像检索仍然具有非常重 要的学术研究价值和应用前景。 图像检索技术主要包括特征提取和图像匹配两 个核心技术。近三十年来,纹理特征在计算机视觉和 模式识别中得到了广泛研究,出现了不少经典的纹理 特征描述子。灰度共生矩阵就是一种非常经典的纹理 分析工具[1],它已经被广泛地应用到纹理分析、对象 识别以及图像检索中,并且取得了较好的效果[2-4]。颜 色、纹理和形状特征是图像内容的基本属性。鉴于形 状特征提取需要精确的图像分割,而图像分割仍然是 一个公开的难题,所以基于形状特征的图像检索并没 有广泛地应用。它只局限于某些特殊领域的图像检 索,例如二值图像和商标图像检索等等。由于人类视 觉系统对颜色特征非常敏感,并且彩色纹理特征能够 表达物体表面颜色信息与结构分布之间的相互关系, 因此,从颜色结构分布来描述图像内容能够较好地结 合颜色和纹理特征。 本文针对灰度共生矩阵的缺点,从颜色结构的角 度出发,结合灰度共生矩阵的优点,提出了三像素彩 色共生矩阵(Three Pixels Color Co-occurrence Matrix, TPCCM)来描述图像 内容 。三 像素 彩色 共生 矩阵 能够 表达颜色结构信息的空间分布属性,检索性能高于灰 度共生矩阵[1]和MPEG-7 的颜色布局描述子[5]。 2. 灰度共生矩阵 20 世纪 70年代,R. Haralick等人提出了灰度共 生矩阵(Gray Level Co-occurrence Matrix, GLCM)的纹 理统计方法[1]。共生矩阵采用两个像素之间的联合概 率密度来定义。它能够反映灰度像素的分布特征,也 能够反映相同像素或者相似像素的空间分布信息,是 一种经典的二阶统计特征,也是分析灰度纹理信息的 经典方法之一。 假设灰度级为 w的灰度图像 , f xy。图像的灰 度值表示 ,,0,1fxy ww,,1w 假设有两个像 素点 111 ,ypx , 222 ,pxy, 1 f pw, 2ˆ f pw 。 如果像素对 12 ,pp ,d 之间距离为 d,它们同时出现的概 率为 ,则共生矩阵 Pr CM 可以定义为: ,1212 12 ˆ ,Pr dppfpwfpwp pd CM (1) 其中 一般取 0˚,45˚,90˚,135˚四个方向。Haralick 等人在共生矩阵的基础上,定义了14 个统计量来描 述灰度纹理特征[1],最常用的统计量是能量、对比度、 熵,均匀度和相关性等。 3. 三像素彩色共生矩阵 灰度共生矩阵作为经典的纹理分析方法,具有空 间描述能力,但不具备描述颜色特征和形状特征的能 力。灰度共生矩阵通过扩展以后完全可以克服这些弱 点,具备描述颜色和形状特征的能力,甚至能够综合 低级视觉特征。在文献[2-4]中,经过延伸和拓展后的 共生矩阵在图像检索中取得了良好的检索性能,能够 描述颜色、纹理和形状信息。 本文在 CLE Lab 颜色空间的基础上,提出了三像 素彩色共生矩阵来描述图像内容。它是一种新型的图 像特征描述子,它是对灰度共生矩阵的一种延伸和拓 展,它能够描述三个颜色点的空间属性和结构分布特 征。三像素彩色共生矩阵算法主要涉及选择颜色空 间、颜色量化以及特征描述三个技术环节。 3.1. Lab颜色空间 颜色空间与人类视觉系统密切相关,常见的颜色 空间有 RGB,Lab,LUV,YUV,HSV,YIQ,HSL, HIS,YCbCr 等等[6,7]。RGB 颜色空间是一个不均匀的 颜色空间,不符合人类视觉感知特性[6]。常见的视觉 感知颜色空间主要包括CLE Lab,CLE Luv以及 HSV 等颜色空间。HSV,HSL 和HIS 颜色空间属于心理感 知颜色空间,Lab 和Luv 属于 CLE 定义的均匀色差颜 色空间[8]。 Lab 颜色空间由 CLE 在1976提出,目的是根据 人眼对颜色感知表示线性化,创建一个更加直观的颜 色系统[6]。RGB空间转换为 Lab 空间,首先要经过 Copyright © 2012 Hanspub 85 ![]() 基于三像素彩色共生矩阵的图像检索 RGB 颜色空间转换为标准化的XYZ 颜色空间,它如 下所示: 0.412453 0.357580 0.180423R 0.212671 0.715160 0.072169G 0.019334 0.119193 0.950227B X Y Z (1) 则L、a和b分量可以表示为 13 13 11616 for0.008856 903.3 for0.008856 nn nn YY LYY YY LYY (2) 500 n afXXfY n Y (3) 200 n bfXXfZZ n (4) 其中 13 for 0.008856 16 7.787 0.008856 116 f f (5) Xn,Yn和Zn为X,Y和Z白光参考值。根据D65 作为参考白光点, , , nn XY 0.950,1000 1.088754 n Z504.00 0,,具体细节 可以参考[6]。 3.2. 颜色量化 颜色特征对图像平移、尺度、旋转变化不敏感, 能够表现出较强的鲁棒性[7]。鉴于 RGB 颜色空间和人 类视觉系统感知颜色模式不具备相似性,为了充分考 虑人类视觉系统的颜色感知属性,本文将在 Lab颜色 空间中进行颜色量化。在 Lab 颜色空间,一幅大小为 M × N的彩色图,设Bin(L),Bin(a)和Bin(b)分别表示 L,a和b分量的颜色量化数。一般情况下,基于 Lab 颜色空间的量化,Bin(L) ≥ 10,Bin(a) ≥ 3和Bin(b) ≥ 3。 一般来说,颜色量化数目越多,算法对颜色的分辨能 力就越强,但计算量也会增大。很多研究证明,单纯 地增加颜色量化数目不一定能提高图像检索性能。为 了减少计算量和存储空间,同时不影响检索性能,本 文在 Lab颜色空间中将彩色图像量化为10 × 3 × 3 = 90 种颜色。在本文中,90 种颜色的索引图像表示为 ,其中 ,Cxy 3.3. 特征描述 在文献[2],笔者提出了基元共生矩阵(Texton Co-occurrence Matrix, TCM)的图像描述方法并应用于 基于内容的图像检索。TCM 采用12 维特征向量来描 述图像特征,具有颜色、纹理和边缘特征描述能力。 因为能量、对比度、熵,均匀度和相关性等统计量并 不能够很好地体现彩色图像内容,对于大规模的图像 库而言,它的描述能力以及检索性能并不稳定,检索 效果也不理想。为此,本文在灰度共生矩阵基础上, 对它进行改进和拓展,提出三像素彩色共生矩阵来描 述图像特征并且应用于基于内容的图像检索。 假设一幅颜色数目为w的彩色索引图像 , f xy, 0,1, ,1xM , 0,1, ,1yN ,它的颜色索引 值为 ,,fxy w 0,1,,1ww 。假设有三个像素 点 000 ,pxy, 1 ,y 222 ,pxy 11 px 和 ,三个像素点位 于同一方向 上,其中为后点, 为三个像素的中 心点,而为前点。三个像素的颜色索引值分别为 1 p0 p 2 p 11 f pw , 00 f pw , 22 f pw 。如果像素对 10 ,pp ,d 之间距离为 d,而像素对 之间距离也 为d,假设它们同时出现的次数为 ,则三像素 共生矩阵 0 , N 2 pp C可以定义为: ,0 10 21020 log and dw Nw wwppdppd C (6) 其中 102 www ,方 向 的取值一般为0˚,45˚,90˚, 135˚四个方向。考虑到计算量因素,本文仅仅考虑 d = 1的情况,既只考虑与中心点相邻的像素点。因为能 量、对比度、熵,均匀度和相关性等统计量并不能够 很好地体现彩色图像内容,所以本文方法直接采用三 像素出现次数的对数属性来描述图像特征,而不再采 用Haralick 提出的 14 个统计量。 4. 实验与性能分析 0,1, ,1xM, 0,1, ,1yN。 为了验证本文算法的检索效果,分别采用灰度共 生矩阵(GLCM)[1],MPEG-7 的颜色布局描述子(CLD)[5] 和本文提出的三像素彩色共生矩阵(TPCCM) 进行对 比实验。GLCM 采用常用的能量、对比度、熵,均匀 度,相关性等共 9个统计量,在 RGB 三个颜色通道 中同时提取9个统计量,总共 9 × 3 = 27维特征向量。 Copyright © 2012 Hanspub 86 ![]() 基于三像素彩色共生矩阵的图像检索 GLCM 算法采用 L1距离进行图像匹配。CLD采用 MPEG-7 默认推荐的数目6 + 3 + 3 = 12,既 Y,Cb 和 Cr 分别取6,3和3个系数。 4.1. 图像库 本文实验系统采用两个图像集。第一个图像库为 Corel-test 图像库,它包含 1000 张图像,它们来源于 http://wang.ist.psu.edu/~jwang/test1.tar.它包括土著人、 海滩、建筑、巴士、恐龙、大象、花卉、马、山脉和 食物等 10类图像。每类图像的数目为100 张,大小 为256 × 384像素或者 384 × 256像素,图像格式为 jpg 格式。 第二个图像库为 Corel-10K 图像库。它包含 10,000 张图像,大小为192 × 128 像素,图像格式为 jpg格式。 它们来源于 Corel 图像库。它包括热气球、海滩、落 日、老虎、花卉、鱼类、建筑、海浪和赛车等 100类 图像。每类图像的数目为100 张。 4.2. 特征匹配 特征描述是影响图像检索性能的关键因素之一, 而图像匹配同样也是一个关键因素。本文采用三像素 彩色共生矩阵来提取特征,每一幅图像可以得到90 维特征向量 12 90 ,,,TT TT应用于基于内容的图像 检索。假设例子图像的特征为 12 90 ,,,QQQ Q,本 实验采用 L1距离来进行图像匹配,因为 L1 距离计算 简单,并且计算量和复杂度都非常小,非常适合于大 规模图像检索。L1 距离可以表示为: 90 1 ,ii i DijTQ (7) 当 值越小,则说明两幅图像内容越相似。 ,Dij 4.3. 性能评价 图像检索性能不仅与特征描述以及特征匹配有 着密切关系,并且还与图像库样本选择和样本数量、 界面返回图像数量,例子图像的选择等因素有着密切 关系。 在图像检索实验中,本文采用精确度(P)和查全率 (R)的来评价图像检索性能[9]。它们的定义分别如下所 示: N PIN (8) N RIM (9) 其中 IN是界面上相似图像的数目,M相似图像的总数 目(M = 100),N是界面返回的图像数目(N = 12)。 假设从每个图像类别中随机挑选出QN 张例子图 像,已知图像库中有 CN 个图像类别,则例子图像总 数目为 QN × CN,本文分别定义平均精确度( )和平 均查全率( )为: ave P ave R 1 QN CN ave i PPiQN CN (10) 1 QN CN ave i RRiQN CN (11) 为了便于绘制检索性能曲线,本文分别定义某个 图像类别的精确度( j o P)和查全率( j o R)为: 1 QN j oi PPi QN (12) 1 QN j oi RRi QN CN (13) 其中 1, 2,,j 。依据上面公式,则可以获得 CN 个图像类别的精确度 和查全 率 12 00 0 ,,, CN o PPPP 0 , CN R 12 00 ,, o RRR,由这些数据可以绘制出检 索性能曲线图,例如图1所示。 4.4. 实验结果分析 根据表 1和图 1,在Corel-test 图像库中,TPCCM 平均精确度分别比 GLCM 和CLD 提高了20.74%和 (a) (b) Figure 1. The performance curves of three methods. (a) Corel-test dataset and (b) Corel-10K dataset 图1. 三种方法的检索性能曲线。(a) Corel-test库;(b) Cor el-10K库 Copyright © 2012 Hanspub 87 ![]() 基于三像素彩色共生矩阵的图像检索 Copyright © 2012 Hanspub 88 Table 1. The average precision and recall of three methods 表1. 三种方法的平均检索精确度和查全率 方法 图像库 性能 GLCM CLD TPCCM 平均精确度(%) 46.05 59.91 66.79 Corel-test 平均查全率(%) 5.53 7.19 8.03 平均精确度(%) 19.37 28.39 37.28 Corel-10K 平均查全率(%) 2.34 3.41 4.48 6.88%。在 Corel-10K图像库中,TPCCM 分别比 GLCM 和CLD 提高了17 .91%和8.89%。 图2和图 3给出了两个三像素彩色共生矩阵的检 索实例,例子图像分别为红色巴士和红色花卉,以便 于说明颜色的空间分布属性。从颜色信息分布规律来 看,大部分返回图像的颜色结构构成和分布都具有相 似性,这也说明本文提出的算法能够结合颜色和纹理 特征,具备颜色结构和空间分布信息的描述能力,主 要原因是它只考虑一定距离内,相同或者相似三个像 素颜色的结构分布情况。 本文的图像检索实验系统采用Windows 7操作系 统(64 位)为开发平台,开发工具为Visual C# 2010。台 式计算机的硬件配备为:四核 CPU,单核主频为2.83 GHz,6 GB内存和 1 TB硬盘。图像特征保存在 SQL Server 2005数据库中。对一幅大小为384 × 256像素 的Corel 彩色图像提取特征,灰度共生矩阵,颜色布 局描述子和三像素彩色共生矩阵所耗费时间分别为: 162.23/ms,141.04/ms 和198.39/ms。三像素彩色共生 矩阵所耗费的时间最大,而颜色布局描述子所耗费的 时间较小,三像素彩色共生矩阵所耗费时间主要集中 于判断三个像素的颜色索引值是否相同。特征抽取所 耗费的时间并非绝对地反映某种算法所耗费的计算 量。它与计算机系统和源代码等方面也有着非常密切 的关系。 Figure 2. An example of bus image retrieval 图2. 巴士图像检索示例 Figure 3. An example of flower image retrieval 图3. 花卉图像检索示例 ![]() 基于三像素彩色共生矩阵的图像检索 灰度共生矩阵反映了像素之间关于方向、 隔和变化幅度之间的综合信息[1]。MPEG-7 的颜色布 局描述子(CLD)利用离散余弦变换来计算颜色特征, 它能够表达颜色的空间分布信息[5,7]。三像素彩色共生 矩阵能够描述局部颜色结构的空间分布,即反映了相 似或者相同颜色之间的结构分布属性。它在一定程度 保持了灰度共生矩阵的优点,又考虑了局部颜色结构 类型以及结构分布对图像特征的影响,所以,它的检 索性能高于灰度共生矩阵和颜色布局描述子。 根据图像检索结果来看,灰度共生矩阵在自然图 像检索过程中所体现出的性能并不佳,主要原因是共 生矩阵统计量的描述能力偏弱。事实上,灰度共生矩 阵的统计量尽管不能够很好地描述彩色图像内容,但 却提供了一个经典的空间关系计算模式,使得它在目 前仍然成为非常流行的图像分析工具,得到广泛应用 [2-4]。正是因为共生矩阵统计量并不能够较好地描述自 然图像内容,所以本文才提出三像素彩色共生矩阵来 描述颜色特征,并应用于基于内容的图像检索。 MPEG-7 所提供的颜色布局描述子利用 DCT 来 计算图像的颜色特征,以获得颜色的空间分布信息, 仅仅用 12 维特征向量就能够获得不错的检索效果, 并且检索效果还随着系数数目而变化[8]。变换过 程中,图像的能量主要集中在变换域的左 即频 率系数比较低的区域。对变换区域的系数 Zigzag 量化,高频区域已经为零,可以去掉视觉 , 具有良好的可伸缩性[10]。 变换具有,全 程度[6],因此基于布局 (CLD 在大规模图像检索中,效果稳定性有所降低。 综合前面分析可以知道, 三像素 共生 矩阵 (TPCCM) 检索性能优越于灰度共生矩阵(GLCM)和颜 色布局描述子(CLD)。 本文针对灰度共生矩阵的特点,提出了三像素彩 色共生矩阵来描述图像特征。它首先将彩色图像从 RGB 颜色空间转换到Lab 均匀颜色空间,然后量化为 90 种颜色,并且对图像进行共生矩阵分析,最后利用 90 维特征向量来描述图像特征。 三像素彩色共生矩阵主要借鉴了灰度共生矩阵 的优点,并且对它进行了改进和拓展,直接采用三像 素出现次数的对数属性来描述图像特征,而不再采用 Haralick 提出的14 个统计量。它能够较好地描述图像 的颜色信息和颜色结构分布信息。实验结果表明三像 素彩色共生矩阵的性能优越于灰度共生矩阵和 MPEG-7 的颜色布局描述子。 参考文献 (References) [1] R. M. Haralick, S. Dinstein. Textural feature for image classifi- cation. IEEE Transactions on System, Man and Cybernetics, 1973, 3(6): 610-621. [2] G.-H. Liu, J.-Y. Yang. Image retrieval based on the texton co- occurrence matrix. Pattern Recognition, 2008, 41(12): 3521- 3527. [3] G.-H. Liu, L. Zhang, et al. Image retrieval based on multi-texton histogram. Pattern Recognition, 2010, 43(7): 2380-2389. [4] G.-H. Liu, Z.-Y. Li, L. Zhang and Y. Xu. Image retrieval based on micro-structure descriptor. Pattern Recognition, 2011, 44(9): 2123-2133. [5] B. S. Manjunath, J.-R. Ohm, V. V. Vasudevan and A. Yamada. Color and texture descriptors. IEEE Transactions on Circuit and Systems for Video Technology, 2001, 11(6): 703-715. [6] W. Burger, M. J. Burge, 著, 黄华, 译. 数字图像处理: Java语 言算法描述[M]. 北京: 清华大学出版社, 2010. [7] 陆建江, 张亚非等, 编著. 智能检索技术[M]. 北京: 科学出 版社, 2009. [8] 陈俊杰, 李海芳等, 编著. 图像情感语义 分析技 术[M]. 北京: 电子工业出版社, 2011. [9] H. Müller, W. Müller, D. G. Squire, S. M. Maillet and T. Pun. Performance evaluation in content-based image retrieval: Over- view and proposals. Pattern Recognition Letters, 2001, 22(5): 593-601. [10] 沈兰荪, 张青, 李晓光, 著. 图像检索与压缩域处理技术的研 究[M]. 北京: 人民邮电出版社, 2008. 相邻间 5. 总结 DCT 上角, 进行 冗余信息 全局属性 描述子 DCT 局变换不能够捕捉到信号的空间位置和变换的强烈 变换的颜色 DCT ) Copyright © 2012 Hanspub 89 |