设为首页 加入收藏 期刊导航 网站地图
  • 首页
  • 期刊
    • 数学与物理
    • 地球与环境
    • 信息通讯
    • 经济与管理
    • 生命科学
    • 工程技术
    • 医药卫生
    • 人文社科
    • 化学与材料
  • 会议
  • 合作
  • 新闻
  • 我们
  • 招聘
  • 千人智库
  • 我要投搞
  • 办刊

期刊菜单

  • ●领域
  • ●编委
  • ●投稿须知
  • ●最新文章
  • ●检索
  • ●投稿

文章导航

  • ●Abstract
  • ●Full-Text PDF
  • ●Full-Text HTML
  • ●Full-Text ePUB
  • ●Linked References
  • ●How to Cite this Article
Computer Science and Application 计算机科学与应用, 2012, 2, 271-275
http://dx.doi.org/10.12677/csa.2012.25048 Published Online December 2012 (http://www.hanspub.org/journal/csa.html)
An Optimal Algorithm of Selection Books in Library Based on
Rough Set and Fuzzy Set
Liping Zhao1, Wenjun Liu2
1Library of Changsha University of Science and Technology, Changsha
2Department of Mathematics and Computing Science, Changsha University of Science and Technology, Changsha
Email: zhlp731118@126.com, liuwjzhlp@126.com
Received: Oct. 14th, 2012; revised: Oct. 24th, 2012; accepted: Nov. 11th, 2012
Abstract: Combining rough set and fuzzy set theory, an optimal decision algorithm of library to select books is put
forward. During this algorithm, firstly, we construct the similarity matrix from the original information system; secondly,
we classify all the programs according to fuzzy clustering; thirdly, an algorithm to choose the optimal program is put
forward according to the minimum distance of weighted relative deviation.
Keywords: Rough Set; Similarity Matrix; Fuzzy Set; Optimal Program
基于粗糙集与模糊集理论的图书馆最优选书算法
赵利萍 1,刘文军 2
1长沙理工大学图书馆,长沙
2长沙理工大学数学与计算科学学院,长沙
Email: zhlp731118@126.com, liuwjzhlp@126.com
收稿日期:2012 年10 月14 日;修回日期:2012 年10 月24 日;录用日期:2012 年11 月11 日
摘 要:本文将粗糙集理论与模糊集理论结合起来,给出一种图书馆最优选书算法。该算法首先从已知数据的
初始信息系统出发,计算各选书方案之间的相似度,从而构造相似矩阵,然后根据相似矩阵的传递闭包对各方
案进行聚类,并根据粗糙集理论求各属性重要性,最后利用加权综合的思想及最小距离方法选择最优买书方案。
关键词:粗糙集;相似矩阵;模糊集;最优方案
1. 引言
图书馆是社会公众文化领域的主阵地,是社会知
识信息的存储、咨询中心,也是弘扬社会主义精神文
明主旋律的重要载体。随着科技的发展,图书馆不仅
在数量上需要增加,而且图书种类也须向多样化发
展,图书馆的价值不再仅仅以其所拥有的馆藏图书的
数量来衡量,而是以它为用户提供各种形式的信息的
能力和质量来衡量。在这种新形式下,图书馆在选书
决策时,如何利用目前有限的人力、经费资源,而又
使所做决策符合读者阅读或参考,从而为广大读者提
供高质量的服务,是目前图书工作者需要认真研究和
解决的一个重要课题。
在实际过程中,由于影响选书决策的因素很多,
且大多数具有模糊性与不确定性,所以在处理这类问
题时,可以结合不确定性理论。本文就是基于这种想
法,结合粗糙集与模糊集这两种不确定性理论,给出
一种图书馆最优选书算法。
2. 预备
粗糙集理论[1]是由波兰科学家 Z. Pawlak 在1982
年提出的一种处理含糊和不确性问题的新型数学工
具。经过近三十年的发展,该理论已渗透到人工智能
Copyright © 2012 Hanspub 271
基于粗糙集与模糊集理论的图书馆最优选书算法
的各个分支,在机器学习、决策分析、过程控制、模
式识别与数据挖掘等领域取得了成功的应用[2-6]。该理
论的一个最大优点是它无须提供问题所需处理的数
据集合之外的任何先验信息,能客观有效地分析和处
理不精确、不确定与不完全数据,并从中发现隐含的
知识,揭示潜在的规律。
为了处理智能数据,粗糙集理论将知识进行符号
化,将所要研究的数据用一个信息系统的形式给出,
信息系统的基本成分是研究对象的集合,关于这些对
象的知识是通过指定对象的基本特征(属性)和它们的
特征值(属性值)来描述。信息系统的数据以关系表的
形式表示,关系表的行对应要研究的对象,列对应对
象的属性,对象的信息是通过指定对象的各属性值来
表达。
形式上, 是一类信息系统,其中
U是有限论域;A为所有属性的集合,,

,,,SUAVf

a
aA
VV

a
V
是属性 a的值域; :
f
UA V
A
是信息函数,即对于
任意的, a,有uU


,a
f
ua V。
对U上任意属性集 B,定义 B上的不可区分关系
如下:

ind B







,,,,
,,
iji j
ij
indBuuaBf uaf ua
uu indB
 

,
则称 与
i
u
j
u是B不可区分的。容易证明不可区分关系
ind U上的等价关系,符号

B是

UindB(简记为
UB)表示不可区分关系


indB 在U上导出的划分,


indB 中等价类称为 B基本集。
3. 聚类分析
对数据进行模糊聚类分析,一般有数据规格化、
建立模糊相似矩阵、聚类三大步。
第一步:数据规格化。在实际应用中,不同的数
据可能有不同的量纲和数量级,故在运算过程中可能
突出某数量级特别大的特性指标对分类的作用,而降
低甚至排除了某些数量级很小的指标的作用,致使对
各特性指标的分类缺乏一个统一的尺度,为了清除特
性指标单位的差别和特性指标数量级不同的影响,必
须对各指标值施行数据规格化的处理,从而使每一个
指标值统一于某种共同的数值特性范围。
设


12
,,,
n
Uuuu为被分类的对象,每个对象
有m个指标描述,即对第 i个对象有


12
,,,
iii im
x x1,ux(2,,in

),对应的信息系统如
表1所示。
数据规格化方法一般有[7,8]:
1) 数据标准化
ij j
ij j
x
x
x


(in1,2,,

m;),其中1,2,,j
1
1n
j
ij
i
x
x
n


,

2
i
jj
1
1n
j
i
xx
n



;
2) 均值规格化
ij
ij
j
x
x

(1, 2,,in1, 2,,jm;); 

3) 中心规格化
ij ij j
x
xx


(1, 2,,in

;); 1, 2,,jm
4) 最大值规格化
ij
ij
j
x
x
M
(1, 2,,in1, 2,,jm;),其中 



12
max,, ,
j
jj nj
M
xx x;
5) 极差规格化
ij j
ij
j
j
x
m
x
M
m

(1,2,,in1, 2,,jm;),其 中



12
min,, ,
j
jj nj
mxxx,

12
max,, ,
j
jj nj
M
xx x;
6) 对数规格化
log
ij ij
x
x


(1, 2,,in

;)。 1, 2,,jm
第二步:构造模糊相似矩阵。建立模糊相似矩阵
的方法主要有相似系数法、距离法、贴近度法和主观
评定法。在此我们采用Hamming 距离法来构造模糊
相似矩阵,即对象 与
i
u
j
u的相似度
1
1
1m
ijik ik
k
rx
m
x


 
。
第三步:建立模糊等价矩阵。通过求传递闭包将
n阶模糊相似矩阵改造成为 n阶模糊等价矩阵,我们
一般采用平方法求 R的传递闭包。
Table 1. Information system
表1. 信息系统
U 1
a2
a  m
a
1
u11
x
12
x
 1m
r
2
u21
x
22
x
 2m
x
    
n
u1n
x
2n
x
 nm
r
Copyright © 2012 Hanspub
272
基于粗糙集与模糊集理论的图书馆最优选书算法
第四步:选取最佳分类阈值进行聚类。
在分类过程中,如何确定分类阈值是一个重要的
问题,在此,我们用最优分类变化率来确定分类阈值
[8]。
在等价矩阵 中,将

R

R中元素 i

从大到小排列,
即12
1
k0


 ,定义 i

的分类变化率
为:
i
C
1
1
ii
iii
Cnn





,
其中与分别为第 i次和第 次聚类的对象个
数。
i
n1i
n1i
若

max
j
i
i
CC,则认为第j次聚类的置信水平
j

为最佳值。
4. 最佳阈值 λ下的各属性权重
下面,结合模糊集与粗糙集理论,我们给出一种
求连续信息表的属性权重的方法。
输入连续信息系统


,,,SUAVf

12
,,,
m
,
,

12
,,,
n
Uuuu
A
aa a。
输出各属性的权重。
步骤 1 根据上述方法找出最佳分类阈值i

,即

max
ij
j
CC,其中 1
1
j
j
jjj
Cnn





;
步骤 2 在最佳阈值 i

下将对象进行聚类,所得
分类看做是在对象在等价关系 下的等价类;

ind A
步骤 3 从A中删除属性 ( ),类似
地,在阈值
k
a1,2,,km
i

下将对象分类,此分类看做是在等价关
系 下的分类,若

k
a



ind A




k
aUindAUind A ,那么属性在 A中是
不可省的,属性的重要性
k
a
k
a





1k
k
Uind AUind Aa
aU


 ;
步骤 4 归一化属性重要性,得到在 i

阈值下,
属性 (k)的权重,即
k
a1,2,, m


1
i
im
k
k
a
w
a





。
5. 图书馆最优选书方案
设 ,

,,,SUAVf


12
,,,
n
Uuuu

是n个选书
方案,

12
,,,
m
A
aa a为对决策起重要作用的个属
性所构成的集合,则各方案可由其相应的 m个属性值
所确定,设


12
,,,
iii im
uxx x( ),式 中1, 2,,inij
x
表示第 i个方案的第 j个属性值,称为方案的属性
指标向量。把这 n个方案的属性指标向量作为行构成
如上述表 1所示的信息系统。
i
u
在信息系统


,,,SUAVf
中,令
0
max min
jij
jj
xx
xx


ij
 1, 2,,
(in,), 1, 2,,jm

其中


max1 2
max,,,
j
jj nj
x
xx x,


min1 2
min,, ,
j
jj nj
x
xx x,
max
0
min
,
,
jj
jjj
xa
xxa





当属性指标
当属性指标
是正指标,
是负负指。
这里正指标是指因素指标值越大方案越优的因素指
标,负指标是指因素指标值越小方案越优的因素指
标。称 ij

为相对偏差值。称 0
j
x
为属性
j
a的标准值,
而称


00 0
012
,,,
m
x xux为标准值向量。
由上述
nm

个相对偏差值 作为元素构成一个
模糊矩阵
ij

1
2
m
m
nm













11 12
21 22
12nn





叫做相对偏差矩阵。
对于给定的 n种选书方案,若这个方案的加权相
对偏差距离与标准值向量的距离最小,则我们选择这
个方案为最优选择方案。根据这种思想,我们可得如
下最优购书算法:
步骤 1 根据前面的算法确定每个属性
j
a的权重
j
w;
步骤 2 根据公式


2
ij

1, 2,,
0
u
01
,m
ii j
j
dduu w




in
,
计算每个方案与标准值向量的加权相对偏差距
离;
i
u
步骤 3 根据最小加权相对偏差距离确定最优方
案,即若


n
dk
u
12
min, , ,
k
ddd,则 选择为最优方
案。
6. 实例分析
下面我们用一个例子说明上述算法的有效性与
Copyright © 2012 Hanspub 273
基于粗糙集与模糊集理论的图书馆最优选书算法
Copyright © 2012 Hanspub
274
Table 2. Expert scoring information system
可行性。某高校图书馆计划新购一批计算机图书。计
算机科学系王老师根据多年的教学经验,结合学生的
兴趣爱好,计划从 ,,,, ,,,
A
BCDEFGH

,,,EFGH
3
a4
a
8类图书中选
择一类最优的图书,即选择方案是:
。按照图书价格( )、教 学
效果( )、科研价值( )、售后服务( )、学生爱好
( )等因素来进行选取。由于影响图书的几个指标有
很强的专业性,因此采用专家主观评分法,对 8类图
书的基本情况进行打分,结果如表2所示。
,,,,UABCD
2
a
5
a
1
a
表2. 专家打分情况信息表
U 1
a2
a3
a 4
a 5
a
1
u0.10.20.3 0.3 0.2
2
u0.30.20.4 0.2 0.1
3
u0.40.50.3 0.5 0.3
4
u0.50.30.2 0.1 0.5
5
u0.20.10.5 0.4 0.2
6
u0.30.30.5 0.5 0.3
7
u0.50.40.4 0.3 0.4
8
u0.20.20.3 0.2 0.3
由于此数据都在


0,1 之间,且量纲相同,我们选
择极差规格化,然后,根据公式
1
1
1m
ijik jk
k
rx
m
x


 
,


ij nn
r

R及求得它的传递闭包 分别如下:

R
计算 与
i
u
j
u之间的相似度,构造相似度矩阵
1 0.730.550.430.720.570.530.85
0.7310.48 0.470.68 0.630.60.78
0.55 0.4810.480.47 0.72 0.680.6
0.430.470.4810.250.40.67 0.58
0.72 0.68 0.47 0.2510.750.480.67
0.570.63 0.720.40.7510.63 0.62
0.530.60.68 0.67 0.48 0.6310.58
R
0.85 0.780.60.58 0.67 0.62 0.581













10.780.720.670.720.72 0.68 0.85
0.7810.720.67 0.720.720.680.78
0.720.7210.670.720.720.680.72
0.670.67 0.6710.67 0.67 0.67 0.67
0.72 0.72 0.72 0.6710.75 0.680.72
0.72 0.72 0.72 0.67 0.7510.68 0.72
0.68 0.68 0.68 0.67 0.68 0.6
R
8 1 0.68
0.85 0.780.72 0.670.72 0.72 0.681













下面,利用最优分类变化率找最佳阈值。
根据模糊等价矩阵 ,得:

R
当0.85 1



时,



















1
dAu2345678
,,,,,,,Uinuuuuuuu;
当0.78 0.85



时,








234567
, ,, , ,Uindu uuuuu

18
,,A uu;
当0.75 0.78



时,






12
,,dAuuu834567
, ,, ,,Uin uuuuu;
当0.72 0.75



时,






12
,,Auu u834567
,,,,,Uinduuu uu;
当0.68 0.72

 时,








123568 4 7
,,,,,,,Uind Auuuuuuuu;
当0.67 0.68


时,







123
,,dA uuu5678 4
,,,,,Uinuuuuu
67
;
当00.


时,
 
UindA U。
由于所在对象各自成类或全部对象并入一类没
有实际意义,根据最佳分类阈值的选取方法,可得
0.72


为最佳阈值。此时








123568 4 7
,,,,,,,Uind Auuu uuuuu;
从A中分别删除 ,在阈值
12345
,,,,aaaaa 0.72


下,用相同的方法,可得
基于粗糙集与模糊集理论的图书馆最优选书算法
















11283456
,,,,, ,,UindAa uuuuuuuu 7
,








212835647
,,, ,,,,UindAauuuuu uuu ,






312583647
,,,, ,,,UindAauu uuuuuu ,





412568 347
,,,,, ,,UindAauu uu uuu u ,
















5 12834567
,,,,, ,,UindAauu uuuu uu ,
所以 ,
(0.1875,0.
第一个图书价
格外,其
0 0.75 0.67 0.5 0.75
 
 
1235
0.75aaaa



41,可得各个属性的权重为:

a

1875,0.1875 ,0 .25 ,0.1 875 )。
显然对于考虑的这些因素指标除
余都是正指标,由信息系统得

,相对偏差矩阵为:
00.1,0.5,0.5,0.5,0.5u
0.5 0.75 0.33 0.75 1
0.75 0 0.67 0 0.5
1 0.5 1 1 0
0. 0. 0.
0.
0.
251 0 2575
0.5 0.5 0 0 0.5
1 0.25 330.5 0.25
250.75 0.67 0.75 0.5
据公式 根


52
01
,
ii jij
j
dduu w




1,2,, 8i,
求得每种选择与标准值向量 的加权相对偏差距离
0
u
为:
1234
0.266; 0.321;0.210; 0.376;dd dd
5678
0.247; 0.162; 0.243; 0.286.dddd


因为最小,所以认为方案 6最优,即购买第 6
学技术的发展,社会对人才的要求最来越
高,
参考文献 (References)
aspects of reasoning about
data. Doric Publishers, 1991.
7): 3356-
]. 情报学报, 2005, 1: 91-100.
报, 2009, 32(7): 1229-1243.
6
d种书
籍最合适。
7. 小结
随着科
而图书馆的建设与发展是提高人们素质的一个重
要基础。在新形势下,各图书馆如何针对自身的特色,
选择适合读者研究需要和阅读参考的图书,是图书馆
面临的一项重要任务。本文结合模糊集与粗糙集理
论,对拟选图书根据给定的条件进行计算分析,为馆
员提供最佳选择方案,从而让馆员在有限精力的条件
下选择确定合适图书。节省了馆员的时间,同时也可
以使做出的购书决策更全面地符合实际需要。
[1] Z. Pawlak. Rough set: Theoretical
drecht: Kluwer Academ
[2] Y. Y. Yao, Y. Zhao. Attribute reduction in decision-theoretic
rough set models. Information Sciences, 2008, 178(1
3373.
[3] 胡清华, 谢宗霞, 于达仁. 基于粗糙集加权的文本分类方法
研究[J
[4] 王国胤, 张清化. 不同知识粒度下粗糙集的不确定性研究[J].
计算机学报, 2008, 31(9): 1588-1598.
[5] 史忠植. 知识发现(第二版)[M]. 北京: 清华大学出版社,
2011.
[6] 王国胤, 姚一豫, 于洪. 粗糙集理论与应用研究综述[J]. 计
算机学
[7] 张振良. 模糊集理论与方法[M]. 武汉: 武汉大学出版社,
2010.
[8] 梁保松, 曹殿立. 模糊数学及其应用[M]. 北京: 科学出版社,
2007.
Copyright © 2012 Hanspub 275

版权所有:汉斯出版社 (Hans Publishers) Copyright © 2012 Hans Publishers Inc. All rights reserved.