Operations Research and Fuzziolgy 运筹与模糊学, 2011, 1, 29-33 http://dx.doi.org/10.12677/orf.2011.12006 Published Online November 2011 (http://www.hanspub.org/journal/orf/) Copyright © 2011 Hanspub ORF Grey LS-SVM Forecasting with Parameter Optimized by Genetic Algorithm Deqiang Zhou Department School of Information and Mathematic, Yangtze University, Jingzhou Email: zdqmfk@yahoo.com.cn Received: Oct. 5th, 2011; revised: Nov. 6th, 2 011; accepted: Nov. 8th, 2011. Abstract: This paper utilized the accumulation generation operation of grey prediction to produce accumu- lated data, and accumulated data were used to construct grey LS-SVM. At the same time the parameters for LS-SVM were pretreated through genetic algorithms to get the optimum parameter values, then the optimized LS-SVM based on genetic algorithms was used to small samples forecasting. A typical example was taken to be analyzed and compared with GM (1, 1) and LS-SVM method. The result shows that the method forecast effect is better, and the predictio n model has better generalization ability. Keywords: Grey Least Square Support Vector Machines; GM (1, 1) Model; Genetic Algorithms; Parameter Selection; Small Samples Forecasting 基于遗传算法优选参数的灰色 LS-SVM 预测 周德强 长江大学信息与数学学院,荆州 Email: zdqmfk@yahoo.com.cn 收稿日期:2011 年10月5日;修回日期:2011 年11 月6日;录用日期:2011 年11 月8日 摘 要:利用灰色预测方法中累加生成运算形成累加数据,将累加数据作为训练样本构造灰色 LS-SVM,并利用遗传算法对灰色 LS-SVM 自身的参数进行优选,然后将基于遗传算法优选参数的灰 色LS-SVM用于小样本预测。选取了典型例子进行验证,并与传统 GM(1, 1)和LS-SVM 方法进行对比。 结果表明本文所提出的方法预测效果良好,且预测模型具有更好的泛化能力。 关键词:灰色 LS-SVM;GM( 1, 1) 模型;遗传算法;参数优选;小样本预测 1. 引言 目前,对时间序列的预测有很多种方法,从传统 的ARMA 模型到智能化的神经网络模型,这些方法的 核心在于建立一个好的预测模型[1]。但是由于实际应 用中时间序列具有不规则、混沌等非线性特性,加之 样本的有限性,很难对系统建立理想的预测模型,因 此,往往难以获得精确的预测结果。 将不同机理的预测方法相结合,为提高预测精度 提供了新的途径。文献[2]提出一种串联灰色神经网 络,将神经网络和灰色预测方法结合,互相取长补短, 避免了 GM(1, 1)模型存在的理论缺陷[2]。但是,该方 法仍然遗留了常规神经网络存在的缺陷,比如学习方 法采用经验风险最小化(ERM)[3]准则,即最小化训练 样本点误差,因而不可避免地出现过拟合现象,影响 了模型的泛化能力。文献[1]提出灰色支持向量机预测 方法,将支持向量机(SVM)和灰色预测方法结合, 发 挥了灰色预测方法中“累加生成”的优点,弱化了原 始序列中随机扰动因素的影响,增强了数据的规律性, 不仅避免了灰色预测方法及模型存在的理论缺陷,而 且克服了神经网络模型中存在的局部极小问题。然而 该方法也仍然遗留了常规支持向量机存在的缺陷,比 如,模型中核函数以及模型参数的选择凭经验选取, 周德强 基于遗传算法优选参数的灰色预测 30 | LS-SVM 容易导致参数选择不准确而使最后的预测精度低于目 标精度[4,5]。另一方面SVM 在处理二次寻优问题上比 较耗时,收敛速度较慢[6]。 Suykens 在SVM 的优化函数中引入方差项,并将 SVM 中的不等式约束条件改为等式约束,提出了一种 以二次等式约束条件为基础的改进型向量机,即最小 二乘支持向量机(LS-SVM)[7],LS-SVM 通过方差项的 引入,将经典 SVM优化函数的不等式约束改成了只 有等式约束,这样 LS-SVM 的求解问题从标准 SVM 的二次函数寻优问题转换为线性方程求解问题,而且 不再需要指定逼近精度 ,大大简化了问题的复杂性, 求解速度相对加快[5,6]。 通过分析灰色预测与 LS-SVM 预测各自的优缺点 及互补性,本文将两种小样本预测技术结合,构造灰 色LS-SVM,并利用遗传算法[5,8,9]对灰色 LS-SVM 自 身的参数进行自动搜索和确定,再利用经寻优预处理 的灰色 LS-SVM 模型进行预测。计算实例表明本文的 方法是可行的且有效的,比传统方法预测精度高,可 用于小样本预测。 2. GM(1, 1)和LS-SVM 的比较 2.1. GM(1, 1)预测方法 设 00 00 1,2, , X xx xn表示原始数据 序列。对原始序列作一阶累加生成得到新序列 (1)(1) (1)(1) (1),(2),, (), X xx xn 其中 10 1 ,1,2, k j x kxjk, 1 ˆ n。对新序列的预 测值 X 利用逆累加生成得到原始序列 0 X 的灰色预 测值,表示为 11 0 0 ˆ11 1 1,1,2. a ak X kXkXke u Xek a 这里,规定 ,其中为GM(1, 1)模 型参数。 00 ˆ1XX1 R ,au GM(1, 1)预测方法所需样本数较少,该模型通过 原始数据的累加可以消除一定的随机性,但它并不是 一种万能方法,对于有些数据模型的解并不合理,理 论上要求原始数据累加生成近似指数型序列,对于具 有波动性变化的非线性序列,其预测精度往往不能令 人满意,适用范围受到很大限制[1,2,10]。 2.2. LS-SVM预测方法 对于训练样本 ,用非 线性映射 1 ,,R, nn kk kk k xy xy x 将样本从原空间映射到一个维数为 的高维特征空间 k Z 中,LS-SVM 的目标是在该空间中 构造最优的线性回归函数 T f xwxb , (1) 式中 为权向量,Rk wRb 为偏移量。 根据 SRM 原则,LS-SVM 算法表述为[7] 22 ,, 1 1 min 22 s.t., 1,2, n i wb k T kkk w ywxbkn (2) 其中 k 为误差项, 是一个调节因子,当 为无穷大 时,所得的解为最小二乘解。实际计算中,不需要知 道非线性变换 x 的具体形式,可用核函数 , ij K xx 来实现算法的线性化。 为求解回归函数,引入如下拉格朗日函数 22 11 ,,, 1 22 nnT ikkk kk Lwb awxb k y ,(3) 式中 k 为拉格朗日乘子。根据 KKT 优化条件有 0, 0,0, 0 k LL L L ab α , (4) 得到如下等式约束条件 1 1 , 0, , 0 n kk k n k k kk T kkk wx wxb y (5) 消去 和 w ,问题归结为求解如下线性方程组 00 T nn b Iαy e e (6) Copyright © 2011 Hanspub ORF 周德强 基于遗传算法优选参数的灰色预测31 | LS-SVM 式中为元素为 1的向量,e 11n I 为 1nn 3 ,,, nn y y 1 T 的单位阵, , 。 23 ,,, 11 2 , T α ijnn x yy ,kx 求方程组(6)的最小二乘解为 1 * * 00 00 T TT nn nn T T nn bII α Iy ee ee e e * (7) 得LS-SVM 线性回归函数为 * 1 , n kk k f xKxx b (8) 支持向量机严格的数学基础使其在理论上有较大 优势,但与其理论研究相比,应用研究则相对滞后[1]。 同时,LS-SVM 预测精度在很大程度上依赖于训练集 的选择[11]。核函数以及模型参数的选取至今没有一定 的理论做指导[1]。研究者往往凭经验和有限的实验给 定一组参数[4]。 2.3. GM(1, 1)与LS-SVM 预测方法的互补性 灰色预测适合处理“小样本”、“贫信息”的数据, LS-SVM 适合处理“小样本”、“非线性”的数据。两 种方法都适合解决小样本的预测问题,这是共性,然 而预测方法却存在较大差异,但分析各自特点,存在 以下互补性: 1) 灰色预测方法是一种不严格的系统方法,它避 开系统结构分析环节,直接通过对原始数据的累加构 建指数增长模型,寻找系统的整体规律,但不适合逼 近复杂的非线性函数。LS-SVM则具有逼近任意函数 的能力。 2) LS-SVM虽然对样本数量依赖性弱,但 LS- SVM 预测精度在很大程度上依赖于训练集的质量,而 灰色预测方法适合处理“贫信息”的数据,对数据集 要求不高。 3) LS-SVM的预测性能对于参数的选择比较敏 感[4],利用灰色预测方法中“累加生成 ”的 优点 , 削 弱原始数据序列中随机扰动因素的影 响,使离乱的 原始 数据中蕴涵的规律充分显露出来,增强数据的规律性, 得到便于LS-SVM 学习的具有单调增长规律的新序 列[1],也同时便于 用优化方法寻 找核函数的参 数。 灰 色预测方法中的参数对GM(1, 1)预测精度也有较 大影响[1],利用LS-SVM 算法建立预测模型,不再求 解GM(1, 1)模型中的参数,可避免 GM(1, 1)模型求解 参数的理论缺陷。 ,au 因此,在灰色预测和LS-SVM 预测都适合解决小 样本问题的共性下,将两种方法结合,取长补短,形 成性能更好的预测方法具有可行性。 3. 灰色 LS-SVM 预测方法 3.1. 灰色LS-SVM模型 根据上述对 GM(1, 1)和LS-SVM特点的分析,本 文提出仅保留灰色预测方法中“累加生成”和“累减 还原”运算,利用 LS-SVM 算法建立灰色 LS-SVM 预 测模型,不再求解 GM(1, 1)模型中的参数。具体算法 设计如下, 1) 对原始数据序列 000 0 12 ,,, n X xx x ,1,23, 作累 加生成: 10 1 k kj j x xk ,,n ,得到生成序列 111 1 12 ,,, n X xx x ,并构成训练样本 ,,1,2,,k n 1 k kx 。 2) 选择核函数 , K ij,利用训练样本构造灰色 LS-SVM 模型,表示为 22 ,, 1 1 1 min 22 s.t., 1,2, n i ab k T kk w x wkb kn (9) 3) 利用 LS-SVM 算法求解模型(9),构造回归函 数, 1** 1 ˆ, n kj j x Kjk b 。 4) 利用累加序列的预测值 1 ˆ x ,进行“累减还原” 得到原始序列的灰色预测值 0 ˆ x 。 3.2. 基于遗传算法优化求解灰色 LS-SVM参数 目前研究最多的核函数主要有三类:多项式核函 数、径向基核函数(RBF)、Sigmoid 核函数。此外,核 函数自身的参数和调节参数 的选取对应用结果也有 较大影响,为达到最佳预测效果,以 RBF 核函数 Copyright © 2011 Hanspub ORF 周德强 基于遗传算法优选参数的灰色预测 32 | LS-SVM 22 2 ,exp iji j Kxxx x 为例说明利用遗传 算法[11-13]对灰色 LS-SVM 的参数 和 进行优选。 以误差平方和最小化为目标,即 2 00 ,2 ˆ min n k x kxk (10) 其中 0 ˆ x k为灰色 LS-SVM 模型预测值,设计求解最 优 和 的遗传算法如下[5,12]: 1) 编码表示。将参数 0, 和 表 示为 位二进制串(的大小可根据 0, n n 和 的精度来 确定)。 2) 构造初始群体。取种群大小 ,在 N0, 上 随机生成 对 N 和 (染色体)作为初始种群 01,0,1,0 ,2,0,2,0 ,, ,0,,0 P NN 3) 对每个染色体解码,采用如 下适应度函数 2 00 ,, 1 ˆ Fit,,,1 n ik j ikikxj xj 计算 群体 中每个染色体, (其中 kK Pk ,ik ,ik 表示代数, K 为最大进化代数)的适应度。其中 0 ,, ˆik x j 表示由参数 ,得到的GM (1, 1) 模型的预测值。 ,ik ,ik 4) 对种群进行遗传操作。计算每代中各个个体的生存 概率 1 Fit,,,Fit,,, M k i j pikik jk jk M 表示第 代种群规模。设计一个随机选择策略(如 “赌盘选择”),使每个个体被选择进行繁殖的概率为 ,将繁殖生成的个体组成父代 。 k k i p 1Pk 以概率 对新一代个体进行交叉换位,产生新的 个体,再对新个体以概率进行变异操作。 c P m P 5) 反复执行步骤(3)~(4),直至得到满意解或已达 到了预设的最大代数为止。 4. 基于遗传算法优选参数的灰色 LS-SVM 的预测方法 通过上述分析,提出基于遗传算法优选参数的灰 色LS-SVM 的预测方法,具体算法设计如下, 1) 对原始数据序列 000 0 12 ,,, n X xx x ,1,23, 作累 加生成: 10 1 k kj j x xk ,,n ,得到生成序列 111 1 12 ,,, n X xx x ,并构成训练样本 1 ,,1,2,, k kx kn。 2) 选择核函数 , K ij(比如 RBF 核),利用训练 样本构造灰色 LS-SVM模型(9)。 3) 利用遗传算法求解式(10),对 灰 色LS-SVM回 归模型(9)中的参数进行寻优预处理。 4) 对经过优化参数的灰色 LS-SVM,依据 LS-SVM 算法求解,构造回归函数 1** 1 ˆ, n kj j x Kjk b 。 5) 利用累加序列的预测值 1 ˆ x ,进行“累减还原” 得到原始序列的灰色预测值 0 ˆ x 。 5. 实例分析 利用文[13]中给出的 1997 年到 2003 年火灾伤人 率数据进行预测,1997~2000 年火灾伤人率数据作为 样本集,2001~2003 年火灾伤人率数据作为测试集, 见表 1。 分别用本文方法(简称累加LS-SVM),原始序列 LS-SVM 模型(简称原始 LS-SVM)进行建模。为具有可 比性,用遗传算法优化累加 LS-SVM 模型和原始 LS-SVM 模型的参数时,控制参数设置为相同的,种 群大小 50N ,二进制编码长度为20,交叉概率为 0.95,变异概率为 0.08,最大进化代数 。用 遗 传算法求得累加 LS-SVM模型的参数为 250K 12.028 , 897.17 ,原始 LS-SVM 模型的参数 21.019 , 637.04 。利用平均绝对相对误差作为评价指标, 与GM(1, 1)模型的拟合结果进行比较,结果见表2。 本文的方法在测试集上的平均相对误差为仅为 7.10%,比用GM(1, 1)和LS-SVM 方法所得的平均相 Table 1. Data of fire injury rate of China from 1997-2003 表1. 我国 1997~2003 年火灾伤人率数据(10–6) 年份 1997199819992000 2001 20022003 伤人率 4 3.9 3.7 3.5 2.96 2.66 2.38 Table 2. Analysis and prediction of fire injury rate of China 表2. 我国 1997~2003 年火灾伤人率预测分析 平均绝对相对误差(%) 样本集 测试集 累加 LS-SVM 模型 2.40 7.10 原始 LS-SVM 模型 0.15 21.67 GM(1, 1)模型 4.58 12.20 Copyright © 2011 Hanspub ORF 周德强 | 基于遗传算法优选参数的灰色 LS-SVM 预测 Copyright © 2011 Hanspub ORF 33 对误差分别降低 5.10%和14.57%,预测精度得到极大 的改善。虽然原始序列适合GM(1, 1)模型,GM(1, 1) 模型能够描述数据内部变化的本质,但传统的GM(1, 1) 模型本身存在理论缺陷,使得模型并没有显示良好的 推广能力,而本文的模型发挥了灰色预测方法中“累 加生成”的优点,削弱了原始数据中的随机性,增强 了规律性,相对直接利用 LS-SVM 模型显示更好的推 广能力,同时避免了 GM(1, 1)方法本身存在的理论缺 陷,预测结果显示模型发挥了 GM(1, 1)和LS-SVM 两 种小样本技术的优势。 6. 结论 综上所述,可得如下结论: 1) 将GM(1, 1)和LS-SVM 这两种“小样本”技术 结合形成灰色LS-SVM,可集成 2种技术在处理小样 本数据上的优点,使单一 LS-SVM 方法和 GM( 1, 1 )各 自的不足得到互补。 2) 在灰色LS-SVM 模型参数的选择上,利用遗传 算法对模型自身的参数进行自动搜索和确定,可克服 传统 LS-SVM 参数选择方法中存在的缺点,保证最终 的预测模型具有更好的泛化能力。 3) 理论分析和实际应用表明本文提出的方法是 可行的且有效的,可用于小样本预测。 参考文献 (References) [1] 唐万梅. 基于灰色支持向量机的新型预测模型[J]. 系统工程 学报, 2006, 21(4): 410-413. [2] 张大海, 毕研秋, 毕研霞等. 基于串联灰色神经网络的电力 负荷预测方法[J]. 系统工程理论与实践, 2004, 12: 128-132. [3] V. N. Vapnik. The nature of statistical learning theory. Heidell- berg: Springer Verlag, 1995. [4] 吴景龙, 杨淑霞, 刘承水. 基于遗传算法优化参数的支持向 量机短期负荷预测方法[J]. 中南大学学报(自然科学版), 2009, 40(1): 180-184. [5] 周辉仁, 郑丕谔, 赵春秀. 基于遗传算法的LS-SVM参数优选 及其在经济预测中的应用[J]. 计算机应用, 2007, 27(6): 1418- 1419, 1429. [6] 王宇红, 黄德先, 高东杰等. 基于LS-SVM的非线性预测控制 技术[J]. 控制与决策, 2004, 19(4): 383-387. [7] J. A. K. Suykens, J. Vandewalle. Least squares support vector machine classfiers. Neural Processing Letters, 1999, 9(3): 293- 300. [8] J. H. Holland. Genetic algorithms. Scientific American, 1992, 4: 44-50. [9] P. J. Denning. Genetic algorithms. Journal of Parallel and Com- puting, 1992, 80(1): 354-360. [10] 李伟, 韩力. 组合灰色预测模型在电力负荷预测中 的应用[J]. 重庆大学学报, 2004, 27(1): 36-39. [11] 席裕庚, 耿晓军, 陈虹. 预测控制性能研究的新进展[J]. 控制 理论与应用, 2000, 17(4): 469-475. [12] 何文章, 宋国乡. 基于遗传算法估计灰色模型中的参数[J]. 系统工程学报, 2005, 20(4): 432-436. [13] 陈子锦, 王福亮, 陆守香. 灰色预测模型GM(1, 1)的适用性分 析及在火灾风险预测中的应用[J]. 中国工程科学, 2007, 9(5): 91-94. |