Journal of Water Resources Research 水资源研究, 2013, 2, 103-108 http://dx.doi.org/10.12677/jwrr.2013.22015 Published Online April 2013 (http://www.hanspub.org/journal/jwrr.html) Copula Entropy and Its Application in Hydrological Correlation Analysis* Lu Chen1,2#, Shenglian Guo1 1State Key Laboratory of Water Resources and Hydropower Engineering Science, Wuhan University, Wuhan 2College of Hydropower & Information Engineering, Huazhong University of Science & Technology, Wuhan Email: #chl8505@126.com Received: Feb. 19th, 2013; revised: Feb. 28th, 2013; accepted: Mar. 17th, 2013 Copyright © 2013 Lu Chen, Shenglian Guo. This is an open access article distributed under the Creative Commons Attribution License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. Abstract: Hydrological events are usually characterized by several correlated variables. There is a great need to estimate the correlation of hydrological variables. In this study, the current hydrologic correlation analysis methods were reviewed, the disadvantages of which were also discussed. The concept of copula entropy was introduced to estimate the dependences. The relationship between copula entropy and mutual information was discussed and the calculation procedures of copula entropy were given. Finally, the proposed method was used for selecting the inputs of artificial neural network for flood forecasting. The comparative study re- sults show that the proposed method performs better than conventional linear regression method and provides a new way for hydrological correlation analysis. Keywords: Copula Entropy; Hydrological Variables; Correlation Analysis; ANN Model Copula 熵理论及其在水文相关性分析中的应用* 陈 璐1,2#,郭生练 1 1武汉大学水资源与水电工程科学国家重点实验室,武汉 2华中科技大学水电与数字化工程学院,武汉 Email: #chl8505@126.com 收稿日期:2013 年2月19 日;修回日期:2013 年2月28 日;录用日期:2013 年3月17 日 摘 要:水文事件一般具有多个方面的特征属性,而各个特征属性之间普遍具有相关性,因此需要采 用特定的方法对水文变量的相关性进行分析。本文综述了现有的相关性计算方法,指出了现有方法的 不足和缺陷;引入 Copula 熵的概念,用以衡量复杂水文现象的相关结构,并给出 Copula 熵与互信息 的关系和计算方法。最后,以神经网络预报因子的选择为例,验证Copula 熵的适用性。比较研究表明: 基于 Copula 熵因子选择的BP 神经网络预报结果最好,好于常用的线性相关系数法,为探讨水文相关 性分析提供了一条新的途径。 关键词:Copula 熵;水文变量;相关分析;ANN 模型 *基金项目:国家自然科学基金(51079100,51190094),武汉大学水资源与水电工程科学国家重点实验室开放基金(2012B092)资助项 目。 #通讯作者。 作者简介:陈璐(1985-),女,山东济南人,讲师,博士。主要从事水文分析与计算方面的研究。 Copyright © 2013 Hanspub 103 陈璐,郭生练:Copula 熵理论及其在水文相关性分析中的应用 Copyright © 2013 Hanspub 第2卷 · 第2期 104 1. 引言 水文事件一般具有多个方面的特征属性,是一个 包含频域、时域和空间域的复杂过程。由于受到诸多 复杂因素的影响,各个特征属性之间普遍具有相关 性。水文时间序列(如年、月、日径流)有时会存在短 滞时或长滞时的相依关系,属于单个变量不同时序间 的相关,称之为自相关。除自相关外,一个要素或变 量还可能同时与几个要素或变量之间相关,如处于同 一子流域、地理位置较为接近的站点,因蒸发、气温、 下垫面情况较为相似,常存在较强的相关性。这种相 关关系称为复相关。相关性不仅存在于水文事件内部 (如洪水的峰和量,干旱的强度和历时),也存在于水 文事件之间(如降雨、径流的空间相关性)。无论是同 一水文事件的不同特征量还是不同的水文事件,当特 征量之间或者是水文事件之间存在相关关系时(或大 或小,线性或非线性),有必要采用特定的方法对变量 的相关性大小进行评估,以便更加科学、客观地认识 水文现象的本质特征,实现防洪减灾和水资源的合理 开发利用。 Copula 函数和信息熵是目前学术界比较推崇的 两种相关性分析方法,已在水文领域得到了广泛的应 用。本研究基于两者在水文相关分析中的优势,将 Copula 熵的概念引入水文领域,并以水文预报因子的 选择为例,分析探讨Copula熵函数在水文领域中的应 用,为进一步开展研究奠定基础。 2. 水文相关性计算方法综述 传统度量变量相关性的方法主要是基于Pearson 线性相关系数。然而,采用线性相关系数时,需要满 足以下两个假设:1) 两变量的相关性必须是线性的; 2) 变量必须服从多元正态分布。实际中,并非所有的 相关关系都是线性的,也并不是所有的水文变量都服 从多元正态分布。因此,Pearson 线性相关系数只是许 多可能中的一种情况。近年来,基于序列排序的秩相 关系数得到了推崇。秩相关系数是一个非参数性质(与 分布无关)的秩统计参数,可用来估计非线性相关,且 对变量的分布无强制限制。常用的秩相关系数主要包 括Kendall 相关系数和 Spearson相关系数。然而,秩 相关系数同样具有缺陷。如当数据排序后,一些信息 可能会失真;且当变量服从正态分布时,它的准确度 不如线性相关系数。 水文过程一般受气候变化、下垫面和人类活动的 综合影响,是一个高度复杂的、动态的、随机的非线 性过程,其中存在着大量非线性化系统识别、仿真和 预测等问题。水文变量的相关性常常是极其复杂的, 包括线性相关与非线性相关;水文变量可能服从正态 分布,也可能服从偏态分布。传统的相关性计算方法, 往往不能真实、准确地反映变量间的相关性结构,会 造成低估或者高估水文变量的值和相应的风险。并 且,大部分方法只适用于计算两变量的相关性,无法 向多维扩展。 Copula 函数是最近出现的一种描述相关性的有 效方法,它通过构造变量的联合分布来刻画变量间的 相关性结构。由于它可以构造任意边缘分布的联合分 布,具有极强的灵活性和适用性,近几年在多变量水 文分析计算方面得到了广泛地应用[1]。变量的所有信 息都包含在分布函数里,因此 Copula函数能更全面地 刻画变量的统计特性。目前,Copula函数已应用于降 雨的频率分析(Kao 和Govindaraju(2007)[2];Vanden- berghe(2010)[3])、洪水的频率分析(Zhang 和Si ngh(2007) [4];Grimaldi 和Serinaldi(2007)[5])和干旱分析等领域 (Shiau(2006)[6];Kao和Govindaraju(2010)[7])。 另一种常用的相关性估计方法是基于信息熵理 论提出的。在信息论中,研究者用互信息(Mutual information)表示随机变量概率分布之间的相关性,将 其看作一个随机变量中包含的关于另一个随机变量 的信息量。如果互信息为 0,则证明变量是独立的; 如果变量间存在函数关系,则互信息较大,变量间具 有强相关性[8]。互信息度量相关性的优势在于:1) 它 是一种非参数的方法;2) 对变量的函数形式没有限 制,变量可以服从任何分布;3) 可用于计算多个变量 之间的相关性。采用互信息的方法计算变量之间的相 关性已在水文学中得到了广泛的应用。如Harman- cioglu 和Yevjevich(1987)分析了河流上下游、干流和 支流以及支流之间的相关性[9]。Alfonso 等(2010)以站 点的互信息最小为准则,确定了水文站点的最优布设 位置[10]。 除此之外,Ma 和Sun(2008)创造性地提出了 Copula 熵的概念,它将 Copula 函数和熵理论相结合, 通过 Copula 函数的熵来度量变量之间的相关性[11]。 陈璐,郭生练:Copula 熵理论及其在水文相关性分析中的应用 第2卷 · 第2期 Copula 函数和熵理论是两种能够综合考虑变量间相 关性的多变量、非线性水文分析工具,目前已在水文 领域得到十分广泛的应用。Copula 熵采用Copula 函 数和信息熵理论相结合的方式构建,将信息熵理论进 行了扩展,使用一维熵函数与Copula 结合的形式替代 了不易处理的联合熵和互信息。它兼具 Copula 函数和 信息熵理论的优点。这些优点包括:Copula 函数值可 以采用非参数估计方法获得,在衡量非椭圆分布族的 相关性方面效果优良;计算简便且不受维数限制,超 越了传统线性相关系数和互信息在相关性衡量的二 维限制。Zhao and Lin(2011)采用Copula 熵的方法,模 拟了股票市场之间的相关性[12]。到目前为止,尚未见 到Copula 熵函数在水文水资源领域中的应用。 3. 随机变量的熵 在探讨 Copula熵之前,首先介绍随机变量的熵, 由此推广至Copula 函数的熵。1948 年,Shannon 将玻 尔兹曼熵的概念引入信息论中,并将熵作为一个随机 事件的不确定性或信息量的量度[13]。因此信息数量的 大小可以用被消除的不确定性的多少来表示,而随机 事件不确定性的大小可以用概率分布函数来描述。 令变量 X代表某一离散型随机变量,处于某一状 态 1, 2,, i x in的概率为 i px ,则离散信息熵的表 达式为: 11 log ln nn iei i ii i H Pppp p (1a) 式中: H P为离散信息熵的熵函数。熵的单位与公 式中对数的底有关。最常用的是以 2为底,单位为比 特(bit);在理论推导中常采用以e为底,单位为奈特 (Nat);还可以采用其他的底和单位,并可进行互换。 本文采用的单位为奈特(Nat)。 对于连续的变量,Shannon 信息熵可以表达为: ln d b a H xfxfx x (1b) 式中: H x为连续型信息熵的熵函数; f x为变量 X的概率密度函数。信息熵函数具有熵的全部基本性 质(如非负性、对称性、扩展性、可加性等)。从某方 面说,信息熵实际是随机事件概率分布的函数。 大多数水文变量都是连续的,如降雨量、径流量 等。因此,本文重点研究连续随机变量的熵。式(1b) 定义了单变量X的边缘熵(Marginal entropy),下面给 出两变量及多变量的联合熵。 令X1和X2为两个随机变量,其联合熵可定义为: 1 2121212 00 ,,log,dd H XXfxxfxxxx (2) 令12 ,,, d X XX为随机变量,多维的联合熵可用 下式表示: 12 12 00 12 12 ,,,,,, log,,,d dd dd dd HXXXfxx x f xxx xxx (3) 4. Copula熵理论 4.1. Copula熵定义 令x R d,为 d维随机变量,其边缘分布函数 为 i, F X , ii UFX1, 2,,id 。其中,Ui为服从 均匀分布的随机变量,ui为随机变量 Ui的具体数值。 Copula 函数的熵可用下式表示: 11 12 12 00 12 1 ,,, ,,, log, ,,dd Cd d dd Huuu cuuu cuuu u u (4) 式中: 12 ,,, d cuu u为Copula 函数的概率密度函数, 可以表示为 12 12 ,, , d d Cuu u uu u 。 4.2. Copula熵性质 Copula 熵具有信息熵的所有性质,包括非负性、 对称性、扩展性、可加性。除此之外,Copula 熵还与 互信息之间具有一定的内在关系,本研究将此作为 Copula 熵的又一性质,探究了 Copula 熵与互信息之 间的关系。 首先,给出变量X的概率密度函数 12 ,,, d f xx x: 121 1 ,,,,, d dd i i f xxx cuufx (5) 依据式(3),多维联合熵可表示为: Copyright © 2013 Hanspub 105 陈璐,郭生练:Copula 熵理论及其在水文相关性分析中的应用 Copyright © 2013 Hanspub 第2卷 · 第2期 106 12d d 12 121212 00 1112 11 00 11 1 1 00 1 ,,, ,,, log,,,ddd ,,log,,dd d ,,log,,logddd ,, d ddd dd nini d ii dd did i i i HXX X fxxxfxxx xxx cuufxcuufxxxx cuuf xcuuf xxxx cu 112 1 00 112 1 1 00 log,,d dd ,,logddd d did d i dd dii d i i ufx cuuxxx cuuf xf xxxx AB (6) 其中, 112 1 1 00 12 12 1 00 12 112 00 121 12 00 1 ,,logddd ,,,logddd ,,,loglogdd d ,,,logddd , dd di i d i i n did i dd dd Acuufxfx xxx fxxxfx xxx f xxxfxfxxx x fxxxfx xxx fx 212 00 11221 000 121 1 000 11 0 ,, logdd d log, , ,ddd log, , ,ddd log d dd d dd dddd dd iii i ii xx fxxxx fxfxxxxx x fxfxxx xxx fxfx xHX (7a) 根据 ,式(6)中的 B可表示为: dd i uxfx 11 1 00 1112 00 ,,log,,dd d ,, log,,dd d n di d i ddd Bcuufxcuuxx cu ucu u xx xH 12 d C x u (7b) 因此,多维变量的联合熵可用 d个边缘熵的和与 Copula 函数的熵来描述,其表达式为[11]: 12 12 1 ,,,,,, d diC i d H XXXHXH uuu (8) 式(8)表明多维变量的联合熵可分解为两部分,即边缘 熵的和与Copula 函数的熵。 4.3. Copula熵计算方法 4.3.1. 多重积分方法 根据 Copula 熵的定义,Copula 熵可以直接通过 陈璐,郭生练:Copula 熵理论及其在水文相关性分析中的应用 第2卷 · 第2期 对式(4)积分得到。主要步骤为: 1) 估计 Copula 函数的参数,得到 Copula 的概率 密度函数,确定被积函数。 2) 采用多重积分方法对被积函数进行积分[14]。 4.3.2. Monte Carlo方法 当变量较多时,计算被积函数的多重积分往往比 较困难,可采用Monte Carlo方法模拟 Copula 函数的 熵。 令 0,1 ,1,,iUd U ,Copula 熵可表示为: 12 0,1 ,,,ln d ln d Cd Huu ucc Ec UU U (9) 因此,Copula 函数的熵就等于 的期望 值。求 Copula 函数的熵转化为求 ln 的期望, 可通过 Monte Carlo模拟方法计算数学期望。主要计 算步骤为: ln c U c U 1) 估计 Copula函数的参数; 2) 根据已知的 Copula 函数,生成M对相关的 U; 3) 计算 的平均值。 ln cU 5. Copula熵在人工神经网络预报因子选择 中的应用 水文预报因子选择的本质是度量输入和输出变 量之间的相关性特征。现采用Copula 熵的方法选择了 预报因子,分析探讨Copula熵函数的适用性。 目前,人工神经网络(Artificial Neural Network, ANN)已普遍的应用于水文预测、 预报中[15, 16 ]。采用人 工神经网络进行水文预报的关键问题是预报因子(输入 变量)的选择。赵铜铁钢和杨大文(2010) 采用互信息方 法,选择了基于神经网络水文预报模型的预报因子[17]。 互信息的基本概念为:两变量X1和X2的互信息 为两变量中重合的信息量,已知X2的条件 下,变量X1不确定性的减少量为: 12 ,TXX 121 2 12 ,,TXXHX HXHXX (10) 如图 1所示,X1和X2的信息总量为两变量的联 合熵 12 , H XX ,即两圆周内所包围的面积。传递的 信息量为变量X1和X2共同覆盖的信息,图中阴影部 分,它等于边缘熵的和同联合熵的差值。因此说,互 信息用于表示信息之间的关系,是两个随机变量统计 Figure 1. Description of joint entropy and mutual information 图1. 联合熵和互信息示意图 相关性的测度。 根据式(8)可知,当 d = 2时, 121212 ,, C H XXHXHXH uu (11) 由式(10)、(11)得 1212 12 12 ,, , C TXXHX HXHXX HXX (12) 采用互信息进行水文预报因子选择时,它的缺陷 在于不能考虑已选入变量对结果的影响。针对此问 题,Sharma(2000)对互信息的方法进行了改进,提出 了偏互信息(Patial Mutual Information, PMI)的概念 [18]。偏互信息与互信息的本质区别在于偏互信息将式 (10)中的 X1 、 X2替换为 12 111 ,,XxXxx E z ; 222xExx z 。其中,E表示期望值;X1表示待 选ANN 网络的预报因子;X2表示 ANN网络的输出; z表示已选入的预报因子集合。采用 Hampel检验对选 择的结果进行验证,从而确定一组变量中,其中一个 变量包含的信息量(即PMI 值)是否明显的大于其它变 量。Hampel检验的具体步骤参见文献[19]。 本文以长江上游金沙江、岷江、沱江、嘉陵江、 乌江以及长江宜昌站前期日流量作为输入,采用人工 神经网络模型,预报宜昌站t天的流量。采用Copula 熵的方法计算偏互信息,选择预报因子,最终选择的 输入变量为:宜昌站 t-1、t-2 时刻的流量、高场站 t-3 时刻的流量,李家湾站t-3 时刻的流量,北碚站t-2 时 刻的流量,武隆站t-2 时刻的流量、屏山站t-1 时刻的 流量。 本研究采用三峡宜昌站还原后的1998~2007 年汛 期日流量数据(6 月1日~9 月30日)参与计算,80%的 数据(1998~2005 年)用于模型的训练,20%的数据 (2006~2007 年)用于模型的检验。分别采用相关系数 法和 Copula 熵的方法对预报因子进行筛选,应用三种 神经网络模型即 BP 神经网络、RBF 神经网络和 Copyright © 2013 Hanspub 107 陈璐,郭生练:Copula 熵理论及其在水文相关性分析中的应用 Copyright © 2013 Hanspub 第2卷 · 第2期 108 Table 1. Comparison of results obtained with different ANN models and input variables at the Yichang station of Yangtze River 表1. 长江宜昌站不同 ANN模型的计算结果比较分析 确定性系数(%) RMSE 合格率(%) 因子选择方法 神经网络 率定 检验 率定 检验 率定 检验 BP 92.31 90.36 1476 2932 98.57 85.66 GRNN 97.73 88.82 1667 3158 97.54 79.10 相关系数 RBF 97.28 85.82 1824 3555 97.75 80.74 BP 94.02 93.41 1281 2423 98.98 95.90 GRNN 98.39 87.35 1405 3359 98.77 81.15 Copula熵 RBF 97.29 91.47 1822 2758 98.05 93.44 GRNN 神经网络模型,预报宜昌站第 t天的日流量。 表1给出了预报结果的确定性系数、合格率以及实测 值和预报值的均方根误差(RMSE)。可知,Copula 熵 明显地优于常用的线性相关系数法。基于 Copula 熵因 子选择的 BP神经网络预报结果最好,其检验期的确 定性系数及合格率分别为 93.41%和95.9%。 6. 结论 本文综述了现有的水文相关性计算方法,指出了 其存在的不足及问题;首次将Copula 熵的概念引入水 文领域,探讨了 Copula 熵与互信息的关系,给出了 Copula 熵的计算方法,并将Copula 熵函数用于水文 预报因子的选择。本研究为水文相关性分析提供了一 条新的途径。 参考文献 (References) [1] 郭生练, 闫宝伟, 肖义, 等. Copula函数在多变量水文分析计 算中的应用及研究进展[J]. 水文, 2008, 28(3): 1-7. GUO Shenglian, YAN Baowei, XIAO Yi, et al. Multivariate Hydrological Analysis and Estimation. Journal of China Hy- drology, 2008, 28(3): 1-7. (in Chinese) [2] KAO, S. C., GOVINDARAJU, S. A bivariate frequency analysis of extreme rainfall with implications for design. Journal of Geophysical Research-Atmospheres, 2007, 112(D13). [3] VANDENBERGHE, S. , VERHOEST, N. E. C. and DE BAETS, B. Fitting bivariate copulas to the dependence structure between storm characteristics: A detailed analysis based on 105 year 10 min rainfall. Water Resources Research, 2010, 46(1): W01512. [4] ZHANG, L., SINGH, V. P. Trivariate flood frequency analysis using the Gumbel-Hougaard copula. Journal of Hydrological Engineering, 2007, 12(4): 431-439. [5] GRIMALDI, S., SERINALDI, F. Asymmetric copula in multi- variate flood frequency analysis. Advances in Water Resources, 2006, 29(8): 1155-1167. [6] SHIAU, J. T. Fitting drought duration and severity with two- dimensional copulas. Wa ter Resources Management, 2006, 20( 5): 795-815. [7] KAO, S. C., GOVINDARAJU, R. S. A copula-based joint defi- cit index for droughts. Journal of Hydrology, 2010, 380(1-2): 121-134. [8] LI, W. Mutual information functions versus correlation functions. Journal of Statistical Physics, 1990, 60(5-6): 823-837. [9] HARMANCIOGLU, N., YEVJEVICH, V. Transfer of hydro- logic information among river points. Journal of Hydrology, 1987, 91(1-2): 103-118. [10] ALFONSO, L., LOBBRECHT, A. and PRICE, R. Information theory-based approach for location of monitoring water level gauges in polders. Water Resources Research, 2010, 46(3): W03528. [11] MA, J., SUN, Z. Mutual information is copula entropy. Tsinghua Science and Technology, 2008, 16(1): 51-54. [12] ZHAO, N., LIN, W. T. A copula entropy approach to correlation measurement at the country level. Applied Mathematics and Computation, 2011, 218(2): 628-642. [13] SHANNON, C. E. A mathematical theory of communication. The Bell System Technical Journal, 1948, 27: 379-423. [14] BERNTSON, J., ESPELID, T. O. and GENZ, A. An adaptive algorithm for the approximate calculation of multiple integrals. ACM Transactions on Mathematical Software, 1991, 17(4): 437- 451. [15] ASCE Task Committee. Application of artificial neural networks in hydrology, artificial neural networks in hydrology, I: Prelimi- nary concepts. Journal of Hydrologic Engineering, 2000, 5(2), 115-123. [16] ASCE Task Committee. Application of artificial neural networks in hydrology, artificial neural networks in hydrology. II: Hydro- logic applications. Journal of Hydrologic Engineering, 2000, 5(2), 124-137. [17] 赵铜铁钢, 杨大文. 神经网络径流预报模型中基于互信息的 预报因子选择方法[J]. 水力发电学报, 2011, 20(1), 24-30. ZHAO Steel, YANG Dawen. Mutual information-based input variable selection method for runoff-forecasting neural network model. Journal of Hydroelectric Engineering, 2011, 20(1), 24-30. (in Chinese) [18] SHARMA, A. Seasonal to interannual rainfall probabilistic fore- casts for improved water supply management: Part 1 a strategy for system predictor identification. Journal of Hydrology, 2000, 239(1): 232-239. [19] FERNANDO, T. M. K. G., MAIER, H. R. and DANDY, G. C. Selection of input variables for data driven models: An average shifted histogram partial mutual information estimator approach. Journal of Hydrology, 2009, 367(3-4): 165-176. |