Copula熵理论及其在水文相关性分析中的应用 Copula Entropy and Its Application in Hydrological Correlation Analysis

doi:10.12677/JWRR.2013.22015

设为首页加入收藏期刊导航网站地图

期刊菜单

文章导航

Journal of Water Resources Research 水资源研究, 2013, 2, 103-108

http://dx.doi.org/10.12677/jwrr.2013.22015 Published Online April 2013 (http://www.hanspub.org/journal/jwrr.html)

Copula Entropy and Its Application in Hydrological

Correlation Analysis*

Lu Chen1,2#, Shenglian Guo1

1State Key Laboratory of Water Resources and Hydropower Engineering Science, Wuhan University, Wuhan

2College of Hydropower & Information Engineering, Huazhong University of Science & Technology, Wuhan

Email: #chl8505@126.com

Received: Feb. 19th, 2013; revised: Feb. 28th, 2013; accepted: Mar. 17th, 2013

which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract: Hydrological events are usually characterized by several correlated variables. There is a great need

to estimate the correlation of hydrological variables. In this study, the current hydrologic correlation analysis

methods were reviewed, the disadvantages of which were also discussed. The concept of copula entropy was

introduced to estimate the dependences. The relationship between copula entropy and mutual information

was discussed and the calculation procedures of copula entropy were given. Finally, the proposed method

was used for selecting the inputs of artificial neural network for flood forecasting. The comparative study re-

sults show that the proposed method performs better than conventional linear regression method and provides

a new way for hydrological correlation analysis.

Keywords: Copula Entropy; Hydrological Variables; Correlation Analysis; ANN Model

Copula 熵理论及其在水文相关性分析中的应用*

陈璐1,2#，郭生练 1

1武汉大学水资源与水电工程科学国家重点实验室，武汉

2华中科技大学水电与数字化工程学院，武汉

Email: #chl8505@126.com

收稿日期：2013 年2月19 日；修回日期：2013 年2月28 日；录用日期：2013 年3月17 日

摘要：水文事件一般具有多个方面的特征属性，而各个特征属性之间普遍具有相关性，因此需要采

用特定的方法对水文变量的相关性进行分析。本文综述了现有的相关性计算方法，指出了现有方法的

不足和缺陷；引入 Copula 熵的概念，用以衡量复杂水文现象的相关结构，并给出 Copula 熵与互信息

的关系和计算方法。最后，以神经网络预报因子的选择为例，验证Copula 熵的适用性。比较研究表明：

基于 Copula 熵因子选择的BP 神经网络预报结果最好，好于常用的线性相关系数法，为探讨水文相关

性分析提供了一条新的途径。

关键词：Copula 熵；水文变量；相关分析；ANN 模型

*基金项目：国家自然科学基金(51079100，51190094)，武汉大学水资源与水电工程科学国家重点实验室开放基金(2012B092)资助项

目。

#通讯作者。

作者简介：陈璐(1985-)，女，山东济南人，讲师，博士。主要从事水文分析与计算方面的研究。

陈璐，郭生练：Copula 熵理论及其在水文相关性分析中的应用

第2卷 · 第2期

104

1. 引言

水文事件一般具有多个方面的特征属性，是一个

包含频域、时域和空间域的复杂过程。由于受到诸多

复杂因素的影响，各个特征属性之间普遍具有相关

性。水文时间序列(如年、月、日径流)有时会存在短

滞时或长滞时的相依关系，属于单个变量不同时序间

的相关，称之为自相关。除自相关外，一个要素或变

量还可能同时与几个要素或变量之间相关，如处于同

一子流域、地理位置较为接近的站点，因蒸发、气温、

下垫面情况较为相似，常存在较强的相关性。这种相

关关系称为复相关。相关性不仅存在于水文事件内部

(如洪水的峰和量，干旱的强度和历时)，也存在于水

文事件之间(如降雨、径流的空间相关性)。无论是同

一水文事件的不同特征量还是不同的水文事件，当特

征量之间或者是水文事件之间存在相关关系时(或大

或小，线性或非线性)，有必要采用特定的方法对变量

的相关性大小进行评估，以便更加科学、客观地认识

水文现象的本质特征，实现防洪减灾和水资源的合理

开发利用。

Copula 函数和信息熵是目前学术界比较推崇的

两种相关性分析方法，已在水文领域得到了广泛的应

用。本研究基于两者在水文相关分析中的优势，将

Copula 熵的概念引入水文领域，并以水文预报因子的

选择为例，分析探讨Copula熵函数在水文领域中的应

用，为进一步开展研究奠定基础。

2. 水文相关性计算方法综述

传统度量变量相关性的方法主要是基于Pearson

线性相关系数。然而，采用线性相关系数时，需要满

足以下两个假设：1) 两变量的相关性必须是线性的；

2) 变量必须服从多元正态分布。实际中，并非所有的

相关关系都是线性的，也并不是所有的水文变量都服

从多元正态分布。因此，Pearson 线性相关系数只是许

多可能中的一种情况。近年来，基于序列排序的秩相

关系数得到了推崇。秩相关系数是一个非参数性质(与

分布无关)的秩统计参数，可用来估计非线性相关，且

对变量的分布无强制限制。常用的秩相关系数主要包

括Kendall 相关系数和 Spearson相关系数。然而，秩

相关系数同样具有缺陷。如当数据排序后，一些信息

可能会失真；且当变量服从正态分布时，它的准确度

不如线性相关系数。

水文过程一般受气候变化、下垫面和人类活动的

综合影响，是一个高度复杂的、动态的、随机的非线

性过程，其中存在着大量非线性化系统识别、仿真和

预测等问题。水文变量的相关性常常是极其复杂的，

包括线性相关与非线性相关；水文变量可能服从正态

分布，也可能服从偏态分布。传统的相关性计算方法，

往往不能真实、准确地反映变量间的相关性结构，会

造成低估或者高估水文变量的值和相应的风险。并

且，大部分方法只适用于计算两变量的相关性，无法

向多维扩展。

Copula 函数是最近出现的一种描述相关性的有

效方法，它通过构造变量的联合分布来刻画变量间的

相关性结构。由于它可以构造任意边缘分布的联合分

布，具有极强的灵活性和适用性，近几年在多变量水

文分析计算方面得到了广泛地应用[1]。变量的所有信

息都包含在分布函数里，因此 Copula函数能更全面地

刻画变量的统计特性。目前，Copula函数已应用于降

雨的频率分析(Kao 和Govindaraju(2007)[2]；Vanden-

berghe(2010)[3])、洪水的频率分析(Zhang 和Si ngh(2007)

[4]；Grimaldi 和Serinaldi(2007)[5])和干旱分析等领域

(Shiau(2006)[6]；Kao和Govindaraju(2010)[7])。

另一种常用的相关性估计方法是基于信息熵理

论提出的。在信息论中，研究者用互信息(Mutual

information)表示随机变量概率分布之间的相关性，将

其看作一个随机变量中包含的关于另一个随机变量

的信息量。如果互信息为 0，则证明变量是独立的；

如果变量间存在函数关系，则互信息较大，变量间具

有强相关性[8]。互信息度量相关性的优势在于：1) 它

是一种非参数的方法；2) 对变量的函数形式没有限

制，变量可以服从任何分布；3) 可用于计算多个变量

之间的相关性。采用互信息的方法计算变量之间的相

关性已在水文学中得到了广泛的应用。如Harman-

cioglu 和Yevjevich(1987)分析了河流上下游、干流和

支流以及支流之间的相关性[9]。Alfonso 等(2010)以站

点的互信息最小为准则，确定了水文站点的最优布设

位置[10]。

除此之外，Ma 和Sun(2008)创造性地提出了

Copula 熵的概念，它将 Copula 函数和熵理论相结合，

通过 Copula 函数的熵来度量变量之间的相关性[11]。

陈璐，郭生练：Copula 熵理论及其在水文相关性分析中的应用

第2卷 · 第2期

Copula 函数和熵理论是两种能够综合考虑变量间相

关性的多变量、非线性水文分析工具，目前已在水文

领域得到十分广泛的应用。Copula 熵采用Copula 函

数和信息熵理论相结合的方式构建，将信息熵理论进

行了扩展，使用一维熵函数与Copula 结合的形式替代

了不易处理的联合熵和互信息。它兼具 Copula 函数和

信息熵理论的优点。这些优点包括：Copula 函数值可

以采用非参数估计方法获得，在衡量非椭圆分布族的

相关性方面效果优良；计算简便且不受维数限制，超

越了传统线性相关系数和互信息在相关性衡量的二

维限制。Zhao and Lin(2011)采用Copula 熵的方法，模

拟了股票市场之间的相关性[12]。到目前为止，尚未见

到Copula 熵函数在水文水资源领域中的应用。

3. 随机变量的熵

在探讨 Copula熵之前，首先介绍随机变量的熵，

由此推广至Copula 函数的熵。1948 年，Shannon 将玻

尔兹曼熵的概念引入信息论中，并将熵作为一个随机

事件的不确定性或信息量的量度[13]。因此信息数量的

大小可以用被消除的不确定性的多少来表示，而随机

事件不确定性的大小可以用概率分布函数来描述。

令变量 X代表某一离散型随机变量，处于某一状

态



1, 2,,

in的概率为





px ，则离散信息熵的表

达式为：



log ln

iei i

Pppp



 



(1a)

式中：



P为离散信息熵的熵函数。熵的单位与公

式中对数的底有关。最常用的是以 2为底，单位为比

特(bit)；在理论推导中常采用以e为底，单位为奈特

(Nat)；还可以采用其他的底和单位，并可进行互换。

本文采用的单位为奈特(Nat)。

对于连续的变量，Shannon 信息熵可以表达为：

 

ln d

xfxfx

x

(1b)

式中：



x为连续型信息熵的熵函数；



x为变量

X的概率密度函数。信息熵函数具有熵的全部基本性

质(如非负性、对称性、扩展性、可加性等)。从某方

面说，信息熵实际是随机事件概率分布的函数。

大多数水文变量都是连续的，如降雨量、径流量

等。因此，本文重点研究连续随机变量的熵。式(1b)

定义了单变量X的边缘熵(Marginal entropy)，下面给

出两变量及多变量的联合熵。

令X1和X2为两个随机变量，其联合熵可定义为：

 

1 2121212

,,log,dd

XXfxxfxxxx





 (2)

令12

,,,

XX为随机变量，多维的联合熵可用

下式表示：





12 12

,,,,,,

log,,,d dd

HXXXfxx x

xxx xxx















(3)

4. Copula熵理论

4.1. Copula熵定义

令x



d，为 d维随机变量，其边缘分布函数

为









UFX1, 2,,id



。其中，Ui为服从

均匀分布的随机变量，ui为随机变量 Ui的具体数值。

Copula 函数的熵可用下式表示：





12 12

12 1

,,, ,,,

log, ,,dd

Cd d

Huuu cuuu

cuuu u u











(4)

式中：





,,,

cuu u为Copula 函数的概率密度函数，

可以表示为





,, ,

Cuu u

uu u



 



。

4.2. Copula熵性质

Copula 熵具有信息熵的所有性质，包括非负性、

对称性、扩展性、可加性。除此之外，Copula 熵还与

互信息之间具有一定的内在关系，本研究将此作为

Copula 熵的又一性质，探究了 Copula 熵与互信息之

间的关系。

首先，给出变量X的概率密度函数



,,,

xx x：



121 1

,,,,, d



xxx cuufx





 (5)

依据式(3)，多维联合熵可表示为：

陈璐，郭生练：Copula 熵理论及其在水文相关性分析中的应用

第2卷 · 第2期

106

12d









  



121212

1112

,,,

,,, log,,,ddd

,,log,,dd d

,,log,,logddd

ddd

nini d

did i

HXX X

fxxxfxxx xxx

cuufxcuufxxxx

cuuf xcuuf xxxx











 



 







 























 

 





 

112

log,,d dd

,,logddd

did d

dii d

ufx cuuxxx

cuuf xf xxxx

































 

(6)

其中，

 









112

12 12

12 112

121 12

,,logddd

,,,logddd

,,,loglogdd d

,,,logddd

di i d

did

Acuufxfx xxx

fxxxfx xxx

xxxfxfxxx x

fxxxfx xxx













 



 



 



 

 















 

 









 

 

212

11221

000

121 1

000

,, logdd d

log, , ,ddd

log d

dd d

dddd

iii i

xx fxxxx

fxfxxxxx x

fxfxxx xxx

fxfx xHX

















 







 







 

















(7a)

根据，式(6)中的 B可表示为：



dd i

uxfx







1112

,,log,,dd d

,, log,,dd d

di d

ddd

Bcuufxcuuxx

cu ucu u xx xH









 



 







 

u

(7b)

因此，多维变量的联合熵可用 d个边缘熵的和与

Copula 函数的熵来描述，其表达式为[11]：



12 12

,,,,,,

diC



XXXHXH uuu









(8)

式(8)表明多维变量的联合熵可分解为两部分，即边缘

熵的和与Copula 函数的熵。

4.3. Copula熵计算方法

4.3.1. 多重积分方法

根据 Copula 熵的定义，Copula 熵可以直接通过

陈璐，郭生练：Copula 熵理论及其在水文相关性分析中的应用

第2卷 · 第2期

对式(4)积分得到。主要步骤为：

1) 估计 Copula 函数的参数，得到 Copula 的概率

密度函数，确定被积函数。

2) 采用多重积分方法对被积函数进行积分[14]。

4.3.2. Monte Carlo方法

当变量较多时，计算被积函数的多重积分往往比

较困难，可采用Monte Carlo方法模拟 Copula 函数的

熵。

令





0,1 ,1,,iUd







，Copula 熵可表示为：



 





0,1

,,,ln d

Huu ucc



 





UU

(9)

因此，Copula 函数的熵就等于的期望

值。求 Copula 函数的熵转化为求 ln 的期望，

可通过 Monte Carlo模拟方法计算数学期望。主要计

算步骤为：



ln c











1) 估计 Copula函数的参数；

2) 根据已知的 Copula 函数，生成M对相关的 U；

3) 计算的平均值。



ln cU

5. Copula熵在人工神经网络预报因子选择

中的应用

水文预报因子选择的本质是度量输入和输出变

量之间的相关性特征。现采用Copula 熵的方法选择了

预报因子，分析探讨Copula熵函数的适用性。

目前，人工神经网络(Artificial Neural Network,

ANN)已普遍的应用于水文预测、预报中[15, 16 ]。采用人

工神经网络进行水文预报的关键问题是预报因子(输入

变量)的选择。赵铜铁钢和杨大文(2010) 采用互信息方

法，选择了基于神经网络水文预报模型的预报因子[17]。

互信息的基本概念为：两变量X1和X2的互信息

为两变量中重合的信息量，已知X2的条件

下，变量X1不确定性的减少量为：



,TXX







121 2 12

,,TXXHX HXHXX



(10)

如图 1所示，X1和X2的信息总量为两变量的联

合熵



XX ，即两圆周内所包围的面积。传递的

信息量为变量X1和X2共同覆盖的信息，图中阴影部

分，它等于边缘熵的和同联合熵的差值。因此说，互

信息用于表示信息之间的关系，是两个随机变量统计

Figure 1. Description of joint entropy and mutual information

图1. 联合熵和互信息示意图