设为首页 加入收藏 期刊导航 网站地图
  • 首页
  • 期刊
    • 数学与物理
    • 地球与环境
    • 信息通讯
    • 经济与管理
    • 生命科学
    • 工程技术
    • 医药卫生
    • 人文社科
    • 化学与材料
  • 会议
  • 合作
  • 新闻
  • 我们
  • 招聘
  • 千人智库
  • 我要投搞
  • 办刊

期刊菜单

  • ●领域
  • ●编委
  • ●投稿须知
  • ●最新文章
  • ●检索
  • ●投稿

文章导航

  • ●Abstract
  • ●Full-Text PDF
  • ●Full-Text HTML
  • ●Full-Text ePUB
  • ●Linked References
  • ●How to Cite this Article
Journal of Water Resources Research 水资源研究, 2013, 2, 103-108
http://dx.doi.org/10.12677/jwrr.2013.22015 Published Online April 2013 (http://www.hanspub.org/journal/jwrr.html)
Copula Entropy and Its Application in Hydrological
Correlation Analysis*
Lu Chen1,2#, Shenglian Guo1
1State Key Laboratory of Water Resources and Hydropower Engineering Science, Wuhan University, Wuhan
2College of Hydropower & Information Engineering, Huazhong University of Science & Technology, Wuhan
Email: #chl8505@126.com
Received: Feb. 19th, 2013; revised: Feb. 28th, 2013; accepted: Mar. 17th, 2013
Copyright © 2013 Lu Chen, Shenglian Guo. This is an open access article distributed under the Creative Commons Attribution License,
which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
Abstract: Hydrological events are usually characterized by several correlated variables. There is a great need
to estimate the correlation of hydrological variables. In this study, the current hydrologic correlation analysis
methods were reviewed, the disadvantages of which were also discussed. The concept of copula entropy was
introduced to estimate the dependences. The relationship between copula entropy and mutual information
was discussed and the calculation procedures of copula entropy were given. Finally, the proposed method
was used for selecting the inputs of artificial neural network for flood forecasting. The comparative study re-
sults show that the proposed method performs better than conventional linear regression method and provides
a new way for hydrological correlation analysis.
Keywords: Copula Entropy; Hydrological Variables; Correlation Analysis; ANN Model
Copula 熵理论及其在水文相关性分析中的应用*
陈 璐1,2#,郭生练 1
1武汉大学水资源与水电工程科学国家重点实验室,武汉
2华中科技大学水电与数字化工程学院,武汉
Email: #chl8505@126.com
收稿日期:2013 年2月19 日;修回日期:2013 年2月28 日;录用日期:2013 年3月17 日
摘 要:水文事件一般具有多个方面的特征属性,而各个特征属性之间普遍具有相关性,因此需要采
用特定的方法对水文变量的相关性进行分析。本文综述了现有的相关性计算方法,指出了现有方法的
不足和缺陷;引入 Copula 熵的概念,用以衡量复杂水文现象的相关结构,并给出 Copula 熵与互信息
的关系和计算方法。最后,以神经网络预报因子的选择为例,验证Copula 熵的适用性。比较研究表明:
基于 Copula 熵因子选择的BP 神经网络预报结果最好,好于常用的线性相关系数法,为探讨水文相关
性分析提供了一条新的途径。
关键词:Copula 熵;水文变量;相关分析;ANN 模型
*基金项目:国家自然科学基金(51079100,51190094),武汉大学水资源与水电工程科学国家重点实验室开放基金(2012B092)资助项
目。
#通讯作者。
作者简介:陈璐(1985-),女,山东济南人,讲师,博士。主要从事水文分析与计算方面的研究。
Copyright © 2013 Hanspub 103
陈璐,郭生练:Copula 熵理论及其在水文相关性分析中的应用
Copyright © 2013 Hanspub
第2卷 · 第2期
104
1. 引言
水文事件一般具有多个方面的特征属性,是一个
包含频域、时域和空间域的复杂过程。由于受到诸多
复杂因素的影响,各个特征属性之间普遍具有相关
性。水文时间序列(如年、月、日径流)有时会存在短
滞时或长滞时的相依关系,属于单个变量不同时序间
的相关,称之为自相关。除自相关外,一个要素或变
量还可能同时与几个要素或变量之间相关,如处于同
一子流域、地理位置较为接近的站点,因蒸发、气温、
下垫面情况较为相似,常存在较强的相关性。这种相
关关系称为复相关。相关性不仅存在于水文事件内部
(如洪水的峰和量,干旱的强度和历时),也存在于水
文事件之间(如降雨、径流的空间相关性)。无论是同
一水文事件的不同特征量还是不同的水文事件,当特
征量之间或者是水文事件之间存在相关关系时(或大
或小,线性或非线性),有必要采用特定的方法对变量
的相关性大小进行评估,以便更加科学、客观地认识
水文现象的本质特征,实现防洪减灾和水资源的合理
开发利用。
Copula 函数和信息熵是目前学术界比较推崇的
两种相关性分析方法,已在水文领域得到了广泛的应
用。本研究基于两者在水文相关分析中的优势,将
Copula 熵的概念引入水文领域,并以水文预报因子的
选择为例,分析探讨Copula熵函数在水文领域中的应
用,为进一步开展研究奠定基础。
2. 水文相关性计算方法综述
传统度量变量相关性的方法主要是基于Pearson
线性相关系数。然而,采用线性相关系数时,需要满
足以下两个假设:1) 两变量的相关性必须是线性的;
2) 变量必须服从多元正态分布。实际中,并非所有的
相关关系都是线性的,也并不是所有的水文变量都服
从多元正态分布。因此,Pearson 线性相关系数只是许
多可能中的一种情况。近年来,基于序列排序的秩相
关系数得到了推崇。秩相关系数是一个非参数性质(与
分布无关)的秩统计参数,可用来估计非线性相关,且
对变量的分布无强制限制。常用的秩相关系数主要包
括Kendall 相关系数和 Spearson相关系数。然而,秩
相关系数同样具有缺陷。如当数据排序后,一些信息
可能会失真;且当变量服从正态分布时,它的准确度
不如线性相关系数。
水文过程一般受气候变化、下垫面和人类活动的
综合影响,是一个高度复杂的、动态的、随机的非线
性过程,其中存在着大量非线性化系统识别、仿真和
预测等问题。水文变量的相关性常常是极其复杂的,
包括线性相关与非线性相关;水文变量可能服从正态
分布,也可能服从偏态分布。传统的相关性计算方法,
往往不能真实、准确地反映变量间的相关性结构,会
造成低估或者高估水文变量的值和相应的风险。并
且,大部分方法只适用于计算两变量的相关性,无法
向多维扩展。
Copula 函数是最近出现的一种描述相关性的有
效方法,它通过构造变量的联合分布来刻画变量间的
相关性结构。由于它可以构造任意边缘分布的联合分
布,具有极强的灵活性和适用性,近几年在多变量水
文分析计算方面得到了广泛地应用[1]。变量的所有信
息都包含在分布函数里,因此 Copula函数能更全面地
刻画变量的统计特性。目前,Copula函数已应用于降
雨的频率分析(Kao 和Govindaraju(2007)[2];Vanden-
berghe(2010)[3])、洪水的频率分析(Zhang 和Si ngh(2007)
[4];Grimaldi 和Serinaldi(2007)[5])和干旱分析等领域
(Shiau(2006)[6];Kao和Govindaraju(2010)[7])。
另一种常用的相关性估计方法是基于信息熵理
论提出的。在信息论中,研究者用互信息(Mutual
information)表示随机变量概率分布之间的相关性,将
其看作一个随机变量中包含的关于另一个随机变量
的信息量。如果互信息为 0,则证明变量是独立的;
如果变量间存在函数关系,则互信息较大,变量间具
有强相关性[8]。互信息度量相关性的优势在于:1) 它
是一种非参数的方法;2) 对变量的函数形式没有限
制,变量可以服从任何分布;3) 可用于计算多个变量
之间的相关性。采用互信息的方法计算变量之间的相
关性已在水文学中得到了广泛的应用。如Harman-
cioglu 和Yevjevich(1987)分析了河流上下游、干流和
支流以及支流之间的相关性[9]。Alfonso 等(2010)以站
点的互信息最小为准则,确定了水文站点的最优布设
位置[10]。
除此之外,Ma 和Sun(2008)创造性地提出了
Copula 熵的概念,它将 Copula 函数和熵理论相结合,
通过 Copula 函数的熵来度量变量之间的相关性[11]。
陈璐,郭生练:Copula 熵理论及其在水文相关性分析中的应用
第2卷 · 第2期
Copula 函数和熵理论是两种能够综合考虑变量间相
关性的多变量、非线性水文分析工具,目前已在水文
领域得到十分广泛的应用。Copula 熵采用Copula 函
数和信息熵理论相结合的方式构建,将信息熵理论进
行了扩展,使用一维熵函数与Copula 结合的形式替代
了不易处理的联合熵和互信息。它兼具 Copula 函数和
信息熵理论的优点。这些优点包括:Copula 函数值可
以采用非参数估计方法获得,在衡量非椭圆分布族的
相关性方面效果优良;计算简便且不受维数限制,超
越了传统线性相关系数和互信息在相关性衡量的二
维限制。Zhao and Lin(2011)采用Copula 熵的方法,模
拟了股票市场之间的相关性[12]。到目前为止,尚未见
到Copula 熵函数在水文水资源领域中的应用。
3. 随机变量的熵
在探讨 Copula熵之前,首先介绍随机变量的熵,
由此推广至Copula 函数的熵。1948 年,Shannon 将玻
尔兹曼熵的概念引入信息论中,并将熵作为一个随机
事件的不确定性或信息量的量度[13]。因此信息数量的
大小可以用被消除的不确定性的多少来表示,而随机
事件不确定性的大小可以用概率分布函数来描述。
令变量 X代表某一离散型随机变量,处于某一状
态

1, 2,,
i
x
in的概率为


i
px ,则离散信息熵的表
达式为:

11
log ln
nn
iei i
ii
i
H
Pppp

 

p
(1a)
式中:

H
P为离散信息熵的熵函数。熵的单位与公
式中对数的底有关。最常用的是以 2为底,单位为比
特(bit);在理论推导中常采用以e为底,单位为奈特
(Nat);还可以采用其他的底和单位,并可进行互换。
本文采用的单位为奈特(Nat)。
对于连续的变量,Shannon 信息熵可以表达为:
 
ln d
b
a
H
xfxfx
x
(1b)
式中:

H
x为连续型信息熵的熵函数;

f
x为变量
X的概率密度函数。信息熵函数具有熵的全部基本性
质(如非负性、对称性、扩展性、可加性等)。从某方
面说,信息熵实际是随机事件概率分布的函数。
大多数水文变量都是连续的,如降雨量、径流量
等。因此,本文重点研究连续随机变量的熵。式(1b)
定义了单变量X的边缘熵(Marginal entropy),下面给
出两变量及多变量的联合熵。
令X1和X2为两个随机变量,其联合熵可定义为:
 
1 2121212
00
,,log,dd
H
XXfxxfxxxx


 (2)
令12
,,,
d
X
XX为随机变量,多维的联合熵可用
下式表示:


12 12
00
12 12
,,,,,,
log,,,d dd
dd
dd
HXXXfxx x
f
xxx xxx







(3)
4. Copula熵理论
4.1. Copula熵定义
令x

R
d,为 d维随机变量,其边缘分布函数
为


i,
F
X


,
ii
UFX1, 2,,id

。其中,Ui为服从
均匀分布的随机变量,ui为随机变量 Ui的具体数值。
Copula 函数的熵可用下式表示:



11
12 12
00
12 1
,,, ,,,
log, ,,dd
Cd d
dd
Huuu cuuu
cuuu u u





(4)
式中:


12
,,,
d
cuu u为Copula 函数的概率密度函数,
可以表示为


12
12
,, ,
d
d
Cuu u
uu u

 


。
4.2. Copula熵性质
Copula 熵具有信息熵的所有性质,包括非负性、
对称性、扩展性、可加性。除此之外,Copula 熵还与
互信息之间具有一定的内在关系,本研究将此作为
Copula 熵的又一性质,探究了 Copula 熵与互信息之
间的关系。
首先,给出变量X的概率密度函数

12
,,,
d
f
xx x:

121 1
,,,,, d
dd
i

i
f
xxx cuufx


 (5)
依据式(3),多维联合熵可表示为:
Copyright © 2013 Hanspub 105
陈璐,郭生练:Copula 熵理论及其在水文相关性分析中的应用
Copyright © 2013 Hanspub
第2卷 · 第2期
106
12d


d


  

12
121212
00
1112
11
00
11
1
1
00
1
,,,
,,, log,,,ddd
,,log,,dd d
,,log,,logddd
,,
d
ddd
dd
nini d
ii
dd
did i
i
i
HXX X
fxxxfxxx xxx
cuufxcuufxxxx
cuuf xcuuf xxxx
cu







 

 



 











 
 
 


 
112
1
00
112
1
1
00
log,,d dd
,,logddd
d
did d
i
dd
dii d
i
i
ufx cuuxxx
cuuf xf xxxx
AB

















 
(6)
其中,
 







112
1
1
00
12 12
1
00
12 112
00
121 12
00
1
,,logddd
,,,logddd
,,,loglogdd d
,,,logddd
,
dd
di i d
i
i
n
did
i
dd
dd
Acuufxfx xxx
fxxxfx xxx
f
xxxfxfxxx x
fxxxfx xxx
fx








 

 

 

 
 









 
 
 





 
 
212
00
11221
000
121 1
000
11
0
,, logdd d
log, , ,ddd
log, , ,ddd
log d
dd d
dd
dddd
dd
iii i
ii
xx fxxxx
fxfxxxxx x
fxfxxx xxx
fxfx xHX









 





 




 









(7a)
根据 ,式(6)中的 B可表示为:

dd i
uxfx



11
1
00
1112
00
,,log,,dd d
,, log,,dd d
n
di d
i
ddd
Bcuufxcuuxx
cu ucu u xx xH
12
d
C
x





 

 




 
u
(7b)
因此,多维变量的联合熵可用 d个边缘熵的和与
Copula 函数的熵来描述,其表达式为[11]:

12 12
1
,,,,,,
d
diC
i

d
H
XXXHXH uuu




(8)
式(8)表明多维变量的联合熵可分解为两部分,即边缘
熵的和与Copula 函数的熵。
4.3. Copula熵计算方法
4.3.1. 多重积分方法
根据 Copula 熵的定义,Copula 熵可以直接通过
陈璐,郭生练:Copula 熵理论及其在水文相关性分析中的应用
第2卷 · 第2期
对式(4)积分得到。主要步骤为:
1) 估计 Copula 函数的参数,得到 Copula 的概率
密度函数,确定被积函数。
2) 采用多重积分方法对被积函数进行积分[14]。
4.3.2. Monte Carlo方法
当变量较多时,计算被积函数的多重积分往往比
较困难,可采用Monte Carlo方法模拟 Copula 函数的
熵。
令


0,1 ,1,,iUd
U



,Copula 熵可表示为:

 


12
0,1
,,,ln d
ln
d
Cd
Huu ucc
Ec

 


UU
U
(9)
因此,Copula 函数的熵就等于 的期望
值。求 Copula 函数的熵转化为求 ln 的期望,
可通过 Monte Carlo模拟方法计算数学期望。主要计
算步骤为:

ln c


U

c


U
1) 估计 Copula函数的参数;
2) 根据已知的 Copula 函数,生成M对相关的 U;
3) 计算 的平均值。

ln cU
5. Copula熵在人工神经网络预报因子选择
中的应用
水文预报因子选择的本质是度量输入和输出变
量之间的相关性特征。现采用Copula 熵的方法选择了
预报因子,分析探讨Copula熵函数的适用性。
目前,人工神经网络(Artificial Neural Network,
ANN)已普遍的应用于水文预测、 预报中[15, 16 ]。采用人
工神经网络进行水文预报的关键问题是预报因子(输入
变量)的选择。赵铜铁钢和杨大文(2010) 采用互信息方
法,选择了基于神经网络水文预报模型的预报因子[17]。
互信息的基本概念为:两变量X1和X2的互信息
为两变量中重合的信息量,已知X2的条件
下,变量X1不确定性的减少量为:

12
,TXX



121 2 12
,,TXXHX HXHXX


(10)
如图 1所示,X1和X2的信息总量为两变量的联
合熵

12
,
H
XX ,即两圆周内所包围的面积。传递的
信息量为变量X1和X2共同覆盖的信息,图中阴影部
分,它等于边缘熵的和同联合熵的差值。因此说,互
信息用于表示信息之间的关系,是两个随机变量统计
Figure 1. Description of joint entropy and mutual information
图1. 联合熵和互信息示意图
相关性的测度。
根据式(8)可知,当 d = 2时,








121212
,,
C
H
XXHXHXH uu (11)
由式(10)、(11)得





1212 12
12
,,
,
C
TXXHX HXHXX
HXX



(12)
采用互信息进行水文预报因子选择时,它的缺陷
在于不能考虑已选入变量对结果的影响。针对此问
题,Sharma(2000)对互信息的方法进行了改进,提出
了偏互信息(Patial Mutual Information, PMI)的概念
[18]。偏互信息与互信息的本质区别在于偏互信息将式
(10)中的 X1
、
X2替换为 12 111
,,XxXxx E
  

z
;
222xExx





z
。其中,E表示期望值;X1表示待
选ANN 网络的预报因子;X2表示 ANN网络的输出;
z表示已选入的预报因子集合。采用 Hampel检验对选
择的结果进行验证,从而确定一组变量中,其中一个
变量包含的信息量(即PMI 值)是否明显的大于其它变
量。Hampel检验的具体步骤参见文献[19]。
本文以长江上游金沙江、岷江、沱江、嘉陵江、
乌江以及长江宜昌站前期日流量作为输入,采用人工
神经网络模型,预报宜昌站t天的流量。采用Copula
熵的方法计算偏互信息,选择预报因子,最终选择的
输入变量为:宜昌站 t-1、t-2 时刻的流量、高场站 t-3
时刻的流量,李家湾站t-3 时刻的流量,北碚站t-2 时
刻的流量,武隆站t-2 时刻的流量、屏山站t-1 时刻的
流量。
本研究采用三峡宜昌站还原后的1998~2007 年汛
期日流量数据(6 月1日~9 月30日)参与计算,80%的
数据(1998~2005 年)用于模型的训练,20%的数据
(2006~2007 年)用于模型的检验。分别采用相关系数
法和 Copula 熵的方法对预报因子进行筛选,应用三种
神经网络模型即 BP 神经网络、RBF 神经网络和
Copyright © 2013 Hanspub 107
陈璐,郭生练:Copula 熵理论及其在水文相关性分析中的应用
Copyright © 2013 Hanspub
第2卷 · 第2期
108
Table 1. Comparison of results obtained with different ANN models and input variables at the Yichang station of Yangtze River
表1. 长江宜昌站不同 ANN模型的计算结果比较分析
确定性系数(%) RMSE 合格率(%)
因子选择方法 神经网络 率定 检验 率定 检验 率定 检验
BP 92.31 90.36 1476 2932 98.57 85.66
GRNN 97.73 88.82 1667 3158 97.54 79.10
相关系数
RBF 97.28 85.82 1824 3555 97.75 80.74
BP 94.02 93.41 1281 2423 98.98 95.90
GRNN 98.39 87.35 1405 3359 98.77 81.15
Copula熵
RBF 97.29 91.47 1822 2758 98.05 93.44
GRNN 神经网络模型,预报宜昌站第 t天的日流量。
表1给出了预报结果的确定性系数、合格率以及实测
值和预报值的均方根误差(RMSE)。可知,Copula 熵
明显地优于常用的线性相关系数法。基于 Copula 熵因
子选择的 BP神经网络预报结果最好,其检验期的确
定性系数及合格率分别为 93.41%和95.9%。
6. 结论
本文综述了现有的水文相关性计算方法,指出了
其存在的不足及问题;首次将Copula 熵的概念引入水
文领域,探讨了 Copula 熵与互信息的关系,给出了
Copula 熵的计算方法,并将Copula 熵函数用于水文
预报因子的选择。本研究为水文相关性分析提供了一
条新的途径。
参考文献 (References)
[1] 郭生练, 闫宝伟, 肖义, 等. Copula函数在多变量水文分析计
算中的应用及研究进展[J]. 水文, 2008, 28(3): 1-7.
GUO Shenglian, YAN Baowei, XIAO Yi, et al. Multivariate
Hydrological Analysis and Estimation. Journal of China Hy-
drology, 2008, 28(3): 1-7. (in Chinese)
[2] KAO, S. C., GOVINDARAJU, S. A bivariate frequency analysis
of extreme rainfall with implications for design. Journal of
Geophysical Research-Atmospheres, 2007, 112(D13).
[3] VANDENBERGHE, S. , VERHOEST, N. E. C. and DE BAETS,
B. Fitting bivariate copulas to the dependence structure between
storm characteristics: A detailed analysis based on 105 year 10
min rainfall. Water Resources Research, 2010, 46(1): W01512.
[4] ZHANG, L., SINGH, V. P. Trivariate flood frequency analysis
using the Gumbel-Hougaard copula. Journal of Hydrological
Engineering, 2007, 12(4): 431-439.
[5] GRIMALDI, S., SERINALDI, F. Asymmetric copula in multi-
variate flood frequency analysis. Advances in Water Resources,
2006, 29(8): 1155-1167.
[6] SHIAU, J. T. Fitting drought duration and severity with two-
dimensional copulas. Wa ter Resources Management, 2006, 20( 5):
795-815.
[7] KAO, S. C., GOVINDARAJU, R. S. A copula-based joint defi-
cit index for droughts. Journal of Hydrology, 2010, 380(1-2):
121-134.
[8] LI, W. Mutual information functions versus correlation functions.
Journal of Statistical Physics, 1990, 60(5-6): 823-837.
[9] HARMANCIOGLU, N., YEVJEVICH, V. Transfer of hydro-
logic information among river points. Journal of Hydrology,
1987, 91(1-2): 103-118.
[10] ALFONSO, L., LOBBRECHT, A. and PRICE, R. Information
theory-based approach for location of monitoring water level
gauges in polders. Water Resources Research, 2010, 46(3):
W03528.
[11] MA, J., SUN, Z. Mutual information is copula entropy. Tsinghua
Science and Technology, 2008, 16(1): 51-54.
[12] ZHAO, N., LIN, W. T. A copula entropy approach to correlation
measurement at the country level. Applied Mathematics and
Computation, 2011, 218(2): 628-642.
[13] SHANNON, C. E. A mathematical theory of communication.
The Bell System Technical Journal, 1948, 27: 379-423.
[14] BERNTSON, J., ESPELID, T. O. and GENZ, A. An adaptive
algorithm for the approximate calculation of multiple integrals.
ACM Transactions on Mathematical Software, 1991, 17(4): 437-
451.
[15] ASCE Task Committee. Application of artificial neural networks
in hydrology, artificial neural networks in hydrology, I: Prelimi-
nary concepts. Journal of Hydrologic Engineering, 2000, 5(2),
115-123.
[16] ASCE Task Committee. Application of artificial neural networks
in hydrology, artificial neural networks in hydrology. II: Hydro-
logic applications. Journal of Hydrologic Engineering, 2000,
5(2), 124-137.
[17] 赵铜铁钢, 杨大文. 神经网络径流预报模型中基于互信息的
预报因子选择方法[J]. 水力发电学报, 2011, 20(1), 24-30.
ZHAO Steel, YANG Dawen. Mutual information-based input
variable selection method for runoff-forecasting neural network
model. Journal of Hydroelectric Engineering, 2011, 20(1), 24-30.
(in Chinese)
[18] SHARMA, A. Seasonal to interannual rainfall probabilistic fore-
casts for improved water supply management: Part 1 a strategy
for system predictor identification. Journal of Hydrology, 2000,
239(1): 232-239.
[19] FERNANDO, T. M. K. G., MAIER, H. R. and DANDY, G. C.
Selection of input variables for data driven models: An average
shifted histogram partial mutual information estimator approach.
Journal of Hydrology, 2009, 367(3-4): 165-176.

版权所有:汉斯出版社 (Hans Publishers) Copyright © 2012 Hans Publishers Inc. All rights reserved.