基于方差建模研究了变系数异方差模型的贝叶斯估计和异常点识别,其中非参数部分采用B样条逼近。主要通过应用Gibbs抽样和Metropolis-Hastings算法相结合的混合算法获得模型的贝叶斯估计和通过K-L距离贝叶斯诊断统计量来识别数据异常点。模拟研究显示所提出的贝叶斯分析方法是可行有效的。 Based on variance modeling, Bayesian estimation and outlier identification of varying coefficient heteroscedastic models are studied, where the nonparametric part is approximated by B-spline. By combining the Gibbs sampler and Metropolis-Hastings algorithm, Bayesian estimation and Bayesian diagnosis statistics based on the K-L distance are obtained to identify outliers. Simulation studies show that the proposed Bayesian methods are feasible and effective.
基于方差建模研究了变系数异方差模型的贝叶斯估计和异常点识别,其中非参数部分采用B样条逼近。主要通过应用Gibbs抽样和Metropolis-Hastings算法相结合的混合算法获得模型的贝叶斯估计和通过K-L距离贝叶斯诊断统计量来识别数据异常点。模拟研究显示所提出的贝叶斯分析方法是可行有效的。
异方差模型,Metropolis-Hastings算法,贝叶斯估计,K-L距离,B样条
Fangzhong Xu, Dengke Xu
Department of Statistics, Zhejiang Agriculture and Forestry University, Hangzhou Zhejiang
Received: Nov. 26th, 2020; accepted: Dec. 11th, 2020; published: Dec. 18th, 2020
Based on variance modeling, Bayesian estimation and outlier identification of varying coefficient heteroscedastic models are studied, where the nonparametric part is approximated by B-spline. By combining the Gibbs sampler and Metropolis-Hastings algorithm, Bayesian estimation and Bayesian diagnosis statistics based on the K-L distance are obtained to identify outliers. Simulation studies show that the proposed Bayesian methods are feasible and effective.
Keywords:Heteroscedastic Models, Metropolis-Hastings Algorithm, Bayesian Estimation, K-L Distance, B-Spline
Copyright © 2020 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
异方差数据常常出现在经济学、生物学、环境科学等领域,是很多统计学家研究的热点方向之一。其中处理此类数据最常用的方法是方差建模法,即不仅对均值建立回归模型,同时也对方差建立回归模型进行分析,有些文献称之为联合均值与方差模型。这个模型主要体现了对方差的重视,它能更好地解释数据变化的原因和规律。特别最近这些年已经有很多学者对基于方差建模的异方差模型研究了模型的参数估计、变量选择以及异方差检验等统计推断。例如,吴刘仓等 [
因此本文针对方差建模的变系数异方差模型,应用Gibbs抽样和Metropolis-Hastings算法相结合的混合算法研究模型的贝叶斯估计和基于K-L距离研究贝叶斯数据删除影响诊断方法,以识别模型的异常点。
针对异方差数据和基于方差建模的思想,提出了如下变系数异方差模型:
{ y i = x i T β + z i T α ( u i ) + ε i , ε i ~ N ( 0 , σ i 2 ) , σ i 2 = g ( h i T γ ) , i = 1 , 2 , ⋯ , n . (1)
其中 y i 为响应变量且令 Y = ( y 1 , y 2 , ⋯ , y n ) T ; x i = ( x i 1 , ⋯ , x i p ) T , z i = ( z i 1 , ⋯ , z i q ) T 是与 y i 的均值相关的解释变量的观测值,且 β = ( β 1 , ⋯ , β p ) T 是均值模型中一个 p × 1 维未知回归参数向量, α ( u i ) = ( α 1 ( u i ) , α 2 ( u i ) , ⋯ , α d ( u i ) ) T 是一个 d × 1 维的未知函数参数; h i = ( h i 1 , ⋯ , h i q ) T 是与 y i 的方差相关的解释变量的观测值,且 γ = ( γ 1 , ⋯ , γ q ) T 是方差模型中一个 q × 1 维的未知回归参数向量。另外, g ( ⋅ ) 是一个已知函数,为了模型的可识别性,一般假设 g ( ⋅ ) 是一个单调函数且 g ( ⋅ ) > 0 。在本文中 g ( x ) = exp ( x ) 。
由模型(1),可以获得如下似然函数
L ( β , γ , α ( ⋅ ) | Y , X , Z , H , U ) = ( 2 π ) − n 2 ∏ i = 1 n ( σ i 2 ) − 1 2 exp ( − 1 2 ∑ i = 1 n ( y i − x i T β − z i T α ( u i ) ) 2 σ i 2 ) (2)
其中 X = ( x 1 T , ⋯ , x n T ) T , Z = ( z 1 T , ⋯ , z n T ) T , H = ( h 1 T , ⋯ , h n T ) T , U = ( u 1 , ⋯ , u n ) T 。因为 α ( ⋅ ) 是非参数,(2)式还不能直接进行优化。因此,首先用B样条来逼近非参数函数 α ( ⋅ ) 。具体如下,令 0 = s 0 < s 1 < ⋯ < s k n < s k n + 1 = 1 是[0,1]区间上的一个剖分。用 s i 作为内节点,那么就有阶为M和维数为 L = k n + M 的正则化B样条基函数,这也形成了线性样条空间的一个基。节点选择一般是样条光滑估计中的一个重要方面。类似于文献 [
μ i = x i T β + B i T λ
其中 B i = I d ⊗ π ( u i ) ⋅ z i , λ = ( λ 1 T , ⋯ , λ d T ) T , K = d L 。
这样,似然函数(2)可以被重新写成以下形式:
L ( θ | Y , X , Z , H , U ) = ( 2 π ) − n 2 ∏ i = 1 n ( σ i 2 ) − 1 2 exp ( 1 2 ∑ i = 1 n ( y i − x i T β − B i T λ ) 2 σ i 2 ) ,(3)
其中 θ = ( β T , γ T , λ T ) T 。
K-L距离也称作K-L信息,具有距离和信息的某些性质,在统计上以反映两个模型或分布的差异而著称。根据韦博成 [
为了应用贝叶斯方法来估计模型(1)中的未知参数,需要给出未知参数的先验分布信息。为了简便,假设 β , γ 和 λ 相互独立且具有正态先验分布,分别为 β ~ N ( β 0 , ∑ β ) , γ ~ N ( γ 0 , ∑ γ ) , λ ~ N ( λ 0 , τ 2 I K ) , τ 2 ~ I G ( a τ , b τ ) ,其中“IG”表示逆gamma分布,并且假设超参数 β 0 , γ 0 , λ 0 , ∑ β , ∑ γ 和 a τ , b τ 是已知的。
基于式子(3),按照以下过程用Gibbs抽样从后验分布 p ( θ | Y , X , Z , H , U ) 中进行抽样,其中 θ = ( β T , γ T , λ T ) T 。
步骤 1. 令参数的初值 θ ( 0 ) = ( β ( 0 ) T , γ ( 0 ) T , λ ( 0 ) T ) T 。
步骤 2. 基于 θ ( l ) = ( β ( l ) T , γ ( l ) T , λ ( l ) T ) T ,计算 ∑ ( l ) = d i a g { σ 1 2 ( l ) , ⋯ , σ n 2 ( l ) } 。
步骤 3. 基于 θ ( l ) = ( β ( l ) T , γ ( l ) T , λ ( l ) T ) T 按照以下抽取 θ ( l + 1 ) = ( β ( l + 1 ) T , γ ( l + 1 ) T , λ ( l + 1 ) T ) T ;
· 抽样 τ 2 ( l + 1 ) :
p ( τ 2 | λ ) ∝ ( τ 2 ) − K 2 − a τ − 1 exp { − 1 2 ( λ − λ 0 ) T ( λ − λ 0 ) − b τ τ 2 } (4)
· 抽样 λ ( l + 1 ) :
p ( λ | Y , X , Z , H , U , β , γ ) ∝ exp { − 1 2 ( λ − λ * ) T Σ λ ∗ − 1 ( λ − λ * ) } , (5)
其中 λ * = Σ λ ∗ ( Ω T ∑ − 1 ( Y − X β ) + τ − 2 I K λ 0 ) , Σ λ ∗ = ( τ − 2 I K + Ω T Σ − 1 Ω ) − 1 , Ω = ( B 1 T , ⋯ , B n T ) T 。
· 抽样 β ( l + 1 ) :
p ( β | Y , X , Z , H , U , γ , λ ) ∝ exp { − 1 2 ( β − b * ) T B * − 1 ( β − b * ) } ,(6)
其中 b * = B * ( X T ∑ − 1 ( Y − Ω λ ) + ∑ β − 1 β 0 ) , B * = ( ∑ β − 1 + X T Σ − 1 X ) − 1 。
· 抽样 γ ( l + 1 ) :
p ( γ | Y , X , Z , H , U , β , λ ) ∝ exp { − 1 2 ∑ i = 1 n h i T γ − 1 2 ∑ i = 1 n ( y i − x i T β − B i T λ ) 2 exp ( h i T γ ) − 1 2 ( γ − γ 0 ) T ∑ γ − 1 ( γ − γ 0 ) } (7)
步骤4。重复步骤2和3。
这样就通过以上算法产生了样本序列 ( β ( l ) , γ ( l ) , λ ( l ) , τ 2 ( l ) ) , l = 1 , 2 , ⋯ 。从(4)~(7)式中很容易发现,条件分布 p ( τ 2 | λ ) , p ( β | Y , X , Z , H , U , γ , λ ) , p ( λ | Y , X , Z , H , U , β , γ ) 是熟悉的正态分布和逆gamma分布。从这两个分布抽取随机数是比较容易的。但是条件分布 p ( γ | Y , X , Z , H , U , β , λ ) 是一不规则且相当复杂的分布,如何从这个分布中抽取随机数有点困难。在这里主要应用MH算法抽取随机数。选择正态分布 N ( γ ( l ) , σ γ 2 Ω γ − 1 ) 作为建议分布,其中通过选择 σ γ 2 ,来使得接受概率在0.25与0.45之间,且取 Ω γ = ∑ γ − 1 + 1 2 ∑ i = 1 n ( y i − x i T β − B i T λ ) 2 exp ( h i T γ ) h i h i T 。
利用以上提出的计算过程来产生观测值来获得参数 β , γ 和 λ 的贝叶斯估计。令 { θ ( j ) = ( β ( j ) , γ ( j ) , λ ( j ) ) : j = 1 , 2 , ⋯ , J } 是通过上述混合算法从联合条件分布 p ( β , γ , λ | Y , X , Z , H , U ) 中产生的观测值,那么 β , γ 和 λ 的贝叶斯估计为:
β ^ = 1 J ∑ j = 1 J β ( j ) , γ ^ = 1 J ∑ j = 1 J γ ( j ) , λ ^ = 1 J ∑ j = 1 J λ ( j ) 。
根据文献 [
V a r ( θ | Y , X , Z , H , U ) = ( J − 1 ) − 1 ∑ j = 1 J ( θ ( j ) − θ ^ ) ( θ ( j ) − θ ^ ) T 。
这样,后验标准误就可以通过该矩阵的对角元素来获得。
在贝叶斯统计诊断分析中已存在许多诊断统计量用来评价个体观测对参数后验分布的影响,在这主要基于K-L距离研究贝叶斯数据删除影响的统计诊断方法。对任意的 i = 1 , ⋯ , n ,记 { y i , x i , z i , h i , u i } 是第i个个体观测数据点, D = { Y , X , Z , H , U } 为完全数据集, D − i 为完全数据集D删除第i个个体观测数据点得到的数据集, L ( θ | D ) 与 L ( θ | D − i ) 分别表示基于数据D与 D − i 的似然函数,则 θ 于数据D与 D − i 的后验分布分别为 p ( θ | D ) ∝ L ( θ | D ) p ( θ ) , p ( θ | D − i ) ∝ L ( θ | D − i ) p ( θ ) 。根据Cho等 [
K ( P , P − i ) = ∫ p ( θ | D ) log { p ( θ | D ) p ( θ | D − i ) } d θ , (8)
其中P与 P − i 分别表示 θ 基于数据D与 D − i 的后验分布,注意到K-L距离 K ( P , P − i ) 是完全数据集D删除第i个数据点前后对参数 θ 后验分布影响的一种很好的度量。经过简单的计算(8)式变为:
K ( P , P − i ) = log E θ [ L ( θ | D − i ) L ( θ | D ) | D ] + E θ [ log L ( θ | D ) L ( θ | D − i ) | D ] , (9)
其中 E θ [ . | D ] 表示 θ 基于数据D的后验期望。由Gibbs抽样算法抽取的随机观测序 { θ ( j ) : j = 1 , 2 , ⋯ , J } ,可以得到K-L距离 K ( P , P − i ) 的估计为:
K ( P , P − i ) = log [ 1 J ∑ j = 1 J L ( θ ( j ) | D − i ) L ( θ ( j ) | D ) ] + 1 J ∑ j = 1 J log [ L ( θ ( j ) | D ) L ( θ ( j ) | D − i ) ] 。 (10)
对任意的 i = 1 , ⋯ , n ,当 K ( P , P − i ) 很大时,可以诊断第i个个体观测数据点为异常点。
在这通过模拟研究来说明本文所提出的贝叶斯分析方法的有效性。选择均值模型为 μ i = x i T β + z i T α ( u i ) 和方差模型为 σ i 2 = exp ( h i T γ ) ,其中均值参数和方差参数的真实值分别为 β = ( 1 , − 0.5 , 0.5 ) T 和 γ = ( 1 , − 0.5 , 0.5 ) T ,另外 d = 2 , α 1 ( u i ) = 0.5 sin ( 2 π u i ) , α 2 ( u i ) = 8 u i ( 1 − u i 2 ) ; x i , z i , h i 分别是 3 × 1 , 2 × 1 和 3 × 1 的协变量向量,其中的元素产生于均值为零,协方差矩阵为 ∑ = ( σ i j = 0.5 | i − j | ) 的正态分布。这样响应变量 Y i 就可以从多元正态分布 N ( μ i , ∑ i ) ( i = 1 , ⋯ , n ) 中产生。
为了调查贝叶斯分析方法对先验分布的敏感程度,考虑以下三种有关未知参数 β , γ , λ 的先验分布中超参数值的设置的情形:
TypeI:
β 0 = ( 1 , − 0.5 , 0.5 ) T , ∑ β = 0.25 × Ι 3 , γ 0 = ( 1 , − 0.5 , 0.5 ) T , ∑ γ = 0.25 × Ι 3 , λ 0 = ( 0 , ⋯ , 0 ) T , a τ = b τ = 1 。这种设置表示具有很好的先验信息。
TypeII:
β 0 = 3 × ( 1 , − 0.5 , 0.5 ) T , ∑ β = Ι 3 , γ 0 = 3 × ( 1 , − 0.5 , 0.5 ) T , ∑ γ = Ι 3 , λ 0 = ( 0 , ⋯ , 0 ) T , a τ = b τ = 1 。这种设置表示具有较差的先验信息。
TypeIII:
β 0 = ( 0 , 0 , 0 ) T , ∑ β = 10 × Ι 3 , γ 0 = ( 0 , 0 , 0 ) T , ∑ γ = 10 × Ι 3 , λ 0 = ( 0 , ⋯ , 0 ) T , a τ = b τ = 1 。这些超参数值的设置代表的是没有先验信息的情况。
在上面的各种情形下,应用联合Gibbs抽样和Metropolis-Hastings算法的混合算法来计算未知参数和光滑函数的贝叶斯估计。在模拟中分别令样本量n = 80和n = 150。对于每一种情形,重复计算100次。对于每次重复产生的每一次数据集,MCMC算法的收敛性可以通过EPSR值来检验,并且在每次运行中观测得到在3000次迭代以后EPSR值都小于1.2。因此在每次重复计算中丢掉前3000次迭代以后再收集J = 5000个样本来产生贝叶斯估计。参数贝叶斯估计的模拟结果概括在表1中。为了调查估计函数 α 1 ( u ) 和 α 2 ( u ) 的精确度,画出了在不同样本量和三种先验分布情形下非参数函数的平均估计曲线和真实曲线,并且展示在图1~6中。
在表1中,“Bias”表示基于100次重复计算未知参数的贝叶斯估计与真值的偏差的绝对值,“SD”表示前面给出的后验标准误的平均估计,和“RMS”表示的是基于100次重复计算的贝叶斯估计的均方误差的算术平方根。从表1中可以获得i) 在估计的偏差、RMS和SD值方面,不管何种先验信息贝叶斯估计都相当精确;ii) 当样本量逐渐变大时,估计也变得越来越好。从图1~6中展示了不管何种先验信息,估计出来的非参数函数的曲线与相应的真实函数的曲线逼近得都比较好。总之,从以上结果可以看出本文所提出的贝叶斯估计方法能很好地恢复变系数异方差模型中的真实信息。
Type | 参数 | n = 80 | n = 150 | ||||
---|---|---|---|---|---|---|---|
Bias | SD | RMS | Bias | SD | RMS | ||
I | β 1 | 0.0027 | 0.1184 | 0.1160 | 0.0020 | 0.0803 | 0.0759 |
β 2 | 0.0028 | 0.1310 | 0.1224 | 0.0061 | 0.0912 | 0.0880 | |
β 3 | 0.0019 | 0.1181 | 0.1060 | 0.0051 | 0.0804 | 0.0776 | |
γ 1 | 0.0208 | 0.2075 | 0.1884 | 0.0105 | 0.1453 | 0.1483 | |
γ 2 | 0.0301 | 0.2193 | 0.1964 | 0.0194 | 0.1569 | 0.1517 | |
γ 3 | 0.0026 | 0.2025 | 0.1799 | 0.0194 | 0.1418 | 0.1365 | |
II | β 1 | 0.0466 | 0.1144 | 0.1265 | 0.0143 | 0.0797 | 0.0790 |
β 2 | 0.0341 | 0.1238 | 0.1301 | 0.0107 | 0.0913 | 0.0910 | |
β 3 | 0.0182 | 0.1144 | 0.1075 | 0.0047 | 0.0804 | 0.0793 | |
γ 1 | 0.1612 | 0.2350 | 0.2685 | 0.0700 | 0.1530 | 0.1722 | |
γ 2 | 0.1906 | 0.2586 | 0.3032 | 0.0806 | 0.1671 | 0.1858 | |
γ 3 | 0.0919 | 0.2349 | 0.2537 | 0.0119 | 0.1489 | 0.1454 | |
III | β 1 | 0.0125 | 0.1196 | 0.1179 | 0.0025 | 0.0814 | 0.0784 |
β 2 | 0.0024 | 0.1303 | 0.1300 | 0.0084 | 0.0935 | 0.0914 | |
β 3 | 0.0016 | 0.1195 | 0.1116 | 0.0059 | 0.0823 | 0.0800 | |
γ 1 | 0.0219 | 0.2372 | 0.2303 | 0.0090 | 0.1534 | 0.1611 | |
γ 2 | 0.0363 | 0.2668 | 0.2516 | 0.0161 | 0.1686 | 0.1774 | |
γ 3 | 0.0014 | 0.2401 | 0.2410 | 0.0220 | 0.1499 | 0.1490 |
表1. 不同的样本量和先验分布下模型参数的贝叶斯估计结果
图1. 当n = 80和Type I先验信息下非参数部分 α 1 ( u ) 和 α 2 ( u ) 的平均估计曲线
图2. 当n = 80和Type II先验信息下非参数部分 α 1 ( u ) 和 α 2 ( u ) 的平均估计曲线
图3. 当n = 80和Type III先验信息下非参数部分 α 1 ( u ) 和 α 2 ( u ) 的平均估计曲线
图4. 当n = 150和Type I先验信息下非参数部分 α 1 ( u ) 和 α 2 ( u ) 的平均估计曲线
图5. 当n = 150和Type II先验信息下非参数部分 α 1 ( u ) 和 α 2 ( u ) 的平均估计曲线
图6. 当n = 150和Type III先验信息下非参数部分 α 1 ( u ) 和 α 2 ( u ) 的平均估计曲线
最后为了检测根据K-L距离来识别异常点的效果,在第10个个体观测数据点的响应变量加10构成人工数据集D。然后对人工数据集D应用本文介绍的贝叶斯影响诊断方法来检测影响观测。其中MCMC算法的收敛性可以通过EPSR值来检验,并且发现在3000次迭代以后EPSR值都小于1.2。因此在计算中丢掉前3000次迭代以后再收集J = 5000个随机样本来通过(10)式计算K-L距离 K ( P , P − i ) 。图7和图8报道了相应的诊断结果。正如预期的一样,通过图7和图8很容易就发现,第10个个体观测数据点被诊断为异常点,且诊断方法对先验分布超参数取值的选取不是很敏感。
图7. 当n = 80时,基于不同的先验信息下贝叶斯数据删除影响诊断的数值结果
图8. 当n = 150时,基于不同的先验信息下贝叶斯数据删除影响诊断的数值结果
本文针对变系数异方差模型,基于Gibbs抽样和MH算法相结合的混合算法,以及根据K-L距离研究模型的贝叶斯估计和贝叶斯统计诊断方法。模拟研究显示了模型与贝叶斯方法的可行性和有效性。
浙江省高校重大人文社科攻关计划项目资助(2018QN037)。
许芳忠,徐登可. 变系数异方差模型的贝叶斯分析Bayesian Analysis of Varying Coefficient Heteroscedastic Models[J]. 应用数学进展, 2020, 09(12): 2166-2175. https://doi.org/10.12677/AAM.2020.912252