对方差建立回归模型分析是处理异方差问题中最常用的方法之一。本文基于均值方差联合模型,结合光滑阈估计方程(Smooth Threshold Estimating Equation,简记SEE)方法研究该模型的变量选择方法。该变量选择方法可以同时进行参数估计和变量选择,并且不需要解任何凸优化问题,因此实际应用中将大大减少计算量。最后, 通过随机模拟实验验证了所提出方法的有效性与可行性。 The method based on modeling the variance is one of the most commonly used methods to deal with heteroscedasticity. In this paper, we propose a variable selection procedure based on the smooth threshold estimating equations for joint mean and variance models. The proposed variable selection method can select variables and estimate coefficients simultaneously, and does not need to solve convex optimization problem so as to largely reduce computation quantity in practice. Finally, we make some simulations to show that the proposed procedure works satisfactorily.
姚婷,陆凤婷,田瑞琴,吕巧巧
浙江农林大学统计系,浙江 杭州
收稿日期:2017年3月9日;录用日期:2017年3月26日;发布日期:2017年3月29日
对方差建立回归模型分析是处理异方差问题中最常用的方法之一。本文基于均值方差联合模型,结合光滑阈估计方程(Smooth Threshold Estimating Equation,简记SEE)方法研究该模型的变量选择方法。该变量选择方法可以同时进行参数估计和变量选择,并且不需要解任何凸优化问题,因此实际应用中将大大减少计算量。最后, 通过随机模拟实验验证了所提出方法的有效性与可行性。
关键词 :均值方差联合模型,异方差,估计方程,变量选择
Copyright © 2017 by authors and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
目前由于大部分学者已经意识到了解回归模型中方差的来源以及对方差进行调控的重要性,因此,对方差建立回归模型,即基于均值方差联合模型进行统计推断是处理异方差问题最常用的方法之一。到目前为止,很多作者已经深入讨论了异方差情况下均值方差联合模型的估计、检验和变量选择等统计推断问题。Aitkin [
因此,为解决以上变量选择方法所存在的不足,本文利用Ueki [
本文的组织结构安排如下:在第2节中,我们首先介绍了均值方差联合模型,并在此基础上提出了该模型基于光滑阈估计方程的变量选择方法以及与此相关的参数调整方法。第3节给出了利用基于局部二次逼近的Gauss-Newton迭代算法来求解光滑阈估计方程的具体步骤。第4节考虑通过模拟研究来验证本文所提出的变量选择方法的可行性。最后在第5节中将给出最终的总结。
考虑如下正态分布下均值方差联合模型:
其中
根据模型(1),同时在略去与参数无关的常数项后,我们最终可将均值方差联合模型的对数似然函数写为:
则该均值方差联合模型的估计方程为:
据此,我们便可基于Ueki [
其中,
在这里,考虑到求解(4)式时须对参数
其中,
另外可以发现,在求解(4)式时,若
对于调整参数
其中
从第4节的模拟研究结果可以看出,上述调整参数的选择方法是行之有效的。
以下将给出基于Gauss-Newton迭代算法来求解光滑阈估计方程的具体过程。为方便起见,简记上述光滑阈估计方程(4)为:
以
通过进一步化简(8)式,并将(7)式结果带入,即可得:
考虑对于
其中,
在这一节将运用模拟数据来验证本文所提出的利用光滑阈估计方程来解决均值方差联合模型的变量选择问题的可行性。同时,考虑以广义均方误差(GMSE)为精度衡量指标,来将基于光滑阈估计方程的联合模型变量选择效果与基于SCAD、LASSO惩罚函数来进行联合模型的变量选择效果进行比较。利用广义均方误差(GMSE)评价均值方差联合模型中
为实施模拟研究,我们考虑从模型(1)中产生随机模拟数据。其中,取真值
我们通过表1结果可以得到如下结论:
1) 对于固定的变量选择模型,SEE、SCAD以及LASSO三种方法均各自表现出随着样本量的增大,
2) 在固定的样本量n下,对于基于光滑阈估计方程的变量选择方法(SEE)而言,无论是从均值模型来看,还是从方差模型来看,其参数估计效果均要明显优于基于SCAD或是LASSO惩罚函数的变量选择方法。这表明本论文所提出的基于光滑阈估计方程的均值方差联合模型的变量选择方法是切实可行的。
3) 在固定的变量选择模型和固定的样本量n下,均值模型的变量选择效果均要优于方差模型的变量选择效果。
本文针对基于正态分布的均值方差联合模型,提出了一种利用光滑阈估计方程的变量选择方法。该变量选择方法不仅不涉及任何凸优化问题,且可将模型中不重要变量的回归系数以较快速度向零压缩,并最终将其从模型中剔除。随机模拟结果表明该变量选择方法正确有效,且效果及可操作性均较之前的变量选择方法有明显的改善。
模型 | n | SEE | SCAD | LASSO | ||||||
---|---|---|---|---|---|---|---|---|---|---|
C | IC | GMSE | C | IC | GMSE | C | IC | GMSE | ||
均值 模型 | 100 | 7 | 0 | 0.0103 | 6.7670 | 0 | 0.0178 | 6.7400 | 0 | 0.0276 |
150 | 7 | 0 | 0.0062 | 7 | 0 | 0.0074 | 6.8190 | 0 | 0.0095 | |
200 | 7 | 0 | 0.0042 | 7 | 0 | 0.0042 | 6.8450 | 0 | 0.0048 | |
方差 模型 | 100 | 6.9990 | 0 | 0.1378 | 6.7400 | 0 | 0.1500 | 6.7060 | 0 | 0.1900 |
150 | 7 | 0 | 0.0422 | 6.8360 | 0 | 0.0530 | 6.8070 | 0 | 0.0676 | |
200 | 7 | 0 | 0.0366 | 6.9800 | 0 | 0.0378 | 6.8330 | 0 | 0.0428 |
表1. 基于不同方法,均值方差联合模型的变量选择结果
浙江省自然科学基金(LQ15A010008);全国统计科学研究项目(2016LZ06);浙江农林大学创新创业训练计划项目(110-2013200017)。
姚婷,陆凤婷,田瑞琴,吕巧巧. 均值方差联合模型的SEE变量选择 SEE Variable Selection for Joint Mean and Variance Models[J]. 统计学与应用, 2017, 06(01): 98-103. http://dx.doi.org/10.12677/SA.2017.61011