Statistical and Application
Vol.04 No.02(2015), Article ID:15550,8 pages
10.12677/SA.2015.42011

Robust Scale Estimation Based on the Improved Median Absolute Deviations

Pingli Yang

China University of Mining and Technology (Beijing), Beijing

Email: xing122004@126.com

Received: Jun. 7th, 2015; accepted: Jun. 22nd, 2015; published: Jun. 29th, 2015

Copyright © 2015 by author and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

ABSTRACT

Robust scale estimation with unknown location parameters which is called general median absolute deviations (GMAD) was proposed based on a robust scale estimation with location parameters of 0 (improved median absolute deviations FQn) given by Smirnor-Shevlyakov in 2014. The data analysis showed that FQn loses robustness when location parameters are unknown, but GMAD is robust when location parameters are zero or unknown.

Keywords:Scale Estimation, Robustness, Score Function

基于改进的中位数绝对偏差稳健尺度估计

杨苹莉

中国矿业大学(北京),北京

Email: xing122004@126.com

收稿日期:2015年6月7日;录用日期:2015年6月22日;发布日期:2015年6月29日

摘 要

本文基于Smirnor-Shevlyakov在2014年针对位置参数已知为0的稳健尺度估计(即改进的中位数绝对偏差FQn),提出了位置参数未知时的稳健尺度估计(称之为广义中位数绝对偏差GMAD)。数据分析表明:FQn在位置参数未知时不稳健,但GMAD估计在位置参数为0以及未知时均稳健。

关键词 :尺度估计,稳健性,得分函数

1. 引言

稳健性[1] 考虑的是:当实际模型中的分布与假定模型中的分布有少许差异时,统计方法的性能会受到怎样的影响。因此,在粗差不可避免的情况下,选择适当的估计方法,使所估参数尽可能减免粗差的影响,得出正常模式下最佳或接近最佳的估值。

所谓的尺度参数是指满足分布族,这里a便是尺度参数。

Huber在1981年[2] 就指出,在生产实践和科学实验所采集的数据中,粗差出现的概率为1%~10%,并提到了一些高效稳健的尺度估计,如:四分位距(interquartile range),中位数绝对偏差(median absolute deviation) (med表示求中位数,下同)。IQR估计非对称分布的尺度,它的崩溃点(breakdown point)最高可达25%。IQR针对的是对称分布,崩溃点最高可达50%,高斯效为37%,对于非对称分布则不适用。

Rousseuw-Croux在1933年[3] 依据四分位间距(0.25 quantile of the distances)提出了两个更为高效的尺度估计量双中位数两两距离(double median of the pairwise distances),其表达式为:

其中c为纠偏因子。

下四分位两两距离(lower quartile of the pairwise distances),表达式为:

它们的崩溃点均达到50%,的高斯效可达到58%,可达到82%。

Smirnor-Shevlyakov在2014年[4] 针对位置参数为0时,基于提出了改进的中位数绝对偏差(refinement of the median absolute deviation),即为,其表达式为:

其中

其计算速度为的4~5倍,崩溃点最高可达50%,高斯效可达80%,且更适用于蒙特卡罗模型。

2. 估计量GMAD

基于是针对刻度参数在均值为0时构造的估计,自然的想法就是将此估计推广至均值未知的场合。为此,我们构造如下的尺度估计量gmad:

其中为自由参数,,l取1时

l取2时,。将统称为GMAD。

,用样本均值,估计μ。而,用样本中位数,估计μ。这两种估计量均是中位数绝对偏差的一种,在估计尺度参数时,对称分布中后者更稳健,在非对称分布中前者更稳健。

Huber在1981年[2] 提了t为估计量,F为分布函数,t在F处的影响函数为

其中极限存在。

由于影响函数与得分函数程正相关,本文用得分函数来求。这里引用了参考文献[5] 中的公式作为得分函数

(1)

这里是满足费希尔一致性条件的常数,为自由参数,是标准正态分布函数。

由泰勒展开式

(2)

这里为标准正态分布密度函数。

由于,并将(2)代入(1)得

(3)

其中,由费希尔一致性条件,将(3)代入费希尔一致性条件,

由此得,

其中C为常数

由牛顿–辛普森一步迭代公式知一步M估计

处,其中为初始估计,所以

将(3)代入上式

(4)

其中

作为估计的初始值,估计,代入(4)式,得

其中

作为估计的初始值,估计,代入(4)式,得

其中

统称为GMAD。

由于为自由参数,不妨设,则GMAD可简化为

3. 蒙特卡罗模拟

受污染分布描述为[1] :

其中表示标准正态分布函数,是一个比较小的数,相应于异常观测值在全部观测值中所占的比例,而可能比大许多(或小许多)。由于粗差出现的概率为1%~10%,故而实验中取0.1。

3.1. 蒙特卡罗模拟结果图形

图1~5均为自由参数,重复10,000次的结果。

图1为这几种尺度估计量在没有受到污染,且时的正态分布中变化情况图。由此图可知在没受到污染的正态分布中,sd最接近1,稳健性最好。其次是,他们几乎是重合的,说明他们的估计尺度的稳健性几乎无差别。再者是IQR和MAD,他们的估计稳健性也差不多。然后是,虽有所偏离,但也在可承受范围内。我们能明显看出FQ的不同,在均值为0时,FQ估计尺度的稳健性非常好,但在均值非0时,有明显的偏离,均值的绝对值越大,偏离程度越大,且偏离程度是对称的。

图2为各个尺度估计量在受污染的,的正态分布中的变化情况图。由图2可看出,在受污染的正态分布中,估计尺度参数最接近1,且它们几乎重合,说明它们估计尺度参数时的稳健性几乎差不多,且是这几个尺度估计量里估计尺度最好的。估计尺度参数要比在没受污染的正态分布中要差些,其它的估计几乎与在没受污染的正态分布中估计几乎没什么差别。

由于伽马分布在形状参数时,对应的伽马密度曲线形状不同,故而在伽

Figure 1. Scale estimators based on the mean of the standard normal distribution

图1. 尺度估计量在标准正态分布中随均值变化图

马分布中的尺度估计量分这三种情况进行讨论,即图3图4图5

图3可明显看出,这几种估计在形状参数时,都不可行。

图4可知,在形状参数时,除了估计量的估计效果不佳外,其它的几个估计稳健性都挺好。SD最接近,稳健性最强,其次估计量IQR与新的估计量稳健性也非常好,估计量fq估计尺度时虽不如,但也相对不错了,与MAD在此种情况下用来估计尺度也是可行的。

图5可明显看出在形状参数时,估计量fq明显偏离准确尺度参数许多,说明此种估计根本不可行。估计量iqr也偏离准确尺度2倍,所以也不可行。其他的估计量都在允许范围内,且在这几种估计量估计尺度参数时,MAD最为稳健,其次是,然后是,最后是sd。

Figure 2. Scale estimators based on the mean of the contaminated normal distribution

图2. 尺度估计量在受污染正态分布中随均值变化图

Figure 3. Scale estimation based on the gamma distribution of the shape parameter is from 0 to 1

图3. 尺度估计量在形状参数为0~1的伽马分布中变化图

Figure 4. Scale estimators based on the Gamma distribution of the shape parameter is from 1 to 2

图4. 尺度估计量在形状参数为1~2的伽马分布中变化图

Figure 5. Scale estimators based on the gamma distribution of the shape parameter is greater than 2

图5. 尺度估计量在形状参数大于2的伽马分布中变化图

由图我们可知,无论是在没有受到污染的正态分布中,还是在受到污染的正态分布中,新估计量在估计尺度参数时,都非常稳健,而估计量fq只有在均值为0时稳健。在伽马分布中,这几种估计量在形状参数的情形下均不稳健;在形状参数的情形下,除了估计量的稳健性不佳外,其它的几个估计量估计尺度参数时的稳健性都挺好;在形状参数的情形下,估计量fq与IQR非常不稳健,不能用来估计尺度参数,其它几个估计量均比较稳健。

3.2. 蒙特卡罗模拟结果表

表1~3均是自由参数,每个都重复试验10,000次的结果。

表1可知,在均值为0的受污染的正态分布中,估计量FQ、估计尺度参数时的稳健性几乎没什么差别,都很好。其它四中估计量估计尺度的偏差也都在可承受范围内。

表2为形状参数,尺度参数时的情况,此时估计量FQ、估计尺度参数时的稳健性都很好。其中比FQ好些,FQ比好些。超出了可承受范围。

表3说明在指数分布中,估计量FQ非常稳健,估计量虽不如FQ,但也很稳健。估计量估计尺度参数的稳健性虽差些,但也在可承受范围内。

由表可知,对于均值为0时,在受污染的正态分布模型的情况下,FQ与gmda的稳健性差不多。在非正态分布下的情形,如在形状参数为2时的伽马分布中,FQ与gmda均可用,稳健性FQ虽不如好,但比要好。在指数分布中,估计量FQ非常稳健,估计量虽不如FQ,但也很稳健。估计量估计尺度参数的稳健性虽差些,但也在可承受范围内。

Table 1. The mean of contaminated normal distribution is 0 (ε = 10%, σ = 1, σ* = 3σ)

表1. 均值为0的受污染正态分布(ε = 10%, σ = 1, σ* = 3σ)

Table 2. Gamma distribution (α = 2, λ = 1)

表2. 伽马分布(α = 2, λ = 1)

Table 3. Exponential distribution (λ = 1)

表3. 指数分布(λ = 1)

4. 结论

由以上分析可知,正态分布模型无论有没有受到污染,新的估计量在估计尺度参数时,都非常稳健,且它们的差异性不大,而估计量FQ只有在均值为0时才稳健。均值为正或负对估计的稳健性并没有影响,而均值的绝对值的大小对估计量FQ影响较大,对其它估计量也没什么影响。

在非正态分布下的情形,如伽马分布、指数分布等估计量与新的估计量也是可用的。在线性模型中是否可用还有待研究。

致谢

本文是在我的导师李再兴老师的指导完成的。此外,本文得到中央高校基本科研业务费以及北京市青年英才计划的资助。

文章引用

杨苹莉, (2015) 基于改进的中位数绝对偏差稳健尺度估计
Robust Scale Estimation Based on the Improved Median Absolute Deviations. 统计学与应用,02,94-102. doi: 10.12677/SA.2015.42011

参考文献 (References)

  1. 1. 茆诗松, 等 (2006) 高等数理统计. 高等教育出版社, 北京, 147-156.

  2. 2. Huber, P.J. (1981) Robust statistics. John Wiley & Sons, Inc., New York.

  3. 3. Rousseeuw, P. and Croux, C. (1993) Alternatives to the median absolute deviation. Journal of the American Statistical Association, 88, 1273-1283.

  4. 4. Smirnov, P.O. and Shevlyakov, G.L. (2014) Fast highly efficient and robust one-step M-estimators of scale based on Qn. Computational Statistics & Data Analysis, 78, 153-158.

  5. 5. Smirnov, P. and Shevlyakov, G. (2010) On approximation of the Qn-estimate of scale by fast M-estimates. In: Book of Abstracts: International Conference on Robust Statistics, ICORS 2010, Prague, Czech Republic, 94-95.

期刊菜单