设为首页 加入收藏 期刊导航 网站地图
  • 首页
  • 期刊
    • 数学与物理
    • 地球与环境
    • 信息通讯
    • 经济与管理
    • 生命科学
    • 工程技术
    • 医药卫生
    • 人文社科
    • 化学与材料
  • 会议
  • 合作
  • 新闻
  • 我们
  • 招聘
  • 千人智库
  • 我要投搞
  • 办刊

期刊菜单

  • ●领域
  • ●编委
  • ●投稿须知
  • ●最新文章
  • ●检索
  • ●投稿

文章导航

  • ●Abstract
  • ●Full-Text PDF
  • ●Full-Text HTML
  • ●Full-Text ePUB
  • ●Linked References
  • ●How to Cite this Article
Statistical and Application 统计学与应用, 2013, 2, 97-102
http://dx.doi.org/10.12677/sa.2013.24014 Published Online December 2013 (http://www.hanspub.org/journal/sa.html)
Score Test for Single Outlier in the Spatial
Auto-Regressive Error Model*
Xiaowen Dai, Libin Jin, Lei Shi
College of Statistics and Mathematics, Yunnan University of Finance and Economics, Kunming
Email: daixiaowendaisy@163.com, kingpp2010@gmail.com, shi_lei65@hotmail.com
Received: Aug. 28th, 2013; revised: Oct. 3rd, 2013; accepted: Oct. 15th, 2013
Copyright © 2013 Xiaowen Dai et al. This is an open access article distributed under the Creative Commons Attribution License, which
permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. In accordance of the
Creative Commons Attribution License all Copyrights © 2013 are reserved for Hans and the owner of the intellectual property Xiaowen
Dai et al. All Copyright © 2013 are guarded by law and by Hans as a guardian.
Abstract: This paper studies single outlier detection in the spatial auto-regressive error model. Specific for-
mula based on score statistics and their approximate distributions are derived under mean-shift outlier model
and variance-weighted model respectively. Analysis of a real example shows that the proposed method is ef-
fective for identifying outlier in the spatial auto-regressive error model. Finally a modified model to adjust
the outliers is proposed and compared with the original model.
Keywords: Spatial Auto-Regressive Error Model; Outlier Detection; Mean-Shift Outlier Model;
Variance-Weighted Model; Score Test
空间误差模型的异常值检验*
戴晓文,金立斌,石 磊
云南财经大学,统计与数学学院,昆明
Email: daixiaowendaisy@163.com, kingpp2010@gmail.com, shi_lei65@hotmail.com
收稿日期:2013 年8月28 日;修回日期:2013 年10 月3日;录用日期:2013年10 月15 日
摘 要:本文研究了空间误差模型中单个异常值检验问题。分别在均值漂移模型和方差加权模型这两
种异常值模型下给出了得分检验统计量的具体形式及其近似分布。并应用 Anselin(1988)的哥伦比亚市
犯罪数据进行实例分析,以证实方法的有效性。最后,利用修正模型对异常值进行处理和分析。
关键词:空间误差模型;异常值检验;均值漂移模型;方差加权模型;得分统计量
1. 引言
异常值检验问题一直是统计学中的一个重要研
究领域。对一元、多元样本,线性模型中异常值检验
的研究已经取得了较好的成果(Barnett and Lewis,
1994)[1]。对一些较为复杂的统计模型的异常值检验问
题,也有相关的研究。如Tsay(1986)[2]和Ljung(1993)[3]
研究了时间序列模型中的异常值识别问题。Schall and
Dunne(1988)[4]研究了一般线性模型在不同异常值模
型下的异常值检验问题。石磊等(2006)[5]研究了随机效
应模型中异常值的检验问题。Shi and Chen(2008)[6]对
多水平模型中存在的异常值提出了一种近似的检验
方法。在空间计量模型中,数据之间具有较强的空间
相关性。对于这类数据,异常值的存在对空间计量模
型参数估计及统计推断有较大的影响,而且形式更为
*基金项目:国家自然科学基金项目“局部影响分析及其相关问题
研究”,项目批准号:11161053。
Open Access 97
空间误差模型的异常值检验
复杂。但目前文献对这类模型的异常值检验问题的研
究仍然是个空白。为此,本文利用得分检验研究了空
间误差模型的异常值检验问题,并分别在均值漂移模
型和方差加权模型两种异常值模型下给出了得分检
验统计量的具体形式及其近似分布。同时通过修正模
型对识别出的异常值进行了分析和处理。
2. 模型介绍与得分检验
2.1. 空间误差模型
本文考虑空间误差模型(SEM)如下:

2
,0,
n
yX
WN

I


 

 (2.1)
其中因变量 是维向量,
y1n
X
是 的数据矩阵,
代表解释变量。W是空间权重矩阵,参数
nk

是空间相
关误差的参数,

反映解释变量对因变量的影响。我
们不难得出该模型中



21
, ,EyX CovyV



其中 。进而,原模型(2.1)下的
对数似然函数为

nn
VI WI W


 


2
2
1
ln ln.
22
n
n
LCI WeVe



 
其中 eyX

 。用 分别对参数L2
,,


求导并令
其为0,可得似然方程如下:




1
2
1
2
1,
nn
eVeXVXXVy
n
trIWWe IWWe

 







显然,该模型的参数估计无显式解,只能通过迭
代求解。关于该模型下的相关估计理论可参阅文献
Lesage(1999)[7]。
2.2. 得分检验
由于原模型(2.1)的参数估计无显式解,只能通过
迭代求出,因此我们采用得分检验方法进行研究。得
分检验的一般形式可参阅文献(Cox and Hinkley, 1990)
[8]。其简要过程描述如下:令

L

是模型的对数似然
函数,未知参数

12
,
  
2
,,
jij
jij
LL
UJEi









,1,2.
j

假设我们感兴趣的参数是 2

,对假设问题
02 2012 2
::HH
0



,得分统计量定义为


1
1
2022221 11122
SCUJJ JJU





其中
j
U及ij
J
在


112022
ˆ,0

 
处计值,这里


012
ˆ


为原假设 0
H
成立时参数 1

的MLE。
得分统计
量具有如下渐进分布:



2
202 ,.SCp n



3. 异常值检验
3.1. 基于均值漂移模型的得分检验
为识别空间误差模型中的异常值,我们分别利用
均值漂移模型和方差加权模型这两种异常值模型来
进行识别工作。首先考虑均值漂移模型。这种模型表
达了数据的一种异常情况,即某些观测值

1, ,
i
y
in
的均值严重偏离其假设,即


21
,
i
EyXd CovyV
 


这里是一个第 个元素为1其余元素全为0的
i
d i1n

向
量。所以空间误差模型的均值漂移模型可以表示为如
下形式:

2
,0,
i
n
yX d
WN

I





 (3.1)
这里

是均值漂移参数,其余矩阵,参数及向量的定
义同第2.1节。显然,若

显著的不等于0,则说明第
个观测点确实存在均值漂移,于是在均值漂移模型
(3.1) 中异常值的检验问题等价于假设问题:
i
 
1
0
:0 :H

1
1
0H


的检验。不难得到该模型下
的对数似然函数为

2
2
ln ln
2
1
2
n
ii
n
LCI W
yX dVyX d




 

 

(3.2)
据此,我们可得如下引理:





,其中 1

和2

分别为 11p

和 向量。令
21p
引理3.1. 在均值漂移模型(3.1)下,参数
(, ,,)



在0


处的 Fisher 信息阵为
Open Access
98
空间误差模型的异常值检验




22
2
2
00
00
1
0
2
00
ii i
i
I
vd
trM MMtrM
n
tr M0
VX
X
VdX VX


















0



(3.3)
其中, 是V的第 个对角元。

1
n
MWIW


 ii
v i
定理3.2. 在均值漂移模型(3.1) 下,假设问题
的得分检验统计量为
 
11
01
:0 :HH

 


2
12
2
ˆ
ˆˆ ˆ
i
ii
ii ii
r
SC t
vp


 (3.4)
这里

*
ˆˆˆˆ
1
iiii ii
te pv

,*
ˆˆˆ
iii
ervi
,表示 的
第个元素,分别表示矩阵的第 个对角
元, ,
ˆ
i
r
i
ˆ
r
iˆˆ
,
ii ii
vp
ˆ
ey
ˆˆ
,
VP
ˆ
ˆˆ
rVeˆ
X

 , ,

ˆ
VX
1
ˆˆ
Xˆ
XVPV X


2ˆ

ˆnn
VI WIW

 

ˆˆ
,,
ˆˆ
,


分别为空间误差模
型(2.1)下参数 2
,,


的MLE,其定义见第2.1节。统
计量 具有渐进分布。

1
i
SC

21

定理3.2检验统计量中的 正好与具有相关结构
线性模型中的学生化残差(Shi and Gemai, 2009)[9]的形
式一致。但是在文献 Shi and Gemai(2009)[9]中V是已
知的,而这里的V需要通过迭代计算。
i
t
3.2. 基于方差加权模型的得分检验
而方差加权模型则表达了另一种异常情况,即某
些 的方差严重偏离其假设,即

1, ,
jj



n
 

1
2
,,
nn
EyXCovyI WI W







这里

1
njj
I
dd


 ,
j
d为第 个元素为1其余元
素全为0的向量。所以空间误差模型的方差加权
模型可以表示为如下形式:
j
1n

21
,0,
yX
WN

 


 

(3.5)
显然,若

显著的不等于1,则说明第个观测
点确实存在方差异常,于是在方差加权模型(3.5)中异
常值的检验问题等价于假设问题:
的检验。于是不难得到该模
型下的对数似然函数为
j
 
22
01
:1 :HH

 


2
2
1
ln lnln
22
1
2
n
nn
n
LCI W
eI WI We




 



(3.6)
据此,我们可得如下引理:
引理3.3. 在方差加权模型(3.5) 下,参数


,,,


在1


处的 Fisher 信息阵为




2
2
2
22 4
2
11
22
1
22
jj
jj
m
tr M
mtrMMM
Jtr Mn
X
VX



 


















0
0
0
000
(3.7)
这里
j
j
m是
M
的第 个对角元。 j
定理3.4. 在方差加权模型(3.5) 下,假设问题
 
22
01
:1 :HH

1


的得分检验统计量为



2
22
ˆˆˆ
1
j
j
SCk ua j
(3.8)
其中 2
ˆ
j
u是的第个元素,,
2
ˆ
uj

22 2
1
ˆˆ ˆ
,,
n
uu u




ˆˆ
X
ˆˆ
uI y
nW


 ,

1
ˆ
n
I W

ˆ
MW

 ,






2
ˆˆ ˆ
ˆˆ
21 41
ˆˆ
4
22
j
jj
jj
antrMMM nm
tr Mm

 

,






2
2
ˆˆˆˆˆ
2kntrMMM trM

 ,ˆ
j
j
m为ˆ
M
的第 个 j
对角元。统计量

2
j
SC 具有渐进分布 。

21

由于




2
n
covIWeI


n
,因此定理3.4中的
ˆ
j
u可以看成是一个不相关残差(Cook and Weisberg,
1982)[10]的估计。
4. 数值实例
4.1. 实例数据的异常值识别
本节利用Anselin(1988)[11]哥伦比亚市社区犯罪
数据来说明本文检验方法的应用。记 为哥伦比亚市
49个社区的犯罪率构成的49维列向量,满足空间误差
模型
y

0491 122
2
49
,0,
yXX
WN

I


 

 

1 (4.1)
1

Open Access 99
空间误差模型的异常值检验
Open Access
100

其中是哥伦比亚市第 个社区的犯罪率,
i
y i

012
,,


是系数向量,1

和2

分别是哥伦比亚
市49个社区的家庭收入

1

X
的系数以及房价


2
X
的
系数。对上述数据,我们采用本文所介绍的得分检验
方法来检验该数据的异常值。由定理3.2和定理3.4知,
近似服从 ,所以我们可以很容易的
给出单个异常值的检验过程。这里关于临界值的界定
问题,我们分别从有标识的异常值检验和无标识的异
常值检验两个方面来考虑,其主要原理描述如下(可参
阅文献:Cook and Weisberg, 1982)[10]:
 
2
j
SC 1
,
i
SC

21

1) 有标识的异常值检验。这里假设异常值的位置
是已知的,其检验过程如下:对于给定的置信水平

,
令表示 分布的上

21



21


分位点,假如得分检
验统计量 ,则我们识别该观测点为异常
值。

21




SC
2) 无标识的异常值检验。即预先我们不知道哪个
数据为异常值,则检验统计量为


max maxSCSC i。
使用 Bonferroni 不等式进行近似,则置信水平为

的
无标识的异常值检验过程为:如果




1
22
max 1
nn
C
SC



1,这里 为样本总数,则我
们认为该观测点为异常值。
n
首先我们通过原模型的残差图(图1所示)可以初
步判断出数据中存在异常,且第4个观测点的异常情
况较为明显。取置信水平 0.05



1


,则对于有标识的
异常值检验,其临界值为 ;对
于无标识的异常值检验,其临界值为

22
0.05 13.84




0.05 49
22
1110.79
n


。
对于均值漂移模型(3.1),我们分别计算出每个观
测点的 score 值。通过图2(a),我们发现在有标识的异
常值检验中,第4、第 10以及第34个观测点的 score值
超过临界值3.84,被识别为异常值;而在无标识的异
常值检验中,只有第4个观测点的score 值超过对应的
(a) (b)
Figure 1. (a) Scatter plots of under null model (4.1); (b) Scatter plots of under null model (4.1)
ˆi
uˆi
t
图1. (a) 原模型(4.1)下残差 的散点图;(b) 原模型 (4.1)下残差 的散点图
ˆi
uˆi
t
(a) (b)
Figure 2. (a) Scor e test for single outlier under mean-shift outlier model; (b) Score test for single outlier under variance-weighted model
图2. (a) 单点扰动下均值漂移模型的得分检验;(b) 单点扰动下方差加权模型的得分检验
空间误差模型的异常值检验
临界值10.79,被识别为异常值。
对于方差加权模型(3.5),分别计算每个观测点的
score 值,如图2(b)所示。我们发现采用有标识的临界
值3.84和采用无标识的临界值10.79得到了相同的结
论,都是第4和第34个观测点的 score值存在异常,被
识别为异常值。
对比这两种异常值模型下的检验结果,我们发现
均值漂移模型(3.1)和方差加权模型(3.5) 这两种异常值
模型虽然扰动方式不同,但是检验结果大致相同。其
中方差加权模型对数据则更为敏感一些。
4.2. 修正模型及比较
下面我们根据检验出的异常值情况提出修正模
型,并根据修正后的模型的性质优劣来验证异常值检
验结果的正确性。这一方法已被一些作者采用,可参
见文献(Zhang, X., King, M.L., 2005)[12]。这里我们只考
虑无标识的异常值检验结果。
对于空间误差模型的均值漂移模型(3.1),我们识
别出了1个异常值,即第4个观测点存在异常。我们考
虑把这种异常情况体现在模型中,并提出修正模型形
式如下:

4
2
49
,0,
yX d
WN

I


 

 (4.2)
这里 为第4个元素为1其余元素全为0的
4
d49 1

向量。
此时, 。


4,,
i
EyXEyXi
 
 4
而对于空间误差模型的方差加权模型(3.5 ),我们
识别出了2个异常值,即第4个及第34个观测点存在异
常。我们也考虑把这种异常情况体现在模型中,从而
修正模型为:

21
1
,0,
yX
WN



 



 
(4.3)
这里


1494,34
1
j
jj
j
I
dd



 

,其中 434
,


分别为
1

的第4对角元和第34 对角元。此时,


12
44
Cov



,


12
34 34
Cov



,


2
j
Cov


,
4j

且34j

。
然后我们分别计算出原模型(4.1)、修正模型(4.2 )
和修正模型(4.3)中残差的峰度、偏度以及 AIC,BIC
值,其具体结果列于表1之中。显然两个修正模型的
峰度偏度更接近于标准正 态分布

,且
AIC,BIC 值较原模型(4.1)也有明显的改善。
ˆi
u
3, 0KS
而从 Q-Q 图角度来看,若数据严格服从正态分
布,则这些概率点将形成一条直线;反之,若数据偏
离直线,或存在某些点远离数据的整体,则说明该模
型及其正态性假设存在问题。图3给出了原模型(4.1)、
修正模型(4.2)和修正模型(4.3)下残差的 Q-Q 图。原
ˆi
u
Table 1. Some key statistics of modeling in three models.
表1. 三个模型的重要统计量比较
模型 偏度 峰度 AIC BIC
原模型(4.1) −0.4460 4.8233 372.7608 378.4363
修正模型(4.2) 0.3056 2.0493 332.5907 340.1579
修正模型(4.3) 0.1358 2.2581 349.5539 357.1212
Figure 3. (a) Q-Q plot of under null model (4.1); (b) Q-Q plot of under modified model (4.2); (c) Q-Q plot of under modified
model (4.3 )
ˆi
uˆi
uˆi
u
图3. (a) 原模型(4.1)下残差 的Q-Q 图;(b) 修正模型 (4.2)下残差 的Q-Q 图;(c) 修正模型(4.3)下残差 的Q-Q 图
ˆi
uˆi
uˆi
u
Open Access 101
空间误差模型的异常值检验
模型(4.1)下的残差的 Q-Q 图如图3(a)所示,我们发
现虽然大部分概率点围绕在拟合直线周围,但是存在
显著离群点;而对于修正模型(4.2) 和修正模型(4.3),
其残差的 Q-Q 图分别如图3(b)和图3(c)所示。我们
发现,修正模型(4.2)和修正模型(4.3)都明显改善了原
模型(4.1)的离群点情况,所有概率点都紧密围绕在拟
合直线周围。因此,从Q-Q 图角度来看,我们认为两
个修正模型的正态性远远优于原模型(4.1 )。
ˆi
u
ˆi
u
综合这两种角度来看,不论是修正模型(4.2)还是
修正模型(4.3),其性质都要优于原模型(4.1)。因此我
们从另一个侧面说明异常值检验结果是有效的,能够
较好的识别出数据中异常值。同时修正模型对处理存
在异常值的数据提供了一个有效的处理办法。
参考文献 (References)
[1] Barnett, V. and Lewis, T. (1978) Outliers in statistical data. John
Wiley Sons, New York.
[2] Tsay, R.S. (1986) Time series model specification in presence of
outliers. Journal of the American Statistical Association, 81, 132-
141.
[3] Ljung, M.G. (1993) On outlier detection in time series. Journal
of the Royal Statistical Society: Series B, 55, 559-567.
[4] Schall and Dunne (1988) A unified approach to outliers in the
general linear model. The Indian Journal of Statistics, 50, 157-
167.
[5] 石磊, 尹天水, 黄梅 (2006) 混合效应模型的异常值得分检
验.
管理科学与统计决策
, Special Issue, 258-267.
[6] Shi, L. and Chen, G. (2008) Outlier detection in multilevel mod-
els. Journal of Statistical Planning and Inference, 139, 3189-
3199.
[7] LeSage, P.J. (1999) The theory and practice of spatial economet-
rics. Working Paper, Department of Economics, University of
Toledo, Toledo.
[8] Cox, D.R. and Hinkley, D.V. (1990) Theoretical statistics. Chap-
man and Hall, London.
[9] Shi, L. and Chen, G. (2009) Influence measures for general linear
models with correlated errors. The American Statistician, 63,
40-42.
[10] Cook, R.D. and Weisberg, S. (1982) Residuals and Influence in
Regression. Chapman & Hall, New York.
[11] Anselin, L. (1988) Spatial econometrics: Methods and models.
Kluwer Academic, Boston.
[12] Zhang, X. and King, M.L. (2005) Influence diagnostic in gener-
alized autoregressive conditional heteroscedasticity process. Journal
of Business and Economics, 23, 118-129.
Open Access
102

版权所有:汉斯出版社 (Hans Publishers) Copyright © 2012 Hans Publishers Inc. All rights reserved.