在改进两参数估计下对单个数据删除模型进行研究,通过对比删除某个观测值前后估计量的变化程度来度量相应观测值的影响程度,并由近似删除公式得到删除某个数据点前后改进两参数估计量间的关系;同时,在前人的基础上推导得到DFFITS统计量和Cook统计量新的表达形式,并在实例中用两种统计量来识别影响点,验证其合理性。 The single data deletion model is studied under the modified two-parameter estimator. The influence degree of the corresponding observation value is measured by comparing the change degree of the estimators before and after deleting a certain observation value, and the relationship between the improved two-parameter estimator value before and after deleting a certain data point is obtained by the approximate deletion formula; at the same time, new expressions of DFFITS statistics and Cook statistics are derived on the basis of predecessors, and two kinds of statistics are used to identify the influence points in an example to verify their rationality.
在改进两参数估计下对单个数据删除模型进行研究,通过对比删除某个观测值前后估计量的变化程度来度量相应观测值的影响程度,并由近似删除公式得到删除某个数据点前后改进两参数估计量间的关系;同时,在前人的基础上推导得到DFFITS统计量和Cook统计量新的表达形式,并在实例中用两种统计量来识别影响点,验证其合理性。
改进两参数估计,数据删除模型,近似删除公式,Cook统计量,影响点
Ju Chen, Rong Li
School of Data Science and Information Engineering, Guizhou Minzu University, Guiyang Guizhou
Received: Nov. 1st, 2020; accepted: Nov. 18th, 2020; published: Nov. 25th, 2020
The single data deletion model is studied under the modified two-parameter estimator. The influence degree of the corresponding observation value is measured by comparing the change degree of the estimators before and after deleting a certain observation value, and the relationship between the improved two-parameter estimator value before and after deleting a certain data point is obtained by the approximate deletion formula; at the same time, new expressions of DFFITS statistics and Cook statistics are derived on the basis of predecessors, and two kinds of statistics are used to identify the influence points in an example to verify their rationality.
Keywords:Modified Two-Parameter Estimator, Data Deletion Model, Approximate Deletion Formula, Cook Statistics, Influence Point
Copyright © 2020 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
考虑一般线性回归模型:
y = X β + ε (1)
其中y是 n × 1 的响应变量,X是 n × p 的已知设计矩阵, β 为 p × 1 未知参数向量, ε 是均值为0、协方差矩阵为 σ 2 I n 的n维随机误差向量, I n 表示n阶单位矩阵。
回归诊断中的影响分析主要是研究观测值对回归模型中回归参数估计的影响。对线性模型(1),第i个样本点对参数 β 估计的影响通常是指删除该样本点后模型参数 β 估计的变化情况,若删除该样本点后模型参数 β 估计的变化较大,则认为该样本点对模型参数 β 估计的影响较大。
记 y ( i ) 和 X ( i ) 分别表示从y和X中删除第i个样本值后的观测向量和设计矩阵,则模型(1)删除第i个样本值后可表示为:
y ( i ) = X ( i ) β + ε (2)
第i个样本点对参数 β 估计的影响分析即对模型(1)和模型(2)所得参数 β 估计变化大小的比较分析。
考虑删除第i个样本点后参数 β 估计变化的总和,Cook和Weisberg [
D i = ( β ^ − β ^ ( i ) ) ′ ( X ′ X ) ( β ^ − β ^ ( i ) ) p s 2 = ( e i 2 p s 2 ) [ h i i ( 1 − h i i ) 2 ] (3)
作为第i个样本点对最小二乘估计的影响度量。其中 e i 表示残差 e = y − y ^ 的第i个分量, h i i 表示帽子矩阵 H = X ( X ′ X ) − 1 X ′ 主对角线上的第i个元素, s 2 = e ′ e / n − p 为 σ 2 的估计。
Belsey [
D F F I T S ( i ) = x i [ β ^ L S − β ^ L S ( i ) ] S E ( x i β ^ L S ) = [ e i s ( i ) ] [ h i i 1 / 2 1 − h i i ] (4)
其中 β ^ L S = ( X ′ X ) − 1 X ′ y 和 β ^ L S ( i ) = ( X ′ ( i ) X ( i ) ) − 1 X ′ ( i ) y ( i ) 是分别由模型(1)和模型(2)所得的最小二乘估计。 S E ( x i β ^ L S ) 表示 x i β 标准误差的估计值, s ( i ) 表示模型(2)中 σ 的估计值。
Cook [
当模型(1)存在复共线性时,最小二乘估计往往表现不稳定,此时再基于最小二乘估计进行影响分析显然不太合适。Belsey [
关于参数 β 的估计,考虑存在一个关于 β 的先验信息b,一些学者结合其他有偏估计提出了一系列的改进估计,如Swindel [
β ^ M T P E = ( X ′ X + k I ) − 1 ( ( X ′ X + k d I ) β ^ L S + k ( 1 − d ) b ) (5)
其中岭参数 k > 0 ,Liu参数 0 < d < 1 。
针对线性模型存在复共线性的情形,考虑改进两参数估计可以视为其他许多有偏估计的推广,如当 k = 0 或 d = 1 时,为最小二乘估计; d = 0 和 b = 0 时,为岭估计; d = 0 时,为改进岭估计等,本文主要探讨样本点对改进两参数估计的影响。
近似删除公式与检验统计量根据等式(4),第i个样本点对MTPE的影响度量统计量DFFITS可写为:
D F F I T S ( i ) = x i [ β ^ M T P E − β ^ M T P E ( i ) ] S E ( x i β ^ M T P E ) (6)
其中 β ^ M T P E ( i ) 表示模型(2)中未知参数 β 的改进两参数估计,分母是 x i β ^ M T P E 的标准误差估计值。
S E ( x i β ^ M T P E ) = s ( i ) ∑ j = 1 n h M T P E i j 2 ,其中 h M T P E i j 是H矩阵的第ij ( h i j )个元素。
由等式(3),Cook统计量可写成如下两个表达式:
D i * = 1 p s [ β ^ M T P E − β ^ M T P E ( i ) ] ′ ( X ′ X ) [ β ^ M T P E − β ^ M T P E ( i ) ] (7)
D i * * = 1 p s 2 [ β ^ M T P E − β ^ M T P E ( i ) ] ′ ( K N − 1 X ′ X N − 1 K ) [ β ^ M T P E − β ^ M T P E ( i ) ] (8)
其中 K = X ′ X + k I , N = ( X ′ X + k d I ) + k ( 1 − d ) ( X ′ X + k I ) − 1 ( X ′ X + k d I ) , D i * 是等式(3)的直接推广, D i * * 是基于方差 var ( β ^ M T P E ) = σ 2 [ K − 1 N ( X ′ X ) − 1 N K − 1 ] 给出。 β ^ M T P E − β ^ M T P E ( i ) 反映了第i组数据对回归系数 β M T P E 的影响大小且是一个向量,不便比较大小,而MTPE不是比例不变的(X矩阵没有第i行元素),所以设计矩阵X须在计算之前重新缩放。因此,为了 β ^ M T P E − β ^ M T P E ( i ) 能够比较大小,可通过近似删除公式实现。
根据模型(2), β ^ M T P E ( i ) 可以写成: β ^ M T P E ( i ) = ( X ′ ( i ) X ( i ) + k I ) − 1 [ ( X ′ ( i ) X ( i ) + k d I ) β ^ L S ( i ) + k ( 1 − d ) b ] 。利用谢
尔曼–莫里森–伍德伯里(SMW)定理(Rao [
β ^ M T P E ( i ) = ( X ′ X + k I − x ′ i x i ) − 1 [ ( X ′ X + k d I − x ′ i x i ) β ^ L S ( i ) + k ( 1 − d ) b ]
式中 K = X ′ X + k I 。
β ^ M T P E ( i ) = ( K − x ′ i x i ) − 1 [ ( X ′ X + k d I − x ′ i x i ) β ^ L S ( i ) + k ( 1 − d ) b ] = ( K − 1 + K − 1 x ′ i x i K − 1 1 − x i K − 1 x ′ i ) [ ( X ′ X + k d I ) β ^ L S ( i ) − x ′ i x i β ^ L S ( i ) + k ( 1 − k ) b ] = ˜ β ^ M T P E + K − 1 x ′ i 1 − m i i [ y ^ M T P E i − y i + m i i y i − m i i y i ] = ˜ β ^ M T P E − e M T P E i K − 1 x ′ i 1 − m i i (9)
根据等式(9),等式(6)~(8)的近似形式可以写成:
D F F I T S ( i ) = ˜ [ m i i 1 − m i i ] e M T P E i S E ( x i β ^ M T P E ) (10)
D i ∗ = ˜ [ 1 p s 2 ] [ e M T P E i 1 − m i i ] 2 x i ( X ′ X + k I ) − 1 ( X ′ X ) ( X ′ X + k I ) x ′ i (11)
D i * * ≅ [ 1 p s 2 ] [ e M T P E i 1 − m i i ] x i ( X ′ X + k I ) − 1 ( X ′ X + k d I ) ( X ′ X ) − 1 ( X ′ X + k d I ) ( X ′ X + k I ) − 1 x ′ i (12)
其中 m i i = x i K − 1 x ′ i 。
案例数据来自文献Longley [
y = X β + ε
其中 X = ( x 1 , x 2 , x 3 , x 4 , x 5 , x 6 ) ,y是总派生就业, x 1 是GNP隐含价格平减指数, x 2 是国民生产总值, x 3 是失业率, x 4 是武装力量的规模, x 5 是14岁及以上的非机构人口, x 6 是时间。 X ′ X 的条件数为43,275
(Walker和Birch [
k的值计算为5.36488e−08,根据文献(Ullah [
Cook [
表1显示,所提出的统计量 D F F I T S ( i ) 识别出影响点与其他作者的相同,只是顺序不同。使用 D i ∗ 和 D i ∗ ∗ 检测出的影响点与Cook [
实例数据来源于文献Hald [
D F F I T S ( i ) | D i ∗ | D i ∗ ∗ | |||
---|---|---|---|---|---|
case | value | case | value | case | value |
5 | 0.4644 | 5 | 0.0386 | 16 | 0.0262 |
16 | 0.4070 | 16 | 0.0278 | 5 | 0.0193 |
4 | 0.3069 | 4 | 0.0159 | 4 | 0.0144 |
10 | 0.2983 | 10 | 0.0151 | 10 | 0.0132 |
15 | 0.2575 | 15 | 0.0111 | 15 | 0.0107 |
表1. DFFITS和两个版本的Cook距离检测出的最有影响的五个观察值(Longley)
D F F I T S ( i ) | D i ∗ | D i ∗ ∗ | |||
---|---|---|---|---|---|
case | value | case | value | case | value |
3 | 0.91514 | 8 | 0.00133 | 8 | 0.00142 |
8 | 0.58233 | 11 | 0.00055 | 3 | 0.00075 |
13 | 0.50369 | 3 | 0.00036 | 11 | 0.00060 |
11 | 0.34744 | 13 | 0.00031 | 13 | 0.00040 |
4 | 0.30572 | 4 | 0.00020 | 4 | 0.00022 |
表2. DFFITS和两个版本的Cook距离检测的最有影响的五个观察值(Hald)
表2结果显示,本文用 D F F I T S ( i ) , D i ∗ 和 D i ∗ ∗ 与Yasin和Murat [
本文考虑了线性模型存在复共线性时影响点检测的问题。提出利用改进两参数估计进行诊断的新方法。利用SMW定理和改进两参数估计中的近似删除公式,得到了DFFITS和两种不同Cook距离的近似形式。用两个实例说明了这些影响度量统计量的性能。结果表明,所提出的影响度量方法在检测影响点方面与现有的方法有较强的竞争力。这些影响度量方法将会帮助从业者决定是否保留、删除或缩减有影响的数据点时,使用稳健估计在研究中确定。
陈 菊,李 荣. 基于改进两参数估计的影响点检测Influence Points Detection Based on Modified Two-Parameter Estimator[J]. 应用数学进展, 2020, 09(11): 2004-2009. https://doi.org/10.12677/AAM.2020.911232