为了解决二元逻辑回归模型中的复共线性问题,我们结合一阶近似Liu估计和刀切法的优点提出了一个新的估计即一阶近似刀切Liu估计。研究得出了新估计偏差的优良性以及在均方误差矩阵、均方误差准则下优于一阶近似极大似然估计、一阶近似Liu估计和一阶近似刀切岭估计的充要或充分条件。更进一步使用了蒙特卡罗模拟和实证分析来探讨一阶近似刀切Liu估计偏差和在均方误差意义下的优良性。 In order to solve the problem of multicollinearity in the binary logistic regression model, we combine the advantages of the first-order approximated Liu estimator and the jackknife procedure, and propose a new estimator, namely the first-order approximated jackknifed Liu estimator. The research obtained the sufficient and necessary or sufficient conditions for the new estimator to be superior to the first-order approximated maximum likelihood estimator, the first-order approximated Liu estimator and the first-order approximated jackknifed ridge estimatior under the bias, mean square error matrix or mean square error criterion. Furthermore, Monte Carlo simulation and empirical analysis are used to explore the first-order approximated jackknifed Liu estimator’s performance in the sense of bias and mean square error.
为了解决二元逻辑回归模型中的复共线性问题,我们结合一阶近似Liu估计和刀切法的优点提出了一个新的估计即一阶近似刀切Liu估计。研究得出了新估计偏差的优良性以及在均方误差矩阵、均方误差准则下优于一阶近似极大似然估计、一阶近似Liu估计和一阶近似刀切岭估计的充要或充分条件。更进一步使用了蒙特卡罗模拟和实证分析来探讨一阶近似刀切Liu估计偏差和在均方误差意义下的优良性。
二元逻辑回归模型,复共线性,一阶近似刀切Liu估计,偏差
Yuan Zou
School of Data Science and Information Engineering, Guizhou Minzu University, Guiyang Guizhou
Received: Feb. 25th, 2021; accepted: Mar. 23rd, 2021; published: Mar. 30th, 2021
In order to solve the problem of multicollinearity in the binary logistic regression model, we combine the advantages of the first-order approximated Liu estimator and the jackknife procedure, and propose a new estimator, namely the first-order approximated jackknifed Liu estimator. The research obtained the sufficient and necessary or sufficient conditions for the new estimator to be superior to the first-order approximated maximum likelihood estimator, the first-order approximated Liu estimator and the first-order approximated jackknifed ridge estimatior under the bias, mean square error matrix or mean square error criterion. Furthermore, Monte Carlo simulation and empirical analysis are used to explore the first-order approximated jackknifed Liu estimator’s performance in the sense of bias and mean square error.
Keywords:Binary Logistic Regression Model, Multicollinearity, First-Order Approximated Jackknifed Liu Estimator, Bias
Copyright © 2021 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
逻辑回归模型是生物统计学和健康科学中常用的二元数据建模方法。这种模型有时也称为概率模型,因为给定一组协变量,事件发生的概率可以估计。二元逻辑回归模型的基本假设有:模型的响应变量y的分量 y i 是相互独立且服从Bernoulli ( π i )分布,其中:
π i = exp ( x ′ i β ) 1 + exp ( x ′ i β ) , i = 1 , ⋯ , n (1)
x ′ i 是n × p样本资料矩阵X的第i行元素组成的向量。 β = ( β 1 , ⋯ , β p ) ′ 为p × 1的系数向量。 π i = P ( y i = 1 | x i ) 是在 x i 的条件下 y i = 1 的概率。
在逻辑回归模型中,一般使用极大似然(ML)方法来估计回归参数 β ,模型(1)的对数似然函数为:
L ( β ) = ∑ i = 1 n [ y i x ′ i β − ln ( 1 + exp ( x ′ i β ) ) ] (2)
对等式(2)进行求导并令其等于0求 L ( β ) 的极大值:
∂ L ( β ) ∂ β = X ′ ( y − π ) = 0 (3)
由于等式(3)不是线性的,因此ML估计是通过Newton-Raphson方法求解方程组(3)而得。用Newton-Raphson方法给出了 β 一个数值解:
β ^ ( m ) = β ^ ( m − 1 ) + ( X ′ V ^ ( m − 1 ) X ) − 1 X ′ ( y − π ^ i ( m − 1 ) ) (4)
在上述迭代运算中, β ^ ( m − 1 ) 是 β 的第 m − 1 次迭代估计的向量, π ^ i ( m − 1 ) 是 π ^ ( m − 1 ) 的第i个元素, V ^ ( m − 1 ) = d i a g ( π ^ i ( m − 1 ) ) ( 1 − π ^ i ( m − 1 ) ) 是权重矩阵。当 | β ^ ( m ) − β ^ ( m − 1 ) | < δ 时收敛,运算终止,其中 δ 为事先给定的计算精度,求得 β ^ ( m ) 为极大似然估计 β ^ 的近似解 β ^ M L E :
β ^ M L E = ( X ′ V ^ X ) − 1 X ′ V ^ z ^ (5)
其中, z ^ = X β ^ + V ^ − 1 ( y − π ^ ) , V ^ 是一个对角矩阵且第i个对角元素为 π ^ i ( 1 − π ^ i ) , π ^ 为收敛后的取值。
在逻辑回归模型中,当 X ′ V ^ X 的一些特征值很小时,极大似然估计(MLE)的方差会膨胀,可能导致符号与现实情况不符,统计推断可能出现错误。为了克服这个问题,学者们提出了很多有偏估计来改进MLE。例如,Schaefer等 [
β ^ ( k ) = ( X V ^ X + k I ) − 1 X V ^ X β ^ M L E , k > 0 (6)
k为岭参数。
Månsson等 [
β ^ ( d ) = ( X ′ V ^ X + I ) − 1 ( X ′ V ^ X + d I ) β ^ M L E , 0 < d < 1 (7)
为了减小复共线性的影响,基于Newton-Raphson方法,LeCessie和Van Houwelingen [
β ^ ( 1 ) ( k ) = ( X V ^ ( 0 ) X + k I ) − 1 X V ^ ( 0 ) X β ^ ( 1 ) ( M L ) , k > 0 (8)
其中 V ^ ( 0 ) 是真实参数值 β 0 估计的权重矩阵。 β ^ ( 1 ) ( M L ) 是由等式(4)所得的一阶近似极大似然估计(FAE),表达式为:
β ^ ( 1 ) ( M L ) = ( X V ^ ( 0 ) X ) − 1 X V ^ ( 0 ) z ^ ( 0 )
Özkale [
β ^ ( 1 ) ( d ) = ( X ′ V ^ ( 0 ) X + I ) − 1 ( X ′ V ^ ( 0 ) X + d I ) β ^ ( 1 ) ( M L ) , 0 < d < 1 (9)
为了减小估计的偏差,Quenouille [
β ˜ ( 1 ) ( k ) = ( I − k 2 ( X V ^ ( 0 ) X + k I ) − 2 ) β ^ ( 1 ) ( M L ) , k > 0 (10)
在本文中,我们结合一阶近似Liu估计和刀切法,提出了一个新的估计即一阶近似刀切Liu估计。接下来我们应用刀切法来定义一阶近似刀切Liu估计。
当X和y的第i个观测值删除时一阶近似Liu估计的表达式为:
β ^ − i ( 1 ) ( d ) = ( X ′ − i V ^ − i ( 0 ) X − i + I ) − 1 ( X ′ − i V ^ − i ( 0 ) z ^ − i ( 0 ) + d β ^ − i ( 1 ) ( M L ) ) (11)
其中, X ′ − i V ^ − i ( 0 ) X − i = X ′ V ^ ( 0 ) X − x i v ^ i ( 0 ) x ′ i , X ′ − i V ^ − i ( 0 ) z ^ − i ( 0 ) = X ′ V ^ ( 0 ) z ^ ( 0 ) − x i v ^ i ( 0 ) z ^ i ( 0 ) 。化简可得:
β ^ − i ( 1 ) ( d ) = β ^ ( 1 ) ( d ) − 1 1 − h i i ( X ′ V ^ ( 0 ) X + I ) − 1 x i v ^ i ( 0 ) ( z ^ i ( 0 ) − x ′ i β ^ ( 1 ) ( d ) ) − d 1 ( 1 − h i i ) ( 1 − h i ) ( X ′ V ^ ( 0 ) X + I ) − 1 x i v ^ i ( 0 ) x ′ i ( X ′ V ^ ( 0 ) X + I ) − 1 ⋅ ( X ′ V ^ ( 0 ) X ) − 1 x i v ^ i ( 0 ) ( z ^ i ( 0 ) − x ′ i β ^ ( 1 ) ( M L ) ) (12)
其中 h i i = v ^ i ( 0 ) x ′ i ( X ′ V ^ ( 0 ) X + I ) − 1 x i , h i = v ^ i ( 0 ) x ′ i ( X ′ V ^ ( 0 ) X ) − 1 x i 。
根据Hinkley [
Q i = β ^ ( 1 ) ( d ) + n ( 1 − h i i ) ( β ^ ( 1 ) ( d ) − β ^ − i ( 1 ) ( d ) ) (13)
和加权伪值相对应的加权刀切估计:
β ˜ ( 1 ) ( d ) = n − 1 ∑ Q i (14)
根据等式(12),(13),(14), ∑ i = 1 n x i v ^ i ( 0 ) z ^ i ( 0 ) = X ′ V ^ ( 0 ) z ^ ( 0 ) 和 ∑ i = 1 n x i v ^ i ( 0 ) x ′ i = X ′ V ^ ( 0 ) X 我们在逻辑回归模型中定义了一个新的估计即一阶近似刀切Liu估计(FAJL),表达式为:
β ˜ ( 1 ) ( d ) = { ( I − ( X ′ V ^ ( 0 ) X + I ) − 1 X ′ V ^ ( 0 ) X ) ( X ′ V ^ ( 0 ) X + I ) − 1 ( X ′ V ^ ( 0 ) X + d I ) + ( X ′ V ^ ( 0 ) X + I ) − 1 X ′ V ^ ( 0 ) X } β ^ ( 1 ) ( M L ) (15)
为了方便讨论一阶近似刀切Liu估计的性质,我们对矩阵 Φ = X ′ V ( 0 ) X 进行特征分解,可以表示为 Φ = X ′ V ^ ( 0 ) X = T Λ T ′ ,这里 Λ = T ′ Φ T = Z ′ V ^ ( 0 ) Z = d i a g ( λ j ) 是由矩阵 X ′ V ^ ( 0 ) X 的特征值组成的对角矩阵,且 λ 1 ≥ λ 2 ≥ ⋯ ≥ λ p 。 T = ( T 1 ⋯ T p ) 是由矩阵 X ′ V ^ ( 0 ) X 的特征值所对应的标准化特征向量组成的 p × p 阶正交矩阵。 Z = X T , α = T ′ β 。为了方便对所提出的新估计与其他估计进行比较,我们首先定义参数 β 的估计 β ^ 的偏差和偏差的平方和分别为:
b i a s ( β ^ ) = E ( β ^ ) − β (16)
‖ B i a s ( β ^ ) ‖ 2 = b i a s ( β ^ ) ′ b i a s ( β ^ ) (17)
均方误差矩阵:
M S E M ( β ^ ) = E ( β ^ − β ) ( β ^ − β ) ′ (18)
均方误差:
M S E ( β ^ ) = E ( β ^ − β ′ ) ( β ^ − β ) (19)
为了在均方误差矩阵准则下对一阶近似极大似然估计、一阶近似刀切岭估计、一阶近似Liu估计和一阶近似刀切Liu估计进行比较,我们使用到了如下引理:
引理1 (Farebrother [
定理1. ‖ B i a s ( β ˜ ( 1 ) ( d ) ) ‖ 2 < ‖ B i a s ( β ^ ( 1 ) ( d ) ) ‖ 2 。
证明:
b i a s ( β ^ ( 1 ) ( d ) ) = ( d − 1 ) ( X ′ V ^ ( 0 ) X + I ) − 1 a 0 (20)
b i a s ( β ˜ ( 1 ) ( d ) ) = ( d − 1 ) ( X ′ V ^ ( 0 ) X + I ) − 2 a 0 (21)
则
‖ B i a s ( β ^ ( 1 ) ( d ) ) ‖ 2 − ‖ B i a s ( β ˜ ( 1 ) ( d ) ) ‖ 2 = ( a 0 ) ′ G 1 a 0
其中 G 1 = ( d − 1 ) 2 ( X ′ V ^ ( 0 ) X + I ) − 2 − ( d − 1 ) 2 ( X ′ V ^ ( 0 ) X + I ) − 4 , G 1 是对角元素为 ( d − 1 ) 2 ( ( λ i + 1 ) 2 − 1 ) ( λ i + 1 ) 4 的对角矩阵, λ i 是矩阵 X ′ V ^ ( 0 ) X 的第i个特征值,所以 ( d − 1 ) 2 ( ( λ i + 1 ) 2 − 1 ) ( λ i + 1 ) 4 ≥ 0 ,即 ( a 0 ) ′ G 1 a 0 是正定的。定理得证。
定理2. 若 k 4 ( λ i + 1 ) 4 − ( d − 1 ) 2 ( λ i + k ) 4 > 0 则 ‖ B i a s ( β ˜ ( 1 ) ( d ) ) ‖ 2 < ‖ B i a s ( β ˜ ( 1 ) ( k ) ) ‖ 2 。
证明:由等式(16)得,一阶近似刀切岭估计的偏差为:
b i a s ( β ˜ ( 1 ) ( k ) ) = − k 2 ( X ′ V ^ ( 0 ) X + k I ) − 2 a 0 (22)
则
‖ B i a s ( β ˜ ( 1 ) ( k ) ) ‖ 2 − ‖ B i a s ( β ˜ ( 1 ) ( d ) ) ‖ 2 = ( a 0 ) ′ G 2 a 0
其中 G 2 = k 4 ( X ′ V ^ ( 0 ) X + k I ) − 4 − ( d − 1 ) 2 ( X ′ V ^ ( 0 ) X + I ) − 4 , G 2 是对角元素为 k 4 ( λ i + 1 ) 4 − ( d − 1 ) 2 ( λ i + k ) 4 ( λ i + 1 ) 4 ( λ i + k ) 4 的对角矩阵,所以当 k 4 ( λ i + 1 ) 4 − ( d − 1 ) 2 ( λ i + k ) 4 > 0 时 k 4 ( λ i + 1 ) 4 − ( d − 1 ) 2 ( λ i + k ) 4 ( λ i + 1 ) 4 ( λ i + k ) 4 > 0 ,即 ( a 0 ) ′ G 2 a 0 是正定的。定理得证。
定理3. 当 0 < d < 1 时,一阶近似刀切Liu估计在MSEM准则下优于一阶近似极大似然估计当且仅当
( 1 − d ) ( a 0 ) ′ { 2 Λ + 4 I + ( d + 1 ) Λ − 1 } − 1 a 0 < 1 。
证明:令 M 1 ( d ) = M S E M ( β ^ ( 1 ) ( M L ) ) − M S E M ( β ˜ ( 1 ) ( d ) ) ,由公式(18)可得:
M 1 ( d ) = M 1 − ( d − 1 ) 2 ( Λ + I ) − 2 a 0 ( a 0 ) ′ ( Λ + I ) − 2
其中
M 1 = Λ − 1 − { ( I − ( Λ + I ) − 1 Λ ) ( Λ + I ) − 1 ( Λ + d I ) + ( Λ + I ) − 1 Λ } Λ − 1 ⋅ { ( Λ + d I ) ( Λ + I ) − 1 ( I − ( Λ + I ) − 1 Λ ) + Λ ( Λ + I ) − 1 } = ( 1 − d ) ( Λ + I ) − 2 { 2 Λ + 4 I + ( d + 1 ) Λ − 1 } ( Λ + I ) − 2
因此 M 1 ( d ) 是正定的当且仅当 M 1 − ( d − 1 ) 2 ( Λ + I ) − 2 a 0 ( a 0 ) ′ ( Λ + I ) − 2 正定。由引理1可得,当 0 < d < 1 , ( 1 − d ) ( a 0 ) ′ { 2 Λ + 4 I + ( d + 1 ) Λ − 1 } − 1 a 0 < 1 时, M 1 − ( d − 1 ) 2 ( Λ + I ) − 2 a 0 ( a 0 ) ′ ( Λ + I ) − 2 是正定的。定理得证。
定理4. 一阶近似刀切Liu估计在MSEM准则下优于一阶近似Liu估计当且仅当
( d − 1 ) ( a 0 ) ′ { 2 Λ 2 + ( d + 3 ) Λ + 2 d I } − 1 a 0 < 1 。
证明:令 M 2 ( d ) = M S E M ( β ^ ( 1 ) ( d ) ) − M S E M ( β ˜ ( 1 ) ( d ) ) ,由公式(18)可得:
M 2 ( d ) = M 2 + ( d − 1 ) 2 ( Λ + I ) − 1 a 0 ( a 0 ) ′ ( Λ + I ) − 1 − ( d − 1 ) 2 ( Λ + I ) − 2 a 0 ( a 0 ) ′ ( Λ + I ) − 2
其中
M 2 = { ( Λ + I ) − 1 ( Λ + d I ) } Λ − 1 { ( Λ + d I ) ( Λ + I ) − 1 } − { ( I − ( Λ + I ) − 1 Λ ) ( Λ + I ) − 1 ( Λ + d I ) + ( Λ + I ) − 1 Λ } Λ − 1 { ( Λ + d I ) ( Λ + I ) − 1 ( I − ( Λ + I ) − 1 Λ ) + Λ ( Λ + I ) − 1 } = ( d − 1 ) ( Λ + I ) − 2 { 2 Λ 2 + ( d + 3 ) Λ + 2 d I } ( Λ + I ) − 2
因为 ( d − 1 ) 2 ( Λ + I ) − 1 a 0 ( a 0 ) ′ ( Λ + I ) − 1 是正定的,因此 M 2 ( d ) 是正定的当且仅当 M 2 − ( d − 1 ) 2 ( Λ + I ) − 2 a 0 ( a 0 ) ′ ( Λ + I ) − 2 正定。由引理1可得,当 0 < d < 1 , ( d − 1 ) ( a 0 ) ′ { 2 Λ 2 + ( d + 3 ) Λ + 2 d I } − 1 a 0 < 1 时, M 2 − ( d − 1 ) 2 ( Λ + I ) − 2 a 0 ( a 0 ) ′ ( Λ + I ) − 2 是正定的。定理得证。
定理5. 对于任意的i,如果 0 < d ≤ ( a i 0 ) 2 − ( 2 λ i + 3 ) / ( λ i + 2 ) ( a i 0 ) 2 + 1 / λ i < 1 ,则 M S E ( β ˜ ( 1 ) ( d ) ) ≤ M S E ( β ^ ( 1 ) ( d ) ) 。
证明:根据等式(19)可得出:
M S E ( β ˜ ( 1 ) ( d ) ) = ∑ i = 1 p ( λ i 2 + 2 λ i + d ) 2 + ( d − 1 ) 2 ( a i 0 ) 2 λ i λ i ( λ i + 1 ) 4 (23)
M S E ( β ^ ( 1 ) ( d ) ) = ∑ i = 1 p ( λ i + d ) 2 + ( d − 1 ) 2 ( a i 0 ) 2 λ i λ i ( λ i + 1 ) 2 (24)
它们的差:
M S E ( β ˜ ( 1 ) ( d ) ) − M S E ( β ^ ( 1 ) ( d ) ) = ∑ i = 1 p ( λ i 2 + 2 λ i + d ) 2 + ( d − 1 ) 2 ( a i 0 ) 2 λ i λ i ( λ i + 1 ) 4 − ∑ i = 1 p ( λ i + d ) 2 + ( d − 1 ) 2 ( a i 0 ) 2 λ i λ i ( λ i + 1 ) 2 = ∑ i = 1 p { ( λ i 2 + 2 λ i + d ) 2 − ( λ i + 1 ) 2 + ( d − 1 ) 2 ( λ i + d ) 2 λ i ( λ i + 1 ) 4 + ( d − 1 ) 2 ( a i 0 ) 2 ( λ i + 1 ) 4 − ( d − 1 ) 2 ( a i 0 ) 2 ( λ i + 1 ) 2 } = ( 1 − d ) ∑ i = 1 p 2 λ i 2 + ( d + 3 ) λ i + 2 d ( λ i + 1 ) 4 + ( d − 1 ) 2 ∑ i = 1 p ( a i 0 ) 2 ( λ i + 1 ) 4 − ( d − 1 ) 2 ∑ i = 1 p ( a i 0 ) 2 ( λ i + 1 ) 2 = ( 1 − d ) ∑ i = 1 p 1 ( λ i + 1 ) 4 f i ( d )
其中 f i ( d ) = λ i ( 2 λ i + 3 ) − α i 0 λ i ( λ i + 2 ) + d ( λ i + 2 ) ( 1 + λ i ( a i 0 ) 2 ) 。
当 1 < ( a i 0 ) 2 ( λ i + 2 ) / ( 2 λ i + 3 ) , d ≤ ( a i 0 ) 2 − ( 2 λ i + 3 ) / ( λ i + 2 ) ( a i 0 ) 2 + 1 / λ i 时 f i ( d ) ≤ 0 。因为 0 < d < 1 故 M S E ( β ˜ ( 1 ) ( d ) ) − M S E ( β ^ ( 1 ) ( d ) ) ≤ 0 。定理得证。
由定理5,我们可以得出如下两个推论:
推论1. 假设
0 < d ≤ min { ( a i 0 ) 2 − ( 2 λ i + 3 ) / ( λ i + 2 ) ( a i 0 ) 2 + 1 / λ i } < 1
则 M S E ( β ˜ ( d ) ) ≤ M S E ( β ^ ( d ) ) 。
推论2. 假设
max { 0 , ( a i 0 ) 2 − ( 2 λ i + 3 ) / ( λ i + 2 ) ( a i 0 ) 2 + 1 / λ i } < d < 1
则 M S E ( β ˜ ( 1 ) ( d ) ) > M S E ( β ^ ( 1 ) ( d ) ) 。
为了进一步对理论成果进行说明,针对不同的复共线性程度及不同的自相关程度,本节我们用Monte Carlo模拟方法探讨上述各类估计在偏差和均方误差准则下的优良性。解释变量的数据产生采用与McDonald和Galarneau [
x i j = ( 1 − ρ 2 ) 1 / 2 z i j + ρ z i p + 1 , i = 1 , ⋯ , n ; j = 1 , ⋯ , p (25)
其中, z i j 是标准正态随机变量产生的随机数; ρ 是给定的常数; ρ 2 表示两个不同解释变量之间的相关性,因而 ρ 2 某种程度上体现了模型复共线性的程度。在模拟实验中,我们取协变量的数目 p = 4 和 p = 6 ,样本数n考虑100、150和200三种情况, ρ 考虑0.85、0.9、0.95和0.99四种不同的情况。偏参数d我们考虑取0.1、0.3、0.5、0.7和0.9五种不同的取值。
响应变量对应的随机数来自伯努利分布 B e ( π i ) ,其中 π i = exp ( x ′ i β ) 1 + exp ( x ′ i β ) 。对于系数向量 β ,采用与Kibria [
M S E ( β ^ ) = 1 2000 ∑ m = 1 2000 t r ( M S E M ( β ^ ( m ) ) ) (26)
其中 β ^ ( m ) 是估计 β ^ 的第m次所得的估计值。模拟结果见表1~表4。
观察表1和表2可以看到,在不同复共线性程度、样本量、协变量的数目和偏参数d的情况下,一阶近似刀切Liu估计的均方误差值小于极大似然估计和一阶近似极大似然估计的均方误差值,即一阶近似刀切Liu估计在均方误差准则下优于极大似然估计和一阶近似极大似然估计。同时由表1和表2可以看出,当偏参数d取0.1时一阶近似刀切Liu估计的均方误差值小于d取0.3、0.5、0.7和0.9时一阶近似刀切Liu估计的均方误差值。当固定给定的d、n和p值时,各估计的均方误差值随着复共线性程度 ρ 的增大而增大。当固定给定的d、n和 ρ 值时,各估计的均方误差值随着协变量的数目p的增大而增大。当固定给定的d、p和 ρ 值时,各估计的均方误差值随着样本量n的增大而减小。
d | MLE | FAE | FAJL | |||||
---|---|---|---|---|---|---|---|---|
0.1 | 0.3 | 0.5 | 0.7 | 0.9 | ||||
ρ | 0.85 | |||||||
n | 100 | 1.3927 | 1.2171 | 1.0357 | 1.0733 | 1.1125 | 1.1532 | 1.1954 |
150 | 0.8523 | 0.7907 | 0.7255 | 0.7395 | 0.7538 | 0.7684 | 0.7832 | |
200 | 0.6223 | 0.5851 | 0.5551 | 0.5616 | 0.5683 | 0.5751 | 0.5819 | |
ρ | 0.9 | |||||||
n | 100 | 2.0610 | 1.8175 | 1.3578 | 1.4478 | 1.5448 | 1.6487 | 1.7595 |
150 | 1.2784 | 1.1843 | 0.9980 | 1.0366 | 1.0768 | 1.1186 | 1.1620 | |
200 | 0.9237 | 0.8726 | 0.7810 | 0.8005 | 0.8205 | 0.8410 | 0.8620 | |
ρ | 0.95 | |||||||
n | 100 | 4.1806 | 3.6570 | 1.9873 | 2.2635 | 2.5939 | 2.9735 | 3.4173 |
150 | 2.5668 | 2.3768 | 1.5618 | 1.7121 | 1.8800 | 2.0655 | 2.2687 | |
200 | 1.8695 | 1.7673 | 1.2976 | 1.3890 | 1.4878 | 1.5940 | 1.7077 | |
ρ | 0.99 | |||||||
n | 100 | 22.4064 | 19.5469 | 5.6987 | 6.5321 | 8.6477 | 12.0457 | 16.7260 |
150 | 13.6913 | 12.6788 | 4.0059 | 4.7671 | 6.1946 | 8.2885 | 11.0488 | |
200 | 9.9752 | 9.4003 | 3.2597 | 3.9126 | 4.9722 | 6.4384 | 8.3113 |
表1. 当p = 4时,估计MLE、FAE和FAJL的MSE
d | MLE | FAE | FAJL | |||||
---|---|---|---|---|---|---|---|---|
0.1 | 0.3 | 0.5 | 0.7 | 0.9 | ||||
ρ | 0.85 | |||||||
n | 100 | 2.6568 | 2.2046 | 1.7519 | 1.8419 | 1.9381 | 2.0403 | 2.1484 |
150 | 1.5989 | 1.4216 | 1.2474 | 1.2838 | 1.3215 | 1.3606 | 1.4009 | |
200 | 1.1273 | 1.0448 | 0.9611 | 0.9790 | 0.9973 | 1.0160 | 1.0351 | |
ρ | 0.9 | |||||||
n | 100 | 4.1114 | 3.3823 | 2.2859 | 2.4872 | 2.7127 | 2.9624 | 3.2363 |
150 | 2.4261 | 2.1629 | 1.6946 | 1.7871 | 1.8862 | 1.9919 | 2.1042 | |
200 | 1.7291 | 1.5959 | 1.3494 | 1.4000 | 1.4530 | 1.5084 | 1.5661 | |
ρ | 0.95 | |||||||
n | 100 | 8.5367 | 7.0108 | 3.3480 | 3.8997 | 4.6013 | 5.4527 | 6.4540 |
150 | 5.0352 | 4.5013 | 2.6422 | 2.9568 | 3.3277 | 3.7549 | 4.2384 | |
200 | 3.5709 | 3.3047 | 2.1915 | 2.3932 | 2.6210 | 2.8749 | 3.1549 | |
ρ | 0.99 | |||||||
n | 100 | 46.5859 | 38.2250 | 9.5522 | 11.3917 | 15.8210 | 22.8402 | 32.4493 |
150 | 27.3406 | 24.4286 | 6.6708 | 8.2228 | 11.1429 | 15.4311 | 21.0874 | |
200 | 19.5496 | 18.0425 | 5.4978 | 6.7696 | 8.9077 | 11.9120 | 15.7824 |
表2. 当p = 6时,估计MLE、FAE和FAJL的MSE
d | 0.1 | 0.3 | 0.5 | 0.7 | 0.9 | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|
FAL | FAJL | FAL | FAJL | FAL | FAJL | FAL | FAJL | FAL | FAJL | ||
ρ | 0.85 | ||||||||||
n | 100 | 0.0315 | 0.0040 | 0.0190 | 0.0024 | 0.0097 | 0.0012 | 0.0035 | 0.0004 | 0.0003 | 0.0000 |
150 | 0.0110 | 0.0007 | 0.0066 | 0.0004 | 0.0033 | 0.0002 | 0.0012 | 0.0000 | 0.0001 | 0.0000 | |
200 | 0.0049 | 0.0002 | 0.0030 | 0.0001 | 0.0015 | 0.0000 | 0.0005 | 0.0000 | 0.0000 | 0.0000 | |
ρ | 0.9 | ||||||||||
n | 100 | 0.0849 | 0.0810 | 0.0513 | 0.0109 | 0.0262 | 0.0055 | 0.0094 | 0.0020 | 0.0010 | 0.0002 |
150 | 0.0313 | 0.0040 | 0.0189 | 0.0024 | 0.0096 | 0.0012 | 0.0034 | 0.0004 | 0.0038 | 0.0000 | |
200 | 0.0152 | 0.0013 | 0.0092 | 0.0007 | 0.0046 | 0.0004 | 0.0016 | 0.0001 | 0.0001 | 0.0000 | |
ρ | 0.95 | ||||||||||
n | 100 | 0.3589 | 0.1426 | 0.2171 | 0.0863 | 0.1107 | 0.0440 | 0.0398 | 0.0158 | 0.0044 | 0.0017 |
150 | 0.1593 | 0.0464 | 0.0964 | 0.0281 | 0.0491 | 0.0143 | 0.0177 | 0.0051 | 0.0019 | 0.0005 | |
200 | 0.0889 | 0.0199 | 0.0538 | 0.0120 | 0.0274 | 0.0061 | 0.0098 | 0.0022 | 0.0010 | 0.0002 | |
ρ | 0.99 | ||||||||||
n | 100 | 4.4535 | 3.4889 | 2.6941 | 2.1106 | 1.3745 | 1.0768 | 0.4948 | 0.3876 | 0.0549 | 0.0430 |
150 | 2.5537 | 1.8134 | 1.5448 | 1.0969 | 0.7881 | 0.5596 | 0.2837 | 0.2014 | 0.0315 | 0.0223 | |
200 | 1.7017 | 1.1097 | 1.0294 | 0.6713 | 0.5252 | 0.3425 | 0.1890 | 0.1233 | 0.0210 | 0.0137 |
表3. 当p = 4时,估计FAL和 FAJL的偏差的平方和
d | 0.1 | 0.3 | 0.5 | 0.7 | 0.9 | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|
FAL | FAJL | FAL | FAJL | FAL | FAJL | FAL | FAJL | FAL | FAJL | ||
ρ | 0.85 | ||||||||||
n | 100 | 0.0683 | 0.0134 | 0.0413 | 0.0081 | 0.0210 | 0.0041 | 0.0075 | 0.0014 | 0.0008 | 0.0001 |
150 | 0.0246 | 0.0029 | 0.0148 | 0.0017 | 0.0075 | 0.0008 | 0.0027 | 0.0003 | 0.0003 | 0.0000 | |
200 | 0.0118 | 0.0009 | 0.0071 | 0.0005 | 0.0036 | 0.0002 | 0.0013 | 0.0001 | 0.0001 | 0.0000 | |
ρ | 0.9 | ||||||||||
n | 100 | 0.1748 | 0.0541 | 0.1057 | 0.0327 | 0.0539 | 0.0167 | 0.0194 | 0.0060 | 0.0021 | 0.0006 |
150 | 0.0717 | 0.0152 | 0.0434 | 0.0092 | 0.0221 | 0.0047 | 0.0079 | 0.0016 | 0.0008 | 0.0001 | |
200 | 0.0343 | 0.0051 | 0.0208 | 0.0031 | 0.0106 | 0.0015 | 0.0038 | 0.0005 | 0.0004 | 0.0000 | |
ρ | 0.95 | ||||||||||
n | 100 | 0.6484 | 0.3266 | 0.3922 | 0.1976 | 0.2001 | 0.1008 | 0.0720 | 0.0362 | 0.0080 | 0.0040 |
150 | 0.3162 | 0.1267 | 0.1913 | 0.0766 | 0.0976 | 0.0391 | 0.0351 | 0.0140 | 0.0039 | 0.0015 | |
200 | 0.1779 | 0.0582 | 0.1076 | 0.0352 | 0.0549 | 0.0179 | 0.0197 | 0.0064 | 0.0021 | 0.0007 | |
ρ | 0.99 | ||||||||||
n | 100 | 7.2163 | 5.8941 | 4.3654 | 3.5656 | 2.2272 | 1.8191 | 0.8018 | 0.6549 | 0.0890 | 0.0727 |
150 | 4.0267 | 3.0332 | 2.4359 | 1.8349 | 1.2428 | 0.9361 | 0.4474 | 0.3370 | 0.0497 | 0.0374 | |
200 | 2.7304 | 1.9266 | 1.6517 | 1.1655 | 0.8427 | 0.5946 | 0.3033 | 0.2140 | 0.0337 | 0.0237 |
表4. 当p = 6时,估计FAL和 FAJL的偏差的平方和
根据表3和表4可知,在不同复共线性程度、样本量、协变量的数目和偏参数的情况下,一阶近似刀切Liu估计的偏差的平方和始终小于一阶近似Liu估计的偏差的平方和。且当偏参数d取0.9时一阶近似Liu估计和一阶近似刀切Liu估计的偏差的平方和小于d取0.1、0.3、0.5和0.7时一阶近似Liu估计和一阶近似刀切Liu估计的偏差的平方和。当固定给定的d、n和p值时,各估计的偏差的平方和随着复共线性程度 ρ 的增大而增大。当固定给定的d、n和 ρ 值时,各估计的偏差的平方和随着协变量的数目p的增大而增大。当固定给定的d、p和 ρ 值时,各估计的偏差的平方和随着样本量n的增大而减小。
为了验证我们的理论结果,这部分我们考虑实例来分析所提出估计的优良性。我们所使用的数据来自Agresti Alan [
迭代的计算精度δ我们取10−6,得到矩阵 X ′ V ^ X 的特征值 λ 1 = 3068.0790 , λ 2 = 7.1753 , λ 3 = 0.3069 , λ 4 = 1.2496 × 10 − 7 。条件数 κ = λ max / λ min = 156687.8 ,因此可以判断数据集存在严重的复共线性问题。
为了对我们所提的新估计一阶近似刀切Liu估计的优良性进行研究。我们得到极大似然估计、一阶近似极大似然估计和一阶近似刀切Liu估计的均方误差值,一阶近似Liu估计和一阶近似刀切Liu估计偏差的平方值和,如表5和表6:
d | 0.1 | 0.3 | 0.5 | 0.7 | 0.9 |
---|---|---|---|---|---|
MLE | 8002097 | 8002097 | 8002097 | 8002097 | 8002097 |
FAE | 84.2875 | 84.2875 | 84.2875 | 84.2875 | 84.2875 |
FAJL | 7.4009 | 13.1352 | 25.3562 | 44.0637 | 69.2580 |
表5. 估计MLE、FAE和FAJL的MSE
d | 0.1 | 0.3 | 0.5 | 0.7 | 0.9 |
---|---|---|---|---|---|
FAL | 5.4893 | 3.3207 | 1.6942 | 0.6099 | 0.0677 |
FAJL | 4.6307 | 2.8013 | 1.4292 | 0.5145 | 0.0571 |
表6. 估计FAL和FAJL的偏差的平方和
通过表5我们可以看出,对于给定的d值,新估计一阶近似刀切Liu估计的均方误差值小于极大似然估计和一阶近似极大似然估计的均方误差值,且当 d = 0.1 时一阶近似刀切Liu估计的均方误差值 M S E ( β ˜ ( 1 ) ( d ) ) = 7.4009 最小。再由表6我们可以看到一阶近似刀切Liu估计偏差的平方和小于一阶近似Liu估计偏差的平方和,且当 d = 0.9 时一阶近似刀切Liu估计偏差的平方和取值最小 ‖ B i a s ( β ˜ ( 1 ) ( d ) ) ‖ 2 = 0.0571 ,同时对我们所得理论结果定理2进行了验证。
本文中,针对二元逻辑回归模型中的复共线性问题,我们在一阶近似Liu估计的基础上使用刀切法的思想提出了一个新估计,即一阶近似刀切Liu估计。研究了一阶近似刀切Liu估计的偏差以及在均方误差矩阵和均方误差准则下的优良性。证明并得出了新估计的偏差平方和总是优于一阶近似Liu估计以及新估计优于一阶近似刀切岭估计的充分条件,得出了一阶近似刀切Liu估计在均方误差矩阵、均方误差准则下优于一阶近似极大似然估计、一阶近似Liu估计和一阶近似刀切岭估计的充要或者充分条件。此外,我们使用蒙特卡罗模拟,得到了一阶近似刀切Liu估计在均方误差准则下优于极大似然估计和一阶近似极大似然估计,各估计的均方误差值随着复共线性程度 ρ 的增大而增大,各估计的均方误差值随着协变量的数目p的增大而增大,各估计的均方误差值随着样本量n的增大而减小。然后利用实证分析探讨了一阶近似刀切Liu估计在实际应用中的实现问题,证明一阶近似刀切Liu估计能够有效地解决复共线性问题。
邹 媛. 二元逻辑回归模型中的一阶近似刀切Liu估计A First-Order Approximated Jackknifed Liu Estimator in Binary Logistic Regression Model[J]. 应用数学进展, 2021, 10(03): 790-800. https://doi.org/10.12677/AAM.2021.103087