因变量缺失下线性回归模型的随机约束估计 Stochastic Restricted Estimation of Linear Regression Models with Missing Responses

doi:10.12677/PM.2022.1212241

Pure Mathematics
Vol. 12 No. 12 ( 2022 ), Article ID: 59883 , 7 pages
10.12677/PM.2022.1212241

因变量缺失下线性回归模型的随机约束估计

李静¹，安佰玲²

●How to Cite this Article

¹中国劳动关系学院应用技术学院，北京

²淮北师范大学数学科学学院，安徽淮北

收稿日期：2022年11月27日；录用日期：2022年12月23日；发布日期：2022年12月30日

摘要

本文研究了线性回归模型在因变量存在缺失的同时回归系数附加有随机约束条件时的估计问题，基于完整数据方法和单点插补方法，给出了模型系数的两种约束估计，并研究了这两类估计量的渐近正态性。最后通过数值模拟验证了所提估计方法的有效性。

关键词

线性回归模型，缺失数据，插补方法，随机约束估计

Stochastic Restricted Estimation of Linear Regression Models with Missing Responses

Jing Li¹, Bailing An²

¹School of Applied Technology, China University of Labor Relations, Beijing

²School of Mathematical Sciences, Huaibei Normal University, Huaibei Anhui

Received: Nov. 27^th, 2022; accepted: Dec. 23^rd, 2022; published: Dec. 30^th, 2022

ABSTRACT

This paper discusses estimation of linear regression models in the presence of multicollinearity and there are stochastic linear restrictions on the regression coefficients. Based on the complete-case method and single imputation technique, two stochastic restricted estimators are proposed. Asymptotically, properties of the proposed estimators are shown. Finally, some simulations are conducted to illustrate the proposed methods.

Keywords:Linear Regression, Missing Data, Imputation Method, Stochastic Restricted Estimation

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

线性回归模型作为最为常用的统计分析之一，已经得到了深入的理论研究和广泛的应用。众所周知，对于线性回归模型，可以采用最小二乘估计方法或极大似然估计方法等。然而，这些估计方法一般只利用了样本总体假定和样本信息。在分析一些实际领域的问题时，常常可以通过该问题的专业背景以及前期研究等渠道获得一些额外信息，这些额外信息经常被转化为模型中回归系数的约束条件，比如某个回归系数按照实际问题来说应该是正值，或者两个或多个回归系数之间存在某种关系，详细介绍可参考Toutenburg (1982) [1]。那么，在模型的估计中如果能够将这些约束条件充分利用，可以提高估计量的有效性。对于一般线性回归模型，如果约束条件为针对系数的线性约束，那么此时采用约束最小二乘估计是比普通最小二乘法更有效。除了线性约束之外，还有随机线性约束以及不等式约束等情况，具体内容可参考Rao和Toutenburg (1999) [2]。

另一方面，实际数据分析中，数据的缺失是非常普遍的，关于缺失数据的详细介绍可参考著作Little和Rubin (1987) [3]。缺失数据下回归模型的研究得到了关注，相关研究可参考Cheng (1994) [4]、Chu & Cheng (1995) [5]、Wang & Rao (2002) [6]，Wang & Rao (2004) [7] 和Qin等(2009) [8] 等有关文献。

目前关于线性回归模型的约束估计，大都是基于无缺失的情形，关于缺失数据下约束估计的研究还很少。杨徐佳等(2011) [9] 构造了因变量缺失下线性回归模型的估计。安佰玲等(2013) [10] 在此基础上讨论了模型的精确约束估计问题。本文将在这两篇论文的基础上考虑因变量缺失下线性回归模型的随机约束估计。

考虑如下的线性回归模型

$Y_{i} = X_{i}^{T} β + ε_{i}, i = 1, 2, \dots, n$ (1)

其中， $Y_{i}$ 为因变量观测值， $X_{i} = {(X_{i 1}, X_{i 2}, \dots, X_{i q})}^{T}$ ，为对应的自变量的观测值， $β$ 为 $q \times 1$ 的未知参数向量，模型误差 $ε_{i}$ 为独立同分布的随机变量，且有 $E (ε_{i} | X_{i}) = 0$ 和 $V a r (ε_{i} | X_{i}) = σ^{2}$ 。为了方便介绍，我们引入一个新的变量 $δ$ 作为缺失的标志， $δ_{i} = 1$ 表示 $Y_{i}$ 的值可以被观测到，而 $δ_{i} = 0$ 表示 $Y_{i}$ 值缺失。这里，我们假定 $Y_{i}$ 满足随机缺失的机制，即

$P (δ = 1 | X, Y) = P (δ = 1 | X) .$ (2)

该缺失机制是缺失数据分析中常用的假设条件。

考虑如下的随机约束条件

$b = A β + η$ (3)

其中A是 $k \times p$ 维的已知矩阵，且 $r a n k (A) = k$ ，b是 $k \times 1$ 维的已知向量。 $η$ 为均值为0，协方差为 $σ^{2} Ω$ 的随机向量，其中 $Ω$ 为一已知正定矩阵。为了在线性回归模型的估计中考虑随机约束条件(3)，Durbin (1953) [11]，Theil和Goldberger (1961) [12] 以及Theil (1963) [13] 提出了混合估计方法。

本文重点研究线性回归模型(1)在因变量缺失机制(2)和随机约束条件(3)下的估计问题，从而将杨徐佳等(2011) [9] 和安佰玲等(2013) [10] 的结果推广到了随机约束情形。

第2节和第3节将分别基于完整数据方法和单点插补方法构造模型系数的随机约束估计，并给出估计量的渐近性质。第4节将通过数值模拟验证所提方法的有效性，定理的证明将放在第5节。

2. 基于完整数据方法的随机约束估计

完整数据方法就是只利用因变量和自变量都观测完整的数据，将因变量存在缺失的那些观测值舍弃不用。假设独立同分布样本数据 ${Y_{i}, δ_{i}, X_{i}}_{i = 1}^{n}$ 来自模型(1)，则有

$δ_{i} Y_{i} = δ_{i} X_{i}^{T} β + δ_{i} ε_{i}, i = 1, 2, \dots, n .$ (4)

显然模型(4)可记为如下矩阵形式

$\bar{Y} = \bar{X} β + \bar{ε},$ (5)

其中 $\bar{Y} = {(δ_{1} Y_{1}, δ_{2} Y_{2}, \dots, δ_{n} Y_{n})}^{T}$ ， $\bar{X} = {(δ_{1} X_{1}, δ_{2} X_{2}, \dots, δ_{n} X_{n})}^{T}$ ， $\bar{ε} = {(δ_{1} ε_{1}, δ_{2} ε_{2}, \dots, δ_{n} ε_{n})}^{T}$ 。

基于最小二乘法，可得 $β$ 基于完整数据方法的估计为

${\hat{β}}_{C} = {(\sum_{i = 1}^{n} δ_{i} X_{i} X_{i}^{T})}^{- 1} (\sum_{i = 1}^{n} δ_{i} X_{i} Y_{i}) = {({\bar{X}}^{T} \bar{X})}^{- 1} {\bar{X}}^{T} \bar{Y} .$ (6)

下面基于文 [11] [12] [13] 中的混合估计方法来估计随机约束条件(3)下的线性回归模型(5)。构造的如下的辅助函数：

$F (β) = {(\bar{Y} - \bar{X} β)}^{T} (\bar{Y} - \bar{X} β) + {(b - A β)}^{T} Ω^{- 1} (b - A β)$ (7)

用辅助函数对于 $β$ 求导数并令其为0，可得：

$\frac{\partial F (β)}{\partial β} = - 2 {\bar{X}}^{T} (\bar{Y} - \bar{X} β) - 2 A^{T} Ω^{- 1} {(b - A β)}^{T} = 0.$ (8)

简单整理可得 $β$ 基于完整数据方法的随机约束估计

${\hat{β}}_{C}^{S R} = {({\bar{X}}^{T} \bar{X} + A^{T} Ω^{- 1} A)}^{- 1} ({\bar{X}}^{T} \bar{Y} + A^{T} Ω^{- 1} b) .$ (9)

根据文 [9] 中的定理A.18，可得:

${({\bar{X}}^{T} \bar{X} + A^{T} Ω^{- 1} A^{T})}^{- 1} = {({\bar{X}}^{T} \bar{X})}^{- 1} - {({\bar{X}}^{T} \bar{X})}^{- 1} A^{T} {[Ω + A {({\bar{X}}^{T} \bar{X})}^{- 1} A^{T}]}^{- 1} A {({\bar{X}}^{T} \bar{X})}^{- 1}$ (10)

则由(6)、(9)和(10)， ${\hat{β}}_{C}^{S R}$ 可以等价表示为如下的形式

${\hat{β}}_{C}^{R S} = {\hat{β}}_{C} - {({\bar{X}}^{T} \bar{X})}^{- 1} A^{T} {[Ω + A {({\bar{X}}^{T} \bar{X})}^{- 1} A^{T}]}^{- 1} (A {\hat{β}}_{C} - b)$ (11)

下面给出关于 ${\hat{β}}_{C}^{R S}$ 的渐近性质。

定理1. 如果第5节的假设条件成立， ${\hat{β}}_{C}^{R S}$ 是渐近正态的，有

$\sqrt{n} ({\hat{β}}_{C}^{R S} - β) \overset{d}{\to} N (0, σ^{2} Σ^{- 1}),$

其中 $Σ = E (δ X_{1} X_{1}^{T})$ 。

显然，我们所构造的因变量缺失下的随机约束估计 ${\hat{β}}_{C}^{R S}$ 的渐近性质与杨徐佳等(2011) [9] 中构造的精确约束最小二乘估计的渐近性质相同。

3. 基于单点插补方法的约束估计及其性质

为了弥补完整数据方法丢弃数据从而损失信息的不足，下面基于单点插补方法构造模型系数的随机约束估计。基于上一节得到的最小二乘估计 ${\hat{β}}_{C}$ ，针对因变量存在缺失这一情况，定义如下的新的因变量

$Y_{i}^{*} = δ_{i} Y_{i} + (1 - δ_{i}) X_{i}^{T} {\hat{β}}_{C},$ (12)

显然，当 $Y_{i}$ 没有缺失时， $Y_{i}^{*} = Y_{i}$ ，而当 $Y_{i}$ 存在缺失时，用插补值 $Y_{i}^{*} = X_{i}^{T} {\hat{β}}_{C}$ 代替其观测值。

基于构造的数据集 ${(Y_{i}^{*}, X_{i})}_{i = 1}^{n}$ ，有如下的线性模型

$Y_{i}^{*} = X_{i}^{T} β + e_{i}, i = 1, 2, \dots, n .$ (13)

其中 $Y_{i}^{*} = δ_{i} Y_{i} + (1 - δ_{i}) X_{i}^{T} {\hat{β}}_{c}$ 。

对模型(13)使用最小二乘方法，得到 $β$ 的单点插补估计

${\hat{β}}_{I} = {(\sum_{i = 1}^{n} X_{i} X_{i}^{T})}^{- 1} (\sum_{i = 1}^{n} X_{i} Y_{i}^{*}) .$ (14)

考虑随机约束条件(3)，构造如下的辅助函数

$F^{*} (β, λ) = \sum_{i = 1}^{n} {(Y_{i}^{*} - X_{i}^{T} β)}^{2} + {(b - A β)}^{T} Ω^{- 1} (b - A β) .$ (15)

同第2节类似，基于上面的辅助函数，可得 $β$ 单点插补的随机约束估计为

${\hat{β}}_{I}^{S R} = {(X^{T} X + A^{T} Ω^{- 1} A)}^{- 1} (X^{T} Y^{*} + A^{T} Ω^{- 1} b)$ (16)

同样，该估计可以等价表达为

${\hat{β}}_{I}^{R S} = {\hat{β}}_{I} - {(X^{T} X)}^{- 1} A^{T} {[Ω + A {(X^{T} X)}^{- 1} A^{T}]}^{- 1} (A {\hat{β}}_{I} - b) .$ (17)

下面给出 ${\hat{β}}_{I}^{R S}$ 的渐近性质。

定理2. 如果第5节的假设条件成立， ${\hat{β}}_{I}^{R S}$ 是渐近正态的，满足

$\sqrt{n} ({\hat{β}}_{I}^{R S} - β) \overset{d}{\to} N (0, σ^{2} Σ^{- 1}) .$

需要注意的是 ${\hat{β}}_{I}^{R S}$ 的渐近性质也与杨徐佳等(2013) [9] 中构造的完整数据最小二乘估计的渐近性质相同。

4. 数值模拟

本节我们将通过数值模拟考察前面所提出估计方法的有效性。假设数据产生于如下的模型

$y_{i} = x_{1 i} β_{1} + x_{2 i} β_{2} + ε_{i} i = 1, 2, \dots, n$ (18)

其中 $x_{1 i} ~ N (1, 1)$ ， $x_{2 i} ~ U (0, 1)$ ， $(β_{1}, β_{2})$ 的真实值为 $(3, 2)$ 。为了考察模型误差的分布对估计和检验结果影响，考虑如下两种情况(1) $ε_{i} ~ N (0, {0.5}^{2})$ ；(2) $ε_{i} ~ U (- \sqrt{3} / 2, \sqrt{3} / 2)$ ，表1中分别用N和U表示。缺失的机制采用安佰玲等(2013) [10] 中的设置，当 $| x_{1 i} - 1 | + | x_{2 i} - 0.5 | \leq 1$ 时 $Δ = p (δ = 1 | x_{1} = x_{1 i}, x_{2} = x_{2 i}) = 0.8 + 0.2 (| x_{1 i} - 1 | + | x_{2 i} - 0.5 |)$ ；其余情况等于0.9。

随机约束设定为 $β_{1} + β_{2} = 5 + η$ ， $E η = 0$ ， $V a r (η) = 0.49$ ，即 $A = (1, 1)$ ， $b = 5$ ， $Ω = 0.49$ 。

针对模型(18)，基于上面的各种缺失机制和误差分布，我们取样本量n分别为50、100和150，在每一种设定下分别求取 $(β_{1}, β_{2})$ 的基于完整数据分析方法的估计(表1中用C表示，下同)和随机约束估计(C-SR)，基于单点插补方法的估计(I)和随机约束估计(I-SR)。每种情况重复计算500次，以这些估计量的均方误差(EMSE)来衡量其表现，

$EMSE (β^{*}) = \frac{1}{500} \sum_{k = 1}^{500} \sum_{j = 1}^{2} {(β_{k j}^{*} - β_{j})}^{2}$

其中 $β_{k j}^{*}$ 是参数 $β_{j}$ 的第k次重复时的估计值，模拟结果见表1。

Table 1. EMSEs of the estimators

表1. 不同估计量的MSE

从模拟结果可以看出：(1) 这四类估计量的均方误差都随着样本量的增加而减小，此外，估计值对于误差分布的改变几乎没有变化。(2) 同样设置下，单点插补方法的均方误差一般小于完整估计方法。(3) 同样设置下，考虑了约束条件的随机约束估计的表现优于没有考虑约束条件时的估计。

5. 定理的证明

在给出定理的证明之前，我们先给出下面条件。

条件1： $\sum = E (δ_{1} X_{1} X_{1}^{T})$ 为正定矩阵。

条件2： $E (ε | X) = 0$ ， $E ({| ε |}^{3} | X) < \infty$ 。

引理1. 如果前面的假设条件成立， ${\hat{β}}_{c}$ 和 ${\hat{β}}_{I}$ 都是渐进正态的，二者都满足

$\sqrt{n} (\hat{β} - β) \overset{d}{\to} N (0, σ^{2} Ω^{- 1}),$

其中 $\hat{β}$ 为 ${\hat{β}}_{c}$ 或 ${\hat{β}}_{I}$ 。

证明：该引理即为杨徐佳等(2011) [9] 中的定理1。

引理2. 如果前面的假设条件成立，有

$\frac{1}{n} {\bar{X}}^{T} \bar{X} \overset{P}{\to} Σ, \frac{1}{n} X^{T} X \overset{P}{\to} E X_{1} X_{1}^{T}$

定理1的证明：定义 $S_{S R} = {\bar{X}}^{T} \bar{X} + A^{T} Ω^{- 1} A$ ， $Δ = diag (δ_{1}, δ_{2}, \dots, δ_{n})$ ，则由 ${\hat{β}}_{C}^{R S}$ 的定义可得

$\begin{matrix} {\hat{β}}_{C}^{R S} = S_{S R}^{- 1} ({\bar{X}}^{T} \bar{Y} + A^{T} Ω^{- 1} b) = S_{S R}^{- 1} (X^{T} Δ Y + A^{T} Ω^{- 1} b) \\ = S_{S R}^{- 1} [X^{T} Δ X β + X^{T} Δ ε + A^{T} Ω^{- 1} (A β + η)] \\ = S_{S R}^{- 1} [(X^{T} Δ X + A^{T} Ω^{- 1} A) β + X^{T} Δ ε + A^{T} Ω^{- 1} η] \\ = β + S_{S R}^{- 1} X^{T} Δ ε + S_{S R}^{- 1} A^{T} Ω^{- 1} η \end{matrix}$

从而有

$\sqrt{n} ({\hat{β}}_{C}^{R S} - β) = {(\frac{S_{S R}}{n})}^{- 1} \frac{1}{\sqrt{n}} X^{T} Δ ε + {(\frac{S_{S R}}{n})}^{- 1} \frac{1}{\sqrt{n}} A^{T} Ω^{- 1} η$

由引理2，结合 $\frac{1}{n} A^{T} Ω^{- 1} A = ο_{p} (1)$ ，可得：

$\frac{S_{S R}}{n} = \frac{1}{n} ({\bar{X}}^{T} \bar{X} + A^{T} Ω^{- 1} A) \overset{p}{\to} \sum, \frac{1}{\sqrt{n}} X^{T} Δ ε \overset{D}{\to} N (0, σ^{2} \sum)$

另一方面由 $E A^{T} Ω^{- 1} η = 0$ 和 $C o v (A^{T} Ω^{- 1} η) = A^{T} Ω^{- 1} A$ ，可得

$\frac{1}{\sqrt{n}} A^{T} Ω^{- 1} η = ο_{p} ( 1 )$

结合上面的结论，由Slutsky定理，可得

$\sqrt{n} ({\hat{β}}_{C}^{R S} - \hat{β}) \overset{D}{\to} N (0, σ^{2} \sum^{- 1})$

定理2的证明：由 $Y_{i}^{*} = δ_{i} Y_{i} + (1 - δ_{i}) X_{i}^{T} {\hat{β}}_{C}$ ，可得

$\begin{matrix} Y^{*} = Δ Y + (I_{n} - Δ) X {\hat{β}}_{C} \\ = Δ Y + (I_{n} - Δ) X {(X^{T} Δ X)}^{- 1} X^{T} Δ Y \\ = Δ Y + X {(X^{T} Δ X)}^{- 1} X^{T} Δ Y - Δ X {(X^{T} Δ X)}^{- 1} X^{T} Δ Y \end{matrix}$

从而有

$\begin{matrix} β_{I}^{R S} = {(X^{T} X + A^{T} Ω^{- 1} A)}^{- 1} (X^{T} Y^{*} + A^{T} Ω^{- 1} b) \\ = {(X^{T} X + A^{T} Ω^{- 1} A)}^{- 1} [X^{T} (Δ Y + X {(X^{T} Δ X)}^{- 1} X^{T} Δ Y - Δ X {(X^{T} Δ X)}^{- 1} X^{T} Δ Y) + A^{T} Ω^{- 1} b] \\ = {(X^{T} X + A^{T} Ω^{- 1} A)}^{- 1} [X^{T} X {(X^{T} Δ X)}^{- 1} X^{T} Δ Y + A^{T} Ω^{- 1} b] \\ = {(X^{T} X + A^{T} Ω^{- 1} A)}^{- 1} [X^{T} X {(X^{T} Δ X)}^{- 1} X^{T} Δ (X β + ε) + A^{T} Ω^{- 1} (A β + η)] \\ = β + {(X^{T} X + A^{T} Ω^{- 1} A)}^{- 1} [X^{T} X {(X^{T} Δ X)}^{- 1} X^{T} Δ ε + A^{T} Ω^{- 1} η] \end{matrix}$

由引理2以及 $\frac{1}{n} A^{T} Ω^{- 1} A \overset{P}{\to} 0$ 可得

$\begin{matrix} \sqrt{n} ({\hat{β}}_{P M} - β) = {(\frac{X^{T} X + A^{T} Ω^{- 1} A}{n})}^{- 1} X^{T} X {(X^{T} Δ X)}^{- 1} \frac{1}{\sqrt{n}} X^{T} Δ ε + {(\frac{X^{T} X + A^{T} Ω^{- 1} A}{n})}^{- 1} \frac{1}{\sqrt{n}} A^{T} Ω^{- 1} η \\ = {(X^{T} Δ X)}^{- 1} \frac{1}{\sqrt{n}} X^{T} Δ ε + o_{p} ( 1 ) \end{matrix}$

从而可得

$\sqrt{n} ({\hat{β}}_{I}^{R S} - \hat{β}) \overset{D}{\to} N (0, σ^{2} \sum^{- 1}) .$

基金项目

中国劳动关系学院教育教学改革立项项目(JG1406)；2020年度安徽高等学校自然科学项目(KJ2020A1200)。

文章引用

李静,安佰玲. 因变量缺失下线性回归模型的随机约束估计
Stochastic Restricted Estimation of Linear Regression Models with Missing Responses[J]. 理论数学, 2022, 12(12): 2239-2245. https://doi.org/10.12677/PM.2022.1212241

参考文献

1. Toutenburg, H. (1982) Prior Information in Linear Models. Wiley, New York.

2. Rao, C.R. and Toutenburg, H. (1999) Linear Models: Least Squares and Alternatives. 2nd Edition, Springer, Berlin.

3. Little, R.J.A. and Rubin, D.B. (1987) Statistical Analysis with Missing Data. John Wiley & Sons, Inc., New York.

4. Cheng, P.E. (1990) Nonparametric Estimation of Mean Functionals with Data Missing at Random. Journal of the American Statistical As-sociation, 89, 81-87. https://doi.org/10.1080/01621459.1994.10476448

5. Chu, C.K. and Cheng, P.E. (1995) Nonparametric Regression Estimation with Missing Data. Journal of Statistical Planning and Inference, 48, 85-99. https://doi.org/10.1016/0378-3758(94)00151-K

6. Wang, Q.H. and Rao, J.N.K. (2002) Empirical Likeli-hood-Based Inference under Imputation for Missing Response Data. The Annals of Statistics, 30, 896-924. https://doi.org/10.1214/aos/1028674845

7. Wang, Q.H. and Rao, J.N.K. (2004) Empirical Likelihood for Linear Regression Models under Imputation for Missing Responses. Canadian Journal of Statistics, 29, 597-608. https://doi.org/10.2307/3316009

8. Qin, Y.S., Li, L. and Lei, Q.Z. (2009) Empirical Likelihood for Linear Re-gression Models with Missing Responses. Statistics and Probability Letters, 79, 1391-1396. https://doi.org/10.1016/j.spl.2009.03.002

9. 杨徐佳, 于倩倩, 王森. 因变量缺失下线性回归模型的估计与检验[J]. 淮北煤炭师范学报(自然科学版), 2011, 32(1): 24-28.

10. 安佰玲. 线性回归模型在因变量缺失下的约束估计[J]. 统计与决策, 2013(11): 19-21.

11. Durbin, J.A. (1953) A Note on Regression When There Is Extraneous Information about One of the Coefficients. Journal of the American Statistical Association, 48, 799-808. https://doi.org/10.1080/01621459.1953.10501201

12. Theil, H. and Goldberger, A.S. (1961) On Pure and Mixed Statistical Estimation in Economics. International Economic Review, 2, 65-78. https://doi.org/10.2307/2525589

13. Theil, H. (1963) On the Use of Incomplete Prior Information in Regression Analysis. Journal of the American Statistical Association, 58, 401-414. https://doi.org/10.1080/01621459.1963.10500854

期刊菜单