Advances in Applied Mathematics
Vol. 10  No. 08 ( 2021 ), Article ID: 44407 , 8 pages
10.12677/AAM.2021.108283

带有测量误差的部分线性变系数模型的估计

郭佳佳,叶 瑶

重庆工商大学数学与统计学学院,重庆

收稿日期:2021年7月4日;录用日期:2021年7月23日;发布日期:2021年8月6日

摘要

一般在研究带有测量误差的部分线性变系数模型中,所研究的测量误差大多数存在于参数部分,且测量误差的类型主要为可加型测量误差。而此次主要研究测量误差在非参数部分的部分线性变系数模型,并且同时研究了部分线性变系数模型中非参数部分的变量带有的测量误差是可加型和非可加型两种情况。对于非参数部分的变量带有可加型测量误差的情况,利用纠偏的轮廓最小二乘估计方法对模型进行估计,而对于非参数部分的变量带有非可加型测量误差的情况,采用纠偏的一元化估计方法,对未知的常数系数以及函数系数进行估计得到估计的统计量,最后通过数值模拟分别验证了这两种估计方法的有效性。

关键词

部分线性变系数,测量误差,纠偏轮廓最小二乘方法,纠偏一元化方法

Estimation of Partial Linear Variable Coefficient Model with Measurement Error

Jiajia Guo, Yao Ye

School of Mathematical and Statistics, Chongqing Technology and Business University, Chongqing

Received: Jul. 4th, 2021; accepted: Jul. 23rd, 2021; published: Aug. 6th, 2021

ABSTRACT

In the general study of partial linear variable coefficient models with measurement errors, most of the measurement errors studied exist in the parameter part, and the types of measurement errors are mainly additive measurement errors. This time, we mainly study the partial linear variable coefficient model with measurement error in the non-parametric part, and at the same time, the measurement errors of the non-parametric variables in the partial linear variable coefficient model are additive and non-additive. For nonparametric variables with additive measurement errors, the corrected contour least square estimation method is used to estimate the model; for the non-parametric part of the variables with non-additive measurement error, the unitary estimation method is used to correct the error, and the unknown constant coefficient and the function coefficient are estimated to get the estimated statistics. Finally, the effectiveness of the two estimation methods is verified by numerical simulation.

Keywords:Partial Linear Variable Coefficient, Measurement Error, Corrected Profile Least-Square Method, Corrected Unified Method

Copyright © 2021 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

本文考虑部分线性变系数模型,

Y = X T β + Z T α ( U ) + ε (1.1)

其中Y是一维响应变量,X、Z为p维协变量,常数系数 β = ( β 1 , β 2 , , β p ) α ( ) = ( α 1 ( ) , α 2 ( ) , , α q ( ) ) 为函数系数, ε 是不可观测的独立同分布的均值为零的随机误差,方差为 δ 2 < 的随机误差。为了克服维数灾祸,假定协变量U是一元的。模型(1.1)的应用十分广泛,当 X = 0 时,该模型就为变系数模型,当 Z = 1 q = 1 时,该模型就变为部分线性模型,而当 Z = 0 时此模型即为线性回归模型。所以模型(0.1)作为部分线性模型以及变系数模型的推广,受到了很多的关注和研究。

Zhang等(2002) [1] 通过局部多项式方法,研究该模型,得到参数以及非参数的估计量。Fan和Huang (2005) [2] 提出了profile最小二乘估计,研究了估计量的渐进性质,并且在广义似然比的检验方法的基础上提出了该模型的检验问题,引入了轮廓似然比检验和Wald类统计量。Kai等(2011) [3] 利用半参数复合分位数回归法,得到了参数和非参数部分的估计量。但是在实际情况中X、Z往往不能直接观测或者不能准确地观测,带有测量误差。对于带有测量误差的部分线性变系数模型,You和Chen (2006) [4] 研究了带有测量误差的部分线性变系数模型,测量误差在参数部分,得到了参数和非参数部分的估计,并且证明了估计量统计性质。Huang等(2009) [5] 利用经验似然方法得到参数部分的经验似然统计量,并证明了该统计量近似卡方的性质。对于非参数部分带有测量误差的部分线性变系数模型,冯三营等(2011) [6] 研究了非参数部分的协变量带有测量误差的部分线性变系数模型,并且构造了未知参数的经验似然比统计量,并且证明了所构造的统计量近似卡方的性质,构造了参数的置信域。Fan等(2016) [7] 利用辅助信息得到参数以及系数函数的统计量,并证明了其统计量的渐近性质。

之前多数研究集中在测量误差参数部分协变量带有可加测量误差,鲜有考虑非参数部分的协变量带有测量误差,且测量误差为非可加型的情况。此次将研究部分线性变系数模型中非参数部分的测量误差是可加型和非可加型两种情况,并对未知的常数系数以及函数系数进行估计,最后对本文所提的估计方法在有限样本下的实际表现进行数字模拟研究。

2. 带有可加测量误差的部分线性变系数模型

2.1. 纠偏轮廓最小二乘估计

首先这里给出非参数部分的协变量带有可加型测量误差的部分线性变系数模型的形式

{ Y = X T β + Z T α ( U ) + ε , W = Z + e , (2.1)

模型在模型(2.1)的基础之上考虑了非参数部分协变量Z带有测量误差的情况,并且 W = ( W 1 , W 2 , , W p ) T 代表Z的观测值,即在此模型当中协变量是Z不能直接观测到的,能直接观测到的是带有测量误差的W,这里e表示测量误差,均值为零,协方差矩阵 Σ e 。在不考虑测量误差时即对模型(1.1)进行参数估计,这里我们假定 β 已知,于未知函数系数 α ( U ) ,假设 α ( U ) 在u上有连续的二阶导数,在当 U i 在u的一个小邻域内时,基于泰勒展开式,可以用一个线性函数局部逼近 α ( U i ) 得,

α j ( U i ) α j ( u ) + α j ( u ) ( U i u ) , j = 1 , 2 , , q .

那么根据profile最小二乘估计可以得到函数系数向量计为

α ^ ( U ) = ( I q , 0 q × q ) ( D u T ω u D u ) 1 D u T ω u ( Y X β ) (2.2)

其中,

D u = ( Z 1 T U 1 u h Z 1 T Z 2 T U 2 u h Z 2 T Z n T U n u h Z n T ) ,

ω u = diag ( K h ( U 1 u ) , , K h ( U n u ) ) K h ( ) = K ( / h ) / h ,h为带宽, K ( ) 为核函数。

如果忽略误差直接用W代替Z那么得到的未知参数以及函数系数估计都是不相合的。为了消除测量误差而带来的估计量的偏差,我们参考文献 [8] 引入校正分量

Ω ( U ) = i = 1 n Σ e ( 1 U i U h U i U h ( U i U h ) 2 ) K h ( U i U ) ,

其中 表示Kronecker乘积。对(2.2)式进行局部纠偏可以得到纠偏后的函数系数估式

α ^ ( U ) = ( I q , 0 q × q ) ( W u T ω u W u Ω ) 1 W u T ω u ( Y X β ) (2.3)

其中,

W u = ( W 1 T U 1 u h W 1 T W 2 T U 2 u h W 2 T W n T U n u h W n T ) .

α ^ 1 ( U ) 代替模型(2.1)中的 α ( U ) 可得 Y = X T β + W T α ^ 1 ( U ) + ε 。那么 β 的profile最小二乘估计为

β ^ P 1 = arg min β R P i = 1 n [ { Y i X i T β W i T β } 2 α ^ 1 T ( U i ) Σ e α ^ 1 ( U i ) ] = arg min β R P i = 1 n [ { Y ˜ i * X ˜ i * T } 2 α ^ 1 T ( U i ) Σ e α ^ 1 ( U i ) ] (2.4)

对于上式右端关于求偏导并令求导后的式子0。记 S 1 为局部线性回归的光滑矩阵

S 1 = ( ( W 1 T , 0 1 × q ) ( W U 1 T ω U 1 W U 1 Ω ) 1 W U 1 T ω U 1 ( W n T , 0 1 × q ) ( W U n T ω U n W U n Ω ) 1 W U n T ω U n ) ,

Q i = ( I q , 0 q ) ( W u T ω u W u Ω ) 1 W u T ω u ,

Y ˜ * = ( I S 1 ) Y X ˜ * = ( I S 1 ) X ,这里需要注意到 α ^ ( U i ) = Q i ( Y X β ) 是关于 β 的函数,求导时不能忽略,则求导可以得到以下估计方程

i = 1 n [ X ˜ i * ( Y ˜ i * X ˜ i * T β ) X ˜ i * T Q i T Σ e Q i ( Y X β ) ] = 0 , (2.5)

( X ˜ * Y ˜ * X ˜ * T X ˜ * β ) X T Q T Σ e Q Y + X T Q T Σ e Q β = 0 .

则由上式可以得到的纠偏profile最小二乘估计为

β ^ P 1 = ( X ˜ * T X ˜ * X T Q T Σ e Q X ) 1 ( X ˜ * T Y ˜ * X T Q T Σ e Q Y ) .

β 的估计 β ^ P 1 代入 α ^ 1 ( U ) 可以定义函数系数向量估计

α ^ 1 ( U ) = ( I q , 0 q ) ( W u T ω u W u Ω ) 1 W u T ω u ( Y X β ^ ) .

2.2. 数值模拟

本模在上一节中对非参数部分的协变量带有可加型测量误差的部分线性变系数模型利用纠偏的最小二乘法进对未知参数以及函数系数进行了估计,得到了估计的统计量,那么本节将通过数字模拟实验研究2.1节中所得到的未知参数以及函数系数的估计的统计量在有限样本下的表现,探究考虑如下模型:

{ Y = 2 X + sin ( 2 π U ) Z 1 + 0.75 U 3 Z 2 + ε , W 1 = Z 1 + e 1 , W 2 = Z 2 + e 2 ,

其中 X i ~ N ( 1 , 1 ) Z i 1 ~ N ( 0 , 1 ) Z i 2 ~ N ( 1 , 2 ) U i ~ U ( 0 , 1 ) ε i ~ N ( 0 , 0 .04 ) ( e 1 , e 2 ) ~ N ( 0 , Σ e ) ,为了使测量误差对函数系数的估计影响较小,使用欠光滑的方法选取带宽,这里选取最优带宽 h o p t = 1.06 s d ( U ) n 1 / 5 s d ( U ) 是U的标准差,取协方差阵 Σ e = ( 0. 01 0 0 0. 01 ) ,核函数Epannechnikov核函数 K ( u ) = 3 4 ( 1 u 2 ) I ( | u | 1 ) ,分别取样本容量 n = 200 , 250 , 300 。采用计算机模拟次数都为500次。有测量误差而不考虑测量误差的 β 的估计结果记录在表1中,考虑测量误差的 β 的估计结果记录在表2中,图1是考虑测量误差下样本量为250时 α ( U ) 的估计曲线图。

Table 1. Partial estimation results for different sample parameters without consideration of measurement error

表1. 不考虑测量误差下不同样本量参数部分估计结果表

Table 2. Partial estimation results for different sample parameters consideration of measurement error resulting data of standard experiment

表2. 考虑测量误差下不同样本量参数部分估计结果表

Figure 1. Curve: the result of function coefficient simulation under model 2.1

图1. 模型2.1下函数系数模拟结果曲线

从以上表1表2中可以看到,随着样本量的增加, β 的标准差以及均方误差都在减小,估计的越精确,且从估计的均值来看,估计值越来越接近真值,估计效果良好。并且对比表1表2,不难看出纠偏后的 β 估计效果更优,从标准差以及均方误差都可以看到,按2.1节中的估计方法效果更好。从图1中可以看到估计的函数系数的曲线接近真实的函数系数曲线的估计效果也是很良好的。

3. 带有非可加测量误差的部分线性变系数模型

3.1. 带有非可加测量误差的部分线性变系数模型的估计

除了在上节中介绍了非参数部分的协变量带有非可加测量误差的部分线性变系数模型的常数系数以及函数系数的估计过程,本节将介绍非参数部分协变量带有非可加测量误差的部分线性变系数模型的常数系数以及函数系数的估计,首先给出非参数部分协变量带有非可加测量误差的部分线性变系数模型的节构如下

{ Y = X T β + Z T α ( U ) + ε , W = Z ( t ) + e , (3.1)

其中Y是响应变量,X,Z是协变量,并且Z是不能直接观测得到的,能直接观测到的式协变量W,Z通过 Z = E ( W | t ) 与W和t联系起来。在这里协变量t可以与Z和U发生交互,e表示测量误差,均值为零,协方差矩阵 Σ e 。此时模型的测量误差不是可加的,上面介绍的误差处理方法不再适用,因此考虑Zhou和Liang (2009) [9] 介绍的一元化方法,对协变量Z纠偏,来估计模型(3.1)。由于协变量Z不能直接测量得到,那么我们首先要对协变量Z进行估计。假设 Z ( t ) l + 1 阶导数,根据泰勒展开式,将 Z ( t ) 用l阶多项式来替代

Z k ( t ) = Z k ( t 0 ) + Z k ( t 0 ) ( t t 0 ) + + Z k ( l ) ( t 0 ) r ! ( t t 0 ) r , k = 1 , 2 , , q .

利用局部多项式估计可以得到 Z ( t ) 的估计为

Z ^ k ( t 0 ) = ς 1 T ( L t 0 T ω ( t 0 ) L t 0 ) 1 L t 0 T ω ( t 0 ) W ( k ) , (3.2)

其中, ς 1 = ( 1 , 0 , , 0 ) l + 1 T W ( k ) = ( W 1 k , W 2 k , , W n k ) T ω u = diag ( K h ( t 1 t 0 ) , , K h ( t n t 0 ) )

L S 0 = ( 1 ( t 1 t 0 ) ( t 1 t 0 ) r 1 ( t 2 t 0 ) ( t 2 t 0 ) r 1 ( t n t 0 ) ( t n t 0 ) r ) ,

K ( ) K h ( ) 如1.1节所定义。得到 Z ( t ) 的估计,将其代入模型(3.1)中得到新的模型

{ Y = X T β + Z ^ T α ( U ) + ε ˜ , ε ˜ = ε + ( Z T Z ^ T ) α ( U ) , (3.3)

模型(3.3)实质就是部分线性变系数模型。就可以用1.1中的轮廓最小二乘估计方法对函数系数进行估计,即有

α ^ ( U ) = ( I q , 0 q × q ) ( D ^ u T ω u D ^ u ) 1 D ^ u T ω u ( Y X β ) , (3.4)

上式为带有非可加测量误差的部分线性变系数模型中的函数系数的 α ( U ) 估计式子,其中,

D ^ u = ( Z ^ 1 T U 1 u h Z ^ 1 T Z ^ 2 T U 2 u h Z ^ 2 T Z ^ n T U n u h Z ^ n T ) ,

得到函数系数的 α ( U ) 估计式子后,那么参数 β 的估计方法可以参见2.1中的估计方法。

3.2. 数值模拟

在3.1节中对非参数部分的协变量带有非可加型测量误差进行了未知参数以及函数系数估计,得到估计的统计量,那么本节通过模拟实验研究2.1节中所得结论在有限样本下的实际表现,考虑如下模型

{ Y = 2 X + sin ( 2 π U ) Z 1 + 0.75 U 3 Z 2 + ε , W 2 = Z 2 ( t ) + e ,

其中 X i ~ N ( 1 , 1 ) Z i 1 ~ N ( 0 , 1 ) Z i 2 ~ N ( 1 , 2 ) U i ~ U ( 0 , 1 ) ε i ~ N ( 0 , 0 .04 ) t i ~ U ( 0 , 1 ) e i ~ N ( 0 , 0 .01 ) ,同样选取与2.2节中相同的核函数Epannechnikov核,以及相同的最优带宽。分别取样本容 n = 200 , 250 , 300 。采用计算机模拟次数都为500次。有测量误差而不考虑测量误差的 β 的估计结果记录在表3中,考虑测量误差的 β 的估计结果记录在表4中,图2是考虑测量误差下样本量为250时 α ( U ) 的估计曲线图。

Table 3. Partial estimation results for different sample parameters without consideration of measurement error

表3. 不考虑测量误差下不同样本量参数部分估计结果表

Table 4. Partial estimation results for different sample parameters consideration of measurement error resulting data of standard experiment

表4. 考虑测量误差下不同样本量参数部分估计结果表

Figure 2. Curve: the result of function coefficient simulation under model 3.1

图2. 模型3.1下函数系数模拟结果曲线

从以上表3表4中可以看到,随着样本量的增加, β 的标准差以及均方误差都在减小,估计的结果越精确,且从估计的均值来看,估计值越来越接近真值,估计效果良好。并且对比表3表4,不难看出纠偏后的 β 估计效果更优,从标准差以及均方误差都可以看到,考虑测量误差的并且按3.1节中的估计方法效果更好。且从图2中可以看到估计的函数系数的曲线接近真实的函数系数曲线的估计效果也是很良好的。从上述几个指标可以不难得到,考虑测量误差后用纠偏的一元化估计法得到的估计统计量估计效果良好。

4. 结束语

一直以来回归模型都是统计学中十分重要的模型之一,所以关于它的理论研究十分多,并且回归模型的应用很广。半参数回归模型作为回归模型中一个重要的分支,它结合了参数模型和非参数模型的特点,关于它的研究也十分丰富。该模型了结合参数分量和非参数函数,充分挖掘数据之间的信息,使模型的拟合效果达到最大化。而部分线性变系数模型作为半参数模型之一,它继承了半参数模型的特点,不但消减了模型偏差,而且避免了“维数祸根”。正是由于部分线性变系数模型的这些特点,让该模型更能贴合实际情况。实际情况中,由于各种因素的影响不能精确观测到数据,即观测到的数据带有测量误差。在研究中,把带有测量误差的模型称为“测量误差模型”。本文,我们主要研究带有测量误差的部分线性变系数模型。所以近年来,有许多专家学者对带有测量误差的部分线性变系数模型进行了研究,此次主要研究部分线性变系数模型非参数部分带有可加型和非可加测量误差两种情况的估计问题,并且利用纠偏轮廓最小二乘法对带有可加测量误差的部分线性变系数模型进行估计得到估计的统计量,以及利用纠偏一元化估计对带有非可加测量误差的部分线性变系数模型进行估计得到估计统计量,并且通过数值模拟验证了这两种估计方法的有效性。但本文只考虑了带有测量误差的部分线性变系数模型的估计问题,对于模型的检验以及应用没有继续深入,希望后续有进一步深入研究。

致谢

感谢指导老师袁德美老师的耐心指导,同时感谢好友冉毅在生活中对我提供的帮助,也感谢重庆工商大学数理统计团队(ZDPTTD201906)以及2021年重庆工商大学校级研究生创新型科研项目(项目编号:yjscxx2021-112-107)对本文给与的研究资金的支持。

基金项目

重庆工商大学数理统计团队(ZDPTTD201906);2021年重庆工商大学校级研究生创新型科研项目(项目编号:yjscxx2021-112-107)。

文章引用

郭佳佳,叶 瑶. 带有测量误差的部分线性变系数模型的估计
Estimation of Partial Linear Variable Coefficient Model with Measurement Error[J]. 应用数学进展, 2021, 10(08): 2725-2732. https://doi.org/10.12677/AAM.2021.108283

参考文献

  1. 1. Zhang, W.Y., Lee, S.Y. and Song, X.Y. (2002) Local Polynomial Fitting in Semivarying Coefficient Model. Journal of Multivariate Analysis, 82, 166-188. ://doi.org/10.1006/jmva.2001.2012

  2. 2. Fan, J.Q. and Huang, T. (2005) Profile Likelihood Inferences on Semiparametric Varying-Coefficient Partially Linear Models. Bernoulli, 11, 1031-1057. ://doi.org/10.3150/bj/1137421639

  3. 3. Kai, B., Li, R.Z. and Zou, H. (2011) New Efficient Estimation and Variable Selection Methods for Semiparametric Varying-Coefficient Partially Linear Models. The Annals of Statistics, 39, 305-332. ://doi.org/10.1214/10-AOS842

  4. 4. You, J.H. and Chen, G.M. (2006) Estimation of a Semiparametric Varying-Coefficient Partially Linear Errors in Variables Model. Journal of Multivariate Analysis, 97, 324-341. ://doi.org/10.1016/j.jmva.2005.03.002

  5. 5. Huang, Z.S., Zhou, Z.G., Jiang, R., et al. (2009) Empirical Likelihood Based Inference for Semiparametric Varying Coefficient Partially Linear Models with Error-Prone Linear Covariates. Statistics and Probability Letters, 80, 497-504. ://doi.org/10.1016/j.spl.2009.12.002

  6. 6. 冯三营, 裴丽芳, 薛留根. 非参数部分带有测量误差的部分线性变系数模型的经验似然推断[J]. 系统科学与数学, 2011, 31(12): 1652-1663.

  7. 7. Fan, G.L., Xu, H.X. and Huang, Z.S. (2016) Empirical Likelihood for Semi-Varying Coefficient Model with Measurement Error in the Non-Parametric Part. AStA Advances in Statistical Analysis, 100, 21-41. ://doi.org/10.1007/s10182-015-0247-7

  8. 8. You, J.H., Zhou, Y. and Chen, G.M. (2006) Corrected Local Polynomial Estimation in Varying Coefficient Models with Measurement Errors. Canadian Journal of Statistics, 34, 391-410. ://doi.org/10.1002/cjs.5550340303

  9. 9. Zhou, Y. and Liang, H. (2006) Statistical Inference for Semi-Parametric Varying-Coefficient Partially Linear Models with Error-Prone Linear Covariates. The Annals of Statistics, 37, 427-458. ://doi.org/10.1214/07-AOS561

期刊菜单