Advances in Applied Mathematics
Vol. 12  No. 09 ( 2023 ), Article ID: 72260 , 8 pages
10.12677/AAM.2023.129390

高维混合效应模型的统计推断:一种新的方法

赵宏媛

青岛大学数学与统计学院,山东 青岛

收稿日期:2023年8月12日;录用日期:2023年9月6日;发布日期:2023年9月13日

摘要

线性混合效应模型广泛应用于分析聚类或重复测量数据。本文提出了一种拟似然结合弹性网的方法来估计高维线性混合模型中的未知参数,包括固定效应及随机效应的方差分量部分。在此基础上,也提出了相关的统计推断。所提出的方法适用于一般设置,其中随机效应的维度和簇可能很大。关于固定效应,我们提供的方法不依赖于方差分量的结构信息,即对方差分量中所涉及到的复杂未知参数使用代理矩阵进行简化。并且对所提出的方法在各种模拟设置中分别进行了固定效应的误差,假设检验的性能以及方差分量的估计误差的评估,均表现出较优的结果。

关键词

聚类数据,弹性网,纵向数据,随机效应,方差分量

Statistical Inference of High-Dimensional Mixed Effects Models: A New Approach

Hongyuan Zhao

School of Mathematics and Statistics, Qingdao University, Qingdao Shandong

Received: Aug. 12th, 2023; accepted: Sep. 6th, 2023; published: Sep. 13th, 2023

ABSTRACT

The linear mixed-effects model is widely used for analyzing clustered or repeated measurements data. This paper proposes a pseudo-likelihood method combined with the elastic net to estimate unknown parameters in high-dimensional linear mixed models, including the variance components of both fixed and random effects. Furthermore, relevant statistical inferences are also presented. The proposed method is applicable to general settings where the dimension and clusters of random effects can be substantial. Regarding fixed effects, our approach does not rely on structural information about the variance components. Instead, it simplifies the complex unknown parameters involved in the variance components using surrogate matrices. The performance of the proposed method is evaluated for fixed effects errors, hypothesis testing, and variance component estimation errors in various simulation settings, all of which demonstrate superior results.

Keywords:Clustered Data, Elastic Net, Longitudinal Data, Random Effects, Variance Components

Copyright © 2023 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

集群数据通常出现在许多领域,如生物学、遗传学和经济学。线性混合效应模型提供了一个灵活的工具来分析这样的集群数据,其中包括重复测量数据,纵向数据和多级数据等 [1] [2] 。线性混合效应模型包含固定和随机效应。在许多基因和经济研究中,协变量的维数可以很大,可能远远大于样本的大小。许多学者提出了各种各样的统计模型和方法,来研究和分析高维数据。然而,大多数方法都局限于处理独立观察的数据,如线性模型和广义线性模型。对高维线性混合效应模型进行统计推断仍然是一个具有挑战性的问题。在这项工作中,我们考虑高维混合效应模型中未知参数的估计和推断。

当维度固定时,很多方法被提出用来估计固定效应和方差项,如Gumedze和Dunne在2011年应用极大似然估计和限制性极大似然估计于混合效应模型的参数估计 [3] ,但遗憾的是,它们不适用于高维情况。Zhang和Tong在2007年提出了随机效应变系数模型的固定效应和方差参数的矩估计 [4] 。Peng和Lu (2012)考虑了固定维线性混合效应模型的矩估计 [5] 。他们都偏向于固定维设置。Ahmn,Zhang和Lu (2012)提出了另一种基于矩的方法 [6] ,该方法用于在固定维设置中估计和选择随机效应的方差分量。当各个集群大小相同时,此方法很适用。

对于固定维设置中方差分量的推断,可以采用似然比、得分和Wald检验等 [7] [8] [9] [10] (Stram & Lee, 1994; Lin 1997; Verbeke & Molenberghs, 2003; Demidenko, 2004)。但是这些方法均基于极大似然估计以及限制性极大似然估计,故也存在缺陷。

在高维中,Fan和Li (2012) [11] 研究了高维线性混合效应模型中,当聚类大小平衡时,固定效应和随机效应的选择无问题,选择变量的一致性要求关于固定效应和随机效应的最小信号强度条件。Bradic、Claeskens和Gueuning (2020) [12] 考虑在具有固定聚类大小、固定数量的随机效应和亚高斯设计的高维线性混合效应模型中测试固定效应的单个系数。但是他们的理论分析都要求随机效应的协方差矩阵具有正定性。并且在高维情况下,对方差分量的估计仍是未知的。基于此,Li等人 [13] 在2022年提出了一种针对于高维混合效应模型的拟似然参数估计方法,该方法基于Lasso并加入了拟似然来处理随机效应的影响。

而在本文中,我们开发了一种新的基于拟似然及弹性网的方法来推断高维线性混合效应模型中的未知参数。我们的方法适用于随机效应的数量可以是大的,集群大小可以是固定的或增长,平衡或不平衡的设置。该方法易于实现,每一步的优化都是解析的或凸的。基于真实协方差矩阵的代理,我们开发了一个惩罚准似然方法的固定效应估计。进一步开发了一个去偏估计的假设检验和建设的固定效应的置信区间。并且基于拟似然方法估计了方差分量。

本文的剩余部分组织如下:在第2节,我们介绍了混合效应模型且进行了相应的符号说明。第3节我们提出了基于弹性网的相关参数的拟似然估计方法。第4节我们展示了仿真实验结果,并将其进行了对比,最后,在第5节进行了总结和讨论。

2. 模型及符号

我们使用聚类数据的设置来呈现线性混合效应模型。对于重复测量数据,重复测量形成聚类。令 i = 1 , , n 表示类群标签。对于第i个类,响应向量为 y i R m i ,固定效应的设计矩阵为 X i R m i × p ,随机效应的设计矩阵为 Z i R m i × q 。从而线性混合效应模型 [14] 形式如下所示:

y i = X i β + Z i γ i + ε i , i = 1 , , n , (1)

其中, β R p 是固定效应的系数向量, γ i R q 是第i个类的随机效应的系数向量,而 ε i 是第i个类的噪声向量。对于 i = 1 , , n ,我们假设 γ i ε i 独立同分布,且均值为0,方差分别为 ψ R q × q σ e 2 I m i 。定义 N = i = 1 n m i 表示总体样本量。我们将 γ i ε i 统称为随机部分。

本文,我们使用i表示第i个聚类,k表示每个聚类中的第k个观测值。 y , γ , ε 和X分别由 y i , γ i , ε i X i 得到。令 Z R N × n q 是对角块矩阵,第i个块为 Z i 。令 Σ θ i = Z i ψ Z i + σ e 2 I m i ,且 Σ θ R N × N 是第i个块为 Σ θ i 的对角块矩阵。有 Σ z i = ( Z i ) T Z i / m i Σ z , x i = ( Z i ) T X i / m i , i = 1 , , n 。对于随机变量 u R ,定义它的亚

高斯范数为 u ψ 2 = sup 1 l 1 / 2 E 1 / l [ | u | l ] 。我们称 u ψ 2 , Z = sup 1 l 1 / 2 E 1 / l [ | u | l | Z ] 为u的条件亚高斯范数。对于随机向量 U R n 0 ,定义其亚高斯范数为 U ψ 2 = sup v 2 = 1 , v R n 0 U , v ψ 2 ,而相应的条件亚高斯范数为 U ψ 2 , Z = sup v 2 = 1 , v R n 0 U , v ψ 2 , Z

A R n 0 × n 0 是对称矩阵, A 0 表示矩阵A非负定, A 0 表示正定, Λ max ( A ) Λ min ( A ) 分别表示矩阵A的最大和最小特征值,令 A 2 定义 Λ max ( A ) A 1 = max j i = 1 n 0 | a i , j | A F = T r ( A T A ) ,其中 T r ( A ) 表示A的迹。令 c , c 0 , c 1 , , C , C 0 , C 1 , 表示在不同情况下可能变化的一些通用的正的常数。

3. 参数估计

引理1 (Lasso的收敛速度):假设响应 y i 是由模型(1)生成的,X的每一行都是在以Z为条件下由协方差矩阵 Σ x | z 独立生成的。则对任意固定的 j { 1 , , p } ,有

E [ | 1 N X . , j T ( Z γ + ε ) | 2 | Z ] = ( Σ x | z ) j , j σ e 2 N + ( Σ x | z ) j , j i = 1 n m i T r ( Ψ Σ z i ) N 2 + i = 1 n m i 2 Ψ 1 / 2 E [ Σ z , x i | Z ] 2 2 N 2 .

考虑一般的弹性网作用于模型(1),我们有:

β ( l m ) = arg min b R p { 1 2 N y X b 2 2 + λ 2 ( l m ) b 2 + λ 1 ( l m ) b 1 } . (2)

由引理1,当q或者 m i 增大且X和Z相关时,Lasso的收敛速度对于聚类数据不是最优,从而,弹性网的收敛速度也非最优。因此,我们需要考虑引入新的估计方法。

基于此,我们考虑引入一种新的拟似然方法,将随机部分的方差记为: Σ θ i = Z i ψ Z i + σ e 2 I m i ,该式包含较难估计的未知参数。因此,考虑 Σ θ i 的代理矩阵:

Σ a i = a Z i Z i + I m i ,

其中, a > 0 是某预定常数。记 Σ a R N × N 为第i个块为 Σ a i 的对角块矩阵。

引理2:若矩阵Ψ为正定矩阵,则 a > 0

min { 1 σ e 2 , a Λ max ( Ψ ) } Σ a 1 Σ θ 1 max { 1 σ e 2 , a Λ min ( Ψ ) } Σ a 1 ,

因此,当Ψ的特征值有界且为正数时, Σ a 1 Σ θ 1 有相同的收敛速度。

接下来,提出具体的拟似然估计方法。使用 Σ a 代替 Σ θ ,并且对响应向量y和固定效应矩阵X进行标准化处理,得到:

( X a , y a ) = ( Σ a 1 / 2 X , Σ a 1 / 2 y ) .

3.1. 固定效应的估计

首先基于标准化后的数据 ( X a , y a ) 对固定效应进行估计,对固定的a,定义:

β ^ = argmmin β R p { 1 2 T r ( Σ a 1 ) y a X a β 2 2 + λ 2 β 2 + λ 1 β 1 } , (3)

其中, λ l , l = 1 , 2 是调优参数, T r ( Σ a 1 ) 为有效样本量,可以看作是Lasso和岭回归的线性组合。根据Zou等人(2017年) [15] ,我们定义 λ = λ 1 + λ 2 α = λ 2 λ 1 ,从而(3)式变为,

β ^ = argmmin β R p { 1 2 T r ( Σ a 1 ) y a X a β 2 2 + λ ( α β 2 + ( 1 α ) β 1 ) } . (4)

进一步,为了对 β 进行统计推断,定义如下的无偏估计,

β ^ j ( d b ) = β ^ j + ω ^ j T ( y a X a β ^ ) ω ^ j T ( X a ) . , j , (5)

定义 ω ^ j = ( X a ) . , j ( X a ) . , j k ^ j ,其中,

k ^ j = arg min k ^ j R p 1 { 1 2 T r ( Σ a 1 ) ( X a ) . , j ( X a ) . , j k ^ j 2 2 + λ 2 j k j 2 + λ 1 j k j 1 } . (6)

从而, β j 双边置信区间为:

β ^ j ( d b ) ± z α / 2 V ^ j ,

这里, z τ 为标准正态分布的第 τ 分位数,而 V ^ j β ^ j ( d b ) 方差的一个估计值,有,

V ^ j = i = 1 n [ ( ω ^ j i ) T ( y a i X a i β ^ ) ] 2 ( ω ^ j T ( X a ) . , j ) 2 . (7)

3.2. 方差分量的估计

接下来,我们对模型中的方差分量进行估计。考虑到Ψ是一个对称矩阵,故有如下分解:

Ψ = Ψ η = j = 1 d η j G j , (8)

其中, G 1 , , G d 是线性无关的对称基矩阵,且满足:

j = 1 d c j G j = 0 , iff c 1 = = c d = 0. (9)

用于估计方差分量的方法是高斯最大似然方法。将数据分为两部分, I 1 I 2 = [ n ] I 1 I 2 = ,且 | I 1 | | I 2 | n / 2 。令 β ^ ( 2 ) 是数据 { X i , Z i , y i } i I 2 估计得到的初始值,接下来在 i I 1 中计算残差 r ^ i = y i X i β ^ ( 2 ) ,并且由下式得到 σ e 2 的估计,

σ ^ e 2 = 1 i I 1 T r ( P Z i ) i I 1 P Z i r ^ i 2 2 . (10)

现在,我们估计 η

η ^ = arg min η R d i I 1 ( Σ a i ) 1 / 2 ( r ^ i r ^ i T Z i Ψ η ( Z i ) T σ ^ e 2 I n i ) ( Σ a i ) 1 / 2 F 2 , (11)

其中 K K 2 是常数,且 σ ^ e 2 由(10)式得到。

公式(10)的基本原理是观测值 P Z i ( y i X i β ) 的协方差矩阵为 σ e 2 P Z i ,它只涉及目标参数 σ e 2 。将 β 用它的拟似然估计来代替,得到(10)。此估计量仅当 i I 1 T r ( P Z i ) > 0 时才成立,即 i I 1 m i max { 0 , 1 q / m i } > 0

3.3. 去偏估计量的渐近性质

条件1 (亚高斯随机变量):随机噪声项 ε i , k , i = 1 , , n ; k = 1 , , m 独立分布于均值为0方差为 0 < σ e 2 < K 0 < ε i , k 的亚高斯范数以K0为上界。随机效应 γ i R q , i = 1 , , n 独立分布于均值为0,方差为 Ψ K 1 I q ,其中 K 1 > 0 是常数。对于 i = 1 , , n ε i γ i 独立于彼此,且独立于 ( X i , Z i ) Σ θ 1 / 2 ( Z γ + ε ) 的亚高斯范数以K0为界。

条件2:在给定Z的条件下,X的每一行都是独立的,具有零均值和协方差矩阵 Σ X | Z 满足 0 < K Λ min ( Σ X | Z ) Λ max ( Σ X | Z ) K < 。在以Z为条件时, X k , . i 的条件亚高斯范数以K0为上界。

定理1 (无偏估计量的渐近性质):假设条件1和条件2成立。令 λ l λ l j c 1 log p / T r ( Σ a 1 ) l = 1 , 2 j = 1 , 2 , , p 1 c 1 是一个足够大的常数。对于在(5)式中定义的 β ^ j ( d b ) ,若 ( s log p ) 2 log n max i m i T r ( Σ a 1 ) Λ min ( Σ a 1 / 2 Σ θ Σ a 1 / 2 ) 以及 | H j | log p T r ( Σ a 1 ) ,则,

V j 1 / 2 ( β ^ j ( d b ) β j ) = R j + o p ( 1 ) , (12)

其中, R j D N ( 0 , 1 ) ,对

V j = ω ^ j T Σ a 1 / 2 Σ θ * Σ a 1 / 2 ω ^ j { ω ^ j T ( X a ) . , j } 2 .

这里, V j 的大小满足,

V j = ( Σ X | Z 1 ) j , j T r ( Σ a 1 Σ θ Σ a 1 ) T r 2 ( Σ a 1 ) ( 1 + o p ( 1 ) ) .

4. 仿真实验

在本节中,我们进行了仿真模拟来评估所提出的方法的power性能,并将其与相关的方法进行比较。我们考虑和Li等人(2022)相同的模拟设置:令 N = 144 p = 300 ( X , Z ) 的每一行都独立同分布产生于均值为0,方差如 Σ x = I p Σ z = I q 以及 ( Σ X , Z ) k , j = ρ j , 1 j , k q ( Σ X , Z ) k , . = 0 , k > q 。也就是说,如果 j p ,则 X j 和Z之间的相关性为非0,如果 j > q ,则相关性为0。随机噪声项独立同分布于 ε i ~ N ( 0 , 0.25 I m i ) 。我们考虑 q { 2 , 8 , 14 } ,响应y经由模型(1)生成,其中 s = 5 β 1 : 5 = ( 1 , 0.5 , 0.2 , 0.1 , 0.05 ) 和相等的簇大小,即 m 1 = m 2 = = m n = m 。每个设置都使用300次独立的Monte Carlo模拟进行重复。

4.1. 固定效应的统计推断

我们首先检查所提出的估计量的误差。考虑两种随机效应的协方差矩阵形式,一个是正定的Ψ,我们记为“p.d.Ψ”,其中, Ψ j , k = 0.56 | j k | , 1 j , k q ,以及奇异的Ψ,记为“singularΨ”,其中Ψ是对角矩阵,且 Ψ j , j = 0.56 , 1 j q / 2 ,否则 Ψ j , j = 0 。对于所提出的方法,首先通过交叉验证选择a,且调优参数 λ i 通过 σ ^ x 2 log p / N 计算,其中, σ ^ x 由scaled-Lasso和观测值 ( ( X a ) . , j , ( X a ) . , j ) 进行计算。

表1可以看出,我们所提出的估计量具有较小的估计误差,且随着m和q的增加,误差变化不大,说明我们提出的方法具有较好的稳定性。同时,随着 β j 的值递减,误差也呈现递减的规律。

Table 1. Standard error for p.d.Ψ and singularΨ when β j ∗ ∈ { 1 , 0.5 , 0.2 , 0 }

表1. β j { 1 , 0.5 , 0.2 , 0 } 时在正定Ψ以及奇异Ψ下的标准误

接下来,我们检查基于 β ^ j ( d b ) 的假设检验的power性能。考虑两个随机效应的协方差矩阵,第一个是“p.d.Ψ”,另一个为“singularΨ”,其余参数设置和之前相同。

表2中,我们展示了本文提出的方法和Li等人(2023)提出的方法的I类误差和power。我们的运行时间和Li等人的时间相差不大。在理想情况下,原假设H0下的拒绝率应该接近5%,并且对{1, 0.5, 0.2}的拒绝率应该大于5%。从中可以看到我们的方法和Li等人的方法在控制第I类误差方面都是有效的。然而,在保证第I类错误的情况下,我们的方法相对于Li等人的power性能较好。

4.2. 方差分量的统计推断

真实的固定效应和数据生成步骤与4.1节相同。我们使用全部数据来估计 σ e 2 η 。令 σ e 2 = 0.25 ,我们考虑 d = 2 的对角矩阵Ψ,基矩阵的设置如下所示:

G 1 = ( I q / 2 0 0 0 ) , G 2 = ( 0 0 0 I q / 2 ) ,

对于正定矩阵Ψ, η = ( 0.56 , 0.56 ) T ,而奇异矩阵Ψ,有 η = ( 0.56 , 0 ) T 表3显示了 σ e 2 ( mae . σ e 2 ) η 1 ( mae . η 1 ) η 2 ( mae . η 2 ) 的平均绝对误差。我们可以看到,估计的方差分量的平均绝对误差保持在较小的水平,且在Ψ是正定的情况下,估计的平均绝度误差小于奇异情况下的。

Table 2. The rejection rate for testing H0: β j ∗ = 0 at 95% level for β j * ∈ { 1 , 0.5 , 0.2 , 0 } with positive definite (p.d.) and singular when ρ = 0

表2. 测试H0 β j = 0 在95%水平上的power, β j * { 1 , 0.5 , 0.2 , 0 } ,且Ψ具有正定矩阵(p.d)以及 ρ = 0 时的奇异矩阵(singular)两种形式

Table 3. Estimation of the variance components with the proposed method for positive definite and singular when ρ = 0

表3. 当 ρ = 0 时,利用所提出的方法对方差分量进行了正定和奇异估计

5. 总结与讨论

本文我们基于高维线性混合模型的框架,考虑了未知参数的估计和推断问题。并且,提出了一种新的结合拟似然和弹性网的方法,该方法考虑使用拟似然消去未知参数的影响,并且通过弹性网进行变量选择及降维。在建模重复测量和纵向数据,特别是当集群大小是大的或异构的时候,具有普遍适用性。我们提出的估计过程计算效率高,不需要很强的对于随机效应和误差的分布假设。仿真实验表明,我们的方法在假设检验方面的性能优于之前的方法,并且,估计量的误差也处于合理的范围内。

文章引用

赵宏媛. 高维混合效应模型的统计推断:一种新的方法
Statistical Inference of High-Dimensional Mixed Effects Models: A New Approach[J]. 应用数学进展, 2023, 12(09): 3991-3998. https://doi.org/10.12677/AAM.2023.129390

参考文献

  1. 1. Pinheiro, J. and Bates, D. (2006) Mixed-Effects Models in S and S-PLUS. Springer Science & Business Media, Ber-lin.

  2. 2. Goldstein, H. (2011) Multilevel Statistical Models. John Wiley & Sons, New York. https://doi.org/10.1002/9780470973394

  3. 3. Gumedze, F.N. and Dunne, T.T. (2011) Parameter Estimation and In-ference in the Linear Mixed Model. Linear Algebra and Its Applications, 435, 1920-1944. https://doi.org/10.1016/j.laa.2011.04.015

  4. 4. Sun, Y., Zhang, W.Y. and Tong, H. (2007) Estimation of the Covar-iance Matrix of Random Effects in Longitudinal Studies. Annals of Statistics, 35, 2795-2814. https://doi.org/10.1214/009053607000000523

  5. 5. Müller, S., Scealy, J.L. and Welsh, A.H. (2013) Model Selec-tion in Linear Mixed Models. Statistical Science, 28, 135-167. https://doi.org/10.1214/12-STS410

  6. 6. Ahn, M., Zhang, H.H. and Lu, W. (2012) Moment-Based Method for Random Effects Selection in Linear Mixed Models. Statisti-ca Sinica, 22, 1539-1562. https://doi.org/10.5705/ss.2011.054

  7. 7. Stram, D.O. and Lee, J.W. (1994) Vari-ance Components Testing in the Longitudinal Mixed Effects Model. Biometrics, 50, 1171-1177. https://doi.org/10.2307/2533455

  8. 8. Lin, X. (1997) Variance Component Testing in Generalised Linear Models with Random Effects. Biometrika, 84, 309-326. https://doi.org/10.1093/biomet/84.2.309

  9. 9. Verbeke, G. and Molenberghs, G. (2003) The Use of Score Tests for Inference on Variance Components. Biometrics, 59, 254-262. https://doi.org/10.1111/1541-0420.00032

  10. 10. Vonesh, E.F. (2006) Mixed Models: Theory and Applications. Journal of the American Statistical Association, 101, 1724-1726. https://doi.org/10.1198/jasa.2006.s146

  11. 11. Fan, Y. and Li, R. (2012) Variable Selection in Linear Mixed Effects Models. Annals of Statistics, 40, 2043-2068. https://doi.org/10.1214/12-AOS1028

  12. 12. Bradic, J., Claeskens, G. and Gueuning, T. (2020) Fixed Effects Testing in High-Dimensional Linear Mixed Models. Journal of the American Statistical Association, 115, 1835-1850. https://doi.org/10.1080/01621459.2019.1660172

  13. 13. Li, S., Cai, T.T. and Li, H. (2022) Inference for High-Dimensional Linear Mixed-Effects Models: A Quasi-Likelihood Approach. Journal of the American Statistical Association, 117, 1835-1846. https://doi.org/10.1080/01621459.2021.1888740

  14. 14. Laird, N.M. and Ware, J.H. (1982) Random-Effects Models for Longitudinal Data. Biometrics, 38, 963-974. https://doi.org/10.2307/2529876

  15. 15. Zou, H. and Hastie, T. (2005) Regularization and Variable Selection via the Elastic Net. Journal of the Royal Statistical Society Series B: Statistical Methodology, 67, 301-320. https://doi.org/10.1111/j.1467-9868.2005.00503.x

期刊菜单