Advances in Applied Mathematics
Vol. 12  No. 10 ( 2023 ), Article ID: 74059 , 8 pages
10.12677/AAM.2023.1210429

二次度量回归模型中折叠凹惩罚估计的统计 性质

张馨玉*,杨婧昱

河北工业大学理学院,天津

收稿日期:2023年9月19日;录用日期:2023年10月12日;发布日期:2023年10月20日

摘要

目前,关于二次度量回归模型的研究受到了广泛关注,比如相位恢复、动力系统状态估计、无标记的距离几何和各种组合图等问题。本文考虑从高维二次度量回归模型中恢复未知信号。通过采用折叠凹惩罚最小二乘估计方法,我们得到了真实信号与估计值之间的误差界。并且结果中还表明估计值与真实值有相同的支撑集。另外,文章中我们主要研究SACD和MCP两种典型的折叠凹惩罚函数。

关键词

二次度量回归模型,SCAD惩罚方法,MCP惩罚方法,高维统计

Folded Concave Penalized Estimation for Quadratic Measurements Regression

Xinyu Zhang*, Jingyu Yang

School of Science, Hebei University of Technology, Tianjin

Received: Sep. 19th, 2023; accepted: Oct. 12th, 2023; published: Oct. 20th, 2023

ABSTRACT

Recovering an unknown signal from quadratic measurements has gained more attention, such as phase retrieval, power system state estimation and the unlabeled distance geometry problem. In this paper, we reconstruct the unknown signal from high-dimensional quadratic measurements. By employing folded concave penalized least squares method, our main result shows the non-asymptotic error bound between the estimator and the true signal. Our result shows that the estimator has the same support set as the true signal. In addition, we focus on two typical folding concave penalty functions, SCAD and MCP.

Keywords:Quadratic Measurements, SCAD Penalty, MCP Penalty, High-Dimensional Statistical Analysis

Copyright © 2023 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 研究背景

本文中,我们考虑二次度量回归模型

y i = β * T Z i β * + ε i , i = 1 , , n , (1.1)

其中 y i 是可观测的响应变量, β * p 是未知的真实信号,n是样本数目, Z i p × p 是测量矩阵, ε i 为独立同分布的随机误差。目前,对于二次度量回归模型的研究越来越被重视,特别是在许多科学和工程领域,比如众所周知的相位恢复,电力系统状态估计,无标记距离几何问题等。并且其主要目标是从二次度量回归模型中恢复未知信号。下面我们给出几个例子进行详细介绍。

1) 相位恢复 相位恢复问题 [1] [2] [3] 广泛存在于许多科学和工程领域,包括光学成像、晶体学、中子放射学、电子显微镜、数字通信、天文学和计算生物学等。标准的相位恢复问题是基于强度测量数据 z i p , i = 1 , , n 恢复未知信号 β p ,其中强度测量数据与未知信号之间满足

y i = | z i T β | 2 + ε i .

令矩阵 Z i = z i z i T ,则上述模型就等价于二次度量模型(1.1),其中 Z i 为秩1矩阵。

2) 电力系统状态估计 智能电网作为一种大型复杂的基础设施,需要借助大量的测量信息进行实时监测和决策。准确监控系统的运行是电网可靠和经济运行的核心,从而实施状态估计至关重要 [4] 。若给定一个总线和传输线路网络,电力系统状态估计的目标是从测量的功率和电压数据 ( y 1 , , y n ) ,来估计所有网络总线上的电压 ( v 1 , , v n ) 。根据交流电功率模型,可以看出这些测量值是二次依赖于待确定的电压值,即它们之间满足二次关系(1.1)。

3) 无标记的距离集合问题 无标记的距离集合问题 [5] 的目标是从一组未标记的成对距离中,恢复一组点的相对位置。这里对这组点位于一条直线上时进行举例 [6] ;假设直线上有p个点,并且点的距离分布函数为y,把直线平均分为n个线段,点的密度为 x = ( x m ) m = 1 M M ,距离分布函数y与点密度x之间呈二次关系(1.1)。

高维数据在科技发展中扮演着越来越重要的角色,并且已经成为机器学习,数理统计和信息科学等学科的研究热点。有效的变量选择方法通过筛选掉不重要的变量,得出简洁的模型,从而提高模型的预测精度和可靠性。事实上,如果选择一个太小的子集容易导致信息缺失,使得结果不准确,如果选择的变量过多,则会加重“维数诅咒”。所以,在建模高维数据时选择正确的变量子集并排除不重要的变量是相当重要的 [7] 。惩罚方法是我们处理和分析海量高维数据的最广泛使用的工具之一。近些年来,尤其是在线性模型中,利用惩罚方法进行变量选择受到了大量统计学家的关注。惩罚方法不仅可以在变量选择的同时给出参数估计,还可以减少模型的计算量,因此和传统的变量选择方法相比,惩罚估计方法有很高的优越性。

目前研究最多的惩罚方法是Lasso [8] 和非凸惩罚方法,并且在稀疏恢复领域,非凸惩罚比凸惩罚能够得到更好的稀疏性 [9] 。特别地,折叠凹惩罚方法在压缩感知中有了充分研究,尤其是SCAD [9] 和MCP [10] 两种惩罚方法。文献 [10] 指出基于折叠凹惩罚方法得到的全局解有理想的恢复性能。由于SCAD函数的良好性质,运用SCAD惩罚方法进行变量选择既可以有效的降低模型的选择偏差,又能有效提高模型预测的精准程度 [9] 。

本文中,为了实现对高维二次度量回归模型的参数估计以及变量选择问题,我们研究如下基于折叠凹惩罚最小二乘估计方法,

min β p L n ( β ) : = 1 4 n i = 1 n ( y i β T Z i β ) 2 + j = 1 p P λ n ( | β j | ) , (1.2)

其中 P λ n ( | β j | ) 为惩罚函数, λ n > 0 为惩罚参数。本文中,我们采用SCAD和MCP两种典型的、被广泛使用的折叠凹惩罚函数,其函数解析式表示如下。

SCAD (Smoothly Clipped Absolute Deviation),

P λ n ( t ) = { λ n t , 0 t < λ n , ( a 2 1 ) λ n 2 ( t a λ n ) 2 2 ( a 1 ) , λ n t < a λ n , a + 1 2 λ n 2 , t a λ n .

其中 a > 2 为固定的参数。

MCP (Minimax Concave Penalty),

P λ n ( t ) = { λ n t t 2 2 b , 0 t < b λ n , 1 2 b λ n 2 , t b λ n .

其中 b > 0 为固定参数。

在整篇论文中,我们使用如下记号,对任意p维向量 v = ( | v 1 | , , | v p | ) T ,令 v 2 = ( i = 1 p v i 2 ) 1 / 2 v 1 = ( i = 1 p | v i | ) v = max { | v 1 | , , | v p | } 。对任意 n × p 矩阵 Z = ( z i j ) ,令 | Z | = max 1 i , j p | z i j | Z A B 为从矩阵Z中分别抽取指标集A和B对应行和列所成子矩阵。 β A 为从向量 β 直接抽取指标集A对应位置的元素所构成的向量。 e d , j 表示d阶单位矩阵的第j列向量。

2. 主要结果与证明

本节将讨论基于SCAD和MCP惩罚最小二乘估计量的稀疏性和一致性,并给出了合理的证明过程。

2.1. 估计量的统计性质

为了研究估计量的统计性质,我们首先给出一些关于矩阵 Z i 和噪声 ε i 的假设条件。令 β * 为真实值,并且 Γ * = supp ( β * ) : = { j : e p , j T β * 0 , j = 1 , , p } 。像文献 [11] 一样,我们假设存在常数 0 < c 1 c 2 < 满足

c 1 min { | e p , j T β * | , j Γ * } max { | e p , j T β * | , j Γ * } c 2 . (2.1)

进一步,像文献 [11] [12] 一样,我们假设数据已经被标准化

i = 1 n y i = 0 i = 1 n | Z i | 2 = n .

假设1对任意 x , y s ,存在常数 0 < c 3 c 4 c 5 > 0 满足

c 3 x 2 y 2 1 n i = 1 n ( x T Z i Γ * Γ * y ) 2 c 4 x 2 y 2 ,

| i = 1 n Z i Γ * Γ * Z i Γ * c Γ * c | c 5 n ,

| i = 1 n Z i Γ * Γ * Z i Γ * c Γ * c | c 5 n

其中 为Kronecker积。

在标准相位恢复问题中,第一个不等式可以简化为文献 [13] [14] 中类似的条件,并且文献中已经证明了向量 z i 的可行性。此外,后两个不等式可以看作是线性模型中正交性条件的扩展 [15] 。并且在二次度量回归模型中,文献 [12] 已经使用了相同假设。

假设2假设噪声 { ε 1 , , ε n } 服从参数为 σ 的高斯分布,并且 ε i 均值为0,方差为 E ε i 2

我们令 β ^ 为二次测量模型的最优解,容易看出 β * 也能够满足二次模型(1.1)。从而我们希望最优解 β ^ 可以充分接近真实值 β * β * ,所以我们用如下式子去描述真实值与估计值之间的界

min { β ^ β * , β ^ + β * } .

下面我们给出本文中主要的结论。

定理 对于二次测量模型(1.1),假定假设1-2成立,惩罚函数为SCAD或者MCP,并且惩罚参数 λ n n 时满足

λ n 0 λ n 2 ln p n 0 , (2.2)

则最优化问题(1.2)存在局部最优解 β ^ = ( β ^ Γ * T , β ^ Γ * c T ) T 使得对于足够大的n满足

(i) P ( β ^ Γ * c = 0 ) 1 1 n

(ii) P ( min { β ^ + β * , β ^ β * } 8 σ c 4 c 1 c 3 ln ( 1 + 2 n ) n + 4 c 1 c 3 s λ n ) 1 1 n .

我们可以发现条件(2.2)蕴含了样本量n与维数p之间的关系。如果取 λ n = n a ,则对于某个 a ( 1 / 8 , 0 ) ,条件(2.2)可以简化为

ln p n 0.

通过定理中的结论(i),我们可以看出折叠凹惩罚方法得到的估计量具有相合性。通过结论(ii),我们可以看出折叠凹惩罚估计能够以趋于1的概率正确选择出非零变量,其中这个概率的收敛速度时线性的。

2.2. 定理证明

为了证明叙述中记号的简洁,我们不妨设 Γ * = { 1 , , s } β * = ( β 1 * T , 0 T ) 以及 Z i = [ Z i 11 Z i 12 Z i 21 Z i 22 ] 。记

min L ˜ n ( β 1 ) : = 1 4 n i = 1 n ( y i β 1 T Z i 11 β 1 ) 2 + j = 1 s P λ n ( | β j | ) . (2.3)

我们首先证明优化问题(2.3)最优解的存在性。令 β ^ 1 = arg min β 1 s L ˜ n ( β 1 ) 。考虑水平集 M = { β 1 s : L ˜ n ( β 1 ) L ˜ n ( β 1 * ) } ,其中M为非空闭集,并且 inf β 1 s L ˜ n ( β 1 ) = inf β 1 M L ˜ n ( β 1 ) 。因为 L ˜ n ( . ) 是连续函数,所以 L ˜ n ( . ) 在水平集中至少有一个最优解。从而可以证明 β ^ 1 的存在性。

下面我们证明 β ^ 1 β 1 * 之间的误差界。利用假设1和 β ^ 1 的定义,我们可以得到对任意的 β 1 s ,有

L ˜ n ( β ^ 1 ) L ˜ n ( β 1 ) .

从而

0 L ˜ n ( β ^ 1 ) L ˜ n ( β 1 * ) = 1 4 n i = 1 n [ ( β ^ 1 β 1 * ) T Z i 11 ( β ^ 1 + β 1 * ) ] 2 + 1 2 n i = 1 n ( β 1 * T Z i 11 β 1 * β ^ 1 T Z i 11 β ^ 1 ) ε i + P λ n ( | β ^ j | ) P λ n ( | β j * | ) c 3 4 β ^ 1 β 1 * 2 β ^ 1 + β 1 * 2 1 2 n i = 1 n ( β ^ 1 β 1 * ) T Z i 11 ( β ^ 1 + β 1 * ) ε i + P λ n ( | β ^ j | ) P λ n ( | β j * | ) .

u = β ^ 1 β 1 * β ^ 1 β 1 * 2 v = β ^ 1 + β 1 * β ^ 1 + β 1 * 2 。由上述式子我们可以得到

c 3 4 β ^ 1 β 1 * 2 β ^ 1 + β 1 * 2 1 2 n β ^ 1 β 1 * β ^ 1 + β 1 * i = 1 n u T Z i 11 v ε i + j = 1 s P λ n ( | β j * | ) P λ n ( | β ^ j | ) . (2.4)

根据SCAD惩罚函数的定义,对任意的 t 1 , t 2 > 0 ,有 P λ n ( t 1 ) P λ n ( t 2 ) λ n | t 2 t 1 | ,即

j = 1 s P λ n ( | β j * | ) P λ n ( | β ^ j | ) λ n β ^ 1 β 1 * 1 .

联合上式,(2.4)以及 β 1 1 s β 1 2 ,我们有

c 3 4 β ^ 1 β 1 * 2 β ^ + β * 2 1 2 n β ^ 1 β 1 * β ^ 1 + β 1 * i = 1 n u T Z i 11 v ε i + λ n s β ^ 1 β 1 * 2 . (2.5)

在下面证明中我们不妨设 β ^ 1 β 1 * β ^ + β * ,容易验证

β * β ^ + β * . (2.6)

利用Bernstein不等式和矩阵 Z i 的性质,我们可以得到

1 n i = 1 n u T Z i 11 v ε i 4 σ c 4 s ln ( 1 + 2 n ) n .

利用上式,(2.5),(2.6)和真实值 β * 的界(2.1),我们可以验证

β ^ 1 β 1 * 8 σ c 4 c 3 β 1 * s ln ( 1 + 2 n ) n + 4 c 1 c 3 s λ n . (2.7)

下面我们证明 β ^ = ( β ^ 1 T , 0 T ) T 是优化问题(1.2)在邻域 { β * + u , u 1 C } 内的最优解,其中C是足够大的常数。记 u = ( u 1 T , u 2 T ) T p u 1 s ,我们需要证明 L n ( β ^ 1 , 0 ) L n ( β 1 * + u 1 , u 2 ) 。因为 β ^ 1 是最优化问题(2.3)的最优解,则对任意的 β 1 s ,有 L n ( β ^ 1 , 0 ) L n ( β 1 , 0 ) 。从而,我们只需要证明下面不等式成立

P ( L n ( β 1 * + u 1 , u 2 ) L n ( β 1 * + u 1 , 0 ) ) 1 1 n .

ζ i = 2 Z i 21 ( β 1 * + r n u 1 ) + r ˜ n Z i 22 u 2 η i = Z i 11 ( 2 β 1 * + r n u 1 ) 。通过简单计算,我们可以得到

L n ( β 1 * + u 1 , u 2 ) L n ( β 1 * + u 1 , 0 ) = 1 n i = 1 n | u 2 T ζ i | 2 + 2 n i = 1 n u 1 T η i u 2 T ζ i 2 n i 1 n u 2 T ζ i ε i + j = s + 1 p P λ n ( | u 2 j | ) 2 n r n 2 u 1 1 u 2 1 i = 1 n ζ i η i T 2 n u 2 1 i = 1 n ζ i ε i + j = s + 1 p P λ n ( | u 2 j | ) .

利用Bernstein不等式和无穷范数的定义,我们可以计算得到至少以 1 n 1 概率有以下式子成立

1 n i = 1 n ζ i ε i 2 6 σ c 2 s ln p n . (2.8)

利用假设1中后两个不等式以及(2.1),我们可以得到

1 n i = 1 n ζ i η i c n , (2.9)

其中c是一个大于零的常数。

根据SCAD惩罚函数的定义,对任意的 u j ,可以证明有下式成立

P λ n ( | u j | ) C λ n 2 | u j | , (2.10)

其中常数 C = 2 1 min { λ n 1 , ( a + 1 ) a 1 } ,下面我们分三种情况对上式进行证明。

(i) 当 | u j | λ n 时,有 P λ n ( | u j | ) = λ n | u j | 。取 C = λ n 1 ,则(2.10)显然成立。

(ii) 当 λ n < | u j | < a λ n 时,有 P λ n ( | u j | ) = ( 2 a 2 ) 1 ( | u j | 2 + 2 a λ n | u j | λ n 2 ) 。由 | u j | 的上、下界,有

P λ n ( | u j | ) a λ n 2 ( a 1 ) | u j | 1 2 ( a 1 ) λ n | u j | = 1 2 λ n | u j | ,

C = ( 2 λ n ) 1 ,则(2.10)显然成立。

(iii) 当 | u j | a λ n 时,有 P λ n ( | u j | ) = a + 1 2 λ n 2 。由 u 1 C ,有 | u j | C 。我们可以计算得到

P λ n ( | u j | ) = a + 1 2 C λ n 2 | u j | ,

其中 C = ( 2 C ) 1 ( a + 1 ) 。从而(2.10)得证。

结合上述不等式(2.8),(2.9)以及(2.10),我们可以证得

L n ( β 1 * + u 1 , u 2 ) L n ( β 1 * + u 1 , 0 ) 2 6 σ c 2 s ln p n c n + C λ n 2 | u j | = λ n 2 | u j | ( 2 6 σ c 2 λ n 2 s ln p n λ n 2 c n + C ) .

根据条件中的极限 λ n 2 n 1 / 2 ( ln p ) 1 / 2 0 ,其蕴含了 λ n 2 n 1 / 2 0 ,显然

L n ( β 1 * + u 1 , u 2 ) L n ( β 1 * + u 1 , 0 ) 0 ,

从而完成该定理证明。

3. 结论

本文研究的高维二次度量回归模型,其在相位恢复、电力系统状态估计等问题中有广泛的应用价值。本文基于折叠凹惩罚最小二乘估计方法对二次度量回归模型进行参数估计,该方法还能够对参数进行变量选择。其中折叠凹惩罚方法是本文的创新点,并且该方法具有良好的优势。另外,本文还给出了在一定条件下真实值与估计值之间的误差界。

文章引用

张馨玉,杨婧昱. 二次度量回归模型中折叠凹惩罚估计的统计性质
Folded Concave Penalized Estimation for Quadratic Measurements Regression[J]. 应用数学进展, 2023, 12(10): 4357-4364. https://doi.org/10.12677/AAM.2023.1210429

参考文献

  1. 1. Wang, Y. and Xu, Z. (2019) Generalized Phase Retrieval: Measurement Number, Matrix Recovery and Beyond. Applied and Computational Harmonic Analysis, 47,423-446. https://doi.org/10.1016/j.acha.2017.09.003

  2. 2. Candes, E., Eldar, Y., Strohmery, T. and Voroninski, V. (2013) Phase Retrieval via Matrix Completion. SIAM Review, 6, 199-225. https://doi.org/10.1137/110848074

  3. 3. Shechtman, Y., Beck, A. and Eldar, Y. (2014) GESPAR: Efficient Phase Retrieval of Sparse Signals. IEEE Transactions on Signal Processing, 62, 928-938. https://doi.org/10.1109/TSP.2013.2297687

  4. 4. Wang, G., Zamzam, A.S., Giannakis, G.B. and Sidiropoulos, N.D. (2018) Power System State Estimation via Feasible Point Pursuit: Algorithms and Cramér Rao bound. IEEE Transac-tions on Signal Processing, 66, 1649-1658. https://doi.org/10.1109/TSP.2018.2791977

  5. 5. Huang, S. and Dokmani, I. (2021) Reconstructing Point Sets from Distance Distributions. IEEE Transactions on Signal Processing, 69, 1811-1827. https://doi.org/10.1109/TSP.2021.3063458

  6. 6. Duxnury, P.M., Granlund, L., Gujarathi, S.R., Juhas, P. and Billinge, S.J.L. (2016) The Unassigned Distance Geometry Problem. Discrete Applied Mathematics, 204, 117-132. https://doi.org/10.1016/j.dam.2015.10.029

  7. 7. Donoho, D.L. (2000) High-Dimensional Data Analysis: The Curs-es and Blessings of Dimensionality. Math Challenges Lecture, 1-32. https://www.researchgate.net/publication/220049061_High-Dimensional_Data_Analysis_The_Curses_and_Blessings_of_Dimensionality

  8. 8. Tibshirani, R. (1996) Regression Shrinkage and Selection via the Lasso. Journal of the Roy-al Statistical Society Series B: Statistical Methodology, 58, 267-288. https://doi.org/10.1111/j.2517-6161.1996.tb02080.x

  9. 9. Fan, J. and Li, G. (2011) Variable Selection via Noncon-cave Penalized Likelihood and Its Oracle Properties. Journal of the American Statistical Association, 96, 1348-1360. https://doi.org/10.1198/016214501753382273

  10. 10. Zhang, C.H. (2010) Nearly Unbiased variable Selection under Minimax Concave Penalty. The Annals of Statistics, 38, 894-942. https://doi.org/10.1214/09-AOS729

  11. 11. Huang, J., Horowitz, J.L. and Ma, S. (2008) Asymptotic Properties of Bridge Estimators in Sparse High-Dimensional Regres-sion Models. The Annals of Statistics, 36, 587-613. https://doi.org/10.1214/009053607000000875

  12. 12. Fan, J., Kong, L., Wang, L. and Xiu, N. (2018) Variable Selection in Sparse Regression with Quadratic Measurements, Statistica Sinica, 28, 1157-1178. https://doi.org/10.5705/ss.202015.0335

  13. 13. Candes, E.J., Li, X. and Soltanolkotabi, M. (2015) Phase Retrieval via Wirtinger Flow: Theory and Algorithms. IEEE Transactions on Information Theory, 61, 1985-2007. https://doi.org/10.1109/TIT.2015.2399924

  14. 14. Cai, T., Li, X. and Ma, Z. (2016) Optimal Rates of Convergence for Noisy Sparse Phase Retrieval via Thresholded Wirtinger Flow. The Annals of Statistics, 44, 2221-2251. https://doi.org/10.1214/16-AOS1443

  15. 15. Zhang, C. and Zhang, T. (2012) A General Theory of Concave Regular-ization for High-Dimensional Sparse Estimation Problems. Statistical Science, 27, 576-593. https://doi.org/10.1214/12-STS399

  16. NOTES

    *通讯作者。

期刊菜单