Advances in Applied Mathematics
Vol. 12  No. 01 ( 2023 ), Article ID: 60960 , 16 pages
10.12677/AAM.2023.121032

基于预测校正算法的Spike and Slab Lasso逻辑回归模型

齐琪,张齐*

青岛大学,山东 青岛

收稿日期:2022年12月28日;录用日期:2023年1月24日;发布日期:2023年1月31日

摘要

尽管Spike and Slab方法广泛应用于贝叶斯变量选择,但其惩罚似然估计的潜力在很大程度上被忽视了。通过在贝叶斯模态中引入惩罚化似然观点,本文提出了新的Spike and Slab Lasso逻辑回归模型,将两个拉普拉斯密度的混合先验置于单个坐标上,可以自适应地收缩系数,即弱收缩重要预测量,强收缩不相关预测量,从而可以得到准确的估计和预测。同时,我们使用了预测–校正算法来求解Spike and Slab Lasso逻辑回归模型,并将该算法扩展到不可分离惩罚的情况。该算法利用凸优化的预测校正算法,沿着整个正则化路径有效的计算解,方便了模型选择,避免了正则化参数值不同时的独立优化。最后,模拟学习和实证结果表明本文所提模型比Lasso逻辑回归模型具有更优的性能。

关键词

Spike and Slab Lasso,逻辑回归,惩罚似然,预测校正算法,贝叶斯先验

The Spike and Slab Lasso Logistic Regression Model Based on Prediction Correction Algorithm

Qi Qi, Qi Zhang*

Qingdao University, Qingdao Shandong

Received: Dec. 28th, 2022; accepted: Jan. 24th, 2023; published: Jan. 31st, 2023

ABSTRACT

Although the Spike and Slab method is widely used in Bayesian variable selection, its potential for penalized likelihood estimation is ignored. By introducing the penalized likelihood into the Bayesian case, this paper proposes a new Spike and Slab Lasso logistic regression model, which places the mixed priors of two Laplace densities on a single coordinate, and can adaptively adjust the shrinkage coefficient, that is, the weak shrinkage important predictor and the strong shrinkage irrelevant predictor, so that accurate estimation and prediction can be obtained. At the same time, we use the prediction-correction algorithm for the Spike and Slab Lasso logistic regression model, and extend the algorithm to the case of non-separable penalty. The algorithm uses the prediction correction algorithm of convex optimization to effectively calculate the solution along the entire regularization path, which facilitates model selection and avoids independent optimization when the regularization parameter values are different. Finally, the simulation learning and empirical results show that the proposed model has better performance than lasso logistic regression model.

Keywords:Spike and Slab Lasso, Logistic Regression, Penalized Likelihood, Predictor-Corrector Algorithm, Bayesian Prior

Copyright © 2023 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

随着现代科技的飞速发展,空前规模的大数据,如基因和蛋白质组学数据,经济学和金融中的面板数据等,在当代的许多应用中遇到。在这些应用中,维数p可以与样本容量n相当,甚至比n大得多,这使得惩罚稀疏模型很适合分析这些数据,自从Tibshirani提出lasso [1] 以来,高维环境中变量选择的惩罚回归已经吸引了相当多的学者 [2] [3]。lasso和它的延伸是变量选择中常用的方法,这些方法对系数施加 l 1 惩罚,惩罚的似然可以通过极快的优化算法来解决,例如LARS和循环坐标下降算法 [4] [5]。然而,lasso对所有系数使用单一惩罚,因此可以包括许多无关的预测因子,或过度收缩大系数。理想的方法是在大效应时诱导弱收缩,在不相关效应时诱导强收缩。几乎所有的回归都容易受到两个问题的影响:过度拟合和多重共线性。前者,参数优化到统计噪声,而不是适合的兴趣关系;后者,协变量组相互关联,致其难以识别个别影响,这些问题在高维协变量集的分析中尤其突出。一种流行的策略是具有先验分布的贝叶斯方法,通过在回归系数上放置某种先验,将系数缩小到零,这提高了模型的稳定性,并防止过拟合。特别地,一种吸引人的选择是对每个回归系数使用拉普拉斯先验分布,该回归系数对应目标函数中的一个 l 1 惩罚,因此具有拉普拉斯先验分布的贝叶斯回归模型的MAP估计等价于Lasso回归的估计。在缺乏有力证据的情况下,拉普拉斯先验分布产生了精确的 β j = 0 和对应于重要变量的子集的非零 β j 的惩罚点估计。通过这种方式,使用 l 1 惩罚自然允许变量选择,其中只有协变量的子集被选择为对结果变量具有实质性预测作用。

也有人提出了变量选择的Spike and Slab方法 [6],该方法直接产生于概率的考虑,涉及到线性回归的参数和模型空间上的设计先验层次。Gibbs抽样 [7] 用于识别具有高后验概率的有希望的模型,先验的选择通常是棘手的,尽管经验贝叶斯方法可以用来处理这个问题 [8]。最早的关于连续Spike and Slab先验的理论分析之一是由Ishwaran和Rao在2005年进行的 [9],作者提出并研究了一类连续的双峰先验(两点student-t混合),建立了后验均值对变量选择和多组分类的拟oracle误分类性能,并创造了“选择性收缩”一词来表示后验均值的渐近行为。到了2011年,Ishwaran和Rao在非正交低维设计的假定下进一步建立了两点高斯混合下后验均值的oracle性质 [10]。在另一个发展中,Narisetty和He在2014年在协变量数目分散的更一般设计中建立了高斯混合先验下贝叶斯因子的模型选择一致性 [11]。后来,到了2017年,V. Rockova和E. I. George在单变量线性回归背景下引入了一种新的稀疏正态均值框架 [12],弥补了常用的频率主义策略(Lasso)和常用的贝叶斯策略(Spike and Slab)之间的差距,介绍了拉普拉斯先验和点质量的Spike and Slab先验之间的连续统一体——Spike and Slab Lasso (SSL)先验。在高维回归的背景下释放了由连续SSL先验产生的惩罚函数的潜力,超越了独立先验的框架。到了2018年,V. Rockova又在另一篇文章中证明了SSL全局后验模式在平方误差损失下是(接近)最大最小速率最优的 [13],与Lasso相似。同时还证明了整个后验与全局模式保持同步,并集中(近似)于极大极小率,这是一致的单一拉普拉斯先验不具备的性质,利用适当的一类独立积先验(针对已知的稀疏度)和依赖的混合先验(针对未知的稀疏度),可以获得极小极大速率的运算性。2020年,Ray Bai等人在SSL的基础上考虑了协变量的组结构 [14],引入了Spike and Slab Group Lasso (SSGL)用于分组变量线性回归中的贝叶斯估计和变量选择,并进一步将SSGL扩展到稀疏广义可加模型。然而,SSL、SSGL和以往的大多数方法都是基于正态线性模型发展起来的,不能直接应用于其他模型,因此,将混合拉普拉斯先验的高维方法扩展到常规线性模型之外的框架为方法学和应用研究提供了重要的新方向 [15] [16]。

本文章节安排如下:在第2节中,我们介绍了Spike and Slab Lasso (SSL)逻辑回归模型,展示了如何将SSL方法应用于逻辑模型;在第3节中,我们介绍了预测–校正算法,并利用该算法求解Spike and Slab Lasso逻辑回归模型;第4节将逻辑回归模型下的SSL方法扩展到不可分离情况,并相应的将预测–校正算法扩展到不可分离情况;在第5节中,我们使用仿真实验来验证所提出的Spike and Slab Lasso方法,并与常见的Lasso方法进行比较。在第6节中,我们利用了南非心脏病数据来说明SSL逻辑回归模型的使用,建立了南非西开普省地区缺血性心脏病危险因素的强度,通过报告预测效果的均方误差(MSE),曲线下面积(AUC)和误判率(misclassification),证实了该方法的可行性与有效性。最后在第7节中对本文进行了总结。

2. Spike and Slab Lasso

2.1. 经典线性Spike and Slab Lasso模型

对于以下线性模型

Y = X β 0 + ε (1)

其中Y为n维响应变量, X n × p = ( X 1 , , X p ) 是固定的p个潜在预测的回归矩阵, β 0 = ( β 01 , , β 0 P ) 是未知的p维回归系数向量, ε ~ N n ( 0 , σ 2 I P ) 为噪声向量。一般的Spike and Slab Lasso先验是这样的形式:

π ( β | γ ) = i = 1 P [ γ i φ 1 ( β i ) + ( 1 γ i ) φ 0 ( β i ) ] , γ ~ π ( γ ) (2)

其中 γ = ( γ 1 , , γ P ) γ i { 0 , 1 } 是二进制向量的中间向量,索引 2 P 个可能的模型。这里, φ 0 ( β ) 作为建模无关(零)系数的Spike分布, φ 1 ( β ) 作为建模大效应的Slab分布。对于Spike and Slab Lasso (SSL),在上面的特殊变式(2)中引入拉普拉斯密度,即 φ 0 ( β ) = λ 0 2 e λ 0 | β | φ 1 ( β ) = λ 1 2 e λ 1 | β | 。则在稀疏正态均值的背景下,这些拉普拉斯分布的两点混合将被称为Spike and Slab Lasso (SSL)先验。模型空间 π ( γ ) 的灵活性极大地扩大了这些先验的范围,对我们来说,我们集中注意力于可交换的模型空间先验形式:

π ( γ | θ ) = j = 1 P θ γ j ( 1 θ ) 1 γ j , θ ~ π ( θ ) (3)

其中 θ = P ( γ i = 1 | θ ) 为较大的 β 0 j 的先验期望分数。在 θ 条件下,SSL先验(2)可归结为混合物的独立乘积:

π ( β | θ ) = i = 1 P [ θ φ 1 ( β i ) + ( 1 θ ) φ 0 ( β i ) ] (4)

其中 θ ( 0 , 1 ) 为混合比例。SSL先验是将两个拉普拉斯密度的混合先验置于单个坐标 β j 上。选择一个质点峰值 φ 0 ( β j ) = I ( β j = 0 ) ,(当 λ 0 时获得), φ 1 ( β j ) C > 0 (当 λ 1 0 时获得), log π ( β | θ ) 坍缩为 l 0 惩罚;在另一端,选择 φ 1 ( β j ) = φ 0 ( β j ) 产生参数 λ 1 = λ 0 的lasso惩罚。因此,SSL先验的一个特征是它们能够在这两种处理中间形成非凹连续体。

2.2. 正则化逻辑回归

当响应变量为二元时,通常采用线性逻辑回归模型,设数据集为 D = { ( x 1 , y 1 ) , , ( x i , y i ) , , ( x n , y n ) } ,其中 X R n × p 是数据矩阵,其中p是特征(参数或属性)的数量 [17],对于每个 x i R p ,y是二进制结果向量,结果是 y i = 0 y i = 1 ,逻辑回归模型通过预测因子的线性函数来表示类条件的期望:

E ( y i = 1 | x i , β ) = p i = e β 0 + x i β 1 + e β 0 + x i β = 1 1 + e ( β 0 + x i β ) , i = 1 , , n

Logit变换是响应为1的概率的对数,定义为:

η i = g ( p i ) = log p i 1 p i = β 0 + x i β

在矩阵形式下,logit转换函数表示为:

η = X β

Logit转换函数很重要,因为它是线性的,故具有线性回归模型的许多特性,在逻辑回归中,函数 g ( · ) 也称为正则链接函数。现在,假设观测值是独立的,则似然函数为:

L ( β ) = i = 1 n ( p i ) y i ( 1 p i ) 1 y i = i = 1 n ( e β 0 + x i β 1 + e β 0 + x i β ) y i ( 1 1 + e β 0 + x i β ) 1 y i (5)

因此,对数似然函数为

l ( β ) = i = 1 n ( y i log ( e β 0 + x i β 1 + e β 0 + x i β ) + ( 1 y i ) log ( 1 1 + e β 0 + x i β ) ) (6)

已经有学者证明了逻辑回归的极大似然估计量满足极大似然的期望性质 [18],但不幸的是,关于 β 最大化 l ( β ) 没有封闭解。因此,逻辑回归的极大似然估计是通过数值优化方法得到的,在本文中,使用了预测–校正算法,该算法在预测步中使用交替方向法得到预测点,然后对得到的部分预测点进行校正,从而保证了算法的收敛性。

2.3. 逻辑回归的可分离SSL惩罚

我们的方案的一个关键因素是利用Spike and Slab Lasso模态估计(变量选择程序的基础)和广义Lasso估计之间的联系,一个重要的第一步是理解可分离的SSL惩罚的结构。假设混合比例 θ 是固定的,这简化了SSL惩罚的操作,因为它是可根据 θ 条件分离的,即此时 β j 具有条件独立的先验,这导致了可分离的SSL惩罚。

定义1:给定 θ ( 0 , 1 ) ,可分离SSL惩罚被定义为:

p e n s ( β | θ ) = log [ π ( β | θ ) π ( 0 p | θ ) ] = i = 1 p log [ θ φ 1 ( β j ) + ( 1 θ ) φ 0 ( β j ) θ φ 1 ( 0 ) + ( 1 θ ) φ 0 ( 0 ) ] (7)

为了便于惩罚操作,我们将其居中,使 p e n s ( 0 p | θ ) = 0 。由于 β θ 的条件无关,惩罚函数由单次函数建立:

p ( β j | θ ) = λ 1 | β j | + log [ p θ ( 0 ) p θ ( β j ) ] (8)

p e n s ( β | θ ) = j = 1 p p ( β j | θ ) = λ 1 | β | + j = 1 p log [ p θ ( 0 ) p θ ( β j ) ] (9)

其中

p θ ( β j ) = θ φ 1 ( β j ) θ φ 1 ( β j ) + ( 1 θ ) φ 0 ( β j ) (10)

描述(9)将可分离的SSL惩罚写成Lasso惩罚和非凹惩罚的自适应和,使其最终是非凹的。与在 | β j | λ 中都是线性的Lasso惩罚不同,SSL惩罚是 | β j | ( λ 0 , λ 1 , θ ) 的非线性函数,尽管有明显的差异,但两个惩罚之间具有一定的联系,求导后,这个联系就暴露出来了,导数对应于一个隐偏差项,在估计中起着至关重要的作用,因此我们有以下引理:

引理1:可分离的SSL惩罚满足:

p e n s ( β | θ ) | β j | λ θ ( β j ) (11)

其中,

λ θ ( β j ) = λ 1 p θ ( β j ) + λ 0 [ 1 p θ ( β j ) ] (12)

另一方面,拉普拉斯先验求导为: | β j | log φ ( β j | λ ) = λ 。因此SSL偏差项是两个Lasso偏差项的凸组合,重要的是,这种组合是有适应性的,因为 p θ ( β j ) 依赖于 β j ,这是Spike and Slab惩罚的独特特征,它对每个系数分别加权Spike和Slab的贡献。与之形成鲜明对比的是,无论系数大小如何,Lasso惩罚对每个系数的偏差都是相同的,这通常是收缩和偏差之间冲突的根源, λ θ ( β j ) 的额外灵活性极大地缓解了这种冲突。

λ θ ( β j ) 是一个自适应的线性组合,由 p θ ( β j ) 加权,影响较大的系数 p θ ( β j ) 接近1并且收缩的更小,这是因为 λ θ ( β j ) 主要由 λ 1 驱动,为了避免过度收缩, λ 1 被设置的很小。影响较小的系数则相反,它们具有较小的包含概率,因此 λ θ ( β j ) 被较大的惩罚 λ 0 所接管,也就是说,当 | β j | 较大时,倾向于收缩少量,当 | β j | 较小时,倾向于收缩大量,这是SSL估计器背后选择性收缩特性的一种表现。混合比例 p θ ( β j ) 可以看做条件包含概率 p ( γ i = 1 | β i , θ ) ,从而有:

p θ ( β j ) = p ( γ i = 1 | β i , θ ) = 1 1 + 1 θ θ λ 0 λ 1 exp [ | β i | ( λ 0 λ 1 ) ]

3. 预测校正算法

预测校正算法是实现数值延拓的基本策略之一 [19]。在许多方法中,预测校正算法通过实用初始条件(参数一个极值的解)显式的求出一系列解,并根据当前解继续求出相邻解,我们详细说明了如何使用预测校正算法跟踪曲线 H ( β , λ θ ) = 0 到我们的问题设置。为了找到 β = ( β 0 , β ) ,我们的准则使用 λ θ 从一个固定的值开始减少,这等价于最小化以下问题:

l ( β , λ θ ) = { i = 1 n [ y i log ( p i ) + ( 1 y i ) log ( 1 p i ) ] p e n s ( β | θ ) } (13)

假设 β 的分量全都不为0,且 l ( β , λ θ ) 关于 β 可导,定义函数H为:

H ( β , λ θ ) = l β = X T ( y p ) + λ θ ( β ) S g n ( 0 β ) (14)

其中假设 β 的所有分量都不为零,X是 n × ( p + 1 ) 阶矩阵,包括列为1。即使已经假设了 β 的所有分量都不为零,但 β 的非零分量集随 λ θ 的变化而变化, λ θ 中, λ 1 ( 0 , ) λ 2 是很小的,固定的正常数, θ ( 0 , 1 ) 是给定的。令 β ^ 表示可分离SSL惩罚 p e n s ( β | θ ) 下的全局后验模式,即

β ^ ( λ θ ) = arg min β R p { i = 1 n [ y i log p i + ( 1 y i ) log ( 1 p i ) ] p e n s ( β | θ ) } (15)

引理2: β ^ = ( β ^ 1 , , β ^ p ) p e n s ( β | θ ) 下的全局后验模式(15)的KKT条件为:

X j ( y p ^ ) = λ θ ( β ^ j ) s i g n ( β ^ j ) for β ^ j 0 j = 1 , , p (16)

| X j ( y p ^ ) | λ θ ( β ^ j ) for β ^ j = 0 j = 1 , , p (17)

对于任意 j = 1 , , p ,当 β ^ j = 0 时,KKT条件暗示了 1 ( y p ^ ) = 0 ,即

p ^ = y ¯ 1 = g 1 ( β ^ 0 ) 1 (18)

引理3:当 λ θ 超过某个阈值时,截距是唯一的非零系数,即

β ˜ 0 = g ( y ¯ ) ,且 H ( ( β ^ 0 , 0 , , 0 ) , λ θ ) = 0 对于 λ θ > max j { 1 , , p } | x j ( y y ¯ 1 ) |

我们把 λ θ 的这个阈值表示为 λ θ , max ,从变量 j 0 = arg max j | x j ( y y ¯ 1 ) | 开始,随着 λ θ 的进一步减少,其他变量加入活动集。从 λ θ , max 开始减少 λ θ ,我们在预测步和校正步之间交替,第k次迭代的步骤如下:

1) 步长:确定下降量 λ θ ,给定 λ θ , k ,我们近似第二大 λ θ ,其中活动集发生变化,命名为 λ θ , k + 1

2) 预测步:用 λ θ 的下降量线性近似 β 的相应改变,称为 β ^ k +

3) 校正步:找到 β 中和 λ θ , k + 1 配对的精确解(即 β ( λ θ , k + 1 ) ),用作为初始值,称为 β ^ k + 1

4) 活动集:测试以查看当前活动集是否必须是改进的,如果是,用更新后的活动集重复校正步。

3.1. 预测步

定义 f ( λ θ ) = H ( β ( λ θ ) , λ θ ) ,则在第k个预测步中,在生成的当前活动集的范围内, f ( λ θ ) 对于所有的 λ θ 都是0,通过对 f ( λ θ ) 关于 λ θ 求导有 f ( λ θ ) = H λ θ + H β β λ θ = 0 ,从上式我们计算 β λ θ ,有

β λ θ = ( H β ) 1 H λ θ = ( X A W k X A ) 1 S g n ( 0 β ^ k ) (19)

其中W是n阶对角阵,元素为 p i ( 1 p i ) , i = 1 , , n W k X A 表示当前活动集中X的列。从而在第k个预测步中, β ( λ θ , k + 1 ) 被近似通过

β ^ k + = β ^ k + ( λ θ , k + 1 λ θ , k ) β λ θ = β ^ k ( λ θ , k + 1 λ θ , k ) ( X A W k X A ) 1 S g n ( 0 β ^ k ) (20)

上式中 β 仅由当前非零系数组成,这种线性化相当于对对数似然进行二次逼近,并通过加权Lasso步骤来扩展当前解 β ^ k 。下列定理说明,预测步近似可以通过使 ( λ θ , k λ θ , k + 1 ) 小来任意接近真实解。

定理1:令 h θ , k = λ θ , k λ θ , k + 1 ,假设 h θ , k 足够小,活动集在 λ θ = λ θ , k λ θ = λ θ , k + 1 是相同的,则近似解 β ^ k + 和真实解 β ^ k + 1 O ( h θ , k 2 ) 的区别。

证明:因为 β λ θ = ( X A W k X A ) 1 S g n ( 0 β ^ k ) 是连续可微的对于 λ θ ( λ θ , k + 1 , λ θ , k ]

β ^ k + 1 = β ^ k h θ , k β λ θ | λ θ , k + O ( h θ , k 2 ) = β ^ k + + O ( h θ , k 2 )

3.2. 校正步

在第k次校正步中,我们使用先前的预测步中的近似作为初始值来计算精确解 β ( λ θ , k + 1 )

定理2:如果将在 λ θ , k λ θ , k + 1 = λ θ , k h θ , k 处的解记为 β ^ k β ^ k + 1 ,他们被连接,使得对某个 α [ 0 , 1 ] ,在 λ θ = λ θ , k α h θ , k 处,我们的估计为:

β ^ ( λ θ α h θ , k ) = β ^ k + α ( β ^ k + 1 β ^ k ) (21)

β ^ ( λ θ α h θ , k ) 和真实解 β ( λ θ α h θ , k ) O ( h θ , k ) 的区别。

证明:因为 β λ θ 是连续可微的对于 λ θ ( λ θ , k + 1 , λ θ , k ] ,则下式成立:

β ^ ( λ θ α h θ , k ) = β ^ k α h θ , k ( β ^ k + 1 β ^ k h θ , k ) = β ^ k α h θ , k β λ θ | λ θ k + O ( h θ , k 2 )

类似的,在 λ θ = λ θ , k α h θ , k 处的真实解为:

β ( λ θ α h θ , k ) = β ^ k α h θ , k β λ θ | λ θ , k + O ( h θ , k 2 )

3.3. 活动集

活动集A从引理3中的截距开始,在每个校正步之后,应用下面的检查程序去检查A是否应该被扩充:

| X j T ( y p ) | > λ θ ( β ) ,对于任意 j A AA{ j }

我们用改进后的活动集重复校正步直到活动集不再扩充。然后我们从活动集中删除带有零系数的变量,即 | β ^ j | = 0 对于任意 j A AA\{ j }

KKT最优条件(16)~(17)暗示了 β ^ j 0 | X j ( Y P ^ ) | = λ θ ( β ^ j ) ,结合(16)式和(18)式,我们有以下引理:

引理4:令 p ^ 是y的来自一个校正步的估计, c ^ 表示因子和当前残差相关权重:

c ^ = X ( y p ^ ) (22)

A中各因子(除截距外)的绝对相关系数为 λ θ ,而 A c 中各因子的值小于 λ θ 。也就是说,在每个校正步之后,如果对于任意 l A c | c ^ l | > λ θ ,我们通过增加 x l 来扩大活动集。直到活动集不再进一步扩大,校正步停止重复。如果对于任意 l A β ^ l = 0 ,则我们从活动集中估计 x l

3.4. 步长

如果 λ θ = 0 ,算法停止,如果 λ θ > 0 ,我们在 λ θ 中近似最小的减量,活动集将会被改进。随着 λ θ 减少 h θ ,变化量表示为a,在当前校正步的近似变化量如下:

c ( h θ ) = c ^ h θ ( a ) = c ^ h θ X W ^ X A ( X A W ^ X A ) 1 S g n ( 0 β ^ ) (23)

其中 h θ > 0 λ θ 中给定的减少量,对于A中的因子,a的值为 S g n ( 0 β ^ ) 的值,求 A c 的任意因子与A中任意因子的绝对相关系数相同的 h θ ,我们解以下方程:

| c j ( h θ ) | = | c ^ j h θ a j | = λ θ h θ , j A c (24)

方程给出了 λ θ 中的步长估计为

h θ = min + j A c { λ θ c ^ j 1 a j , λ θ + c ^ j 1 + a j } (25)

另外,检查活动集中是否有变量在 λ θ 减少 h θ 之前达到0,我们解出方程:

β j ( h ˜ θ ) = β ^ j + h ˜ θ ( X A W ^ X A ) 1 S g n ( 0 β ^ ) = 0 , j A (26)

j A 0 < h ˜ θ < h θ ,我们期望相应的变量在任何其他变量加入活动集之前被消去,因此 h ˜ θ 而不是 h θ 作为下一个步长。

4. 不可分离情况

如前所述,惩罚由参数 ( λ 0 , λ 1 , θ ) 的三元组索引,它们串联工作以产生理想的性质。在整篇论文中,我们假设 λ 1 被设为一个很小的值,因此不需要调谐,两个参数 ( λ 0 , θ ) 将驱动惩罚的性能,它们的调谐将是最重要的。在可分离情况中,我们假设 θ ( 0 , 1 ) 是给定的,然而 θ 控制着大系数的期望比例,在缺乏真稀疏度水平q的先验信息的情况下,任意预先指定 θ 可能会无意识的高估\低估真稀疏度分数q/p,从而影响性能。

本节采用贝叶斯策略,赋予 θ 一个合适的先验 θ ~ π ( θ ) ,使惩罚可以在不需要设置 θ 接近q/p的情况下,实现一定的自适应和升压性能。假设 π ( θ ) 是一个一般的先验, β 中的坐标是根据 π ( θ ) 的边际相依分布的。

π ( β ) = 0 1 j = 1 p [ θ φ 1 ( β j ) + ( 1 θ ) φ 0 ( β j ) ] π ( θ ) d θ = ( λ 1 2 ) p e λ 1 | β | 0 1 θ p j = 1 p p θ * ( β j ) π ( θ ) d θ (27)

重写(27)作为惩罚函数,我们得到以下不可分离的SSL惩罚变量。

4.1. 不可分离SSL惩罚

定义2:不可分离的Spike and Slab Lasso (NSSL)惩罚在 θ ~ π ( θ ) 下定义为:

p e n N S ( β ) = log [ π ( β ) π ( 0 p ) ] = λ 1 | β | + log [ θ p j = 1 p p θ * ( β j ) π ( θ ) d θ θ p j = 1 p p θ * ( 0 ) π ( θ ) d θ ] (28)

再一次,我们把惩罚中心化,使 p e n N S ( 0 ) = 0 。将(28)与(11)相比,NSSL惩罚仍然是(可分离的) Lasso部分和非凹部分的相加组成,但现在非凹部分将是不可分的。一般来说,(28)中的积分没有一个封闭形式的解,这似乎使惩罚的可处理型变得复杂化了,然而,当意识到先验(内含偏差项)的得分函数可以写成简单且非常直观的形式后,操作就变得非常简单了,这种形式出现在下面引理5的不可分离类比中。令 β \ j 表示去掉第j个分量之外的其余分量所组成的 β 的子向量。

引理5:不可分离的Spike and Slab Lasso惩罚(28)的导数满足:

p e n N S ( β ) | β j | λ * ( β j ; β \ j ) (29)

其中,

λ * ( β j ; β \ j ) = p * ( β j ; β \ j ) λ 1 + [ 1 p * ( β j ; β \ j ) ] λ 0 (30)

p * ( β j ; β \ j ) 0 1 p θ * ( β j ) π ( θ | β ) d θ (31)

我们现在稍微停顿一下,来看(30)和(12)的区别,不可分离惩罚的混合概率为 p θ ( · ) π ( θ | β ) 上平均得到的聚合概率 p * ( β j ; β \ j ) 。正是通过这种平均,惩罚才有机会了解 β 的稀疏水平。对不可分离惩罚的初步认识表明,它的自适应机制通过条件分布在概率域内运行,这一点在可分离惩罚中完全缺失了。由于 p θ * ( β j ) θ 的非线性函数,因此在(17)中撇去 θ 对平均混合权重 p θ * ( β j ; β \ j ) 的影响尚不明显。这个谜题在以下引理中展开,它为NSSL惩罚的实施和理论研究提供了简化。

引理6:给定 β p 以及先验 π ( θ ) ,则有:

p * ( β j ; β \ j ) = p θ j * ( β j ) (32)

其中,

θ j = E [ θ | β \ j ] (33)

上述引理的意义在于,通过简单的代入 θ = E [ θ | β \ j ] ,我们可以将对可分离情形的认识转化为不可分离情形的认识,上述两个式子也说明了完全贝叶斯公式如何将概率意义赋予NSSL惩罚元素。

4.2. 自适应权重

我们现在考虑条件均值 E [ θ | β ^ \ j ] 的形式,当p充分大时,后验期望 E [ θ | β ^ \ j ] 将非常相似且接近于 E [ θ | β ^ ] 。对于 θ 的先验,我们将使用标准beta先验 θ ~ B ( a , b ) 。现在我们检验条件分布 π ( θ | β ^ ) ,这种条件分布将受到非零系数 q ^ = β 0 的数量及其大小的影响。假设 β ^ 中的前 q ^ 项是非零的,这个分布的密度为:

π ( θ | β ^ ) θ a 1 ( 1 θ ) b 1 ( 1 θ z ) p q ^ j = 1 q ^ ( 1 θ x j ) (34)

其中, z = 1 λ 1 λ 0 x j = ( 1 λ 1 λ 0 e | β ^ j | ( λ 0 λ 1 ) ) 。这个分布是高斯超几何分布的一种推广,归一化常数写为多变量超几何函数的欧拉积分表示,因此它的期望可以写成:

E [ θ | β ^ ] = 0 1 θ a ( 1 θ ) b 1 ( 1 θ z ) p q ^ j = 1 q ^ ( 1 θ x j ) d θ 0 1 θ a 1 ( 1 θ ) b 1 ( 1 θ z ) p q ^ j = 1 q ^ ( 1 θ x j ) d θ (35)

虽然上面的表达式(35)似乎很难计算,但当 λ 0 非常大时,它可以有一个简单的多的形式,根据 [12],我们在引理7中获得了这个简单得多的形式:

引理7:假设 π ( θ | β ^ ) 是根据 π ( θ | β ^ ) θ a 1 ( 1 θ ) b 1 ( 1 θ z ) p q ^ j = 1 q ^ ( 1 θ x j ) 来分布的。令 q ^ = β ^ 0 ,当 λ 0 时,

E [ θ | β ^ ] = a + q ^ a + b + G (36)

我们注意到这个表达式本质上是在beta先验下的 θ 的通常的后验均值。直观的说,当 λ 0 发散时,权重 p θ ( β j ) 集中在0和1处,得到熟悉的 E ( θ | β ^ ) 的形式。

4.3. 不可分离情况的预测校正算法

在本节中,我们将预测–校正算法扩展到不可分离惩罚的情况。具有不可分离惩罚的逻辑回归模型通过最小化下列损失函数来寻找系数:

l ( β , λ θ j * ) = { i = 1 n [ y i log ( p i ) + ( 1 y i ) log ( 1 p i ) ] p e n N S ( β ) } (37)

l ( β , λ θ j * ) 关于 β 的一阶导和二阶导函数分别如下所示:

H ( β , λ θ j * ) = l β = X T ( y p ) + λ θ j * ( β ) S g n ( 0 β ) (38)

H β = 2 l β β = X W X (39)

其中W是n阶对角阵,元素为 W i i = p i ( 1 p i ) , i = 1 , , n 。在贝叶斯框架中,通过将 θ 作为一个附加的模型参数,可将预测–校正算法扩展到不可分离惩罚的情况,现在只需要通过算法来更新 θ ,而不是使用 θ 的固定值。因此,在第k次迭代中,使用 θ = θ ( k ) 来更新 β ( k + 1 ) ,其中是 θ 的第k次迭代值,是在引理7中得到的。

5. 模拟学习

在本节中,我们使用仿真实验来验证所提出的Spike and Slab Lasso方法,并与常见的Lasso方法进行比较。我们模拟了两个数据集,用第一个数据集作为训练数据来拟合模型,第二个数据集作为测试数据来评估预测值,对于每个模拟设置,我们重复模拟50次,并总结这些重复的结果。

我们使用所提出的SSL逻辑回归方法分析了每个模拟数据集,并与Lasso逻辑回归方法进行了对比,以说明我们的方法相比Lasso方法的优越性。对于Lasso方法,我们通过十折交叉验证选择λ的最优值,λ决定了最优的Lasso,我们还报告了最优的Lasso模型的结果(见图1)。

对于每个数据集,令 n = 100 p = 1000 ,我们从多元高斯分布中生成一个数据矩阵X,均值为 0 p Σ = ( σ i j ) i , j = 1 p ,其中当 i j 时, σ i j = 0.6 ,否则, σ i i = 1 。真向量 β 0 通过指定回归系数 1 3 { 2.5 , 2 , 1.5 , 1 , 1 , 1.5 , 2 , 2.5 } q = 8 个随机方向,其余系数设为0,响应由 N ( η i , 1.6 2 ) 生成,其中 η i = β 0 + j = 1 m x i j β j 。我们考虑以下三种设置,其均方误差(MSE)图分别见图2图3图4

1) 非自适应选择 θ = 0.5 ,明显高估了真稀疏分数8/1000;

2) 非自适应oracle选择 θ = 8 / 1000

3) 自适应选择 θ ~ B ( 1 , 1000 )

Figure 1. Estimator of the Lasso coefficient. The vertical lines in the figure correspond to the best Lasso model (cross validation)

图1. Lasso系数的估计值。图中的垂直线对应最佳Lasso模型(交叉验证)

Figure 2. The MSE in case 1

图2. 设置1情况下的MSE

Figure 3. The MSE in case 2

图3. 设置2情况下的MSE

Figure 4. The MSE in case 3

图4. 设置3情况下的MSE

Table 1. Comparison of MSE between three Settings and Lasso under different values of Lambda0

表1. Lambda0的不同取值下,三种设置和Lasso情况的MSE对比

表1可以看出,在n = 100,p = 1000的设置下,设置3是最优的,其次是设置2,因为设置2是系数的真实稀疏度。说明当我们设置权重θ自适应于数据时,我们的模型能更好的适应数据的稀疏性。上述表中结果也表明SSL逻辑回归方法与Lasso进行比较时表现良好。

6. 南非心脏病数据集

在这里,我们提出了一个二元数据的分析,以说明SSL逻辑回归模型的使用效果。图5中的数据是冠状动脉危险因素研究(CORIS)基线调查的一个子集,该调查在南非西开普省的三个农村地区进行。该研究的目的是建立该高发地区缺血性心脏病危险因素的强度。数据代表15~64岁的白人男性,响应变量为调查时是否存在心肌梗死(MI),(该地区MI的总体患病率为5.1%)。在我们的数据集中有160个病例以及302个对照样本。

图5是南非心脏病数据的散点图矩阵。每个图显示一对风险因素,病例和对照用颜色编码(红色表示病例)。变量心脏病的家族史(famhist)是二元的(是或否)。使用疾病/非疾病变量,在不可分离惩罚的情况下,我们可以拟合一个SSL逻辑回归模型。系数的精确路径图在图6图8中给出。

Figure 5. Scatter plot matrix of heart disease data in South Africa

图5. 南非心脏病数据的散点图矩阵

Figure 6. Exact path set of coefficients, where the x-axis is the l1 norm of the coefficient, and the vertical discontinuity represents the modified position of the active set

图6. 系数的精确路径集,其中x轴为系数的l1范数,垂直间断表示活动集的修改位置

Figure 7. Exact path set of coefficients, where the x-axis is λ θ , and the vertical discontinuity represents the modified position of the active set

图7. 系数的精确路径集,其中x轴为 λ θ ,垂直间断表示活动集的修改位置

Figure 8. Exact path set of coefficients, where the x-axis is the number of steps, and the vertical discontinuity represents the modified position of the active set

图8. 系数的精确路径集,其中x轴为步骤数,垂直间断表示活动集的修改位置

Table 2. Comparison of three methods for Heart Disease Data in South Africa

表2. 南非心脏病数据使用三种方法的对比

对于该数据集,我们分别建立Spike and Slab Lasso逻辑回归模型和Lasso逻辑回归模型,并且均采用预测校正算法来求解,其中 λ 1 被设置为0.1, λ 0 由十折交叉验证获得,结果如表2所示。可以看出,尽管Lasso逻辑回归模型的步骤数少于SSL逻辑回归,但无论θ是否固定,SSL逻辑回归模型的MSE,Bias,AUC,Misclassification均优于Lasso逻辑回归。这正是因为(12)式,我们所提出的SSL逻辑回归模型是自适应于数据的。另外,可以看出,不可分离惩罚的情况下也就是 θ ~ B ( 1 , p ) 时,和可分离惩罚也就是 θ = 0.5 的情况相比,后者的误分类率略优于前者,而前者的MSE,Bias,AUC和步骤数均优于后者。该表说明了在心脏病数据集下spike and slab lasso方法的性能优于Lasso方法。

7. 结论

在本文中,我们提出了Spike and Slab Lasso逻辑回归模型,将两个拉普拉斯密度的混合先验置于单个坐标上,可以自适应地收缩系数,分别讨论了权重θ固定和不固定两种情况。当θ固定时,导致可分离的惩罚,当θ不固定时,令θ服从beta分布,此时导致不可分离的惩罚,并利用预测校正算法分别求解两种惩罚模型。在模拟学习和南非心脏病数据集的研究中,将这两种模型与Lasso逻辑回归模型做对比,说明了本文所提出的Spike and Slab Lasso逻辑回归模型的有效性。

基金项目

本文由国家社会科学基金项目(21BTJ045)资助。

文章引用

齐 琪,张 齐. 基于预测校正算法的Spike and Slab Lasso逻辑回归模型
The Spike and Slab Lasso Logistic Regression Model Based on Prediction Correction Algorithm[J]. 应用数学进展, 2023, 12(01): 292-307. https://doi.org/10.12677/AAM.2023.121032

参考文献

  1. 1. Tibshirani, R. (1996) Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58, 267-288. https://doi.org/10.1111/j.2517-6161.1996.tb02080.x

  2. 2. Hastie, T., Tibshirani, R. and Friedman, J. (2009) The Elements of Statistical Learning. Springer, New York, 33. https://doi.org/10.1007/978-0-387-84858-7

  3. 3. Wainwright, M. (2015) Statistical Learning with Sparsity: The Lasso and Generalizations. Chapman and Hall/CRC, London.

  4. 4. Efron, B., Hastie, T., Johnstone, I. and Tibshirani, R. (2004) Least Angle Regression. Annals of Statistics, 32, 407-499. https://doi.org/10.1214/009053604000000067

  5. 5. Friedman, J., Hastie, T. and Tibshirani, R. (2010) Regulariza-tion Paths for Generalized Linear Models via Coordinate Descent. Journal of Statistical Software, 33, 1-22. https://doi.org/10.18637/jss.v033.i01

  6. 6. George, E.I. and McCulloch, R.E. (1993) Variable Selection via Gibbs Sampling. Journal of the American Statistical Association, 88, 881-889. https://doi.org/10.1080/01621459.1993.10476353

  7. 7. Popovic, M. (2022) Strain Wars 4-Darwinian Evolution through Gibbs’ Glasses: Gibbs Energies of Binding and Growth Explain Evolution of SARS-CoV-2 from Hu-1 to BA.2. Virology, 575, 36-42. https://doi.org/10.1016/j.virol.2022.08.009

  8. 8. Chipman, H., George, E.I., McCulloch, R.E., Clyde, M., Foster, D.P. and Stine, R.A. (2001) The Practical Implementation of Bayesian Model Selection. IMS Lecture Notes-Monograph Series, 38, 65-134. https://doi.org/10.1214/lnms/1215540964

  9. 9. Ishwaran, H. and Rao, J.S. (2005) Spike and Slab Gene Selection for Multigroup Microarray Data. Journal of the American Statistical Association, 100, 764-780. https://doi.org/10.1198/016214505000000051

  10. 10. Ishwaran, H. and Rao, J.S. (2011) Consistency of Spike and Slab Regression. Statistics & Probability Letters, 81(12), 1920-1928. https://doi.org/10.1016/j.spl.2011.08.005

  11. 11. Narisetty, N.N. and He, X. (2014) Bayesian Variable Selection with Shrinking and Diffusing Priors. Annals of Statistics, 42, 789-817. https://doi.org/10.1214/14-AOS1207

  12. 12. Ročková, V. and George, E.I. (2018) The Spike-and-Slab Lasso. Jour-nal of the American Statistical Association, 113, 431-444. https://doi.org/10.1080/01621459.2016.1260469

  13. 13. Ročková, V. (2018) Bayesian Estimation of Sparse Signals with a Continuous Spike-and-Slab Prior. Annals of Statistics, 46, 401-437. https://doi.org/10.1214/17-AOS1554

  14. 14. Bai, R., Moran, G.E., Antonelli, J.L., Chen, Y. and Boland, M.R. (2020) Spike-and-Slab Group Lassos for Grouped Regression and Sparse Generalized Additive Models. Journal of the Ameri-can Statistical Association, 117, 184-197. https://doi.org/10.1080/01621459.2020.1765784

  15. 15. Hu, H.-Y., Wu, D., You, Y.-Z., Olshausen, B. and Chen, Y. (2022) RG-Flow: A Hierarchical and Explainable Flow Model Based on Renormalization Group and Sparse prior. Ma-chine Learning: Science and Technology, 3, Article ID: 035009. https://doi.org/10.1088/2632-2153/ac8393

  16. 16. Ji, Y. and Shi, H. (2022) Constrained Bayesian Doubly Elastic Net Lasso for Linear Quantile Mixed Models. Journal of Statistical Computation and Simulation, 92, 579-609. https://doi.org/10.1080/00949655.2021.1968398

  17. 17. Muhammedrisaevna, T.M., Shukrullaevich, A.F. and Bakhriddinovna, A.N. (2021) The Logistics Approach in Managing a Tourism Company. ResearchJet Journal of Analy-sis and Inventions, 2, 231-236.

  18. 18. Park, M.Y. and Hastie, T. (2007) L1-Regularization Path Algorithm for Generalized Linear Models. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 69, 659-677. https://doi.org/10.1111/j.1467-9868.2007.00607.x

  19. 19. Lim, M. and Hastie, T. (2015) Learning Interactions via Hierarchical Group-Lasso Regularization. Journal of Computational and Graphical Statistics, 24, 627-654. https://doi.org/10.1080/10618600.2014.938812

  20. NOTES

    *通讯作者。

期刊菜单