基于稳定相关系的超高维筛选研究 Feature Screening for Ultra-High Dimensional Data Based on Stable Correlation Coefficient

doi:10.12677/AAM.2021.1011400

Advances in Applied Mathematics
Vol. 10 No. 11 ( 2021 ), Article ID: 46422 , 6 pages
10.12677/AAM.2021.1011400

基于稳定相关系的超高维筛选研究

闫习

●How to Cite this Article

南京信息工程大学数学与统计学院，江苏南京

收稿日期：2021年10月9日；录用日期：2021年10月30日；发布日期：2021年11月11日

摘要

特征筛选是超高维数据分析中非常重要的一环，筛选降维过程的准确性将影响到后续的建模分析。针对稳定特征筛选方法(SC-SIS)的不足之处进行改进，基于稳定相关系数提出了适用于超高维无模型假设下稳健特征筛选方法(RSCS)，相比SC-SIS，该方法对数据中存在异常点或协变量服从重尾分布更有稳健性，从理论上证明了RSCS方法具有确定性筛选性质，并通过蒙特卡洛数值模拟和小鼠基因组数据验证了RSCS方法的有限样本性质。

关键词

超高维数据，稳定相关系数，确定性筛选性质，稳健性

Feature Screening for Ultra-High Dimensional Data Based on Stable Correlation Coefficient

Xi Yan

School of Mathematics and Statistics, Nanjing University of Information Science & Technology, Nanjing Jiangsu

Received: Oct. 9^th, 2021; accepted: Oct. 30^th, 2021; published: Nov. 11^th, 2021

ABSTRACT

Feature screening is an important part of ultra-high-dimensional data analysis. The accuracy of the screening and dimensionality reduction process will affect the subsequent modeling analysis. Aiming at the shortcomings of the stable feature screening method (SC-SIS), based on the stable correlation coefficient, a robust feature screening method (RSCS) suitable for ultra-high-dimensional model-free assumptions is proposed. This paper proves theoretically that the proposed feature screening method satisfies the sure screening property. Numerical simulation and a real data application under the finite sample are conducted to evaluate the performance of the proposed method.

Keywords:Ultra-High-Dimensional Data, Stable Correlation Coefficient, Sure Screening Property, Robustness

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

在这个科技发展极其迅速的时代，超高维数据已经越发频繁地出现在生物医学、经济学和社会科学等众多领域之中。对超高维数据进行分析已经成为了推动社会发展的必要手段，然而，超高维数据中预测变量维数p远大于样本量n，p会随着n的增长呈现出指数增长趋势，且超高维数据一般服从稀疏性假设，即只有少数预测变量与响应变量相关。若不加以任何处理，直接对原始超高维数据进行分析不仅会耗费大量的时间精力，还会导致计算成本过高、预测精度降低等问题。在稀疏性假设的驱动下，考虑先对原始超高维数据进行降维，然后再利用降维后的数据集进行统计分析，特征筛选便是超高维数据降维的重要手段。

Fan和Lv [1] 开创性地提出了基于线性模型的超高维特征筛选方法SIS，通过对协变量与响应变量之间的边际皮尔逊相关系数进行排序来筛选重要变量。之后又将其扩展到广义线性模型 [2] [3]，然而，皮尔逊相关系数只能检测到变量之间的线性关系，在检测非线性关系时可能会受到限制。为了解决这个问题，Li和Peng等 [4] 通过可以识别两个变量之间单调关系的Kendall $τ$ 相关系数来建立稳健的秩相关指标。

上述方法都是基于特定模型的，当模型假设错误时相应的方法可能不再适用。基于此，Zhu和Li等 [5] 首次提出了针对超高维数据的无模型筛选方法；Li和Zhu等 [6] 通过可以同时识别线性和非线性关系的距离相关系数(DC)提出了无模型的筛选方法DC-SIS；Shao和Zhang [7] 提出并使用鞅差相关系数构建了筛选方法；Guo和Li等 [8] 在距离相关系数的基础上，改进了其需要矩存在这一限制，提出了稳定相关系数(SC)，并基于此建立了无模型的特征筛选方法SC-SIS。

在本文中，我们针对稳定筛选方法SC-SIS在数据中存在异常点或协变量服从重尾分布时无法达到降维效果这一情况，提出一种改进的筛选方法RSCS，该方法自然地继承了SC-SIS无模型这一优点并且对数据分布更有稳健性。本文的安排如下，第一部分将详细介绍RSCS筛选方法，并表明其具有确定性筛选性质，第二部分运用蒙特卡洛模拟方法研究RSCS在有限样本下的表现，第三部分则通过实例检验RSCS的有效性。

2. 基于稳定相关系数的特征筛选方法

令Y为响应变量，支撑集为 $ψ_{y}$ ， $x = {(X_{1}, X_{2}, \dots, X_{p})}^{T}$ 为p维协变量，其中p远远大于样本量n，p随着n的增长呈现指数增长趋势。由于超高维数据一般服从稀疏性假设，即只有少数自变量与响应变量有关，因此为了得到与响应变量有关的那些重要变量，定义如下重要变量集合和不重要变量集合：

$A = {1 \leq j \leq p : F (Y | x) 依赖于 X_{j}} .$

$I = {1 \leq j \leq p : F (Y | x) 不依赖于 X_{j}} .$

其中 $F (y | x) = P (Y \leq y | x), x = {(X_{1}, X_{2}, \dots, X_{p})}^{T}$ ，因此， $X_{A} = {X_{j} : j \in A}$ 可以表示重要变量， $X_{I} = {X_{j} : j \in I}$ 可以表示不重要变量，而筛选的目的就是识别所有重要变量。

根据Guo和Li等 [8] 提出的稳定相关系数，对于两个维度分别为 $d_{X}$ 和 $d_{Y}$ 的随机向量X和Y，两者之间的稳定相关系数的定义为：

$S C (X, Y) = \frac{S cov (X, Y)}{\sqrt{S cov (X, X) S cov (Y, Y)}} .$

其中 $S cov (X, Y)$ 表示X和Y稳定协方差 $S {cov}^{2} (X, Y)$ 的正平方根， $S {cov}^{2} (X, Y) = : E_{1} + E_{2} - 2 E_{3}$ ， $E_{1} = E [e^{- {‖ X - \tilde{X} ‖}^{a} - {‖ Y - \tilde{Y} ‖}^{a}}]$ ， $E_{2} = E [e^{- {‖ X - \tilde{X} ‖}^{a}}] E [e^{- {‖ Y - \tilde{Y} ‖}^{a}}]$ ， $E_{3} = E [e^{- {‖ X - \tilde{X} ‖}^{a} - {‖ Y - \tilde{Y} ‖}^{a}}]$ ， $(\tilde{X}, \tilde{Y})$ 是与 $(X, Y)$ 独立同分布的向量， ${‖ \cdot ‖}^{a}$ 为欧氏距离的a次幂。

Guo和Li等 [8] 证明稳定相关系数SC不仅可以在没有任何矩条件时度量变量间线性和非线性关系而

且 $S C (X, Y) = 0$ 与X和Y独立等价，并通过SC直接构建了筛选指标 $ω_{j} = S C^{2} (X_{j}, Y)$ ，得到了筛选方法SC-SIS，但是该方法在数据中存在异常点或者数据中协变量服从重尾分布时会失效，筛选得到的指标集远远不能达到降维的效果，为了改善这一缺点，提高筛选方法的稳健性和适用性，在SC-SIS筛选指标中用 $F_{j} (x) = P (X_{j} \leq x)$ 代替 $X_{j}$ ，因为分布代表数据的整体趋势，具有较强的稳定性。故得到以下筛选指标

$ω_{j}^{*} = r s c^{2} (F_{j} (X_{j}), Y) = \frac{{scov}^{2} (F_{j} (X_{j}), Y)}{scov (F_{j} (X_{j}), Y) scov (Y, Y)} .$

为得到其估计，可以用经验分布函数 $F_{j, n} (x) = n^{- 1} \sum_{i = 1}^{n} I (X_{j, i} \leq x)$ 来估计 $X_{j}$ 的分布 $F_{j} (x)$ ，由此可得 $\hat{scov} (F_{j} (X_{j}), Y) = {\hat{E}}_{j, 1} + {\hat{E}}_{j, 2} - 2 {\hat{E}}_{j, 3}$ ，其中

${\hat{E}}_{j, 1} = n^{- 1} {(n - 1)}^{- 1} \sum_{i = 1}^{n} \sum_{l \neq i}^{n} e^{- {| F_{j, n} (X_{j, i}) - F_{j, n} (X_{j, l}) |}^{a} - {| Y_{i} - Y_{l} |}^{a}},$

${\hat{E}}_{j, 2} = n^{- 1} {(n - 1)}^{- 1} \sum_{i = 1}^{n} \sum_{l \neq i}^{n} e^{- {| F_{j, n} (X_{j, i}) - F_{j, n} (X_{j, l}) |}^{a}} n^{- 1} {(n - 1)}^{- 1} \sum_{i = 1}^{n} \sum_{l \neq i}^{n} e^{- {| Y_{i} - Y_{l} |}^{a}},$

${\hat{E}}_{j, 3} = n^{- 1} {(n - 1)}^{- 1} {(n - 2)}^{- 1} \sum_{i = 1}^{n} \sum_{l \neq i}^{n} \sum_{k \neq i, l}^{n} e^{- {| F_{j, n} (X_{j, i}) - F_{j, n} (X_{j, l}) |}^{a} - {| Y_{i} - Y_{k} |}^{a}} .$

因此 $ω_{j}^{*}$ 的估计为

${\overset{⌢}{ω}}_{j}^{*} = {\hat{r sc}}^{2} (F_{j} (X_{j}), Y) = \frac{{\hat{scov}}^{2} (F_{j} (X_{j}), Y)}{\hat{scov} (F_{j} (X_{j}), Y) \hat{scov} (Y, Y)} .$

稳健筛选指标RSC可以通过集合 $\hat{A} = {1 \leq j \leq p : {\hat{ω}}_{j}^{*} \geq γ_{n}}$ 来识别真正重要的协变量，其中 $γ_{n}$ 是需要提前给定的阈值。事实上，我们可以找到一个预先给定的 $d_{n}$ 来筛选相同的集合 $\hat{A} = {1 \leq j \leq p : {\hat{ω}}^{*}_{j} 从大到小排序的前 d_{n} 个}$ ，其中 $d_{n}$ 参考值为 $d_{n} = k [n \log (n)]$ ，k为正数， $d_{n}$ 参考值由Fan和Lv [1] 提出并被广泛使用。

接下来我们探讨所提出特征筛选方法的理论性质。为方便后续的证明，给出以下条件：

(C1)对 $c > 0$ 且 $0 \leq κ < 1 / 2$ ，RSC中最小的真实变量集合满足 $\min_{j \in A} ω_{j}^{*} \geq 2 c n^{- κ}$ 。

条件C1要求所有重要变量的指标最小值有下界，对重要变量 $X_{j}$ ，其 $ω_{j}$ 不能太接近0。

定理1 设阈值 $γ_{n} = c n^{- κ}$ ，其中 $c > 0$ 且 $0 \leq κ < 1 / 2$ ，则存在一个正常数C满足：

$\Pr (\max_{1 \leq j \leq p} | {\hat{ω}}_{j}^{*} - ω_{j}^{*} | \geq γ_{n}) \leq O (p \exp {- C n^{1 - 2 κ}}) .$

在条件C1下，可以得到

$\Pr (A \subset \hat{A}) \geq 1 - O (q \exp (- C n^{1 - 2 κ})) .$

其中 $q = | A |$ 表示A的势。

定理1保证了RSCS具有确定筛选性质，可以允许数据的维数p随着样本量n以指数的方式增长，并且能够在很大的概率下选出真正重要的变量。具体来说，当n趋于无穷时， $\log (p) = o (n^{1 - 2 κ})$ ， $\Pr (A \subset \hat{A}) \to 1$ ，定理的细节可参照Guo和Li等 [8] 中的定理3.1。

3. 模拟研究

在这一部分，我们将通过蒙特卡洛模拟来研究RSCS的有限样本性质并与一些现有的方法做比较，如SIS [1]、SIRS [5]、DC-SIS [6]、SC-SIS [8]。

为检验RSCS方法的稳健性，假设X服从混合分布 $(1 - α) X_{n} + α X_{t}$ ， $α$ 分别取0、0.1和0.2，其中 $X_{t}$ 为每个分量独立服从 $t (1)$ 分布的p维随机向量， $X_{n}$ 服从为均值为0，协方差矩阵为 $Σ$ 的多元正态分布 $N (0, Σ)$ ， $Σ = {(σ_{i j})}_{p \times p}$ 且 $σ_{i j} = {0.75}^{| i - j |}$ ， $i, j = 1, \dots, p$ 。同时考虑误差 $ε$ 服从标准正态 $N (0, 1)$ 和 $t (1)$ 分布两种情况。令MMS表示包含所有重要变量的最小模型尺寸，MMS 值较小的筛选方法表明它在识别协变量与响应变量之间相关性上更有优势，我们将通过500次模拟实验中MMS的25%，50%，75%和95%分位数来比较不同方法的性能。

需要指出的是，稳定相关系数SC中的参数a并未指定，至于如何选取合适的a值，Guo和Li等 [8] 指出，在理论研究中，a的取值区间为 $(0, 2]$ ，但包含所有重要变量的最小模型尺寸MMS会随着a的增加先减少再增大，所以，a的合理取值在(0.3, 0.7)中，并在后续研究中，选取了 $a = 0.5$ ，在本文中我们沿用了此设定。

例1：我们考虑非线性模型：

$Y = 5 X_{1} X_{2} + 5 I (X_{3} > 0) + 5 \sin (2 π X_{4}) + 5 X_{5} + ε .$

其中 $I (\cdot)$ 表示示性函数， $\sin (\cdot)$ 为正弦函数并选取协变量维数和样本量分别为 $n = 200, p = 2000$ 。MMS结果如下表1所示。

Table 1. The MMS results with different values of α in Example 1

表1. 例1中 $α$ 不同取值时MMS结果

由表1可以看出，对于 $ε ~ N (0, 1)$ 和 $α = 0$ ，SIRS和SIS表现不佳。这表明这两个方法无法检测协变量与响应之间的非线性关系。相比之下，RSCS、SC-SIS和DC-SIS可以有效检测非线性关系。当 $α = 0.1$ 或 $α = 0.2$ 时，DC-SIS和SC-SIS 的性能并不令人满意。这意味着这两种方法对异常值或重尾分布不稳健。而我们的方法RSCS在这种非线性情况下的所有设置中都具有最佳性能，这表明我们的方法不仅能够检测任何可能的相关关系，而且对异常值及重尾分布也不敏感。

4. 实例分析

我们通过心肌病转基因小鼠的微阵列数据进行实例分析 [9]。该数据对30个小鼠进行了实验，目的是挑选出最影响小鼠中G蛋白偶联受体基因Ro1表达的基因，其中受体基因Ro1的表达水平会受到其他6319个基因的影响。因此，我们把Ro1的基因表达水平看作响应变量Y，其他6319个基因看作协变量x，维数为6319，数据集的样本量 $n = 30$ 远远小于协变量的维数 $p = 6319$ 。

通过检查该数据中大部分协变量要么是重尾分布要么包含异常点，图1展示了前100个协变量标准化后的箱线图。这可能表明我们的方法RSCS比其他方法更加适用。

Figure 1. Boxplot of the first 100 covariates after normalization

图1. 前100个协变量标准化后的箱线图

在应用筛选方法之后，可以得到各个基因的从大到小的排序，RSCS表明Msa.2134.0和Msa.1024.0是最重要的前两个基因，与SC-SIS方法一致，说明RSCS在实际中是堪用的。

5. 总结

在本文中，我们提出了一种改进的基于稳定相关系数的筛选方法(RSCS)，通过将变量转变成分布函数，结合稳定相关系数可以度量两个随机向量的相关性实现了这一想法，并建立了相应的确定性筛选性质，在我们的模拟研究中显示，这种方法(RSCS)对于协变量包含异常值或服从重尾分布的超高维数据非常有效。

文章引用

闫习. 基于稳定相关系的超高维筛选研究
Feature Screening for Ultra-High Dimensional Data Based on Stable Correlation Coefficient[J]. 应用数学进展, 2021, 10(11): 3777-3782. https://doi.org/10.12677/AAM.2021.1011400

参考文献

1. Fan, J. and Lv, J. (2008) Sure Independence Screening for Ultrahigh Dimensional Feature Space. Journal of the Royal Statistical Society, 70, 849-911. https://doi.org/10.1111/j.1467-9868.2008.00674.x

2. Fan, J. and Song, R. (2010) Sure Independence Screening in Generalized Linear Models with NP-Dimensionality. The Annals of Statistics, 38, 3567-3604. https://doi.org/10.1214/10-AOS798

3. Fan, J., Samworth, R. and Wu, Y. (2009) Ultrahigh Dimensional Feature Selection: Beyond the Linear Mode. The Journal of Machine Learning Research, 10, 2013-2038.

4. Li, G., Peng, H., Zhang, J., et al. (2012) Robust Rank Correlation Based Screening. The Annals of Statistics, 40, 1846-1877. https://doi.org/10.1214/12-AOS1024

5. Zhu, L., Li, L., Li, R., et al. (2011) Model-Free Feature Screening for Ultrahigh Dimensional Data. Journal of the American Statistical Association, 106, 1464-1475. https://doi.org/10.1198/jasa.2011.tm10563

6. Li, R., Zhong, W. and Zhu, L. (2012) Feature Screening via Distance Correlation Learning. Journal of the American Statistical Association, 107, 1129-1139. https://doi.org/10.1080/01621459.2012.695654

7. Shao, X. and Zhang, J. (2014) Martingale Difference Correlation and Its Use in High Dimensional Variable Screening. Journal of the American Statistical Association, 109, 1302-1318. https://doi.org/10.1080/01621459.2014.887012

8. Guo, X., Li, R., Liu, W., et al. (2021) Stable Correlation and Robust Feature Screening. Science China Mathematics, 1-16. https://doi.org/10.1007/s11425-019-1702-5

9. Redfern, C., Coward, P., Degtyarev, M., et al. (1999) Conditional Expression and Signaling of a Specifically Designed GI-Coupled Receptor in Transgenic Mice. Nature Biotechnology, 17, 165-169. https://doi.org/10.1038/6165

期刊菜单