基于Lq范数的稀疏张量分解问题 Sparse Tensor Decomposition Based on Lq Norm

doi:10.12677/AAM.2020.93036

Advances in Applied Mathematics
Vol. 09 No. 03 ( 2020 ), Article ID: 34534 , 6 pages
10.12677/AAM.2020.93036

Sparse Tensor Decomposition Based on Lq Norm

Yu Jiang

●How to Cite this Article

College of Mathematics and Information Science, Guangxi University, Nanning Guangxi

Received: Feb. 25^th, 2020; accepted: Mar. 9^th, 2020; published: Mar. 16^th, 2020

ABSTRACT

Sparsity in tensor decomposition has solved some difficulties encountered in actual application. This paper simply introduces related concepts of tensor and CP (CANDECOMP/PARAFAC) decomposition. Then, we propose the decomposition based on Lq norm ( $0 < q < 1$ ), and solve it by Alternating Direction of Method of Multipliers. This paper also gives an explicit solution when $q = \frac{1}{2}$ .

Keywords:Sparsity, Tensor Decomposition, Alternating Direction of Method of Multipliers

基于Lq范数的稀疏张量分解问题

姜玉

广西大学数学与信息科学学院，广西南宁

收稿日期：2020年2月25日；录用日期：2020年3月9日；发布日期：2020年3月16日

摘要

在张量分解中，稀疏性的引入解决了实际应用中遇到的一些困难，本文简单的介绍了张量及张量CP分解的相关概念，在已有研究的基础上提出基于Lq范数( $0 < q < 1$ )的稀疏张量分解问题，并使用乘子交替方向法来进行求解，以及给出 $q = \frac{1}{2}$ 时问题解的形式。

关键词 :稀疏性，张量分解，乘子交替方向法

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

张量分解可以应用于多维数据的数据压缩、可视化、探索，这使得它在神经成像、人脸识别、核磁共振成像等领域有着重要的作用。而实际应用的过程中也会遇到一些困难，如大量的数据需要占据较大的内存空间，计算复杂度较高。为了解决这样的问题，学者们提出将稀疏性引入到张量分解的问题中。

在文献 [1] 中，作者给出了稀疏性可取的原因：第一，稀疏性进一步压缩了多维数据集使得减轻了存储压力；第二，因为许多特征并不活跃，稀疏性的引入为高维张量的特征选取提供了一种自动的工具；第三，在高维张量下，数据的可视化和解释较为困难，而稀疏性限制了特征的数量从而简化了数据分析结果的可视化和解释。

稀疏性不仅具有良好的理论性质，而且在文献 [1] [2] [3] [4] 中通过数值结果表明在稀疏情况下考虑的张量分解有很好的数值性能。

1.1. 张量的符号和运算

为了讨论张量分解以及进一步地去讨论带有稀疏性的张量分解，我们需要简单地了解张量的符号及相关运算，文献 [5] [6] 给出了这些内容。张量作为向量和矩阵在高维空间的推广，可以容纳较大的多维数据。若张量为一阶，我们可以将其看做为向量，二阶的张量则为矩阵。三阶及三阶以上的张量成为高阶张量，我们所讨论的张量常指高阶张量。

张量常用 $A, B, C, \dots$ 表示，矩阵用大写字母 $A, B, C, \dots$ 表示，向量用 $a, b, c, \dots$ 表示。N阶张量可以记为 $A \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{N}}$ ， $I_{i}$ 是它的第i个模数， $i = 1, 2, \dots, N$ 。它的元素表示为 $A_{i_{1} i_{2} \dots i_{N}}$ ，其中 $i_{k} = 1, 2, \dots, I_{k}; k = 1, 2, \dots, N$ 。

张量可以表为若干个向量的外积，即 $A = u^{(1)} \circ u^{(2)} \circ \dots \circ u^{(N)}$ 。此时，张量 $A$ 为秩为1的张量。

张量的Frobenius范数定义为 ${‖ A ‖}_{F} = 〈 A, A 〉 = {(\sum_{i_{1}, \dots, i_{N}} A_{i_{1} \dots i_{N}}^{2})}^{\frac{1}{2}}$ 。

1.2. 张量的CP分解

CP分解是张量最为常见的分解方法之一，它将张量表为一系列秩为1的张量的和。对N阶张量 $A \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{N}}$ ，它的CP分解可以写为

$A = \sum_{i = 1}^{r} u_{i}^{(1)} \circ u_{i}^{(2)} \circ \dots \circ u_{i}^{(N)},$

其中 $r = \min {R | A = \sum_{i = 1}^{R} u_{i}^{(1)} \circ u_{i}^{(2)} \circ \dots \circ u_{i}^{(N)}}$ 是张量的秩。张量的CP分解保证了张量分解的唯一性。

一般将张量分解的问题转化为优化问题，于是N阶张量的CP分解问题等价于优化问题：

$\min \frac{1}{2} {‖ A - \sum_{i = 1}^{r} u_{i}^{(1)} \circ u_{i}^{(2)} \circ \dots \circ u_{i}^{(N)} ‖}_{F}^{2} .$ (1)

令

$U^{(1)} = (u_{1}^{(1)}, u_{2}^{(1)}, \dots, u_{r}^{(1)})$

$U^{(2)} = (u_{1}^{(2)}, u_{2}^{(2)}, \dots, u_{r}^{(2)})$

$\dots$

$U^{(N)} = (u_{1}^{(N)}, u_{2}^{(N)}, \dots, u_{r}^{(N)})$

则优化问题(1)又可以写成

$\min \frac{1}{2} {‖ A - 〚 U^{(1)}, U^{(2)}, \dots, U^{(N)} 〛 ‖}_{F}^{2},$ (2)

其中 $〚 U^{(1)}, U^{(2)}, \dots, U^{(N)} 〛 = \sum_{i = 1}^{r} u_{i}^{(1)} \circ u_{i}^{(2)} \circ \dots \circ u_{i}^{(N)}$ 。 $U^{(1)}, U^{(2)}, \dots, U^{(N)}$ 称为张量 $A$ 的因子矩阵，也是我们在张量分解问题中要求得的解。

2. 具有稀疏性的张量分解问题

因目标张量数据过大，我们需要注意到在实际处理中遇到的问题。稀疏性的引入，可以帮我们解决如占据内存过大、不相关不活跃的数据过多而很难从中找出我们所需的特征等类似的问题。

为引入稀疏性，研究者们考虑在张量分解的优化问题中加入因子的正则范数。在已有的文献中，我们可以找到关于在优化问题中加入因子矩阵的L1范数的讨论。于是，稀疏的张量CP分解问题可以等价于

$\min \frac{1}{2} {‖ A - 〚 U^{(1)}, U^{(2)}, \dots, U^{(N)} 〛 ‖}_{F}^{2} + \sum_{i = 1}^{N} λ_{i} {‖ U^{(i)} ‖}_{1},$

其中 $A \in ℝ^{I_{1} \times I_{2} \times \dots \times I_{N}}$ ， $U^{(i)} \in ℝ^{I_{i} \times r}, i = 1, 2, \dots, N$ 。

为计算方便，我们常以三阶张量为例，更高阶的情况同三阶张量的求解思路及方法一致。

对三阶的张量 $A \in ℝ^{m \times p \times q}$ ，加入因子的L1范数，它的稀疏分解问题为

$\min \frac{1}{2} {‖ A - \sum_{i = 1}^{r} x_{i} \circ y_{i} \circ z_{i} ‖}_{F}^{2} + λ_{1} {‖ X ‖}_{1} + λ_{2} {‖ Y ‖}_{1} + λ_{3} {‖ Z ‖}_{1},$

其中 $X = (x_{1}, x_{2}, \dots, x_{r}), Y = (y_{1}, y_{2}, \dots, y_{r}), Z = (z_{1}, z_{2}, \dots, z_{r})$ 分别为 $m \times r, p \times r, q \times r$ 的矩阵。

在统计学和机器学习中，Lq范数( $0 < q < 1$ )中的q的取值越小，求得的解的稀疏性越好。我们用Lq范数来代替L1范数，于是得到本文所提出的基于Lq范数的稀疏张量分解。它的优化问题为

$\min \frac{1}{2} {‖ A - \sum_{i = 1}^{r} x_{i} \circ y_{i} \circ z_{i} ‖}_{F}^{2} + λ_{1} {‖ X ‖}_{q} + λ_{2} {‖ Y ‖}_{q} + λ_{3} {‖ Z ‖}_{q},$

等价地，也可以为

$\min \frac{1}{2} {‖ A - 〚 X, Y, Z 〛 ‖}_{F}^{2} + λ_{1} {‖ X ‖}_{q} + λ_{2} {‖ Y ‖}_{q} + λ_{3} {‖ Z ‖}_{q} .$ (3)

3. 使用乘子交替方向法求解目标优化问题

这一节中，我们首先对乘子交替方向法进行简单的描述，随后给出问题(3)在使用乘子交替方向法的求解思路及 $q = \frac{1}{2}$ 时问题解的形式。

3.1. 乘子交替方向法

乘子交替方向法是一种求解优化问题的计算框架，它适用于求解大规模分布式优化问题。通过分解协调过程，将问题分解为多个局部小问题，求解出局部小问题的解从而得到原问题的解。

考虑优化问题

$\min f (x) + g (y)$

$s .t . x - y = 0;$

该问题的迭代求解算法为

$x^{k + 1} \in \arg \min L_{β} (x, y^{k}, λ^{k}),$

$y^{k + 1} \in \arg \min L_{β} (x^{k + 1}, y, λ^{k}),$

$λ^{k + 1} = λ^{k} - β (x^{k + 1} - y^{k + 1}),$

增广拉格朗日函数为 $L_{β} (x, y, λ) = f (x) + g (y) - λ^{T} (x - y) + \frac{β}{2} {‖ x - y ‖}^{2}$ ， $β > 0$ 是罚参数， $λ$ 是拉格朗日乘子。

3.2. 求解目标问题

我们加入约束条件 $X = L, Y = M, Z = N$ ，问题(3)变为

$\min \frac{1}{2} {‖ A - 〚 X, Y, Z 〛 ‖}_{F}^{2} + λ_{1} {‖ L ‖}_{q} + λ_{2} {‖ M ‖}_{q} + λ_{3} {‖ N ‖}_{q},$

$s .t . X = L, Y = M, Z = N,$

它的增广拉格朗日函数

$\begin{array}{l} L (X, Y, Z, L, M, N, Λ_{1}, Λ_{2}, Λ_{3}), \\ = \frac{1}{2} {‖ A - 〚 X, Y, Z 〛 ‖}_{F}^{2} + λ_{1} {‖ L ‖}_{q} + λ_{2} {‖ M ‖}_{q} + λ_{3} {‖ N ‖}_{q} - 〈 Λ_{1}, X - L 〉 \\ - 〈 Λ_{2}, Y - M 〉 - 〈 Λ_{3}, Z - N 〉 + \frac{τ_{1}}{2} {‖ X - L ‖}_{F}^{2} + \frac{τ_{2}}{2} {‖ Y - M ‖}_{F}^{2} + \frac{τ_{3}}{2} {‖ Z - N ‖}_{F}^{2} \end{array}$

它的迭代算法为

$L^{k + 1} = \arg \min \frac{τ_{1}}{2} {‖ L - X^{k} - \frac{1}{τ_{1}} Λ_{1}^{k} ‖}_{F}^{2} + λ_{1} {‖ L ‖}_{q},$

$X^{k + 1} = \arg \min \frac{1}{2} {‖ A - \sum_{i = 1}^{r} x_{i} \circ y_{i}^{k} \circ z_{i}^{k} ‖}_{F}^{2} + \frac{τ_{1}}{2} {‖ L^{k + 1} - X - \frac{1}{τ_{1}} Λ_{1}^{k} ‖}_{F}^{2},$

$M^{k + 1} = \arg \min \frac{τ_{2}}{2} {‖ M - Y^{k} - \frac{1}{τ_{2}} Λ_{2}^{k} ‖}_{F}^{2} + λ_{2} {‖ M ‖}_{q},$

$Y^{k + 1} = \arg \min \frac{1}{2} {‖ A - \sum_{i = 1}^{r} x_{i}^{k + 1} \circ y_{i} \circ z_{i}^{k} ‖}_{F}^{2} + \frac{τ_{2}}{2} {‖ M^{k + 1} - Y - \frac{1}{τ_{2}} Λ_{2}^{k} ‖}_{F}^{2},$

$N^{k + 1} = \arg \min \frac{τ_{3}}{2} {‖ N - Z^{k} - \frac{1}{τ_{3}} Λ_{3}^{k} ‖}_{F}^{2} + λ_{3} {‖ N ‖}_{q},$

$Z^{k + 1} = \arg \min \frac{1}{2} {‖ A - \sum_{i = 1}^{r} x_{i}^{k + 1} \circ y_{i}^{k + 1} \circ z_{i} ‖}_{F}^{2} + \frac{τ_{3}}{2} {‖ N^{k + 1} - Z - \frac{1}{τ_{3}} Λ_{3}^{k} ‖}_{F}^{2},$

$Λ_{1}^{k + 1} = Λ_{1}^{k} - λ_{1} (L^{k + 1} - X^{k + 1}),$

$Λ_{2}^{k + 1} = Λ_{2}^{k} - λ_{2} (M^{k + 1} - Y^{k + 1}),$

$Λ_{3}^{k + 1} = Λ_{3}^{k} - λ_{3} (N^{k + 1} - Z^{k + 1});$

方法的思路是对 $L, X, M, Y, N, Z, Λ_{1}, Λ_{2}, Λ_{3}$ 依次进行迭代，直至问题收敛。求得的矩阵 $X, Y, Z$ 为张量的因子矩阵。

当 $q = \frac{1}{2}$ 时， $L, M, N$ 的子优化问题具有显示解。于是，令，L的优化问题变为

$L^{k + 1} = \arg \min \frac{τ_{1}}{2} {‖ L - X^{k} - \frac{1}{τ_{1}} Λ_{1}^{k} ‖}_{F}^{2} + λ_{1} {‖ L ‖}_{\frac{1}{2}}$

根据文献 [7] 中的证明，推出相应的阈值算子为

$H_{\frac{2 λ_{1}}{τ_{1}}} (x) = {\begin{cases} \frac{2}{3} x (1 + \cos (\frac{2 π}{3} - \frac{2 φ (x)}{3})), | x | > \frac{\sqrt[3]{54}}{4} {(\frac{2 λ_{1}}{τ_{1}})}^{\frac{2}{3}} \\ 0, 其他 \end{cases}$

其中 $φ (x) = \arccos (\frac{λ_{1}}{4 τ_{1}} {(\frac{| x |}{3})}^{- \frac{3}{2}})$ ，x对应矩阵 $X^{k} + \frac{1}{τ_{1}} Λ_{1}^{k}$ 的每一个元素。M和N的子问题的解可以参照L得出。

X的子优化问题

$X^{k + 1} = \arg \min {‖ \frac{1}{2} A - \sum_{i = 1}^{r} x_{i} \circ y_{i}^{k} \circ z_{i}^{k} ‖}_{F}^{2} + \frac{τ_{1}}{2} {‖ L^{k + 1} - X - \frac{1}{τ_{1}} Λ_{1}^{k} ‖}_{F}^{2}$ (4)

的求解涉及到了张量的计算，为降低计算困难，我们可以将张量展开成矩阵的形式。张量的展开是将张量沿某一个模的展开，张量展开成的矩阵包括张量中的每一个元素，且张量沿不同的模展开得到的矩阵也不一定相同。张量按它的第一个模展开所得的矩阵记为 $A_{(1)}$ ，它是一个 $m \times p q$ 的矩阵，我们在X的优化问题中选用张量沿第一个模展开的矩阵来计算。问题(4)转化为

$X^{k + 1} = \arg \min \frac{1}{2} {‖ A_{(1)} - X {(Z^{k} ⊙ Y^{k})}^{T} ‖}_{F}^{2} + \frac{τ_{1}}{2} {‖ L^{k + 1} - X - \frac{1}{τ_{1}} Λ_{1}^{k} ‖}_{F}^{2},$ (5)

$⊙$ 表示矩阵的Khatri-Rao积，等式(5)的右边为最小二乘问题。对(5)求导，

$0 = {(Z^{k} ⊙ Y^{k})}^{T} (A_{(1)}^{T} - (Z^{k} ⊙ Y^{k}) X^{T}) - τ_{1} (L^{k + 1}^{^{T}} - X^{T}) - Λ_{1}^{k}^{^{T}},$

整理后得第k + 1步矩阵X的解

$X^{T} = {({(Z^{k} ⊙ Y^{k})}^{T} (Z^{k} ⊙ Y^{k}) - τ_{1} I)}^{- 1} ({(Z^{k} ⊙ Y^{k})}^{T} A_{(1)}^{T} - τ_{1} L^{k + 1}^{^{T}} - Λ_{1}^{k}^{^{T}}) .$

$Y, Z$ 的优化问题的求解过程类似，不同的是， $Y, Z$ 的求解所用的展开矩阵分别为沿张量的第二个模和第三个模展开的矩阵。

4. 总结

具有稀疏性的张量分解因其理论性质及在应用中良好的体现，逐渐得到学者们的关注。加入因子L1范数来引入稀疏性在一些文献中得到了验证，而Lq范数( $0 < q < 1$ )的情况目前还未有学者提出。本文提出了基于Lq范数的稀疏张量分解问题，同时给出了使用乘子交替方向法求解张量分解问题的思路和过程

以及 $q = \frac{1}{2}$ 时问题所具有的显式解的形式。在接下来的研究中，我们希望能够进行数据实验，和普通的张

量分解以及引入L1范数的稀疏张量分解的结果进行比较，证明基于Lq范数的分解问题的稀疏性以及它具有更好的稀疏性。

文章引用

姜玉. 基于Lq范数的稀疏张量分解问题
Sparse Tensor Decomposition Based on Lq Norm[J]. 应用数学进展, 2020, 09(03): 301-306. https://doi.org/10.12677/AAM.2020.93036

参考文献

1. Kim, H.J., Ollila, E. and Koivunen, V. (2013) Sparse Regularization of Tensor Decompositions. IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, 26-31 May 2013. https://doi.org/10.1109/ICASSP.2013.6638376

2. Allen, G. (2012) Sparse Higher Order Principal Components Analysis.http://proceedings.mlr.press/v22/allen12/allen12.pdf

3. Liu, J., Liu, J., Wonka, P., et al. (2012) Sparse Non-Negative Tensor Factorization Using Columnwise Coordinate Descent. Pattern Recognition, 45, 649-656. https://doi.org/10.1016/j.patcog.2011.05.015

4. Sun, W.W., Li, J.W., Liu, H., et al. (2017) Provable Sparse Tensor Decomposition. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 79, 899-916. https://doi.org/10.1111/rssb.12190

5. Kolda, T.G. and Bader, B.W. (2009) Tensor Decompositions and Appli-cations. SIAM Review, 51, 455-500. https://doi.org/10.1137/07070111X

6. Qi, L., Sun, W. and Wang, Y. (2007) Numerical Multilinear Algebra and Its Applications. Frontiers of Mathematics in China, 2, 501-526. https://doi.org/10.1007/s11464-007-0031-4

7. Xu, Z., Chang, X., Xu, F. and Zhang, H. (2012) L-1/2 Regulari-zation: A Thresholding Representation Theory and a Fast Solver. IEEE Transactions on Neural Networks & Learning Systems, 23, 1013-1027. https://doi.org/10.1109/TNNLS.2012.2197412

期刊菜单