本文针对locally linear embedding (LLE)算法中的两个参数:近邻点的个数 k和降维后输出的维数 d如何选取的问题,对LLE算法进行了改进。首先对降维的相关知识进行了描述,并具体介绍了对高维数据进行降维的目的。其次,讨论了LLE算法的基本思想和计算步骤。最后,针对LLE算法中存在的问题进行了分析。 Aiming at the problem of how to select two parameter values, the number of nearest neighbor points k and the output dimension d, locally linear embedding (LLE) algorithm is improved. Firstly, we describe dimensionality reduction and why reduce dimension of high-dimensional data. Secondly, we discuss the basic idea and computational procedure of the LLE algorithm. Finally, the problems existing in the LLE algorithm are analyzed.
李芳,高翔*
中国海洋大学数学科学学院,山东 青岛
收稿日期:2017年2月21日;录用日期:2017年3月6日;发布日期:2017年3月9日
本文针对locally linear embedding (LLE)算法中的两个参数:近邻点的个数和降维后输出的维数如何选取的问题,对LLE算法进行了改进。首先对降维的相关知识进行了描述,并具体介绍了对高维数据进行降维的目的。其次,讨论了LLE算法的基本思想和计算步骤。最后,针对LLE算法中存在的问题进行了分析。
关键词 :LLE算法,相关系数,近邻点的个数
Copyright © 2017 by authors and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
为了提高统计模式识别的正确识别率,人们通常需要采集数量巨大的数据特征,使得原始空间或输入空间的维数可能高达几千维或者上万维。如果在输入空间上直接进行分类器训练,那么就很可能会带来如下两个问题 [
1) 很多在低维空间具有良好性能的分类算法在计算上变得不可行;
2) 在训练样本容量一定的前提下,特征维数的增加将使得样本统计特性的估计变得更加困难,从而降低分类器的推广能力或泛化能力,呈现所谓的“过学习”或“过训练”的现象。
要避免出现“过学习”的情况,用于统计分类器训练的训练样本个数必须随着维数的增长而呈指数增长,从而造成人们所说的“维数灾难”,即在给定精度下,准确地对某些变量的函数进行估计,所需样本量会随着样本维数的增加而呈指数形式增长。
为了解决“维数灾难”的问题,且在涉及的维数较少的情况下得到原始高维空间或输入空间较多的信息。这个时候,人们就希望通过降维算法从高维数据中提取有效的、紧致的描述,即在保持数据信息损失最小的情况下,寻找原始高维空间中数据的内在规律与本质特征,减少冗余信息所带来的误差,提高问题解决的效率和精度。
所谓的降维就是指采用某种映射方法 [
对原始空间或输入空间的高维数据降维的目的主要有以下四个方面:
1) 压缩数据到低维空间,可以解决“维数灾难”的问题,降低存储要求,并简化计算复杂度。
2) 在剔除冗余信息的同时,也降低了噪声对原始数据的影响。
3) 从非结构化数据集中提取出某种结构化成分,有利于寻找原始高维空间中数据的内在规律与本质特征,以便更好地认识和理解数据。
4) 把数据投影到低维空间,特别是人眼可观测的二维空间或三维空间,可以实现高维数据可视化。
流形学习的目的 [
LLE是一种无监督的降维方法。其核心主要是将流形上的近邻点映射到低维空间的近邻点,保存原流行中的局部几何特性,以达到高维数据映射到低维全局坐标系中的目的。该算法的前提假设是采样数据所在的低维流形在局部是线性的,即每个采样点可以用它的近邻点线性表出。
LLE算法基于用局部的线性来逼近全局的非线性,通过保持高维数据与低维数据间的局部领域几何结构不变的几何思想,使在高维空间中相邻或相关的两个点映射到低维空间中也同样相邻或相关。LLE算法是依赖于局部线性的的算法。它认为在局部意义下,数据的结构是线性的,或者说,局部意义下的点在一个超平面上。再通过互相重叠的局部邻域来提供整体的信息,从而保证整体的几何性质,得到一个全局的坐标系统。
如图1所示,LLE算法能成功地将三维非线性数据映射到二维空间中 [
当原始高维空间中的数据分布在缺少北极面的球形面时,如最后一行图所示,在保持原有数据流行的局部领域几何结构不变的意义下,应用LLE算法仍能很好地将其映射到二维空间中。但是,在有些情况下LLE算法也并不适用,即如果原始高维空间中的数据分布在整个封闭的球面上,LLE算法则不能通过降维将它映射到二维空间,且不能保持原有的数据流形。所以在我们应用LLE算法处理原始高维空间中的数据的时候,首先要假设原始高维空间中的数据不是分布在闭合的球面或者椭球面上。
图1. LLE算法将三维非线性数据映射到二维空间的降维图
设给定数据集合
1) 对于高维空间的每个样本点
距离公式通常采用
2) 由每个样本点
其中,
足条件:
3) 将原始高维空间中的所有数据样本点映射嵌入到低维空间中,映射嵌入满足如下条件:
其中,
根据高维空间中的样本点
通过介绍LLE算法,我们了解到,在LLE算法中有两个参数需要设置 [
图2. LLE算法的计算步骤图
步中近邻点的个数
(一) 我们先来分析LLE算法中的第一个参数,即原始高维空间中的数据样本点
在使用LLE对数据进行处理的过程中,我们发现,近邻点个数
1)
2) 如果对所有样本集区域内的样本点选取相同个数的近邻点,对于所含结构信息很重要的样本集区域,也许就会丢失很多我们所需要和寻找的内容,相反,对于所含结构信息不重要的样本集区域,就会额外加大许多不必要的计算量,浪费了计算机的效率和时间,甚至可能会因为多选取了一些错误的近邻点,破坏了其真实的局部结构特征,使最后的低维流行与实际不符,从而误导我们的分析,也就是所谓的噪声干扰和冗余数据的影响。
3) 对于弯曲弧度非常大的不光滑流行,基本LLE算法所采用的一致的值也会使高维数据流行在低维空间映射的结果与数据集本身的实际不符。
另外,LLE算法假设原始高维空间中的数据样本点在流行上的分布是比较均匀的,即数据样本点是均匀采样于原始高维空间的。但通常情况下,这种理想状态的假设是不满足的,我们很难做到数据样本点均匀采样于原始高维空间,特别是对于那些分布不均匀的数据样本点来说 [
(二) 我们再来分析LLE算法中的第二个参数,即降维后输出的维数
在应用LLE算法将原始高维空间中的所有数据样本点映射嵌入到低维空间后,映射嵌入后输出的维数
(一) 近邻点个数
LLE算法基于用局部的线性来逼近全局的非线性,通过保持高维数据与低维数据间的局部领域几何结构不变的几何思想,使在高维空间中相邻或相关的两个点映射到低维空间中也同样相邻或相关。我们知道,相关系数是用以反映两变量之间相关关系密切程度的统计指标。针对问题(一),本文选择相关系数的绝对值作为高维空间的每个样本点
给定两个变量
设给定原始高维空间中所有的数据样本点
计算样本点
对于高维空间中的样本点
文我们已经提到,在通常情况下很难做到数据样本点均匀采样于原始高维空间。从而我们不妨假设,在样本点
在样本点
在样本点
…
在样本点
转化为数学表达式为:
即
下面运用最下二乘法使得
我们令
同理,我们可以得到
又因为对于高维空间的每个样本点的
从而
(二) 降维后输出的维数
本文的估计算法是在极大似然估计方法的基础上实现的。通过对映射嵌入后的低维空间的
假设高维空间的数据集合
极大似然估计的基本思想是 [
对于映射嵌入后的低维空间中给定的一个点
其中
如果不再考虑
则
将上述两个方程联立,求解得 [
而在实际的计算中,我们都是通过近邻点的个数
对于我们取定的近邻点的个数
邻点的个数
为权重,对映射嵌入后的低维空间的
国家自然科学基金青年基金项目(项目编号:11301493,项目名称:完备Ricci孤立子上的几何估计与几何结构及Ricci孤立子分类问题的研究)。
李芳,高翔. LLE算法中有关参数选取问题的研究 Research on the Problem of Selecting the Parameter Values for LLE Algorithm[J]. 统计学与应用, 2017, 06(01): 7-16. http://dx.doi.org/10.12677/SA.2017.61002