Statistics and Application
Vol.06 No.04(2017), Article ID:22505,13 pages
10.12677/SA.2017.64050

Error Analysis of Coefficient Regularized Regression and Non-Iid Sampling

Xinxin Chang1, Shuang Chen2

1Hebei University of Technology, Tianjin

2Beijing Institute of Petrochemical Technology, Beijing

Received: Oct. 4th, 2017; accepted: Oct. 20th, 2017; published: Oct. 30th, 2017

ABSTRACT

In this paper, we study the error analysis of indefinite kernel network with coefficient regularization for non-iid sampling. The framework under investigation is different from classical kernel learning. The kernel function satisfies only the continuity and uniform boundedness; the standard bound assumption for output data is abandoned and we carry out the error analysis with output sample values satisfying a generalized moment hypothesis. Satisfactory error bounds and learning rates independent of capacity are derived by the techniques of integral operator for this learning algorithm.

Keywords:Coefficient Regularization Regression, Indefinite Kernel, Strong Mixing Condition, Integral Operator

基于非独立同分布样本的系数正则化回归算法的误差分析

常欣欣1,陈爽2

1河北工业大学,天津

2北京石油化工学院,北京

收稿日期:2017年10月4日;录用日期:2017年10月20日;发布日期:2017年10月30日

摘 要

本文分析了基于非独立同分布样本的最小二乘系数正则化算法的误差。全文的框架不同于以往的经典核学习方法。核函数仅仅满足连续性和一致有界性;我们进行基于输出样本满足广义矩理论的误差分析,而不再考虑标准的输出有界假设。最后通过利用积分算子技术得到了满意的与容量无关的误差界和学习率。

关键词 :系数正则化回归,不定核,强混合条件,积分算子

Copyright © 2017 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

在机器学习理论中,最小二乘回归问题可以陈述如下:

X 为一个紧子集, Y = R ρ Z : X × Y 上未知的概率测度, z = { ( x i , y i ) } i = 1 m Z m 为服从 ρ 的一组独立同分布的取样。在回归学习中定义关于函数 f : X Y 的推广误差,

ε ( f ) = Z ( f ( x ) y ) 2 d ρ

回归函数定义为

f ρ ( x ) = E ( y | x ) = Y y d ρ ( y | x ) , x X

ρ ( y | x ) ρ X = x 时的条件分布。实际上,由于 ρ 是未知的, f ρ 是不能直接求出来的,于是我们的目标是利用样本 z 产生关于 f ρ 的一个最佳逼近。

传统的学习算法所选取的假设空间通常为与Mercer核相关的再生核Hilbert空间。基于核的学习算法具有良好的运算性质,这得益于再生核Hilbert空间所特有的再生性。核函数最初用于模式识别,现在已经广泛成功应用于机器学习的很多领域。在基于核函数的学习中,核函数 K : X × X R 扮演着基函数的角色。

下面给出Mercer核和再生核Hilbert空间的定义:

定义1.1 (Mercer核)设函数 K : X × X R 为连续的,对称的,半正定的,则称 K 为Mercer核。

定义1.2 (再生核Hilbert空间)由 K x = K ( x , ) , x X 的有限线性组合成的线性函数空间,

{ i = 1 m a i K x i : a i R , x i X , i = 1 , 2 , , m ; m N }

在该函数空间中定义内积

i = 1 n a i K x i , j = 1 m b j K x j K = i = 1 n j = 1 m a i b j K ( x i , y j )

则该函数空间成为内积空间。其完备化的Hilbert空间称由核函数 K 所生成的再生核Hilbert空间(RKHS),记为 H K

H K 的再生性指

f ( x ) = f , K x K 对任意 f H K , x X

大量的文献都有对Mercer核的研究学习,可以见参考文献 [1] [2] [3] [4] 。

为了防止过拟合,一般采用正则化方法 [5] 。常用的回归学习算法有正则化最小二乘算法与系数正则化算法。

正则化最小二乘算法形式:

f Z , K = arg min f H K 1 m i = 1 m ( y i f ( x i ) ) 2 + λ f K 2 (1.1)

关于这个算法的学习可以看文献 [6] [7] [8] 。

接下来给出系数正则化算法(CRKN) [9] [10] [11] :

f Z , λ = f α Z 其中 α Z = arg min α R m { 1 m i = 1 m ( f α ( x i ) y i ) 2 + λ Ω Z ( f ) } , λ > 0

这里 f α = i = 1 m α i K ( , x i ) 是与Mercer核有关的。在系数正则化算法中的假设空间取为:

H K , x = f α ( x ) = i = 1 m α i K ( x , x i ) : α = ( α 1 , α 2 , , α m ) R m , m N

注:假设空间依赖输入数据 x = { x i : i = 1 , 2 , , m } 。系数正则化被Vapnik在文献 [5] 中为了设计线性规划支持向量机而首次引用。系数正则化是有一些优点的,我们可以见参考文献 [10] 。

本文中,我们考虑不定核而不再考虑Mercer核,所谓一般核 K 是指 K 只满足有界性和连续性,不再满足对称性或者半正定性。对于非正定核通常通过以下定义来处理。

定义1.3 K ˜ ( u , v ) = E u K ( x , u ) K ( t , v ) , (1.2)

K ˜ 是一个Mercer核。

更多的关于不定核的学习,有:文献 [12] Qu和Sun学习了对于不定核核 l q 范数正则化学习算法的渐进性能,并且得到了满意的学习率;通过奇异值分解的方法,文献 [13] Q考虑不定核的情况下,得出了与容量无关的误差界。

在这篇文章里,记 k = sup x , t X | K ( x , t ) | < ,我们学习 l 2 系数正则化算法:

f Z , λ = f α Z 其中 α Z = arg min α R m { 1 m i = 1 m ( f α ( x i ) y i ) 2 + λ m i = 1 m α i 2 } , λ > 0 (1.3)

这里 f α = i = 1 m α i K ˜ ( , x i ) 。由(1.2),有 k 2 = sup u , v | K ( u , v ) |

本文我们研究non-iid抽样下的系数正则化学习算法的性能。考虑基于 Z 上的概率分布序列 { ρ i } ,因此对于任意的 i 1 ρ i x 处的条件分布为 ρ ( | x ) 。第 i 个样本 z i = ( x i , y i ) 的选取依赖于 ρ ( i ) 。我们假设样本序列 z i = ( x i , y i ) , i 1 来自于强平稳过程并且样本的相关性满足强混合条件。

关于强混合条件的定义:

定义1.4对于两个 σ Γ D ,定义a-数为 α ( Γ , D ) = sup A Γ , B D | P ( A B ) P ( A ) P ( B ) | 。给定一系列样

{ z i } i = 1 m ,定义 M a b 为由随机变量 z a , z a + 1 , , z b 生成的 σ 域。当 i 0 时, α i = sup k 1 α ( M 1 k , M k + i ) 0 ,称随机过程 z i , i 1 满足强混合条件(或 α 混合条件)。

对于正则化学习算法的误差分析,已经有很多研究工作,其中绝大多数假设输出数据是一致有界的,即存在某一常数 M > 0 ,使得几乎处处有 | y | M ,也即条件分布 ρ ( | x ) 的支撑集几乎处处包含在 [ M , M ] 中,见文献 [3] [4] [6] [10] 。文献 [14] [15] 在输出数据满足以下矩假设条件下得出算法(1.3)的误差界:

定义1.5 (矩有界假设)存在常数 M ^ > 0 C 1 > 0 使得

Y | y | l d ρ ( y / x ) C 1 l ! M ^ l , l N , x X (1.4)

文献 [1] 和 [2] ,在以下弱化的矩有界假设下分别研究了回归学习算法(1.1)和(1.3)。

本文给出的有关输出数据的假设:

定义1.6 (弱化的矩有界假设)存在两个常数 M > 0 p 2 使得

Z | y | p d ρ M (1.5)

注:矩假设(1.4)要求输出数据 y 的所有矩皆有界,而本文对矩假设进一步弱化,只要求 y 的某个 p ( p 2 ) 阶矩有界。

本文研究对输出变量满足弱化的矩有界条件(1.5)下基于非正定核的惩罚项为l2-范数的系数正则化算法的误差分析。下一节,我们将给出一些假设条件和本文主要结论。

2. 假设与结论

X 是紧的距离空间, K ˜ 是Mercer核, ρ X 为定义在 X 上非退化的Borel测度,对任意的 f L v 2 ( t ) ,定义积分算子为:

L K ˜ , υ f ( x ) = X K ˜ ( x , t ) f ( t ) d ρ X ( t ) , x X (2.1)

假设1 (Non-iid Sampling Condition):存在一些正整数 N 0 ,在 X 上有两个正的有界的Borel测度,使得

μ ˜ μ μ ^ , m N 0 . (2.2)

其中 μ 1 m i = 1 m ρ X ( i )

假设2 (Approximation Condition):存在 a 0 > 0 , 0 < β 1 ,使得

D ( λ ) = min f H K ˜ { f f ρ L μ ^ 2 2 + λ f K ˜ 2 } a 0 2 λ β , λ > 0 (2.3)

通过求导运算,有

D ( λ ) = λ ( λ I + L K ˜ , μ ^ ) 1 2 f ρ L K ˜ , μ ^ 2 2 (2.4)

即, f ρ R a n g e ( L K , μ ^ β 2 ) [16] 。

定理2.1假设Non-iid Sampling Condition (2.2)和Approximation Condition (2.3)成立,样本序列 z i = ( x i , y i ) , 1 i m 满足强混合条件,并且 0 < λ 1 。则对任何 0 < η < 1 1 η 的概率下有

f Z , λ f ρ ρ X 2 a 0 λ β / 4 η + C η m 1 / 2 λ 1 / 4 [ 1 + m 1 / 4 λ 1 / 4 ( 1 + l = 1 m α l ) 1 / 4 ] × [ 1 + λ ( β 1 ) ( p 2 ) / 4 p ( l = 1 m α l ( p 2 ) / 2 ) 1 / 2 + λ ( β 1 ) / 4 ( 1 + i = 1 m α i ) 1 / 2 ]

成立。

其中 C 是与 k , M , p , a 0 有关的常数。

基于定理2.1,通过选择合适的 λ (与 m 相关)可以得到算法(1.3)的收敛速率。即:

定理2.2在定理2.1的假设下,且对于一些 a > 0 t > 0 ,满足 α l a l t , 则有

f Z , λ f ρ L μ ˜ 2 C ˜ ( m θ ( β , t ) min { p 2 p t , 1 } ( log m ) 3 / 4 )

这里 θ ( β , t ) 定义为: θ ( β , t ) = { p β 4 ( β + p 1 ) , 0 < β < 1 , 0 < t < p p 2 β 4 , 0 < β < 1 , t p p 2 1 4 , β = 1

定理2.1,定理2.2的证明会在第4部分-误差分析给出。

下一节我们会给出一些基本引理。□

3. 基本引理

证明定理2.1还需要一些结论。首先我们用以下引理 [3] 来处理a-混合条件。定义向量值随机变量 ξ

u 阶矩为: ξ μ = ( E ξ H μ ) 1 / μ ( 1 < u < ) ξ = sup ξ H .

引理3.1假设随机样本 z i = ( x i , y i ) , i 1 满足a-混合条件。设 ξ , η 为取值在可分Hilbert空间H中,分别关于 σ 代数 J D 可测的随机变量。对任意的 1 < p , q , t < ,满足 p 1 + q 1 + t 1 = 1 或者 p = q = , t = 1 ,则有

| E ( ξ , η ) ( E ξ , E η ) | < 15 α 1 t ( J , D ) ξ p η q (3.1)

讨论假设空间的逼近能力,需要以下函数

g μ , λ = arg min f H K ˜ { f f ρ L μ 2 2 + λ f K ˜ 2 } (3.2)

通过对(3.2)的求导运算,可以得到

g μ , λ = L K ˜ , μ ( L K ˜ , μ + λ I ) 1 f ρ (3.3)

同样,也需要以下引理。

引理3.2对 f H K ˜ L K ˜ , μ 1 2 为从 L μ 2 H K ˜ 的等距同构映射,则有

f L μ 2 = L K ˜ , μ 1 2 f K ˜ (3.4)

引理3.3在假设1 (Non-iid Sampling Condition) (2.2)和假设2 (Approximation Condition) (2.3)成立的条件下,则有

( λ I + L K , μ ) 1 2 f ρ L μ 2 a 0 λ ( β 1 ) / 2 (3.5)

证: D ( λ ) min f H K ˜ { f f ρ L μ 2 + λ f K ˜ 2 } = g μ , λ f ρ L μ 2 2 + λ g μ , λ K ˜ 2 = λ ( L K ˜ , μ + λ I ) 1 f ρ L μ 2 2 + λ L K ˜ , μ 1 2 ( L K ˜ , μ + λ I ) 1 f ρ L μ 2 2 = λ ( λ I + L K ˜ , μ ) 1 2 f ρ L μ 2 2

在给出下一个引理之前,这里先给出一些概念:定义样本算子 S x : H K R m

S x f = { f ( x i ) } i = 1 m ,对任意的 f H K ˜ ,

其中 x = { x i } i = 1 m X

那么, S x 的共轭算子 S x : R m H K ˜

S x c = i = 1 m c i K ˜ ( , x i )

这里, c = ( c 1 , , c m ) R m

在文献 [10] [13] 里已经证明有

f Z , λ = ( λ I + ( 1 m S x S x ) 2 ) 1 1 m 2 S x S x S x y = ( λ I + ( 1 m S x S x ) 2 ) 1 ( 1 m S x S x ) 1 m S x y (3.6)

接下来给出Hilbert Schmidt [7] 的定义和性质:

H S ( H K ˜ ) H K ˜ 上所有的Hilbert Schmidt类,它构成了一个Hilbert空间,其内积为

T , S H S : = i = 1 T φ i , S φ i K ˜

其中 { φ i } i = 1 + H K 的一组正交基并且这个定义不依赖于基的选择。

我们需要Hilbert Schmidt算子的下列性质。

1) 对 h H K ˜ ,定义一秩算子 h h ( f ) = h , f K ˜ ,并且它是一个Hilbert Schmidt算子满足 h h H S = h K ˜ 2 。记

E 1 m S x S x = E 1 m i = 1 m K ˜ x i K ˜ x i = 1 m i = 1 m L K ˜ , ρ X ( i ) = L K ˜ , μ (3.7)

2) 对任意Hilbert Schmidt算子 T ,有 T T H S

接下来的引理给出了经验积分算子的收敛性:

引理3.4假设随机变量序列 z i = ( x i , y i ) , 1 i m 满足强混合条件,则下列不等式成立

1 m S x S x L K ˜ , μ k 2 m ( 1 + 30 l = 1 m 1 α l ) 1 2 (3.8)

证:由(3.7)式和 L K ˜ , μ 是一Hilbert Schmidt算子,有

E 1 m S x S x L K ˜ , μ 2 E 1 m i = 1 m K ˜ ( , x i ) K ˜ ( , x i ) L K ˜ , μ H S 2 = E 1 m i = 1 m K ˜ x i K ˜ x i H S 2 L K ˜ , μ H S 2 = E 1 m 2 i = 1 m K ˜ x i K ˜ x i H S 2 + 1 m 2 i j E K ˜ x i K ˜ x i , K ˜ x j K ˜ x j H S L K ˜ , μ H S 2

K ˜ x i K ˜ x i H S 2 k 4 [11] ,由引理3.1,当 p = q = t = 1 时有,当 i j

E K ˜ x i K ˜ x i , K ˜ x j K ˜ x j H S E K ˜ x i K ˜ x i , E K ˜ x j K ˜ x j H S + 15 α | i j | K ˜ x i K ˜ x i K ˜ x j K ˜ x j L K ˜ , μ H S 2 + 15 k 4 α | i j |

然后有

E 1 m S x S x L K ˜ , μ 2 k 4 m + m 2 m m 2 L K ˜ , μ H S 2 + 30 k 4 m l = 1 m 1 α l L K ˜ , μ H S 2 k 4 m ( 1 + 30 l = 1 m 1 α l )

4. 误差分析

为了分析算法误差,像文献 [2] 中一样,这里需要引进一个正则化函数 f μ , λ

f μ , λ = L K ˜ , μ 2 ( λ I + L K ˜ , μ 2 ) 1 f ρ , 0 < λ < 1 (4.1)

所以我们可以把误差 f Z , λ f ρ 分解成两部分:

f Z , λ f ρ = { f Z , λ f μ , λ } + { f μ , λ f ρ } (4.2)

这里右边第一部分叫做样本误差,第二部分叫做正则误差。

4.1. 正则误差分析

在这一小分节中,我们分析正则化误差 f μ , λ f ρ L μ 2 的界。

命题4.1在假设1 (Non-iid Sampling Condition) (2.2)和假设2 (Approximation Condition) (2.3)成立的条件下,当 0 < λ 1 时,下列正则化误差的界成立:

f μ , λ f ρ L μ 2 2 a 0 λ β / 4 (4.3)

证:由引理3.2,引理3.3和下列积分算子不等式

( λ + L K ˜ , μ 2 ) 1 4 ( λ + L K ˜ , μ ) 1 2 2

则有

f μ , λ f ρ L μ 2 = λ ( λ I + L K ˜ , μ 2 ) 1 ( λ + L K ˜ , μ ) 1 2 ( λ + L K ˜ , μ ) 1 2 f ρ L μ 2 2 a 0 λ β / 4

相似地,有

f μ , λ K ˜ = L K ˜ , μ 3 2 ( λ I + L K ˜ , μ 2 ) 1 ( λ + L K ˜ , μ ) 1 2 ( λ + L K ˜ , μ ) 1 2 f ρ L μ 2 2 a 0 λ ( β 1 ) / 4 (4.4)

4.2. 样本误差分析

在这一个小分节中,我们分析样本误差 f Z , λ f μ , λ L μ 2 的界。

与文献 [10] 同样的方法,记 λ f μ , λ = L K ˜ , μ 2 ( f ρ f μ , λ ) ,有

f Z , λ f μ , λ = [ λ I + ( 1 m S x S x ) 2 ] 1 { ( 1 m S x S x ) 1 m S x y [ ( 1 m S x S x ) 2 + λ I ] f μ , λ } = [ λ I + ( 1 m S x S x ) 2 ] 1 { ( 1 m S x S x ) 1 m i = 1 m ( y i f μ , λ ( x i ) ) K ˜ x i L K ˜ , μ 2 ( f ρ f μ , λ ) } = [ λ I + ( 1 m S x S x ) 2 ] 1 ( 1 m S x S x ) U + [ λ I + ( 1 m S x S x ) 2 ] 1 V W (4.5)

其中

U = 1 m i = 1 m ( y i f μ , λ ( x i ) ) K ˜ x i L K ˜ , μ ( f ρ f μ , λ ) V = 1 m S x S x L K ˜ , μ W = L K ˜ , μ ( f ρ f μ , λ ) (4.6)

f Z , λ f μ , λ 都在 H K ˜ 中。由引理3.2,有

f Z , λ f μ , λ L μ 2 = L K ˜ , μ 1 2 ( f Z , λ f μ , λ ) K ˜ L K ˜ , μ 1 2 [ λ I + ( 1 m S x S x ) 2 ] 1 ( 1 m S x S x ) U K ˜ + L K ˜ , μ 1 2 [ λ I + ( 1 m S x S x ) 2 ] 1 V W K ˜ = I 1 + I 2 (4.7)

接下来分别分析 I 1 I 2

由算子单调不等式( [17] ,定理2.1),有

L K ˜ , μ 1 2 ( 1 m S x S x ) 1 2 L K ˜ , μ ( 1 m S x S x ) 1 2 (4.8)

于是,可以得到

I 1 L K ˜ , μ ( 1 m S x S x ) 1 2 [ λ I + ( 1 m S x S x ) 2 ] 1 ( 1 m S x S x ) U K ˜ + [ λ I + ( 1 m S X S X ) 2 ] 1 U K ˜ ( λ 1 2 V 1 2 + λ 1 4 ) U K ˜ (4.9)

类似地得到 I 2 的界

I 2 L K ˜ , μ ( 1 m S x S x ) 1 2 [ λ I + ( 1 m S x S x ) 2 ] 1 V W K ˜ + [ λ I + ( 1 m S X S X ) 2 ] 1 ( 1 m S X S X ) 1 2 V W K ˜ ( λ 1 V 1 2 + λ 3 4 ) V W K ˜ (4.10)

下面我们会依次给出 V , W K ˜ , U K ˜ 的估计。引理3.4已经给出了 V 的估计。接下来考虑 W K ˜ 类似命题4.1,得到以下引理:

引理4.1在假设1 (Non-iid Sampling Condition)和假设2 (Approximation Condition)成立的条件下,当 0 < λ 1 时,有以下不等式成立

W K ˜ 2 a 0 λ ( β + 1 ) / 4 (4.11)

最后分析 U K ,需要有下列引理:

引理4.2在假设1 (Non-iid Sampling Condition) (2.2)和假设2 (Approximation Condition) (2.3)成立的条件下,有

( E U K ˜ 2 ) 1 2 ( C 3 m ) 1 2 { 1 + λ ( β 1 ) ( p 1 ) / 4 p ( i = 1 m 1 α l ( p 2 ) / p ) 1 2 } (4.12)

证:定义在 H K ˜ 上的向量值随机变量 ξ ( z ) = ( y f μ , λ ( x ) ) K ˜ ( , x ) 。因此,

U = 1 m i = 1 m ξ ( z i ) L K ˜ , μ ( f ρ f μ , λ ) , E 1 m i = 1 m ξ ( z i ) = L K ˜ , μ ( f ρ f μ , λ )

所以,

E U K ˜ 2 = E 1 m i = 1 m ξ ( z i ) E 1 m i = 1 m ξ ( z i ) K ˜ 2 = E 1 m i = 1 m ξ ( z i ) K ˜ 2 L K , μ ( f ρ f μ , λ ) K ˜ 2 (4.13)

由引理3.1,当 p > 2 时,令 u = v = p t = p p 2 ,当 j < i ,有

E ξ ( z i ) , ξ ( z j ) K ˜ E ξ ( z i ) , E ξ ( z j ) K ˜ + 15 α ( P 2 ) / P ( M 1 j , M i ) ξ ( z i ) p = L K ˜ , μ ( f ρ f μ , λ ) K ˜ 2 + 15 ( α i j ) ( p 2 ) / p ξ p 2 (4.14)

所以有

E 1 m i = 1 m ξ ( z i ) K ˜ 2 = 1 m 2 i = 1 m E ( y i f μ , λ ( x i ) ) 2 K ˜ ( x i , x i ) + 1 m 2 i j E ξ ( z i ) , ξ ( z j ) K ˜ k 2 m 2 i = 1 m E ( y i f μ , λ ( x i ) ) 2 + m 2 m m 2 L K ˜ , μ ( f ρ f μ , λ ) K ˜ 2 + 30 m l = 1 m 1 α l ( p 2 ) / p ξ p 2 (4.15)

故有 E 1 m i = 1 m ξ ( z i ) E ξ K ˜ 2 k 2 m 2 i = 1 m E ( y i f μ , λ ( x i ) ) 2 + 30 m l = 1 m 1 α l ( p 2 ) / p ξ p 2 (4.16)

接下来分别估计 k 2 m 2 i = 1 m E ( y i f μ , λ ( x i ) ) 2 ξ p 。对于 k 2 m 2 i = 1 m E ( y i f μ , λ ( x i ) ) 2 ,有

k 2 m 2 i = 1 m E ( y i f μ , λ ( x i ) ) 2 k 2 m 2 i = 1 m E ( y i f ρ ) 2 + k 2 m 2 i = 1 m E ( f ρ f μ , λ ( x i ) ) 2 = k 2 m ( E | y 2 E | f ρ | 2 ) + k 2 m f ρ f μ , λ L μ 2 2 (4.17)

由Hölder不等式,得到

Z y 2 d ρ ( Z | y | p d ρ ) 2 / p M 2 / p (4.18)

f ρ ρ X X ( Y y d ( y / x ) ) 2 d ρ X Z y 2 d ρ M 2 / p (4.19)

因此

E y 2 f ρ ρ X 2 < M 2 / p (4.20)

将(4.3)和(4.20)代入(4.17),得到

k 2 m 2 i = 1 m E ( y i f μ , λ ( x i ) ) 2 k 2 m ( M 2 / p + 4 a 0 2 λ β / 2 ) (4.21)

接下来评估 ξ p 2

ξ p 2 = [ E ( ( y f μ , λ ) 2 K ˜ ( x , x ) ) p / 2 ] 2 / p k 2 ( E | y f μ , λ ( x ) | p ) 2 / p k 2 [ ( E | y | p ) 1 / p + ( E | f μ , λ ( x ) | p ) 1 / p ] 2 2 k 2 [ ( E | y | p ) 2 / p + ( E | f μ , λ | p ) 2 / p ] (4.22)

现在,我们需要给出 ( E | f μ , λ ( x ) | p ) 2 / p 的上界。

由(4.4),有

| f μ , λ ( x ) | k f μ , λ K ˜ 2 k a 0 λ ( β 1 ) / 4 (4.23)

f μ , λ 的定义,有

f μ , λ ρ X 2 f ρ ρ X 2 E y 2 M 2 / p (4.24)

所以

( E | f μ , λ ( x ) | p ) 2 / p = E ( | f μ , λ ( x ) | 2 | f μ , λ | p 2 ) 2 / p ( f μ , λ ρ X 2 ) 2 / p ( | f μ , λ ( x ) | p 2 ) 2 / p ( M 2 / p ) 2 / p ( ( 2 k a 0 λ ( β 1 ) / 4 ) p 2 ) 2 / p = 4 ( p 2 ) / p M 4 / p 2 k 2 ( p 2 ) / p a 0 2 ( p 2 ) / p λ ( β 1 ) ( p 2 ) / 2 p (4.25)

将(4.18)和(4.25)代入(4.22),有

ξ p 2 2 k 2 ( M 2 / p + 4 ( p 2 ) / p M 4 / p 2 k 2 ( p 2 ) / p a 0 2 ( p 2 ) / p λ ( β 1 ) ( p 2 ) / 2 p ) (4.26)

k 2 m 2 i = 1 m E ( y i f μ , λ ( x i ) ) 2 ξ p 2 的上界与(4.16)联系,有

( E U K ˜ 2 ) k 2 m ( M 2 / p + 4 a 0 λ β / 2 ) + 30 C 1 m l = 1 m 1 α l ( p 2 ) / p × λ ( β 1 ) ( p 2 ) / 2 p (4.27)

故有

( E U K ˜ 2 ) 1 2 ( C 2 m ) 1 2 { 1 + λ ( β 1 ) ( p 2 ) / 4 p ( l = 1 m 1 α l ( p 2 ) / p ) 1 2 } (4.28)

其中 C 1 , C 2 是与 k , M , p , a 0 相关的常数。随即我们可以有以下命题:

命题4.2在假设1 (Non-iid Sampling Condition) (2.2)和假设2 (Approximation Condition) (2.3)成立的条件下,当 0 < λ 1 时,有以下不等式成立:

f Z , λ f μ , λ L μ 2 C m 1 / 2 λ 1 / 4 [ 1 + m 1 / 4 λ 1 / 4 ( 1 + l = 1 m α l ) 1 / 4 ] × [ 1 + λ ( β 1 ) ( p 2 ) / 4 p ( l = 1 m α l ( p 2 ) / p ) 1 / 2 + λ ( β 1 ) / 4 ( 1 + l = 1 m α l ) 1 / 2 ]

其中 C 是与 k , M , p , a 0 相关的常数。

证:

f Z , λ f μ , λ L μ 2 [ λ 1 / 4 U K ˜ + 2 a 0 k 2 λ ( β 2 ) / 4 m 1 / 2 ( 1 + l = 1 m 1 α l ) 1 / 2 ] × [ k λ 1 / 4 m 1 / 4 ( 1 + l = 1 m 1 α l ) 1 / 4 + 1 ] = C 3 m 1 / 2 λ 1 / 4 [ 1 + m 1 / 4 λ 1 / 4 ( 1 + l = 1 m 1 α l ) 1 / 4 ] × [ 1 + λ ( β 1 ) ( p 2 ) / 4 p × ( l = 1 m 1 α l ( p 2 ) / p ) 1 / 2 + 2 a 0 λ ( β 1 ) / 4 ( 1 + l = 1 m 1 α l ) 1 / 2 ] = C m 1 / 2 λ 1 / 4 [ 1 + m 1 / 4 λ 1 / 4 ( 1 + l = 1 m α l ) 1 / 4 ] × [ 1 + λ ( β 1 ) ( p 2 ) / 4 p ( l = 1 m α l ( p 2 ) / 2 ) 1 / 2 + λ ( β 1 ) / 4 ( 1 + l = 1 m α l ) 1 / 2 ] (4.29)

由马尔科夫不等式和三角不等式,有

P { f Z , λ f ρ > η } 1 η { E f Z , λ f μ , λ L μ 2 + E f μ , λ f ρ L μ 2 } (4.30)

将(4.3)和(4.29)代入(4.30)中,可以得到想要的界,即完成定理2.1的证明。

最后证明定理2.2。为了得到学习率,这里需要对的 α i 0 收敛速度做一些规定。

定义4.1随机样本序列 z i = ( x i , y i ) ,满 i 1 足多项式强混合条件,如果对一 a > 0 t > 0 。a-混合系数 α i 满足,

α i a l t , l 1 (4.31)

通过以下式子可以很容易地得到学习率

l = 1 m 1 l t = { o ( m 1 t ) , t < 1 o ( log m ) , t = 1 o ( 1 ) , t > 1

定理2.2的证明。当 0 < t < 1 ,由(4.31),有

1 + l = 1 m 1 α l 1 + a l = 1 m 1 l t ( 1 + a ) m 1 t l = 1 m 1 α l ( p 2 ) / p a ( p 2 ) / p m 1 ( p 2 ) t / p

0 < β < 1 ,由定理2.1,有

f Z , λ f ρ L μ 2 C { λ β / 4 + m 1 / 2 λ 1 / 4 ( 1 + m 1 / 4 λ 1 / 4 m ( 1 t ) / 4 ) × ( 1 + λ ( β 1 ) ( p 2 ) / 4 p m 1 / 2 ( p 2 ) t / 2 p + λ ( β 1 ) / 4 m ( 1 t ) / 2 ) }

为了平衡正则误差和样本误差,选取 λ = m ( p 2 ) t p + β 1 。然后有

f Z , λ f ρ L μ 2 C ( m ( p 2 ) β t 4 ( p + β 1 ) )

类似地,当 β = 1 时,取 λ = m 3 p t 4 t 3 p 。另一种情况也可用相同的方法考虑。

致谢

本论文是在陈爽导师的悉心指导下和同学的无私帮助下完成的。论文写作期间遇到了很多困难和障碍,但都在同学,导师和自己的努力下一一克服了。尤其要强烈感谢我的导师-陈爽老师,没有她对我进行的不厌其烦的帮助和指导,无私的为我进行论文的修改和改进,就不会有我这篇论文的最终完成。在此,我向我也向指导和帮助我的所有老师和同学表示最衷心的感谢。同时,我也要感谢本论文所引用的各学者的专著,如果没有这些学者的研究成果的启发和帮助,我将无法本篇论文的最终写作。

文章引用

常欣欣,陈爽. 基于非独立同分布样本的系数正则化回归算法的误差分析
Error Analysis of Coefficient Regularized Regression and Non-Iid Sampling[J]. 统计学与应用, 2017, 06(04): 442-454. http://dx.doi.org/10.12677/SA.2017.64050

参考文献 (References)

  1. 1. Chun, X.R. and Sun, H.W. (2013) Regularized Least Square Regression with Unbounded and Dependent Sampling. Abstract and Applied Analysis, 2013, 900-914.

  2. 2. Gao, Q. and Ye, P.X. (2016) Coefficient-Based Regularized Regression with Dependent and Unbounded Sampling. International Journal of Wavelets Multiresolution and Information Processing, 14, Article ID: 1650039.

  3. 3. Sun, H. and Guo, Q. (2011) Coefficient Regularized Regression with Non-Iid Sampling. International Journal of Computer Mathematics, 88, 3113-3124. https://doi.org/10.1080/00207160.2011.587511

  4. 4. Zhang, M.J. and Sun, H.W. (2017) Regression Learning with Non-Identically and Non-Independently Sampling. International Journal of Wavelets Multiresolution and Information Processing, 15, Article ID: 1750007. https://doi.org/10.1142/S0219691317500072

  5. 5. Vapink, V. (1998) Statistical Learning Theory. Wiley, New York, 3185.

  6. 6. Pan, Z.W. and Xiao, Q.W. (2009) Least-Square Regularized Regression with Non-Iid Sampling. Journal of Statistical Planning and Inference, 139, 3579-3587. https://doi.org/10.1016/j.jspi.2009.04.007

  7. 7. Sun, H.W. and Wu, Q. (2012) Regu-larized Least Square Regression with Dependent Sampling. Advances in Computational Mathematics, 32, 175-189.

  8. 8. Qiang, W., Ying, Y. and Ding, X.Z. (2006) Learning Rates of Least-Square Regularized Regression. Foundations of Computational Mathematics, 6, 171-192. https://doi.org/10.1007/s10208-004-0155-9

  9. 9. Sheng, B.H., Ye, P.X. and Wang, J.L. (2012) Learning Rates for Least Square Regression with Coefficient Regularization. Acta Mathmation Sinica, English Series, 8, 2205-2212. https://doi.org/10.1007/s10114-012-0607-0

  10. 10. Sun, H. and Wu, Q. (2011) Least Square Regression with Indefinite Kernels and Coefficient Regularization. Applied and Computation Harmonic Analysis, 30, 96-109. https://doi.org/10.1016/j.acha.2010.04.001

  11. 11. Zuo, L., Li, L.Q. and Chen, C. (2015) The Graph Based Semi-Supervised Al-gorithm with l1-Regularizer. Neurocomputing, 149, 966-974.

  12. 12. Qu, Z.F. and Sun, H.W. (2016) Indefinite Kernel Network with lq-Norm Regularization. Discrete Dynamics in Nature and Society Volume, Article ID: 6516258.

  13. 13. Wu, Q. (2013) Regularization Networks with Indefinite Kernels. Journal of Approximation Theory, 166, 1-18.

  14. 14. Cai, J. (2013) Coefficient-Based Regression with Non-Identical Unbounded Sampling. Hindawi Publishing Corporation Abstract and Applied Analysis, 415-425. https://doi.org/10.1155/2013/134727

  15. 15. Cai, J. and Wang, C (2013) Coefficient-Based Regularized Regression with Indefinite Kernels by Unbounded Sampling. Scientia Sinica Mathematica, 43, 613-624.

  16. 16. Cucker, F. and Zhou, D.X. (2007) Learning Theory: An Approximation Theory Viewpoint. Cambridge University Press. https://doi.org/10.1017/CBO9780511618796

  17. 17. Sun, H. and Guo, Q. (2009) A Note On Application of Integral Operator in Learning Theory. Applied and Computational Harmonic Analysis, 26, 416-421.

期刊菜单