现实世界中,大多数变量之间的关系都不是线性的。本文在使用时间序列模型对我国城镇化率与经济增长之间的关系进行探究时,协整检验失效,说明二者之间不存在线性协整的关系。因此,本文采用光滑样条估计法来研究我国城镇化率与经济增长之间的关系,并在实际数据集上与经典线性回归方法比较。通过实证分析,得知光滑样条拟合效果优于线性回归模型。 In the real world, the relationship between most variables is not linear. When using time series model to explore the relationship between urbanization rate and economic growth in China, the cointegration test fails, showing that there is no linear cointegration relationship between them. Therefore, this paper uses smooth spline estimation to study the relationship between urbanization rate and economic growth in China, and compares it with the classical linear regression method on the actual data set. Through empirical analysis, it is found that the fitting effect of smooth spline is better than that of linear regression model.
刘曦蕊
北方工业大学理学院,北京
收稿日期:2019年6月7日;录用日期:2019年6月21日;发布日期:2019年6月28日
现实世界中,大多数变量之间的关系都不是线性的。本文在使用时间序列模型对我国城镇化率与经济增长之间的关系进行探究时,协整检验失效,说明二者之间不存在线性协整的关系。因此,本文采用光滑样条估计法来研究我国城镇化率与经济增长之间的关系,并在实际数据集上与经典线性回归方法比较。通过实证分析,得知光滑样条拟合效果优于线性回归模型。
关键词 :城镇化率,经济增长,光滑样条,线性回归
Copyright © 2019 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
我们人类社会发展趋势的一个必然表现就是城镇化,城镇化是一个国家或地区现代化重要性的标志,也是工业化的重要性标志。我国城镇化正以惊人的速度快速推进,与此同时,我国的经济也以世界瞩目的姿态蓬勃发展。城镇化、经济增长是两个世界各国争相关注的话题,亦是学者研究的热门话题。Henderson [
因此,本文选取了这二者作为研究对象,试图挖掘出它们之间的关系。然而,本文最初在使用时间序列模型分析时,这二者之间的协整检验无法通过,即认为这二者不存在线性协整关系。因此促使我考虑使用非线性模型来对这两者进行建模、分析。
非参数模型相较于经典的线性模型来说更为灵活,不需要对模型施加过多的假设。光滑样条是一种非常流行的非参数回归方法,它不需要明确指定变量之间的函数关系类型,充分利用数据本身去选择合适的回归函数来拟合数据的变化趋势,能很好的解决变量之间的非线性建模问题。陈生长 [
考虑在区间[a,b]上选择n个结点 t i ( i = 1 , ⋯ , n ) ,满足 a < t 1 < t 2 < ⋯ < t n < b ,如果函数 f ( t ) 满足:1) 在每个区间 ( t i , t i + 1 ) , i = 1 , ⋯ , n − 1 ,均是三次多项式;2) 在每一个结点上, f ( t ) 的一阶与二阶导数存在且连续。则这样的函数 f ( x ) 被称为三次光滑样条。显然,三次样条函数可表示为:
f ( t ) = g ( t ) = d i ( t − t i ) 3 + c i ( t − t i ) 2 + b i ( t − t i ) + a i
t i ≤ t ≤ t i + 1 , i = 0 , 1 , ⋯ , n (1)
如果三次样条函数 g ( t ) 在a、b两点的二阶、三阶导数为0,则函数 g ( t ) 被称做自然三次样条。
设有n对数据 ( t i , y i ) , i = 1 , ⋯ , n ,其中 a < t 1 < t 2 < ⋯ < t n < b ,则可对数据 ( t i , y i ) 拟合模型:
y i = g ( t i ) + ε i (2)
假设 g ( t ) 是满足以上条件的三次自然光滑样条,则令 g = ( g 1 , ⋯ , g n ) ′ , γ = ( γ 1 , ⋯ , γ n ) ′ ,其中 g i = g ( t i ) , γ i = g ″ ( t i ) , i = 1 , 2 , ⋯ , n ,由自然边界条件可知q, γ 1 = γ n = 0 。令Q为 n × ( n − 2 ) 维矩阵,其元素 q i j , i = 1 , 2 , ⋯ , n ; j = 2 , ⋯ , n − 1 。 h i = t i + 1 − t i , i = 1 , ⋯ , n − 1 ,则 q j − 1 , j = h j − 1 − 1 ; q j , j = − h j − 1 − 1 − h j − 1 ; q i , j = 0 ,若
| i − j | ≥ 2 。又令R维 ( n − 2 ) × ( n − 2 ) 维对称矩阵,由元素 r i j 构成, i = j = 1 , ⋯ , n − 1 。 r i , i = 1 3 ( h i + 1 − h i ) , i = 1 , ⋯ , n − 1 ; r i , i + 1 = r i + 1 , i = 1 6 h i , i = 2 , ⋯ , n − 2 ; r i , j = 0 ,若 | i − j | ≥ 2 。因此R是严格的正定矩阵,定义矩阵K: K = Q R − 1 Q ′ 。当且仅当 Q T g = R γ 时, ∫ a b { g ″ ( t ) } 2 d t = γ ′ R γ = g ′ K g 。满足上述条件时g和 γ 可以完全确定一个自然三次样条函数。
可以通过最小化函数:
S ( g ) = ∑ i = 1 n ( Y i − g ( t i ) ) 2 + ∫ a b { g ″ ( x ) } 2 d x (3)
来拟合得到样条模型。其中 g ″ ( x ) 是函数 g ( t ) 的二阶导数, ∫ a b { g ″ ( x ) } 2 d x 被用来刻画函数的光滑程度; λ > 0 是光滑参数, λ 的值越大,函数g越光滑。以下用向量来表示求解过程:
∑ { Y i − g ( t i ) } 2 = ( Y − g ) ′ ( Y − g )
S ( g ) = ( Y − g ) ′ ( Y − g ) + λ g ′ K g = g ′ ( I + λ K ) g − 2 Y ′ g + Y ′ Y
求 S ( g ) 对g的偏导数,
∂ S ( g ) ∂ g = 2 ( I + λ k ) g − 2 Y
令 ∂ S ( g ) ∂ g = 0 ,可得 g = ( I + λ k ) − 1 Y 。 γ 的值可用 γ = R − 1 K g 求得。在给定光滑参数 λ 的值后,三次光滑样条可用以上向量形式表示。
如果 λ 选的过大,对模型的光滑度的惩罚力度较大,会使得曲线过于光滑,导致过拟合;如果 λ 选的太小,则对曲线的弯曲程度惩罚较小,会导致曲线出现过拟合。 λ 可通过交叉验证法CV、广义交叉验证法GCV等方式选出一个最优的 λ 。本文选用广义交叉验证(GCV)选择光滑参数 λ ,
GCV ( α ) = n − 1 ∑ i = 1 n { y i − g ^ ( t i ) } 2 { 1 − n − 1 t r A ( α ) } 2
其中 A ( α ) = I − α Q ( R + α Q ′ Q ) − 1 Q ′ 。
本节在对我国城镇化水平与经济增长的关系进行研究时,选取了中国统计年鉴1978~2017共40年的数据。选取“城镇人口在总人口所占比重”这一指标分析我国城镇化水平,记为城镇化率X。因为人均国内生产总值将人口规模的影响剔除掉了,相对来说比较准确所以选取人均国内生产总值作为衡量经济增长的指标,记做Y。为了消除价格因素的影响,本节所采用的数据是以1978年为基期,经过计算得到的可比价人均国内生产总值。
对非平稳序列进行建模时,往往会出现“伪回归”现象,为了满足数据的平稳性,我们通常利用差分变换,使序列变平稳,但是这样建模的效果就受到了影响。我们通常可以通过协整来解决此问题,变量的协整检验最常用的方法是EG检验。
两变量检验的第二步,再对残差序列 e t 的平稳性进行检验。由EVIEWS软件进行ADF检验,结果如表1。
变量 | ADF统计量 | 临界值(1%) | 临界值(5%) | 临界值(10%) | P值 | 平稳性 |
---|---|---|---|---|---|---|
et | −2.2368 | −3.6268 | −2.9458 | −2.6115 | 0.1974 | 不平稳 |
表1. ADF检验结果
通过检验结果发现,x与lny的线性组合所得到的残差序列 e t 并不是平稳的,见表1,说明x与lny之间没有线性协整关系。造成此种现象的原因可能是,随着时间的推移,城镇化率对人均GDP的影响关系并不是线性的,而是每年都在变化的,因此,本文将使用光滑样条估计对数据进行分析。
根据第二节中介绍的三次光滑样条的理论知识,利用R软件对模型进行估计。由于已有的大部分文献都是采用线性回归模型对其进行分析及预测,因此为了和线性回归模型进行比较,本文也对响应变量与预测变量进行了线性回归。图1是光滑样条与线性回归模型拟合的图像,较粗的直线是线性回归模型拟合的直线,较细的曲线是光滑样条拟合的图形,从图中可以看出光滑样条模型能够够好的拟合数据。
图1. 光滑样条与线性回归拟合
根据图2光滑样条估计的残差散点图可以发现,所有点都落在了−0.2~0.2的水平带状区间中,并且未表现出明显的趋势性,因此我们可以认为该模型具有良好的拟合效果。
因此,可以得出我国城镇化率与人均GDP的光滑样条模型:
y ^ = exp { g ( x ) ^ }
在构建的线性回归模型中,将做过对数变换后的人均GDP作为响应变量城镇化率作为解释变量。利用R软件进行计算,并把结果汇总在表2中。
图2. 光滑样条估计的残差散点图
Estimate | Std. Error | t value | Pr (>|t|) | 显著性 | |
---|---|---|---|---|---|
截距 | 4.075836 | 0.175769 | 23.19 | <2e−16 | *** |
x | 0.125853 | 0.004669 | 26.96 | <2e−16 | *** |
表2. 线性回归的结果
我们可以得到预测方程:
y ^ = exp ( 4.075836 + 0.125853 x )
为了分析模型的估计结果,本节把预测的均方误差作为评价标准:
M S E = 1 n ∑ i = 1 n ( y i − g ( t i ) ^ ) 2
通过表3可以看出,光滑样条估计的均方误差要比线性回归模型估计的均方误差小,说明光滑样条更好的拟合了数据。因此我们可以知道光滑样条模型的预测效果要优于线性模型。
光滑样条估计 | 最小二乘估计 | |
---|---|---|
均方误差 | 0.00121 | 0.12619 |
表3. 两类方法预测的均方误差
从上一节的分析中,我们得到了光滑样条估计,并通过对比线性模型与光滑样条模型预测的均方误差得出光滑样条模型比线性模型好。同时,分析的结果告诉我们,城镇化率并不是以一种线性的方式影响着人均GDP的变化,而是以一种非线性的方式影响着经济增长的步伐。
光滑样条非参数回归分析不必假定反应变量与解释变量之间的函数形式,适用于任意分布的数据,因此光滑样条回归模型可广泛应用于经济学、医学等领域。
北京市属高校基本科研业务费NO.110052971921/103资助项目。
刘曦蕊. 基于光滑样条估计的我国城镇化率对经济增长影响的实证研究 Empirical Study on the Impact of Urbanization Rate on Economic Growth in China Based on Smooth Spline Es-timation[J]. 统计学与应用, 2019, 08(03): 574-579. https://doi.org/10.12677/SA.2019.83065