随着我国经济的发展、国民生活水平的日益提高,我国对公路交通基础建设也越加重视。本文利用我国1981~2015年客运量各项有关数据,对公路客运量影响因素进行分析,以总人口、国内生产总值、农业生产总值以及民用载客汽车拥有量为自变量,公路客运量作为因变量。运用MATLAB建立多元回归模型,并对回归模型的合理性进行了分析。其中多元回归模型综合考虑了影响客运量的众多因素,对这些因素进行模型拟合,并用逐步回归法对模型进行了检验和改进,大大提高了模型的科学性和准确性。最后运用所得的回归模型拟合2011~2015公路客运量,并与实际客运量数据进行对比,分析误差。 With the development of economy and the increase of living standard, China has paid more attention on the infrastructure of highway transportation. This paper applies the related data of the passenger capacity of the highway transportation from 1981 to 2015 to analyze the factors influenced the passenger capacity of the highway transportation. It takes the population, GDP, agricultural GDP and the civil car ownership as the independent variables, and the passenger capacity of the highway transportation as the dependent variable to establish the multivariate regression model with MATLAB. At the same time, the rationality of the regress model is also analyzed in this essay. We have fitted various factors of the multivariate regress model in consideration of the complexity, verified and improved the multivariate regress model with stepwise regression in order to enhance the scientificity and accuracy of the model. In the final step, the passenger capacity of the highway transportation from 2011 to 2015 has been calculated by the regress model of univariate and multivariate, and a comparison has been made between the calculated date and the actual data which aims to analyze the difference and errors.
沈丹丹
上海海事大学,上海
收稿日期:2017年2月1日;录用日期:2017年2月19日;发布日期:2017年2月22日
随着我国经济的发展、国民生活水平的日益提高,我国对公路交通基础建设也越加重视。本文利用我国1981~2015年客运量各项有关数据,对公路客运量影响因素进行分析,以总人口、国内生产总值、农业生产总值以及民用载客汽车拥有量为自变量,公路客运量作为因变量。运用MATLAB建立多元回归模型,并对回归模型的合理性进行了分析。其中多元回归模型综合考虑了影响客运量的众多因素,对这些因素进行模型拟合,并用逐步回归法对模型进行了检验和改进,大大提高了模型的科学性和准确性。最后运用所得的回归模型拟合2011~2015公路客运量,并与实际客运量数据进行对比,分析误差。
关键词 :公路客运量,多元回归模型,逐步回归,民用载客汽车拥有量
Copyright © 2017 by author and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
公路运输是国民经济的基础性和服务性产业,是合理配置资源、提高经济运行质量和效率的重要基础,具有基础性和先导性的作用。客运量是衡量公路运输发展程度的重要指标,可用于反映社会经济发展现状和人民生活水平。目前,客运量预测方法已达300多种,归纳起来大体分为定性预测和定量预测两类。常用的定量预测方法有指数平滑法、回归分析法、弹性系数法、灰色系统法、组合法等;定性预测方法有运输市场调查法、德尔菲法和类推法等 [
本文主要采用回归分析法对公路客运量进行回归分析和预测。世界上任何事物的产生和发展都是由一定的原因引出一定的结果。当一个变量(因变量)同其它一些因素(自变量)之间存在着某种因果关系的时候,我们就可以按照一定的方式建立反映这些关系的数学模型,然后根据自变量在未来的变化来计算因变量的变化,这就是因果关系预测。建立因果关系预测常采用的方法就是回归分析法,该方法是利用过去的历史资料,从中分析找出事物发展的内在联系,确定事物的自变量和应变量,以及它们之间的相关关系,建立数学方程式,一般称其为回归方程 [
公路客运量主要受到经济发展水平、经济结构、人口及其构成、居民收入与消费水平、旅游业发展状况、运输网络结构等因素的影响。本文主要选取总人口
1981~2015年我国公路客运量、总人口、国内生产总值、工农业总产值、民用载客汽车拥有量数据见表1。
社会经济现象是复杂的,通常一种社会经济现象与许多种现象相联系。一种社会经济现象与多种现象相联系的最简单形式,是一个被解释变量与多个解释变量的线性关系 [
公路客运量 (万人) | 总人口 (万人) | 国内生产总值 (亿元) | 工农业总产值 (万元) | 民用载客汽车 拥有量(万辆) | |
---|---|---|---|---|---|
1981年 | 261559 | 100072 | 4891.56 | 1635.87 | 40.57 |
1982年 | 300610 | 101654 | 5323.35 | 1865.3 | 44.18 |
1983年 | 336965 | 103008 | 5962.65 | 2074.47 | 47.78 |
1984年 | 390336 | 104357 | 7208.05 | 2380.15 | 56.28 |
1985年 | 476486 | 105851 | 9016.04 | 2506.39 | 79.45 |
1986年 | 544259 | 107507 | 10275.18 | 2771.75 | 96.61 |
1987年 | 593682 | 109300 | 12058.62 | 3160.49 | 111.46 |
1988年 | 650473 | 111026 | 15042.82 | 3666.89 | 130.38 |
1989年 | 644508 | 112704 | 16992.32 | 4100.58 | 146.43 |
1990年 | 648085 | 114333 | 18667.82 | 4954.26 | 162.19 |
1991年 | 682681 | 115823 | 21781.5 | 5146.43 | 185.24 |
1992年 | 731774 | 117171 | 26923.48 | 5588.02 | 226.16 |
1993年 | 860719 | 118517 | 35333.92 | 6605.14 | 285.98 |
1994年 | 953940 | 119850 | 48197.86 | 9169.22 | 349.74 |
1995年 | 1040810 | 121121 | 60793.73 | 11884.63 | 417.9 |
1996年 | 1122110 | 122389 | 71176.59 | 13539.75 | 488.02 |
1997年 | 1204583 | 123626 | 78973.03 | 13852.54 | 580.56 |
1998年 | 1257332 | 124761 | 84402.28 | 14241.88 | 654.83 |
1999年 | 1269004 | 125786 | 89677.05 | 14106.22 | 740.23 |
2000年 | 1347392 | 126743 | 99214.55 | 13873.59 | 853.73 |
2001年 | 1402798 | 127627 | 109655.17 | 14462.79 | 993.96 |
2002年 | 1475257 | 128453 | 120332.69 | 14931.54 | 1202.37 |
2003年 | 1464335 | 129227 | 135822.76 | 14870.11 | 1478.81 |
2004年 | 1624526 | 129988 | 159878.34 | 18138.36 | 1735.91 |
2005年 | 1697381 | 130756 | 184937.37 | 19613.37 | 2132.46 |
2006年 | 1860487 | 131448 | 216314.43 | 21522.28 | 2619.57 |
2007年 | 2050680 | 132129 | 265810.31 | 24658.17 | 3195.99 |
2008年 | 2682114 | 132802 | 314045.43 | 28044.15 | 3838.92 |
2009年 | 2779081 | 133450 | 340902.81 | 30777.48 | 4845.09 |
2010年 | 3052738 | 134091 | 401512.8 | 36941.11 | 6124.13 |
2011年 | 3286220 | 134735 | 473104.05 | 41988.64 | 7478.37 |
2012年 | 3557010 | 135404 | 519470.1 | 46940.46 | 8943.01 |
2013年 | 3853463 | 136072 | 590422.4 | 51497.37 | 10561.78 |
2014年 | 3908198 | 136782 | 643974. | 60165.7 | 14598.11 |
2015年 | 3619097 | 137462 | 685505.8 | 62918.7 | 16284.45 |
表1. 1981~2015年我国公路客运量、总人口、国内生产总值、工农业总产值、民用载客汽车拥有量数据
注:本表数据来自于《中国统计年鉴》,Wind资讯
基本原理:多元线性回归原理 [
设
该模型即为多元线性回归模型,其中
对于总体
其中
则可用矩阵形式表示为 [
其中
为了确定公路客运量与总人口、国内生产总值、工业生产总值、民用载客汽车拥有量之间的关系,首先建立四元线性回归模型 [
在MATLAB中对公路客运量
回归系数 | 回归系数估计值 | 回归系数置信区间 |
---|---|---|
576102.7200 | [−2530217.7516 3682423.1915] | |
−1.9164 | [−32.0219 28.1891] | |
15.1025 | [8.8806 21.3224] | |
2.4743 | [−74.3436 79.2922] | |
606.9620 | [−916.5908 −297.3332] | |
表2. 回归模型的系数、系数置信区间与统计量
因此回归模型为
回归模型中的各系数经济学意义解释:
回归模型(4)的可决系数
但由于
下面对模型进行进一步改进。
得到图形如图1所示,发现有两个异常点,剔除异常点后,重新建模。
仍有异常点继续剔除,直到没有异常点为止。剔除过程如图2~5。
删除异常点后,由残差图5可得此时没有异常点,改进回归模型系数、系数置信区间与统计量见表3。
故改进后的多元回归模型为:
将表2与表3加以比较,可以发现,可决系数从0.9336提高到0.9954,F统计量从98.3696提高到1137.7580,删除异常点后的模型每个参数的置信区间进一步缩小,由此可知改进后的模型显著性提高。但是
利用参考文献中的逐步回归法对模型检验然后再与参考文献中的结果作比较。
逐步回归基本原理:在逐步回归中,每当向模型中加入一个变量后,就对原来模型中的变量在新模型下再进行一次向后剔除的检查,直至所有已经在模型中的变量都不能被剔除,而且所有在模型外的变量都不能被加入,过程就终止 [
逐步回归模型的基本形式为
由表3知
由图8最后得到回归方程(蓝色行是被保留的有效行,红色行表示被剔除的变量):
回归方程中录用了原始变量
图8中显示了模型参数分别为
综上所述,相关参考文献中总人口是唯一的有效变量,其它3个变量即国内生产总值、工农业总产值、客车保有量被剔除。而本文中的逐步回归剔除了农业生产总值和总人口拥有量,选取的变量是国内
回归系数 | 回归系数估计值 | 回归系数置信区间 |
---|---|---|
−1984102.4262 | [−2492522.9698−1475681.8826] | |
22.5837 | [17.6682 27.4991] | |
7.3229 | [0.9590 13.6868] | |
−3.5319 | [−30.3505 23.2866] | |
−250.4032 | [−599.3087 98.5024] | |
表3. 改进回归模型的系数、系数置信区间与统计量
图1. 残差示意图
图2. 剔除异常点后的残差示意图1
图3. 剔除异常点后的残差示意图2
图4. 剔除异常点后的残差示意图3
图5. 剔除异常点后的残差示意图4
图6. 逐步回归过程之一
图7. 逐步回归过程之二
图8. 逐步回归过程之三
年份 | 公路客运量(万人) | 国内生产总值(亿元) | 民用载客汽车(万辆) |
---|---|---|---|
2011 | 3286220 | 473104.05 | 7478.37 |
2012 | 3557010 | 519470.1 | 8943.01 |
2013 | 3853463 | 590422.4 | 10561.78 |
2014 | 3908198 | 643974 | 14598.11 |
2015 | 3619097 | 685505.8 | 16284.45 |
表4. 各项指标五年数值
年份 | 2011 | 2012 | 2013 | 2014 | 2015 |
---|---|---|---|---|---|
拟合值 | 3021504 | 3349073.7 | 3952553.2 | 3849074 | 3630591 |
原数值 | 3286220 | 3557010 | 3853463 | 3908198 | 3619097 |
相对误差 | 9.87610 | 0.06208 | 0.02506 | 0.01536 | 0.00316 |
表5. 近五年公路客运量拟合值与原数据对比
生产总值和民用载客汽车。参考文献中选取的是总人口,这是因为我国是一个人口多大国,所以这项变量与公路客运量紧密相连。
为了验证模型的合理性,选取2011~2015年的国内生产总值、民用载客汽车对公路客运量做实证分析,数据如下表4。
将近五年的国内生产总值,民用载客汽车数值带入方程
二元一次模型
沈丹丹. 公路客运量的回归分析和研究预测 Regression Analysis and Prediction of Highway Passenger Volume[J]. 社会科学前沿, 2017, 06(02): 151-160. http://dx.doi.org/10.12677/ASS.2017.62020