本文结合贵州财政收入的构成内容和结构特点,利用R软件,对收集的数据进行整理分析,找出影响地方财政收入的关键影响因素,使用传统时间序列和多元回归分析方法相结合,建立较为完整的地方财政收入预测模型,对贵州省2015~2016年的财政收入进行预测。 In this paper, combined with the content and the structure characteristics of fiscal revenue in Guizhou, using the R software, the data were collected and analyzed. The key factors affecting the local fiscal revenue were found out. Also, using traditional time series analysis and multiple re-gression analysis method, we established a more complete local fiscal revenue forecast model to forecast the fiscal revenue of Guizhou province in 2015-2016.
—以贵州省为例
罗慢,王群,杨伊玲,梅俊雷
贵州师范学院,贵州 贵阳
收稿日期:2016年11月29日;录用日期:2016年12月12日;发布日期:2016年12月23日
本文结合贵州财政收入的构成内容和结构特点,利用R软件,对收集的数据进行整理分析,找出影响地方财政收入的关键影响因素,使用传统时间序列和多元回归分析方法相结合,建立较为完整的地方财政收入预测模型,对贵州省2015~2016年的财政收入进行预测。
关键词 :多元回归分析,Holt指数平滑预测,预测模型
构建贵州省历史财政收入数据与同期社会经济发展相关的数据库,梳理影响财政收入关联指标,分析、识别出影响财政收入的关键因素;研究各影响因素与财政收入的相关性,精选出财政收入评价指标,研究并建立贵州省2015~2016年财政收入预测的参考模型。
数据来源于中国统计年鉴(http://www.nianjianku.com/),初步选取贵州省财政收入相关的指标变量14个,在EXCEL中对选取的指标数据进行整理。样本数据预处理中出现了缺失值,如2004年,2005年,2006年的税收收入的数据是缺失的,如表1所示。
在贵州财政收入的数据中出现明显的缺失值现象,出现缺失值的可能原因有:第一、统计局没有录入数据;第二、国家政策有所改动;第三、数据的丢失。因此对于丢失的数据我们用数据挖掘中的一些方法进行处理。在此我们要研究税收收入与相应关联指标的影响,因此我们需要的是缺失指标的一个趋势,且国家的财政收入指标是缓慢变化的,因此第一和第二种缺失值不会出现剧增或者剧减,因此可以采用数据处理方法求出缺失值。常用的求缺失值的方法有平均法、移动平均法、时间序列推测和加权调整。对历年的税收收入做简单的散点图,发现该序列随时间呈线性指数关系,对缺失数据列采用时间序列分析,我们利用了霍尔特(Holt)两参数指数平滑法 [
由于数据存在不同的量纲,采用Z-Score值标准方法对数据进行标准化处理。设数据为
设响应变量与解释变量之间有线性关系,则多元线性回归模型 [
年份 | 税收收入 (亿元) | 全社会固定资产投资 (亿元) | 地区生产总值 (亿元) | 就业人数 (亿元) | 农林牧渔业总产值 (亿元) | 工业总产值 (亿元) |
---|---|---|---|---|---|---|
1999 | 61.12 | 333.9 | 937.5 | 1832.5 | 407.12 | 551.93 |
2000 | 77.43 | 402.5 | 1029.92 | 1866.28 | 412.97 | 631.6 |
2001 | 67.02 | 533.74 | 1133.27 | 2068.01 | 418.61 | 696.63 |
2002 | 89.22 | 632.44 | 1243.43 | 2106.14 | 431.39 | 797.9 |
2003 | 93.44 | 754.13 | 1426.34 | 2145 | 466.72 | 977.64 |
2004 | 869.25 | 1677.8 | 2186 | 524.64 | 1394.91 | |
2005 | 1018.25 | 2005.42 | 1944.29 | 571.84 | 1690.4 | |
2006 | 1197.68 | 2338.98 | 1953.24 | 601.54 | 2066.77 | |
2007 | 211.85 | 1488.8 | 2884.11 | 1872.64 | 697.01 | 2520.36 |
表1. 原始数据的部分缺失值
注:红色代表缺失值。
年份 | 预测值 |
---|---|
2004 | 101.7671 |
2005 | 110.4691 |
2006 | 119.1711 |
表2. 缺失值的预测值(亿元)
其中
(2)式中
求得回归方程之后,进一步对回归模型进行检验。
首先绘制财政总收入与各指标变量之间的散点图,初步剔除对财政总收入影响不显著的变量由图1
图1. 散点图
可看出,就业人数和卫生机构数这两个解释变量的分布情况可知,分布点没有规律并且不呈现任何趋势;说明就业人数和卫生机构数对财政总收入影响不显著,所以我们可以初步剔除这两个变量。初步建立回
归模型
从图2可以看出,逐步回归之后,最终筛选出影响贵州省财政总收入的主要影响因素7个,在此基础之上,建立多元线性回归预测模型对贵州省的财政总收入进行预测。以财政总收入作为响应变量,选取的解释变量如表3所示。
利用以上指标建立多元回归预测模型对财政总收入进行预测,建立的回归预测模型为:
从图2看出,决定系数
图2. 回归分析结果
相应变量Y | 解释变量X |
---|---|
Y:财政总收入(亿元) | X1:税收收入(亿元) |
X2:地区生产总值(亿元) | |
X3:农林牧渔业总产值(亿元) | |
X4:货运量(万吨) | |
X5:建筑业总产值(亿元) | |
X6:社会消费品零售总额(亿元) |
表3. 贵州省财政总收入的主要影响因素
由图3中红线的分布可知,各残差值基本在0轴水平线附近随机波动,途中的曲线与残差的0轴水平线没什么差异,也接近于直线,因此,财政总收入与其他变量之间的线性关系假定成立,各指标变量间线性不相关。
图4可以看出,各个点基本上在直线周围随机分布,没有固定模式,因此,在财政总收入与其他变量的线性模型中,
对各指标变量的预测值建立数据框,利用多元回归预测2015~2016年贵州省财政总收入,在95%的置信水平下,R运行的结果如表4。
从表4中看出,2015年财政总收入在95%的置信水平下预测值为
图3. 残差诊断图
图4. 正态性诊断图
年份 | 预测值 | 预测下限 | 预测上限 |
---|---|---|---|
2015 | 2341.259 | 2308.760 | 2373.757 |
2016 | 2552.123 | 2500.027 | 2604.220 |
表4. 贵州省2015~2016年财政总收入(亿元)
回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量实验和观察的基础上用来寻找隐藏在那些看上去是不确定的现象中统计规律性的统计方法。基于影响财政收入的因素分析 [
通过以上对1999年到2014年贵州财政收入相关的经济指标的分析,以定性与定量相结合的方法建立地方财政收入预测模型,预测贵州省2015年到2016年财政收入,为贵州省2015~2016年财政计划提供参考,对其他地方政府建立财政收入预测提供了一定的参考价值。对模型预测方法进行比较,回归模型表现比较稳定,能够弥补ARIMA模型对结构变化不敏感的缺陷,但是,回归模型的限制条件较多,实际运用过程中有一定的难度,达不到理想状态。本文将两种模型结合起来,能降低模型预测的误差,整体表现良好。
本课程是我与同伴在指导老师梅老师的亲切关心和悉心指导下完成的,老师经常询问我们研究的进度,并为我们解惑,帮助我们开拓思路,指导论文写作结构。在此谨向梅老师致以诚挚的感谢和崇高的敬意。
2015年省级大学生创新培育项目(项目编号:201514223035)。
罗 慢,王 群,杨伊玲,梅俊雷. 基于大数据技术的政府财政收入预测—以贵州省为例Government Revenue Forecast Based on Big Data Technology—Taking Guizhou Province as an Example[J]. 统计学与应用, 2016, 05(04): 373-379. http://dx.doi.org/10.12677/SA.2016.54040