Statistics and Application
Vol.06 No.02(2017), Article ID:21224,8 pages
10.12677/SA.2017.62030

A Study of Prediction Based on ARIMA Model of Road Accidents

Yang Yang

School of Science, Chongqing University of Posts and Telecommunications, Chongqing

Received: Jun. 11th, 2017; accepted: Jun. 27th, 2017; published: Jun. 30th, 2017

ABSTRACT

The number of road accidents is an important aspect on evaluating the performance of traffic management in every country, and a well prediction model of traffic accident could bring a significant improvement to traffic management, traffic control and traffic planning. So, this paper propose an ARIMA model of traffic accident based on the data of traffic accident from 1990 to 2012 in china, and the accuracy is 99.57%. It amply illustrates that this model is efficient and accurate to predict the road accidents in a short run.

Keywords:ARIMA Model, Road Accidents, Prediction

基于ARIMA的道路交通事故次数预测研究

杨阳

重庆邮电大学理学院,重庆

收稿日期:2017年6月11日;录用日期:2017年6月27日;发布日期:2017年6月30日

摘 要

道路交通事故次数是衡量一个国家交通管理水平的一个体现,建立一个良好的道路交通事故预测模型对于交通管理、控制和有关规划设计起着极其重要的作用。本文以我国1990~2012年道路交通道路交通事故数据为基础,建立了道路交通事故ARIMA(1,2,2)预测模型,其预测精度可达99.57%,表明该模型对我国的交通事故次数预测的短期应用是可行有效的。

关键词 :ARIMA模型,道路交通事故次数,预测

Copyright © 2017 by author and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

随着经济社会的不断发展、人口的增长、道路交通工具数量的增长和道路系统的日益复杂化,因此对道路交通事故次数进行有效的预测尤为重要,这对现代道路交通安全管理和有关规划设计等有着重要的意义。

目前,许多学者对道路事故次数预测最常用的方法是时间序列分析,其中大多运用马尔科夫链模型 [1] 或者灰色模型 [2] 等方法对道路事故次数的长期预测比较准确,但对短期波动预测结果不够准确。本文通过对1990~2012年国内道路交通次数序列进行平稳性和白噪声过程的分析,对道路交通事故次数建立ARIMA(p,d,q)模型并进行预测,对国家交通管理水平的发展提供一定的参考价值。

2. ARIMA模型

2.1. ARIMA模型简介

差分自回归移动平均模型(ARIMA)是由Box和Jenkins提出的一种时间序列建模方法 [3] 。具有如下结构的模型称为求和自回归移动平均模型,简记为模型:

式中,,表示d阶差分;,为平稳可逆模型的自回归系数多项式;,为平稳可逆模型的移动平滑系数多项式。为零均值白噪声序列。

2.2. ARIMA建立模型步骤

1) 获得观察值序列;

2) 做出时序图进行初步判断其是否平稳,再通过观察时间序列的自相关图和偏自相关图来判断时间序列的平稳性。若检验结果为非平稳,进行从低阶差分运算处理开始,直至平稳序列;

3) 通过观察差分平稳后的自相关图和偏自相关图,大致确定ARIMA中 p,q的阶数,并对模型中的p和q两个参数进行多种组合选择,两个AIC和SC函数值达到最小的模型为相对最优的模型;

4) 利用最小二乘法对模型进行参数进行估计,并进行显著性检验,应剔除不显著参数所对应的自变量并重新拟合模拟模型;

5) 进行白噪声检验,若残差序列是非白噪声序列,进行拟合ARIMA模型,直至残差序列为白噪声序;

6) 根据检验的结果,确定模型,并利用该模型进行预测。

3. 数据预测处理与ARIMA建模

3.1. 数据收集和简单分析

根据中华人民共和国国家统计局《2015中国统计年鉴》 [4] 数据查询得到相关数据,统计出中国1990~2015年的国内道路交通事故发生的次数。并根据Eviews软件 [5] [6] 绘制出(图1)的时间序列图和(图2)的自相关和偏相关图来进行该序列平稳性的判断。

图1所示我们可以看出1990~2002道路交通事故次数呈上升趋势,并且增幅不同。2002~2012年后道路交通事故次数呈衰减趋势,并且减幅不同。我们可以根据做出该序列的自相关和偏自相关图来判断该序列是否平稳,根据图2可看出一期之后还有很多期的系数不在二倍标准差范围之内,并且自相关图没有明显的拖尾性或截尾性,所以我们判断此序列是非平稳的。

Figure 1. The time series plot of original data

图1. 原数据的时间序列图

Figure 2. The partial and autocorrelation diagram

图2. 原数据的自相关和偏相关图

先由时间序列图可以看出明显的非平稳趋势,先逐渐递增,在2002年又开始呈递减趋势。从时间序列的自相关和偏自相关图中有多处其自相关系数超出标准差范围,所以对序列进行差分处理提取信息。

3.2. 序列的差分处理

图3所示,全国交通事故次数二阶差分后的时间序列图,没有明显的非平稳特征。

二阶差分后,根据其自相关和偏自相关图判断其是否平稳:

图4所示我们可以看出,1期(包括1期)之后的自相关系数和偏自相关系数均在2倍的标准差范围内。我们初步判断二阶差分后的序列是平稳的。当然高阶差分也会满足序列的平稳性,但是过度差分会丢失大量的相关信息,所以并不是差分阶数越高越好,需要合适。在这里我们最终定为二阶差分即可。

3.3. 单位根检验

运用Eviews软件对其差分后的序列和原序列进行单位根检验(ADF检验和PP检验)如表1所示,二阶差分的时间序列在90%的置信区间下通过了ADF和PP单位根检验,可以看做平稳的时间序列。

3.4. 运用AIC准则和SC准则定阶

AIC准则 [7] (An information)是由日本统计学家赤池弘次(Akaika)在1973年提出的。该准则既考虑拟合模型的数据接近程度,也考虑模型中所含待定参数的个数,适用于ARMA模型检验。

AIC准则的一般形式可表为:

对于ARIMA模型,若自相关函数在延迟p阶拖尾和偏自相关系数在延迟q阶拖尾,模型的阶数分别是p,q。可以初步估计p为1,q为2。检验序列为二阶差分时间序列,因此系数d = 2。进一步得到4个ARIMA(p,2,q)模型的各参数。如表2所示,ARIMA(1,2,2)模型调整后可决系数最大,AIC,SC参数值最小,可得ARIMA(1,2,2)模型为最优模型。

3.5. 模型的拟合优度检验和残差序列检验

建立模型ARIMA(1,2,2)模型并估计,见图5

图5所示分析:F-statistic对应的概率值为0.025764,说明建立的ARIMA模型具有较好的线性关系。从残差拟合图(图6),从图中我们可以看出ARIMA模型的拟合效果较好。如图7所示我们做出了残差的自相关和偏相关图发现其系数均在两倍的标准差范围之内,我们认为建立的ARIMA(1,2,2)模型的残差序列是白噪声序列。可得ARIMA(1,2,2)模型的输出结果得到回归方程为:

3.6. 模型预测

运用Eviews软件做出了其二阶差分后序列的预测图(见图8),以及对原序列全国交通事故次数的预测图(见图9)。

图8所示我们发现:不等系数为0.41,方差的比例也比较小,协方差比例为0.98,由图9所示我们发现:不等系数为0.05,方差的比例也比较小,协方差比例为0.81,表明模型的预测能力效果比较好。

利用模型对2013~2017年数据进行预测,计算得到2013~2017年全国交通事故次数数据以及2013~2017年交通事故次数预测的误差率,结果见下表。

表3可以看出,ARIAM(1,2,2)模型的平均预测误差是0.85%,平均预测效果高达99.17%,预测效果理想。

Figure 3. The time series plot of the second order difference about the times of road accidents from 1990 to 2012

图3. 1990~2012年全国交通事故次数二阶差分时序图

Figure 4. The partial and autocorrelation diagram based on the second order different data

图4. 二阶差分后的自相关和偏相关图

Table 1. The result of the unit root test about the time series and difference

表1. 时间序列及其差分的单位根检验结果

Table 2. The parameters table of ARIMA(p,2,q)model

表2. ARIMA(p,2,q)模型的参数表

Table 3. The predictive result of the road accident times from 2013 to 2017 according to ARIMA(1,2,2) model

表3. ARIMA(1,2,2)模型预测2013~2017年全国交通事故次数结果

Figure 5. Final result of ARIMA(1,2,2)model

图5. ARIMA(1,2,2)模型的输出结果

Figure 6. The residual errors and fitting chart

图6. ARIMA(1,2,2)模型的残差拟合图

Figure 7. The partial and autocorrelation diagram of residual errors

图7. 残差的自相关和偏相关图

Figure 8. Final chart of the predictive result based on the second order difference series

图8. 二阶差分序列预测结果输出图

Figure 9. Final chart of the predictive result based on the original data

图9. 原序列数据预测结果输出图

4. 结束语

ARIMA可以通过查分等数据转换方法将非平稳序列转变成零均值的平稳随机序列,ARIMA使残差进入模型,提高了模型的精度,但是ARIMA建模法假定时间序列为未来的发展模式与过去的趋势一致,因此它往往只适用于作短期预测。基于1990~2012年国内道路交通事故次数的时间序列分析,可以得出2013~2015年三年预测值和实际值得误差率平均值为0.85%,根据ARIMA(1,2,2)模型预测出的数据具有一定的科学依据,可以为增强道路交通管理提供重要的理论依据。

致谢

感谢我的老师鲜思东教授的全程指导。

基金项目

重庆市研究生教育教学教委项目(YJG143010),重庆邮电大学校级教改项目(XJG13028)。

文章引用

杨阳. 基于ARIMA的道路交通事故次数预测研究
A Study of Prediction Based on ARIMA Model of Road Accidents[J]. 统计学与应用, 2017, 06(02): 268-275. http://dx.doi.org/10.12677/SA.2017.62030

参考文献 (References)

  1. 1. 赵玲. 基于马尔可夫链的道路交通事故预测研究及应用[D]: [博士学位论文]. 西安: 长安大学, 2013.

  2. 2. 刘淑环. 北京市道路交通事故灰色预测模型的构建与应用[J]. 首都师范大学, 2008, 39(9): 115-122.

  3. 3. Box, G.E.P., Jenkins, G.M. and Reinsel, G.C. (1994) Time Series Analysis: Forecasting and Control. Journal of Marketing Research, 14, 199-201.

  4. 4. 中华人民共和国. 中国统计年鉴2015 [M]. 北京: 中国统计出版社, 2015.

  5. 5. 高铁梅. 计量经济分析方法与建模Eviews应用及实例[M]. 北京: 清华大学出版社, 2009: 553-556

  6. 6. 张晓峒. 计量经济学软件Eviews使用指南[M]. 第2版. 天津: 南开大学出版社, 2004.

  7. 7. 刘璋温. 赤池信息量准则AIC及其意义[J]. 数学的实践与认识, 1980(3): 65-73.

期刊菜单