Operations Research and Fuzziology
Vol.06 No.01(2016), Article ID:16971,12 pages
10.12677/ORF.2016.61003

Prediction of Shanghai Metro Line 16 Passenger Flow Based on Time Series Analysis

—with Lingang Avenue Station as a Study Case

Yanli Chen1, Yuwu Sha2, Xiaolin Zhu1, Xiaohong Zhang1

1College of Arts and Sciences, Shanghai Maritime University, Shanghai

2Ministry of Operational Scheduling, Shanghai Maglev Transportation Development Co. Ltd., Shanghai

Received: Jan. 27th, 2016; accepted: Feb. 17th, 2016; published: Feb. 23rd, 2016

Copyright © 2016 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

ABSTRACT

Problems emerge along with the continuous development of urban rail transit, and how to predict the passenger flow to improve the efficiency of the rail transit operation by the scientific method has caused widely public concern. Time series analysis is the mainstream of forecasting method. And ARIMA model acts on all kinds of sequences, so it is the most common time series prediction method by far. This study proposes Autoregressive Integrated Moving Average Model (ARIMA model) to predict the passenger flow data of the line 16 Lingang Avenue Station based on the historical datum through time series analysis in order to improve the operational efficiency of the urban rail transit and effective cohesion with buses in Lingang area. We utilize the autocorrelation and partial autocorrelation function to preliminarily judge and identify the parameters of ARIMA model.

Keywords:Urban Rail Transit, Time Series Analysis, ARIMA Model

基于时间序列分析的上海地铁16号线客流预测

—以临港大道站为例

陈彦莉1,沙玉五2,朱小林1,张小红1

1上海海事大学文理学院,上海

2上海磁浮交通发展有限公司客运服务部,上海

收稿日期:2016年1月27日;录用日期:2016年2月17日;发布日期:2016年2月23日

摘 要

随着不断发展城市轨道交通建设也不断涌现诸多问题,如何以科学手段来预测客流,从而提高轨道交通运营的效率引起广泛关注。时间序列分析是主流的预测方法,其中ARIMA模型适用于各类的序列,是迄今最通用的时间序列预测法。本文将以上海地铁16号线临港大道站为例,对其日客流通过时间序列分析方法,建立差分自回归移动平均模型(ARIMA模型),利用自相关函数和偏自相关函数来初步判断和识别ARIMA模型各个参数,并根据所建立的模型来预测16号线临港大道站后两周客流数据,以此为提高临港地区城市轨交运营效率,改善临港地区地铁与公交高效衔接建立基础。

关键词 :城市轨交,时间序列,ARIMA模型

1. 引言

目前,我国的城市化进程已经进入到城市加速发展阶段,城市人口急剧增加,城市中心区的高密度开发和人口的高度集中,使得交通出行总量剧增。其中由于城市边缘和远郊城市化地区的发展,将出现大量新的长距离的出行需求。地铁,作为绝大多数的城市轨道交通系统,都会逐渐成为城市交通的骨干。因此,由公交运营系统过渡到城市轨道交通而产生的诸多问题也应运而生。

上海轨道交通16号线,北起龙阳路站,南至滴水湖站。全长58.96公里,其中地下线长约13.74公里,高架线长约45.22公里,共设车站13座。16号线选择目前国内最快的120公里时速的技术路线。2012年11月底,轨道15-2标上下行全部贯通,由龙阳路站至滴水湖站[1] 。2014年12月28日,龙阳路——罗山路区段开通。而自从16号线开通以来,虽然在一定程度上缓解近郊的交通压力,但也有新问题不断暴露出来:

16号线运行后不久,周边原先的公交线路都有所调整,使其周边沿线绝大多数的客流都转移至16号线。不仅如此,由于原先设计方案为观光线路,因此对于仅有3节车厢,且每节车厢座位类似于公交车的设计安排,使16号线更不堪重负。

举实例说,浦东新区、南汇地区许多高校学生原先大多乘坐公交回校以及进市区,但由于16号线的建成,一些公交线路相继取消或剧减班次,学生客流很大程度都转移到地铁线路上。除了学生客流,周边有固定工勤时间规定的上班族一来由于公交线路的改变,二来由于地铁的准时快捷,主观上也倾向乘坐地铁。这无疑对于16号线是一个重大考验。有反映16号线要室外排队40分钟,排队长龙在道路上颇为震撼,被不少市民称为上海目前“最挤的地铁”。

而临港地区高校学生也是排队长龙中的一员,因此本文将针对临港新城区域高校学生出行活动为研究对象,对现行的16号线客流进行研究,我们发现临港地区学生出行所选择的地铁站为临港大道和滴水湖,由于滴水湖站点会有许多出游乘客造成干扰,故本文选取临港大道站作为研究站点,并希望对其站点每日客流数据进行预测。由于现主流的客流预测手段为进行时间序列分析,建立ARIMA模型[2] -[4] ,故本文将借以这些手段,对临港大道站点客流进行预测,为16号线运营以及周边公交接驳配套运营方案的改进奠定基础。

2.ARIMA模型

所谓的时间序列,是指一个依时间顺序组成的观察数据的集合。而时间序列分析,是将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。序列的变化趋势可以分为平稳的和非平稳的。从直观上来讲,平稳性时间序列是序列观测值围绕平均值上下小范围波动的序列。对于非平稳的时间序列,首先看其序列图的变化趋势,如果呈近似直线上升,则一阶差分可令其平稳,若是呈波动上升变化,一般二次差分即可,若呈指数型上升,则对其对数差分也可使其平稳。当把非平稳过程转成平稳过程后,即可按照平稳时间序列的分析方法处理该序列。

移动平均法、指数平滑法师早期时间序列分析的主流方法,随着计算机科技的发展与普及,差分自回归移动平均模型(Autoregressive Integrated Moving Average Model, ARIMA模型)被广泛应用于时间序列分析之中。

ARMA模型是由自回归模型(简称AR模型)与滑动平均模型(简称MA模型)为基础“综合”构成。传统的趋势模型外推预测方法只适合于具有某种典型趋势性变化现象的预测,然而在现实中,许多现象的序列资料并不总是具有这种典型趋势特征,依此方法建立的模型所产生的误差项不一定完全是具有随机性质的,从而影响了预测效果.ARIMA模型是将序列先进行差分从而转化为ARMA模型,根据序列识别一个试用模型,再加以诊断,做出必要调整,反复进行识别、估计、诊断,直到适合的模型,因此它适用于各类的序列,是迄今最通用的时间序列预测法[5] 。

在介绍ARIMA模型之前,本文首先要介绍一个特殊的序列——白噪声序列。白噪声序列是一种特殊的平稳序列。我们定义:若随机序列由互不相关的随机变量构成,在不同时点上的随机变量的协方差为0,即对所有,则称其为白噪声序列。有该性质的时间序列意味着人们无法根据其过去的特点推测其未来的走向,其变化没有规律可循。当模型的残差序列成为白噪声序列时,可认为模型达到了较好的效果,即剩余残差中已经没有可以识别的信息。

ARMA [6] 模型的一般形式如下:

式中:表示模型的自回归部分;表示模型的移动平均部分;称为ARMA序列,非负整数分别称为自回归阶数和移动平均阶数,参数称为自回归系数,称为移动平均系数。

时,则ARMA模型

称为阶移动平均模型,记为MA(q)。

时,则ARMA模型

称为阶自回归模型,AR(p)。

为了方便地表示时间序列的滞后项,以下定义刻画其性质的表示方法即延迟算子。延迟算子类似于一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨了一个时刻,记步延迟算子,即 (为常数),并令

则ARMA模型简记为

当时间序列数据存在趋势性,我们需要通过差分处理使该序列趋于平稳化,这样的时间序列被称为准平稳序列,相应的模型为ARIMA模型,其形式为:

其中:

当时间序列数据既存在趋势性又存在周期性时,可通过逐期差分和季节差分使序列趋于平稳化,其可以采用ARIMA模型。其中分别表示以为间距的自回归、差分、和移动平均阶数,为季节周期,模型公式如下:

3. 临港大道站点客流预测模型

3.1. 平日客流预测模型

本文以上海地铁16号线2014年12月28日至2015年8月31日的每日进站客流量进行分析,刻画出其序列图,见图1

从图中我们可以明显看出,其数据变动趋势在2015年2月7日至2015年3月4日、7月23日至8月31日,两个时间段出现了明显的低谷值,而在12月31日、4月3日、4月30日出现峰值,经调查研究本文发现其低谷值为临港大学城寒暑假时间,出现峰值的时刻都是国定假日前一天,则本站点的客流趋势完全受到临港大学城区高校学生生活的影响。故本文将选取2015年3月6日至2015年4月2日这段时间段的客流来进行临港大道站平日客流量的研究。

图2图3为临港大道3月6日至4月2日日客流量的自相关和偏自相关函数图,从此图中我们l可以确定此序列的变化趋势,并且大致确定ARIMA模型中的参数设定。我们可以看出序列的ACF拖尾衰减,且呈周期性,周期为7,PACF为拖尾衰减,故此序列为平稳序列,识别为混合模型,即ARIMA模型。进行反复尝试,我们可以判断对其进行1阶季节性差分可得平稳序列。

图4图5为一阶季节性差分后所得到的自相关函数和偏自相关函数图,从图中我们可以看出序列{x}的自相关系数和偏自相关系数都不具有统计学意义。

由此我们尝试拟合模型,通过spss [7] 中分析–预测–创建模型进行模型的建立,由此得到模型统计量以及残差的检验结果,如表1图6

表1中Ljung-Box是用于检验某个时间段内观测值是否是随机、独立的,当Ljung-Box检验值大于0.05,即说明其观测值为独立的,本模型的检验的结果我们从表中可知为0.981远远大于0.05,则认为在95%的置信水平下无法拒绝原假设,即不能显著拒绝原序列为纯随机序列(白噪声)的假定。我们可以得知

Figure 1. The sequence diagram of total passenger flow at Lingang Avenue station (2015.12.28-2016.8.31)

图1. 临港总客流序列图(2015.12.28~2016.8.31)

Figure 2. Autocorrelation Function of {x}

图2. {x}的自相关函数

Figure 3. The partial autocorrelation function of {x}

图3. {x}的偏自相关函数

Figure 4. The autocorrelation function of {x} first order seasonal difference

图4. 一阶季节差分后{x}的自相关函数

Figure 5. The partial autocorrelation function of {x} first order seasonal difference

图5. 一阶季节差分后{x}偏自相关函数

此模型的残差彼此独立,由此可以判断此模型的残差通过了白噪声的检验。图6可以更为直观地观察到此检验结果。

但是我们观察模型的参数检验发现,如表2所示,此模型并不是最为适合的模型。因此我们判定选取的观测值太少,并不能清晰准确的建立合适的模型,故后文我们选取了5月2日至7月3日两个月的时间序列。我们观察数据发现,由于16号线数据平台的记录问题造成5月25日那天缺数据,故本文将首先对数据进行预处理。本文利用spss中转换–替换缺失值的功能,对于此处数据进行了序列均值的替换,并基于此基础上再次进行ARIMA模型的建立,经过多次尝试,最终所得模型为ARIMA(2,0,2)(0,1,1),我们对模型的拟合程度进行检验,平稳的R方 = 0.579,正态化的BIC = 12.472,

并从表3可知模型的决定系数为0.181 > 0.05,故此模型较好的解释了原序列。

表4是针对5月至7月的序列建立季节性ARIMA模型进行模型参数检验的结果,从表中我们可以发现AR滞后1阶、滞后2阶以及MA滞后2阶的系数均通过了参数检验,因此此模型具有现实意义。此外,从图7我们可以直观的发现,此模型的残差通过了白噪声检验。

因为其模型结果较好,故本文利用ARIMA(2,0,2)(0,1,1)对16号线客流数据进行了拟合和预测,从图8我们可以看出拟合值与原序列值拟合程度较好,能较为真实地反映原序列所表达的信息。

Figure 6. The test of ARIMA(0,0,0)(0,1,0) residual error by ACF and PACF

图6. ARIMA(0,0,0)(0,1,0)残差ACF和PACF检验图

Table 1. The test of ARIMA(0,0,0)(0,1,0) model statistics

表1. ARIMA(0,0,0)(0,1,0)模型统计量

Table 2. The test of ARIMA(0,0,0)(0,1,0) model parameters

表2. ARIMA(0,0,0)(0,1,0)模型参数

Table 3. The test of ARIMA(2,0,2)(0,1,1) model statistics (from May to July)

表3. ARIMA(2,0,2)(0,1,1)模型统计量(5月至7月)

Table 4. The test of ARIMA(2,0,2)(0,1,1) model parameters (from May to July)

表4. ARIMA(2,0,2)(0,1,1)模型参数(5月至7月)

Figure 7. The test of ARIMA(2,0,2)(0,1,1) residual error by ACF and PACF (from May to July)

图7. ARIMA(2,0,2)(0,1,1)残差ACF和PACF图

3.2. 只含有学生因素序列的ARIMA模型建立

从上文的分析,我们已知16号线临港大道站每日客流量变化趋势完全受临港地区周边大学生生活活动的影响,也就是说学生上课时期即可定义为含有学生因素以及周边客流因素序列,而暑期以及寒假期间,临港大道每日客流量变化只受周边地区居民影响。我们观察16号线临港大道站客流量时间序列图发现,暑期与寒假序列变化趋势稳定,故本文试想能否将平日客流剔除周边居民因素,以此研究只含有学生因素的16号线临港大道站客流量序列变化。后文将从此角度进行研究。

首先,我们选取临港大学城区学生上课的时间段:5月26日至6月29日,以及暑假时期:7月28日至8月31日。在选取时间段时,我们首先考虑到选取不涉及特殊情况(如跨度国定假期)的上学时间段,原因我们可以直观的从图1看出,在特殊情况下,临港大道站的客流量会出现激增,从而影响到后面的建模分析。其次,由于此站客流量变化趋势具有季节性,故选取的只含有周边居民影响的序列要与平时的时间序列所在周期节点一致,在随后的预处理后,才能得到更为合理的只含有学生因素的时间序列

要建立ARIMA模型,首先要对序列进行平稳性分析,本文利用spss对时间序列作其时间序列图,如图9所示。

通过直观的看序列的散点图并不能直接判断该序列是否平稳,但我们可以发现其序列具有周期性。因此本文通过作自相关和偏自相关图进行平稳性的进一步分析,所得结果如图10图11

我们从图中可以发现自相关函数不拖尾,由此故此序列为非平稳序列,且表现出周期性变化,周期为7。此外偏自相关函数也不截尾。故尝试对此序列进行平稳化,最终对此序列取自然对视并进行1阶季节差分,和1阶差分,从而得到ARIMA(2,1,0)(1,1,0)模型。

从模型拟合程度来看,通常通过观察平稳的 R 方和正态化的BIC的值来进行拟合程度好坏的判断。平稳的R方用来比较模型中的固定成分与一个简单均值模型的差别,当原始序列中有季节成分时,其要优于R方统计量;而正态化的BIC用来度量模型拟合优度的同时还考虑了模型的复杂程度,每增加一个参数便会对其产生一个惩罚因子。此模型所得的平稳的R方为0.51,正态化的BIC为12.96。除此之外,我们从表5可以发现此模型解释了原序列83.7%的信息,由此可知此模型拟合程度良好。

Figure 8. The fitting results

图8. 拟合结果

Figure 9. Time series plot of {xrevice}

图9. {xrevice}时间序列图

Figure 10. Autocorrelation function of {xrevice}

图10. {xrevice}序列自相关图

Figure 11. The partial autocorrelation function of {xrevice}

图11. {xrevice}序列偏自相关图

Table 5. The test of ARIMA(2,1,0)(1,1,0) model statistics

表5. ARIMA(2,1,0)(1,1,0)模型统计量

图12我们更可以直观的发现此模型的残差通过了检验,为白噪声序列。

表6给出了模型的参数检验,从表中我们可以发现其系数都通过了检验。由此我们可得模型为:

Figure 12. The test of ARIMA(2,1,0)(1,1,0) residual error by ACF and PACF

图12. ARIMA(2,1,0)(1,1,0)残差ACF和PACF图

Table 6. The test of ARIMA(2,1,0)(1,1,0) model parameters

表6. ARIMA(2,1,0)(1,1,0)模型参数

4. 结束语

城市轨道公交的建设随着社会的发展不断推进,但随着城市轨道交通的发展,不断出现的城市交通问题也不断涌现。本文通过对原有数据的选取,试图建立较为合理的ARIMA模型,并基于所构建的上海地铁16号线客流预测ARIMA模型,从而预测了后2周的客流数据,其次,由于临港大道站客流量的变化几乎受周围大学城区学生生活活动周期影响,故本文试图建立只含有学生因素的客流预测模型,此模型残差都通过了白噪声检验,并且解释了原时间序列83.7%的信息,具有良好的适应性,从而对未来轨道交通规划以及周边配套公交安排具有较好的参考价值。

文章引用

陈彦莉,沙玉五,朱小林,张小红. 基于时间序列分析的上海地铁16号线客流预测—以临港大道站为例
Prediction of Shanghai Metro Line 16 Passenger Flow Based on Time Series Analysis—with Lingang Avenue Station as a Study Case[J]. 运筹与模糊学, 2016, 06(01): 15-26. http://dx.doi.org/10.12677/ORF.2016.61003

参考文献 (References)

  1. 1. 百度百科: 上海地铁16号线[EB/OL]. http://baike.baidu.com/link?url=cMYPENKG_sTRZPvN6dhtD9CmzW0PMcTAAKf0ZHhiR3DcMZex9stMoL4ACt24LVCfkDLd5MXXe2u7rG10wyuuza

  2. 2. 张杰, 刘小明, 贺玉龙, 陈永胜. 基于时间序列的我国铁路客流量预测[J]. 统计与咨询, 2008: 20-21.

  3. 3. 裴武, 陈凤, 程立勤, 交通量时间序列ARIMA预测技术研究[J]. 山西科技, 2009(1): 75-79.

  4. 4. 祁伟. 李晔, 汪作新. 季节性ARIMA模型在稀疏交通流下的预测方法[J]. 公路交通科技, 2014, 31(4): 130-135.

  5. 5. 常国珍, 张前登. 基于乘积ARIMA模型的城市轨道交通进出站客流量预测[J]. 北京交通大学学报, 2014, 38(2): 135-140.

  6. 6. 王燕. 应用时间序列分析[M]. 北京: 中国人民大学出版社, 2005: 64-68, 146.

  7. 7. 杜强, 贾丽艳. SPSS统计分析从入门到精通[M]. 北京: 人民邮电出版社, 2011.

期刊菜单