随着我国综合国力的全面提升,我国旅游业也进入高速发展阶段,入境旅游人数日益增多,准确预测我国入境游客规模具有重要意义。本文分别使用LSTM (Long Short-Term Memory)模型和ARIMA (Autoregressive Integrated Moving Average Model)模型对我国入境游客人数进行预测对比,并以2014年1月至2016年12月的我国入境游客人次为例,进行实证研究。结果都表明LSTM神经网络比ARIMA更适合我国入境游客规模预测,LSTM模型预测精度比ARIMA高22.981%。基于LSTM模型预测入境游客人数,对相关部门优化旅游资源配置,具有一定的指导意义。 With the overall improvement of China’s comprehensive national strength, China's tourism in-dustry has entered a stage of rapid development. The number of inbound tourists is increasing. It is of great significance to accurately predict the scale of inbound tourists in China. This paper uses LSTM (Long Short-Term Memory) model and ARIMA (Autoregressive Integrated Moving Average Model) model to predict and compare the number of inbound tourists in China, and takes the number of inbound tourists from January 2014 to December 2016 as an example to conduct empirical research. The results show that LSTM neural network is more suitable than ARIMA for predicting the scale of inbound tourists in China, and the prediction accuracy of LSTM model is 22.981% higher than ARIMA. Predicting the number of inbound tourists based on LSTM model has certain guiding significance for relevant departments to optimize the allocation of tourism resources.
李云飞
江西财经大学,江西 南昌
收稿日期:2019年7月4日;录用日期:2019年7月18日;发布日期:2019年7月26日
随着我国综合国力的全面提升,我国旅游业也进入高速发展阶段,入境旅游人数日益增多,准确预测我国入境游客规模具有重要意义。本文分别使用LSTM (Long Short-Term Memory)模型和ARIMA (Autoregressive Integrated Moving Average Model)模型对我国入境游客人数进行预测对比,并以2014年1月至2016年12月的我国入境游客人次为例,进行实证研究。结果都表明LSTM神经网络比ARIMA更适合我国入境游客规模预测,LSTM模型预测精度比ARIMA高22.981%。基于LSTM模型预测入境游客人数,对相关部门优化旅游资源配置,具有一定的指导意义。
关键词 :入境旅游人数,ARIMA模型,LSTM
Copyright © 2019 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
近年来,随着我国综合国力的全面提升,经济的快速发展,以及改革开放取得的一系列重大成就,我国全球影响力日益提升,与此同时我国入境旅游人数也大幅增长。据《中华人民共和国文化和旅游部2018年文化和旅游发展统计公报》所示,2018年全年我国国内旅游人数55.39亿人次,比上年同期增长10.8%;入境旅游人数14,120万人次,比上年同期增长1.2%;全年实现旅游总收入5.97万亿元,占GDP比重6.6%,纳入统计范围的全国各类文化和旅游单位31.82万个,从业人员375.07万人。由此可见,旅游业的发展不仅对中国经济的发展有重要作用,而且也能很大程度上增加我国的就业人数,对其他行业中也有重要的影响,所以预测我国游客人数在一定程度上具有重要意义。
本文以我国入境旅游人数为例,对其进行时间序列分析并预测,进而分析在我国旅游市场需求情况、市场竞争日趋激烈的环境下,我国入境旅游人数近三年的趋势,以及未来的发展情况,判断我国旅游产业的对外吸引力和影响力,给我国旅游业提供一定的参考。入境游客流量的准确预测有助于我国旅游部门制定相应的政策,资源合理配置,对客流进行合理分散导流,从而促进我国旅游业更好的发展 [
具有如下结构(公式1)的模型称为差分自回归移动平均模型 [
y t = Φ 0 + Φ 1 y t − 1 + Φ 2 y t − 2 + ... + Φ p y t − p + ε t − Θ 1 ε t − 1 − Θ 2 ε t − 2 − ... − Θ q ε t − q (1)
上式中自回归系数用 Φ 1 , Φ 2 , ⋯ , Φ p 表示,自回归阶数用p表示, Θ 1 , Θ 2 ⋯ , Θ q 是移动平均系数,q是移动平均阶数,时间序列y当期值用yt−1表示,yt−1表示yt前一期的值,yt−2则为yt−1前一期的值,依次类推,误差项是当期随机干扰εt,为零均值白噪声序列。建立ARIMA模型过程如下:
1) 原始数据预处理
首先对原序列进行平稳性检验,如果远序列不平稳,通过差分或者取对数处理,或者取对数后再差分,而一般差分不超两次。
2) 模型阶数识别
通过自相关图和偏自相关图确定大致p、q值,同时比较AIC的大小,选择AIC最小时的阶数作为模型阶数。
3) 模型参数估计
对确定好阶数的模型进行参数估计。由于游客人次时间序列可能包含季节因素,所有带季节性的 ARIMA模型可能更能放映我国入境游客人数时间序列的特征。
4) 模型检验
残差序列白噪声检验,如果残差ADF检验没通过,或者残差图形不符合正太分布,那么模型是有效的,就进行预测,否则需要考虑对模型进行重新定阶和参数估计。
5) 使用模型预测
经过以上步骤,使用最终得到有效、合理的模型预测。
LSTM网络是一种特殊RNN (Recurrent Neural Networks)网络(递归神经网络)类型 [
y t = tanh ( w x t + u y t − 1 ) (2)
其中时间序列y的当期值为yt,时间序列y的影响因素x的当期值用xt表示,时间序列y前一期的值为yt−1,权重为w,转换参数为u。
一般的RNN只能与前面若干序列有关,若一过十步,就很容易产生梯度消失或者梯度梯梯问题。产生梯度消失是因为导数的链式法则导致了连乘,造成梯度指数级消失。长短时记忆神经网络正是为了解决局部最优解这个问题而发展出来的,其每一层都设计有多个“GATE”结构的神经元,该结构使得模型得到进一步改善,即误差在整个向后传递的过程中,有一部分可以直接通过“GATE”,而不需要受到当前神经元的影响,在这种情况下,下一层神经元就能完全接收到完整的误差,优化的结果就是,无论梯度的传播路径有多么长,它都不会完全消失或者下降为零,因此它具有良好的收敛性。
LSTM的基础结构和RNN基础结构一样,但是RNN与LSTM其中不同之处在于,在神经元结构中RNN只有一层tanh层,而LSTM的神经元结构要更复杂。LSTM在每个神经元结构内部设置了三个门,分别是输入门、输出门和遗忘门。LSTM结构中的三层门中遗忘门是解决RNN存在梯度消失问题的关键。
首先,当前输入向量x(t)和前一个短期状态h(t−1)被输入到四个不同的全连接层。它们都有不同的目的:
主层是输出为g(t)的层。它的基本作用是分析当前输入x(t)和前一个短期状态h(t − 1)。基本单元中就只有这一个层,它直接输出y(t)和h(t)。相比之下,LSTM单元没有直接输出,而是将部分输出存储在长期状态中。其他三个层是门限控制器。因为使用了逻辑激活函数,它们的输出范围在0到1之间。它们的输出被输入到元素智能乘法操作中。因此如果输出是0,那么门限关闭;如果输出是1,那么门限打开。特别是:
遗忘门限(由f(t)控制)控制着哪些长期状态应该被丢弃。
输入门限(由i(t)控制)控制着g(t)的哪些部分会被加入到长期状态(这就是我们说只是“部分存储”的原因)。
最后,输出门限由o(t)控制着哪些长期状态应该在这个时间迭代被读取和输出h(t)和y(t)。
简而言之,LSTM单元可以学习识别重要输入(这是输入门限的职责),将其存储到长期状态中,学习需要时保存它(这是忘记门限的职责),以及学习需要的时候提取它。这就解释了它为什么能够成功捕捉到时间序列中的长期模式、长文字、录音等。
本文所采用的数据来于《中国旅游统计年鉴》,2014年1月至2015年12月共24个月的数据作为训练集,2016年1月至2016年12月份的数据作为测试集,利用Python语言构建模型。并利用时间序列分析中的ARIMA模型、LSTM神经网络对我国入境游客人数进行预测。获取数据见图1:
图1. 2014~2016我国入境人数曲线
由上图可以看出,进三年我国入境游客人数整体呈上升趋势,部分月份人数比较少,可能有一定的季节性,后续需要对数据进行一定的处理。
首先对入境游客人次时间序列进行ADF检验,检验原序列的平稳性 [
序列 | ADF检验P值 |
---|---|
原序列 | 0.93481978 |
差分序列 | 3.11E−14 |
取对数后差分 | 4.63E−12 |
表1. ARIMA平稳性检验结果
通过自相关图和偏自相关图初步确定p、q值的大小 [
图2. 自相关和偏自相关图
Results: ARMA | |||
---|---|---|---|
Model | ARMA | BIC: | 417.466 |
AIC: | 412.7155 | HQIC: | 414.374 |
Coef. | t | P > |t| | |
const | 1113.831 | 66.6007 | 0.0000 |
ar.L1.amount | 0.3251 | 2.0318 | 0.05 |
Real | Imaginary | Modulus | |
AR.1 | 3.0763 | 0.0000 | 3.0763 |
表2. ARIMA模型结果
ARIMA模型的残差序列的Ljung-Box检验结果的p值依次为0.459 > 0.05,在0.05的显著性水平下,残差序列为白噪声,表明所构建的模型是有效的(见图3)。
图3. ARIMA残差QQ图
从QQ图看出残差服从正太分布,残差序列为白噪声,再次表明所构建的模型是有效的。
ARIMA模型预测(见表3)我国入境游客数RMSE (均方误差)为69.0974129198503,由图4也可以直观的看出,ARIMA模型对于数据的拟合效果并不是很好,只能提前部分信息,预测效果不是很好。
日期 | 预测值 |
---|---|
2017/1/1 | 1144.989 |
2017/2/1 | 1123.959 |
2017/3/1 | 1117.123 |
2017/4/1 | 1114.901 |
2017/5/1 | 1114.179 |
2017/6/1 | 1113.944 |
表3. ARIMA预测结果
图4. ARIMA预测图
本文基于Python的深度学习框架Keras来实现LSTM算法 [
本文构建的LSTM网络为三层的浅层网络 [
由图5可以看出,LSTM模型对数据的拟合非常好 [
图5. LSTM预测图
日期 | 预测值 |
---|---|
2017/1/1 | 1098.766 |
2017/2/1 | 1121.702 |
2017/3/1 | 1141.959 |
2017/4/1 | 1188.439 |
2017/5/1 | 1151.136 |
2017/6/1 | 1177.614 |
表4. LSTM预测结果
先利用ARIMA模型对序列进行预测,再利用LSTM网络对序列进行预测见表5可知入境游客人次序列的LSTM网络的训练集和测试集的RMSE和比ARIMA的低,表明了LSTM神经网络比神经网络和ARIMA预测更准确,LSTM模型预测精度比ARIMA高22.981%。
模型 | RMSE |
---|---|
ARIMA | 69.097 |
LSTM | 46.116 |
表5. ARIMA与LSTM预测精度对比
本文分别利用Python建立ARIMA模型和基于Keras深度学习框架建立LSTM神经网络模型对我国入境游客规模进行预测 [
感谢本文撰写期间导师对我的辛苦指导,以及同学们的热心帮助。也要感谢参考文献中的作者们,通过他们的研究文章,使我对研究课题有了很好的出发点。再次感谢。
李云飞. 基于ARIMA和LSTM神经网络对中国入境游客规模预测的比较研究A Comparative Study on Forecasting the Size of Chinese Inbound Tourists Based on ARIMA and LSTM Neural Network[J]. 社会科学前沿, 2019, 08(07): 1291-1298. https://doi.org/10.12677/ASS.2019.87177