个人外汇业务核查系统利用外汇交易大数据,通过对大数据的算法分析,将存在借用他人额度办理结售汇行为的个人,直接列入“关注名单”,能够及时地查找异常交易主体,预测分析可能成案的线索因素,为执法部门锁定目标、发现异常、甄别违规、快速执法提供依据,实现非现场数据分析与现场检查的有效结合,进而提高现场检查的实际效果。为了分析个人外汇业务中的分拆量、分拆金额总量的变化区间,掌握个人外汇业务数据的量变与质变,需要对个人外汇业务的分拆量、分拆金额量等进行预测分析。各种预测模型都有其应用范围,在对现有预测算法分析的基础上,我们基于同比预测模型,以概率为基础建立了同比概率预测模型。同比概率预测模型的外汇大数据的仿真验证表明:同比概率预测算法不仅能得到时间序列的数据变化趋势,同时可以使数据根据季节性特点呈现波动性变化。同比概率预测模型对年份间数据差距较大,且存在波动的数据进行预测时,精度高于以时间序列为主的灰色预测模型。 The verification system of personal foreign exchange business uses the big data of foreign exchange transactions to directly list individuals who borrow others’ quota to handle the settlement and sale of foreign exchange, through the algorithm analysis of big data. It can find out the subject of abnormal transaction in time, predict and analyze the possible clues, which provides the basis for legal authorities to lock in targets and find out abnormalities, screen violations and fast law enforcement. The effective combination of off-site data analysis and on-site inspection can be achieved, which can improve the actual effect of on-site inspection. It is necessary to predict and analyze the amount and total amount of the individual foreign exchange business in order to analyze the change range of split amount and total split amount, as well as master the quantitative and qualitative changes of the individual foreign exchange business data. Each forecasting model has its application scope. Based on the analysis of the existing prediction algorithms, we establish the forecasting of year-on-year probability based on probability. The simulation verification of the big foreign exchange data of the year-on-year probability forecasting model shows that it can not only obtain the data change trend of time series, but also make data fluctuate changes according to the seasonal characteristics. The forecasting model for year-on-year probability is more accurate than the gray forecasting model based on time series when predicting data with large data gaps between years and fluctuations.
闵玉涓1,赵巍1,杨云2*
1连云港市第一人民医院,信息部,江苏 连云港
2扬州大学信息工程学院,计算机系,江苏 扬州
收稿日期:2020年5月18日;录用日期:2020年6月1日;发布日期:2020年6月8日
个人外汇业务核查系统利用外汇交易大数据,通过对大数据的算法分析,将存在借用他人额度办理结售汇行为的个人,直接列入“关注名单”,能够及时地查找异常交易主体,预测分析可能成案的线索因素,为执法部门锁定目标、发现异常、甄别违规、快速执法提供依据,实现非现场数据分析与现场检查的有效结合,进而提高现场检查的实际效果。为了分析个人外汇业务中的分拆量、分拆金额总量的变化区间,掌握个人外汇业务数据的量变与质变,需要对个人外汇业务的分拆量、分拆金额量等进行预测分析。各种预测模型都有其应用范围,在对现有预测算法分析的基础上,我们基于同比预测模型,以概率为基础建立了同比概率预测模型。同比概率预测模型的外汇大数据的仿真验证表明:同比概率预测算法不仅能得到时间序列的数据变化趋势,同时可以使数据根据季节性特点呈现波动性变化。同比概率预测模型对年份间数据差距较大,且存在波动的数据进行预测时,精度高于以时间序列为主的灰色预测模型。
关键词 :预测模型,灰色预测,概率预测,个人外汇业务
Copyright © 2020 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
个人外汇业务核查系统是一个非现场核查系统,是为了加强个人外汇业务管理,防范跨境资本过度流动,将在现有个人外汇管理框架下,进一步便利银行及个人办理外汇业务,提升个人外汇业务监管效率。对个人外汇业务预测分析的目的是了解分拆量、分拆金额总量等数据的变化区间和发展趋势,掌握个人外汇业务数据的量变与质变,评估当前个人购付汇管理政策实施的效果,在检查实践和技术手段层面提出针对性的解决方案,在政策储备和监管理念方面提出相应的对策建议,对于促进个人外汇业务健康发展、改进外汇管理方式和手段、完善外汇管理体制框架具有重要实现意义。
每年的个人外汇支出业务数据量差距较大,同时受开学季的影响,以留学为由的个人外汇业务明显增多。由于灰色预测模型是对小样本数据序列建模,预测的值以时间序列为主,反应数据变化的总体趋势,不能反应数据的波动情况(比如不能反应随着季节变动的数据波动)。若采用同比预测,虽然可以反应数据的波动情况,但是若前后两年数据差距很大,会造成预测值和真实值每个月都存在一个差值。为了能更准确地预测个人外汇业务数据的变化趋势,我们采用基于同比的概率预测算法,不仅可以消除年份之间数据差距较大带来的问题,还可保持以时间序列为主的总体变化趋势,同时也能够突出季节性数据的变化特点。
预测在我们生活中起着至关重要的作用,基于数学建模的预测方法种类繁多,根据各学科领域的需要以及数据自身的特点,各国专家学者致力研究提出了许多预测算法:时间序列分析法、灰色模型预测算法和马尔科夫预测算法等。
1982年3月,中国学者邓聚龙教授在国际上首先提出了灰色系统理论 [
时间序列预测法 [
马尔科夫预测 [
差分方程预测 [
Facebook时间序列预测算法 [
同比是一种描述数据变动的方法,是指历史同期数据进行比较,同比预测是指使用今年第n月与去年第n月进行比较,可以计算出相对发展速度,计算公式为:同比发展速度 = 本期发展水平/去年同期水平 × 100%。同比更倾向于反映一直长期的大趋势,也就规避了季节这些影响因素,消除季节变动的影响能够更好的反映数据的变化趋势。若以同比为基础进行简单的加权均值法对未来数据进行预测,将会受限于数据的特点,若数据虽然保持了以季节性变得的特性,但年份间可能存在数值差距较大,权值难以确定,会对预测结果造成很大误差。
分析灰色预测模型、同比预测模型的算法特点,基于同比预测模型,提出同比概率预测模型。
灰色预测模型是对系统因素之间发展趋势相异成都进行关联分析,其特点是不使用原始数据序列,对原始数据进行处理生成有较强规律性的数据序列,并建立相应的微分方程模型,从而通过计算来预测数据信息在未来的发展趋势 [
使用GM(1,1)模型,必须保证已知数据的可行性。设原始数据序列为 x ( 0 ) = ( x ( 0 ) ( 1 ) , x ( 0 ) ( 2 ) , ⋯ , x ( 0 ) ( n ) ) ,计算该数据序列的级比:
λ ( k ) = x ( 0 ) ( k − 1 ) x ( 0 ) ( k ) ( k = 2 , 3 , ⋯ , n ) (1)
如果所有的级比都落在可覆盖区间
y ( 0 ) ( k ) = x ( 0 ) ( k ) + c (2)
以数据序列 x ( 0 ) 建立GM(1,1)模型,其相应微分方程为:
d x ( 1 ) ( t ) d t + a x ( 1 ) ( t ) = b (3)
通过回归分析求得a,b的值,解方程得到:
x ( 1 ) ( t ) = ( x ( 0 ) ( 1 ) − b a ) e − a ( t − 1 ) + b a (4)
从而相应得到GM(1,1)模型预测值:
x ^ ( 0 ) ( k + 1 ) = x ^ ( 1 ) ( k + 1 ) − x ^ ( 1 ) ( k ) ( k = 1 , 2 , 3 , ⋯ , n − 1 ) (5)
灰色预测模型的缺点是:一般情况下,GM(1,1)模型适用于近似灰色指数率和灰饱和率的单调小样本数据序列进行建模,而对于波动性较强的序列则没有有效的进行预测 [
为了保持每一年的月份或季节的特点,我们设计了同比预测模型,如式(6)所示:
l k 1 = 1 2 × [ 1 3 × ∑ i = k − 3 k − 1 l i 1 + l k 2 ] (6)
其中 l k 1 表示要预测数据的第k月份的数据, l k 2 表示前一年的第k月份的数据。先取当前年前三个月的数据的均值,然后再与 l k 2 取均值。 l k 2 为历史同期数据,加入 l k 2 这个参数能利用历史同期数据的季节性特点来预测本期数据,但是若各个年份数据变化幅度大,即 l k 1 与 l k 2 数值差距大,将会导致预测数据的不准确性。
基于同比的概率预测模型分为两种情况:
第一,当月份小于4月份时,将历史同期数据加上权重来预测本期数据。根据往年数据。根据往年数据与本期数据的关系,相距越远的年份,相互关系越低,因此设历史前三年的权重分别为0.618、0.236、0.146。如式(7)所示:
l k 1 = l k 2 × 0.618 + l k 3 × 0.236 + l k 4 × 0.146 ( 1 ≤ k ≤ 3 ) (7)
第二,当月份大于等于4月份时,需要利用已经预测出的月份来向后继续预测。先计算出当前月份历史同期数据在前三个月占的比重。若要分析季节性特点,当前月份与本期数据的前三个月所占比例将与前一年相同,基于同比概率预测模型公式如下:
l k 1 l k 1 + ∑ i = k − 3 k − 1 l i 1 = l k 2 l k 2 + ∑ i = k − 3 k − 1 l i 2 (8)
可以推导出:
l k 1 = l k 2 × ( l k 1 + ∑ i = k − 3 k − 1 l i 1 ) l k 2 + ∑ i = k − 3 k − 1 l i 2 (9)
用P表示概率,则概率P的值为:
P = l k 2 l k 2 + ∑ i = k − 3 k − 1 l i 2 (10)
无论历史同期数据与本期数据差距多大,概率P是固定的,因此可以解决年份间数据差距大的问题,最后基于同比概率预测模型的公式为:
l k 1 = p × ∑ i = k − 3 k − 1 l i 1 1 − p (11)
第一步:用i代表月份,设置i为1;
第二步:判断i是否小于4,是则转第三步,否则转第四步;
第三步:根据式(7)计算 l i 1 的值,并使 i = i + 1 ,转第二步;
第四步:根据式(10)计算概率P,根据式(11)计算 l i 1 的值,并使 i = i + 1 ,转第五步;
第五步:判断i是否小于等于12,是则转第四步,否则转第六步;
第六步:输出每月的预测值。
实验环境:集成开发环境IDE选为PyCharm,开发语言选用python3.0;
实验数据:由于数据涉及个人隐私,我们使用某省某个地级市表示数据来源,实际实验数据是该省该地级市2015年至2018年个人外汇涉外支出业务量的原始数据;
实验模型:简单统计模型、灰色GM(1,1)预测模型和同比概率预测模型。
分别用简单统计模型、灰色GM(1,1)预测模型和同比概率预测模型,在该实验环境下建模进行仿真,对比分析三种模型的预测准确性。
通过分析2015年~2018年各月份的分拆量,可以得到如图1所示结果。
图1. 2015~2018年各月份分拆量(简单统计模型)
由图1可以发现,各年度每月的数据有两个特点,第一,每一个年度的数据变化趋势不平稳,且年度之间分拆量差距较大;第二,分拆量在有的月份或者季节有着明显特性,例如9月份,分别在2015、2016、2017、2018年的分拆量是一个凸点,相比较临近月份数值较高。
以2018年个人外汇涉外支出业务量作为数据,建立GM(1,1)模型,得到原始数据序列 x ( 0 ) = ( 311 , 302 , 269 , 252 , 263 , 243 , 269 , 274 , 308 , 314 , 289 , 249 ) ,计算数据序列的级比 λ ( k ) ,得到级比数列 λ ( k ) = ( 1.02 , 1.12 , 1.06 , 0.95 , 1.08 , 0.90 , 0.98 , 0.88 , 0.98 , 1.08 , 1.16 ) 。同时将 n = 12 代入可覆盖区间,得 X = ( 0.857 , 1.166 ) 。可以发现级比的 λ ( k ) 全部落在可覆盖区间内,使用GM(1,1)模型对数据进行预测,结果如表1所示:
时间 | 原始值 | 灰色GM(1,1)预测值 | 相对误差/% |
---|---|---|---|
2018年1月 | 311 | 311 | 0 |
2018年2月 | 302 | 269 | −10.927 |
2018年3月 | 269 | 270 | 0.372 |
2018年4月 | 252 | 271 | 7.540 |
2018年5月 | 263 | 273 | 3.802 |
2018年6月 | 243 | 274 | 12.7572 |
2018年7月 | 269 | 275 | 2.230 |
2018年8月 | 274 | 276 | 0.730 |
2018年9月 | 308 | 277 | −10.065 |
2018年10月 | 314 | 279 | −11.147 |
2018年11月 | 289 | 280 | −3.114 |
2018年12月 | 249 | 281 | 12.851 |
表1. 灰色GM(1,1)模型预测结果
使用同比概率预测模型,以2015~2017年个人外汇数据作为输入,对2018年的数据进行预测,结果如表2所示:
时间 | 原始值 | 同比概率模型预测值 | 相对误差/% |
---|---|---|---|
2018年1月 | 311 | 308 | −0.965 |
2018年2月 | 302 | 292 | −3.311 |
2018年3月 | 269 | 277 | 2.974 |
2018年4月 | 252 | 246 | −2.381 |
2018年5月 | 263 | 253 | −3.802 |
2018年6月 | 243 | 251 | 3.292 |
2018年7月 | 269 | 261 | −2.974 |
2018年8月 | 274 | 285 | 4.014 |
---|---|---|---|
2018年9月 | 308 | 313 | 1.623 |
2018年10月 | 314 | 307 | −2.229 |
2018年11月 | 289 | 272 | −5.882 |
2018年12月 | 249 | 258 | 3.614 |
表2. 同比概率模型预测结果
将GM(1,1)预测模型与同比概率预测模型的预测值进行对比分析,结果如图2所示:
图2. GM(1,1)与同比概率预测对比图
对表1、表2和图2进行分析,灰色GM(1,1)模型在1月,3月,8月预测值的相对误差较小,但是整体波动较大,而采用同比概率预测的相对误差整体偏小,且无较大波动。根据图1对比分析两种算法的准确度,可以发现GM(1,1)模型仅仅预测了数据根据时间的整体变化趋势,在个别月份会造成较大误差,同比概率预测模型,采用概率P来消除年份之间数据误差大的问题,能够很好的预测出个人外汇业务数据量的季节性波动变化的特点。
准确有效地预测未来个人外汇业务数据量,能够有效地促进个人外汇业务的健康发展,推动外汇管理体制的完善。对往年个人外汇业务数据进行分析,发现数据呈季节性变化特点,且年份间数据差距较大,在使用灰色GM(1,1)模型对未来个人外汇业务数据量进行预测时,虽然数据序列在可覆盖区间内,但是预测结果仅仅反映了数据的整体变化趋势,未能突出季节性特点。采用基于同比的概率预测模型,以概率为基础对往年数据进行分析,同时结合已经预测的结果对未来结果进行递归预测,能够有效地消除年份间数据差距大的问题,同时能够很好地预测个别季节数据的波动变化。
为了对数据进行更加准确的预测,日后的工作重点是将灰色预测模型和基于同比的概率预测模型进行结合,借助灰色模型预测出的以时间序列为主的整体变化趋势,加上同比概率预测模型的波动变化,可以完善针对此类数据的有效预测模型。
国家自然科学基金(No.61872312);江苏省产学研前瞻性联合项目(No.BY2016069-16)。
闵玉涓,赵 巍,杨 云. 基于同比的概率预测模型Forecasting Model of Year-on-Year Probability[J]. 计算机科学与应用, 2020, 10(06): 1131-1138. https://doi.org/10.12677/CSA.2020.106117