在金融数据的研究中,经常遇到函数型数据。主要建立函数型主成分分析的预测模型,分析函数型数据在上证指数预测中的应用,根据函数型数据分析的原理及其求解主成分分析的方法,使用Matlab对上证指数进行预测。 In the research of financial data, the functional data are often encountered. In this paper, the pre-diction model of functional principal components analysis is established to forecast the Shanghai Stock Index. Based on the principal component analysis theory and calculation method, the Shanghai Composite Index is forecasted by Matlab.
程丽娟
岭南师范学院数学与计算科学学院,广东 湛江
收稿日期:2016年5月6日;录用日期:2016年5月27日;发布日期:2016年5月30日
在金融数据的研究中,经常遇到函数型数据。主要建立函数型主成分分析的预测模型,分析函数型数据在上证指数预测中的应用,根据函数型数据分析的原理及其求解主成分分析的方法,使用Matlab对上证指数进行预测。
关键词 :函数型数据,主成分分析,预测
传统的数据分析中,获得的数据包括截面数据、时间序列数据以及面板数据,但是对这三种数据分析时要依赖许多的假设条件,适用数据的类型具有一定的局限性,加拿大学者J.O. Ramsay在1982年首次给出将泛函分析、拓扑学和统计学相结合的设想,提出“函数型数据”的概念以及函数型数据的分析方法 [
本文主要建立函数型主成分分析的预测模型,分析函数型数据在上证指数预测中的应用,根据函数型数据分析的原理及其求解主成分分析的方法,使用Matlab软件对上证指数进行预测。
对于原始数据序列
其中,
最简单的平滑方法为线性平滑,线性平滑法是指用离散观测值的线性组合去估计函数
对函数
采用基函数平滑方法时,常选用的基函数包括傅立叶基,B-Spline基,多项式基,常数基等。对于周期性的数据常采用傅里叶基,对于非周期性的数据通常用B-Spline基进行拟合 [
解得
从观测值
其中,
上式中的第一项度量了曲线的拟合效果,第二项度量了曲线的平滑度。正的常数
函数型数据主成分分析是将变量看作函数的形式,其样本的协方差矩阵也变为函数的形式,因此可以避免出现高维的协方差矩阵。在函数数据下,观测矩阵为
其中下标
函数型数据的第一主成分
同样的,第
函数型主成分的权重函数
记
函数型主成分分析中数据
函数型主成分的选取思想与多元主成分的选取相同,根据所研究问题的需要确定累积贡献率,选择合适的
设随机过程
设
分别提取两个区间的主成分,随机过程
其中,
第
随机过程
对上式中的
本文选取我国上证指数作为研究对象,选取2015年4月7日至6月8日的5分钟收益率数据。为了避免“隔夜效应”的影响,在进行数据分析时,舍弃每天的第一个数据(即9:35时刻),把每天的5分钟收益率数据视为其对应函数产生的一组样本观测值,使用B样条插值法对这些样本观测值进行拟合,并进行平滑处理,然后根据得到的光滑曲线求出其变化速度曲线,即一阶导数曲线,如下图所示。图1表示的是收益率曲线及其平滑曲线,其中绿线表示的原数据,蓝线表示的是B样条插值法得到的曲线,红线表示对B样条插值法得到的曲线平滑处理后得到的新曲线。图2表示的是B样条插值法得到曲线的一阶导数曲线。
图1. 收益率曲线及其平滑曲线
图2. 一阶导数曲线
得到平滑函数后,为分析收益率在时间上的差异,将收益率分为两个区间,其中前30天为第一区间,后14天为第二区间,分别对两个区间的收益率函数进行函数型主成分分析,如下图所示。图3表示第一区间的前两个主成分,其中PC1对应的方差贡献率是52.9%,PC2对应的方差贡献率是47.1%,图4表示第二区间的前两个主成分,其中PC1对应的方差贡献率是58.2%,PC2对应的方差贡献率是27.3%。
根据表1中的方差贡献率,在第一区间选取全部2个主成分。在第二个区间里,第一、二主成分的方差贡献率已经达到了85.5%,因此选取前两个主成分表示第二区间内收益率的变化特征。
观察表2中的相关系数,
将观测到的真实值、模型估计出的预测值及由两者得到的误差百分比如下表所示。
由表3可以看出,除6月12日误差百分比较大以外,绝大部分的误差百分比都较小。因此说明建立的
图3. 主成分权重函数(第一区间)
图4. 主成分权重函数(第二区间)
主成分 | 前30天 | 后14天 | ||||
---|---|---|---|---|---|---|
特征值 | 贡献率 | 累计贡献率 | 特征值 | 贡献率 | 累计贡献率 | |
1 | 0.0099 | 52.9% | 52.9% | 0.0056 | 58.2% | 58.2% |
2 | 0.0088 | 47.1% | 100% | 0.0026 | 27.3% | 85.5% |
表1. 主成分特征值与贡献率
1.0000 | -0.0655 | |
-0.0655 | 1.0000 |
表2. 相关系数
6月9日 | 6月10日 | 6月11日 | 6月12日 | |
---|---|---|---|---|
真实值 | −0.00357 | −0.00146 | 0.00304 | 0.00874 |
预测值 | −0.00338 | −0.00139 | 0.00309 | 0.00793 |
误差百分比 | 5.32% | 4.79% | −4.93% | 9.27% |
表3. 真实值与预测值
本文对函数型数据分析方法和函数型数据分析方法在上证指数中的应用进行了研究,介绍了函数型数据分析的研究意义,以及函数型数据的均值函数、方差函数、协方差函数、相关系数函数等描述统计量。研究了函数型数据的主成分分析方法以及如何建立函数型主成分预测模型。通过对上证指数收益率进行预测的实证分析,得到建立函数型主成分预测模型对我国上证指数收益率进行预测,预测的准确程度较高。
岭南师范学院自然科学青年项目《基于函数型数据的统计分析及应用》(QL1407)。
程丽娟. 基于函数型数据的上证指数预测Prediction for the Shanghai Stock Index Based on the Functional Data[J]. 应用数学进展, 2016, 05(02): 291-297. http://dx.doi.org/10.12677/AAM.2016.52037