Business and Globalization
Vol.04 No.02(2016), Article ID:17312,9 pages
10.12677/BGlo.2016.42007

Forecast Analysis of Securities Index Based on Ridge Regression

—In Case of Shanghai Composite Index

Rengkang Wu

School of Statistics and Mathematics, Yunnan University of Finance and Economics, Kunming Yunnan

Received: Mar. 15th, 2016; accepted: Apr. 2nd, 2016; published: Apr. 7th, 2016

Copyright © 2016 by author and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

ABSTRACT

Security market is an important indicator to measure a country’s overall level of economic development. The securities index is a reflection of the overall level of the securities market, and it is an important index of the majority of investors concerned. It not only reflects the basic situation of the securities market, but also plays an important role in guiding the economic trend. Prediction of securities index and trend analysis plays an important role to stabilize market and guide investors. However, serious multi-collinearity between variables often appears in the establishment of the corresponding statistical prediction model. In this paper, the model is improved, and the problem of multi-collinearity between independent variables is solved by using ridge regression. And taking the real data of Shanghai Composite Index as an example, the predicted value of the improved ridge regression model is compared with the true value, and the fitting result is better.

Keywords:Securities Index, Ridge Regression, Multi-Collinearity

基于岭回归的证券指数的预测分析

—以上证综合指数为例

吴仍康

云南财经大学统计与数学学院,云南 昆明

收稿日期:2016年3月15日;录用日期:2016年4月2日;发布日期:2016年4月7日

摘 要

证券市场的是衡量一个国家总体经济发展水平的重要指标。而证券指数是对各个证券市场总体水平的反映,是广大投资者关注的重要指数。它不仅反映了证券市场的基本状况,同时对经济走向也具有重要的导向作用。对证券指数的预测分析以及趋势研判对稳定市场、引导投资者具有重大意义。然而,在建立相应统计预测模型时自变量之间常常出现严重的多重共线。本文通过对模型进行改进,综合运用岭回归解决了自变量间多重共线性的问题。并且以我国上证综合指数的真实数据为例,将改进后岭回归模型的预测值与真实值进行对比,拟合结果较好。

关键词 :证券指数,岭回归,多重共线性

1. 引言

1.1. 股票指数

证券市场的成熟度是衡量一个国家经济总体发展水平的重要指标。而在我国“上证综合指数”(也称“大盘指数”)是反映整个股市行情最重要的指标。投资者们时刻在关注的上证指数的波动,并试图预测其发展趋势。然而影响上证指数的因素很多,其作用机制也相当复杂,若想预测其长期走势十分困难。然而,随着计算机技术、统计理论的发展尤其是在当下的大数据时代,对于短期的股指预测却成为可能。

特别是根据股指当天的“开盘价”、“最高价”、“最低价”对其收盘价进行预测。因为不论市场是处于牛市还是熊市环境下,股票当期开盘价、最高价、最低价对收盘价的影响程度均远远的超过历史期收盘收益的影响,这可能是由于开盘价、最高价、最低价与收盘价是同期的原因。

因此,如何判断或预测股票指数走势引起了众多研究者和市场分析人员的极大兴趣,各种预测方法相继涌现。其中邱剑和艾立翔(2011)基于多元线性模型和层次分析法对上证指数建立了预测模型,确定了各个参数的权重,克服了传统定性分析方法不准确的缺点;吴小强和吕文龙(2012)运用时间序列分析对上证指数进行了趋势预测,由于金融时间序列的复杂性模型仅适用于特定的假设下;石鸿雁、尤作军等(2014)基于小波分析的ARIMA模型对上证指数进行了分析与预测。然而,在各种模型的预测分析中都无可避免的存在着自变量之间的自相关存在。若能减弱或消除自变量之间的多重共线性,那么在一定程度上则能提高对指数预测的精度以及可靠性。因此,本文将运用岭回归分析方法对模型进行改进解决这一问题。

1.2. 收盘价与开盘价、最高价、最低价之间的关系及其意义

开盘价、收盘价是股票日交易行情中两个比较重要的分析工具。开盘是一天交易的开始,而收盘则标志着一天交易的结束。开盘价是市场各方对当日股价的一个预期,虽然开盘价不能作为判断股价走势的唯一依据,但却可以作为一种参考,特别是一些特殊的开盘价往往能预示当日全天的走势。而收盘价是当日行情的标准,如隔夜没有显著的信息变化,它又是下一个交易日开盘价的依据,可以用来预测下一成交日的股票市场行情。

最高价为当日交易过程中产生的最高价位。最低价为当日交易过程中产生的最低价位。由于价格反应了在交易过程中供给双方的博弈结果,因此最高价与最低价也是投资者十分关注的重要指标,进而影响着收盘时的价位。

综上所述,我们有理由相信收盘价与开盘价、最高价、最低价之间具备着一定的关系。因此,我们可以运用线性模型的相关知识去探寻他们之间的详细的数量关系 [1] [2] 。

2. 岭回归

岭回归法是 A.E.Horel在1962年提出的一种能统一诊断和处理多重共线性问题的特殊方法, 在多重共线性十分严重的情况下,两个共线变量的系数之间的二维联合分布是一个山岭状曲面,曲面上的每一个点均对应一个残差平方和,点的位置越高,相应的残差平方和越小。因此,山岭的最高点和残差平方和的极小值相对应,相应的参数值便是参数的OLS估计值。由于有多重共线形存在时OLS估计量已不适用,一个自然的想法就是应寻找别的更合适的估计量。这种估计量既要具有最小的方差,又不能使残差平方和过分的偏离其极小值。在参数的联合分布曲面上,能满足这种要求的点只能沿着山岭寻找,这就是岭回归法。

岭估计方法:

若线性回归模型为:

则参数的最小二乘估计为:

而回归系数的岭估计定义为:

这里的为可选择参数,称为岭参数或偏参数。因次,对一切,岭估计是有偏估计。它实际上是一种改良的最小二乘法,是以放弃最小二乘的无偏性,放弃部分精确度为代价来寻求效果稍差但更符合实际的回归过程。虽然岭回归所得残差平方和比最小二乘回归要大,但这样一来,它对病态数据的耐受性就远远强于最小二乘法。岭回归方法也非常灵活,它的使用存在着一定的主观人为性,但这种人为性正好是发挥定性分析与定量分析有机结合之处,在解决多重共线性问题中有着独特作用。

岭迹法——一种求值的方法

岭估计是随着值的改变而变化。

若记的第个分量,则它是的一元函数,当上变化时,的图形称为“岭迹”。

选择岭迹的方法:将的岭迹画在同一个图上,根据岭迹的变化趋势选择值,使得各个回归系数的岭估计大体上稳定,并且各个回归系数的岭估计的符号比较合理 [3] - [5] 。

3. 岭回归上证综合指数的岭回归分析

3.1. 对数据进行多元线性回归

现在对1990年12月19日~2013年12月31日上海证券综合指数的日K线图的数据进行分析。由于全部数据量太大,故仅将其中部分数据展示见表1

因此,根据数据建立收盘指数与开盘指数、最高指数、最低指数之间的多元线性回归模型:

(1)

对(1)中所建立的模型直接用最小二乘法运用SPSS软件得出相应的分析结果如图1

由结果分析可知:

1) 多元线性回归方程的可决系数接近于1,调整后的可决系数也接近于1。这说明模型的拟合优度非常好。

Table 1. The Shanghai Composite Index on K-line part data

表1. 上证综合指数日K线部分数据

2) 多元线性回归方程的F检验的P值远小于0.05。因此,对方程的检验是显著的。

3) 对三个自变量回归系数的t检验的P值均远小于0.05。因此,对三个变量的回归系数是显著的。

4) 由D.W检验法可知,D.W值接近于2。因此,模型不存在序列相关。

5) 然而,由变量之间的相关矩阵可以看出,变量之间的相关系数很高,部分甚至接近于1。因此,有理由怀疑模型的自变量之间存在严重的多重共线性。

因此,下面通过计算条件数进一步判定模型中是否存在严重的多重共线性。

通过MATLAB软件,先将原始数据中心化和标准化,再计算得:

在计算其三个特征值,分别:

因此根据条件数的定义:

图1. 回归分析结果

由此可知,条件数非常大,因此可以判定在模型中存在严重的多重共线性。

3.2. 运用岭回归法对模型进行改进

由于回归系数的岭估计为:

其关键在于确定岭参数的值,有前面所介绍可知运用“岭迹法”可确定岭参数的值。

运用MATLAB软件在给定值范围在区间[0,30]内,对中心化和标准化后的数据进行岭回归分析。可以得到如下结果见表2

岭迹图如图2

因此,从图像中以及表格中我们不难发现,三个变量的回归系数在后开始收敛,故总体上看大致我们可以取

带入原模型后得如下岭回归方程:

4. 预测

通过岭回归所得到的线性模型,对2014年11月3日~12月26日每日的收盘价进行预测,并与实际的指数进行对比,见表3

Table 2. Results of ridge regression analysis of Shanghai Composite Index

表2. 上证综合指数岭回归分析结果

Table 3. Comparison of the predictive value and the real value of Shanghai Composite Index

表3. 上证综合指数预测值与真实值的对比

Figure 2. Results of regression analysis

图2. 回归分析结果

由表分析可知,该模型的拟合效果较好。

5. 结论

本文通过对1990年12月19日~2013年12月31日的上证综合指数日K线数据进行研究,通过岭回归解决了变量之间的严重的多重共线性问题。最后得到线性回归模型,并通过对比2014年11月3日~12月26上证综合指数回归预测值与真值,说明了该模型的拟合效果较好。

因此,我们有一下结论:

表示每日开盘指数每增加一个单位,当天收盘指数则增加0.2257个单位。

表示每日最高指数每增加一个单位,当天收盘指数则增加0.3871个单位。

表示每日最低指数每增加一个单位,当天收盘指数则增加0.38645个单位。

收盘指数变化可由开盘指数,、最高指数和最低日指数的变化(线性)来解释。

文章引用

吴仍康. 基于岭回归的证券指数的预测分析—以上证综合指数为例
Forecast Analysis of Securities Index Based on Ridge Regression—In Case of Shanghai Composite Index[J]. 商业全球化, 2016, 04(02): 47-55. http://dx.doi.org/10.12677/BGlo.2016.42007

参考文献 (References)

  1. 1. 陈怡玲, 宋逢明. 中国股市价格变动与交易量关系的实证研究[J]. 管理科学学报, 2000, 3(2): 62-68.

  2. 2. 赵传刚. 我国A股市场量价关系的实证分析[D]: [硕士学位论文]. 南昌: 江西财经大学, 2007: 20-22.

  3. 3. 王松桂, 史建红, 等. 线性模型引论[M]. 北京: 科学出版社, 2004.

  4. 4. 张尧庭, 方开泰. 多元统计分析引论[M]. 北京: 科学出版社, 1982.

  5. 5. 杨楠. 岭回归分析在解决多重共线性问题中的独特作用[J]. 统计与决策, 2004(3): 14-15.

附录

主要的MATLAB的程序:

标准化数据并求出矩阵X'X以及其特征值:

x11 = zscore(x1)

x22 = zscore(x2)

x33 = zscore(x3)

X = [x11,x22,x33]

X'X

eig(X'X)

求出在不同K值的情况下的岭回归系数并画出岭迹图

K = 0:0.01:30

B0 = ridge(Y,X,K,0)

plot(K,B0')

3、通过所求模型对数据进行预测

B1 = 0.2257

B2 = 0.3871

B3 = 0.38645

U = −1.249

Y = U*ones(20,1)+B1*X1+B2*X2+B3*X3

期刊菜单