指数追踪是指通过利用一个的股票组合复制某一现实指数或者虚拟指数的市场表现,由此来得到目标指数的市场表现,并尝试最小化跟踪误差。其目的是追踪一个股票指数的持仓及盈利表现。本文在追踪之前,对数据进行了回归诊断,诊断结果表明变量间存在多重共线性,逐步回归与岭回归方法能够很好的消除多重共线性。因此,本文主要采用了逐步回归与岭回归对上证50指数的5分钟K线数据进行指数追踪。指数追踪结果表明,利用逐步回归法对上证50指数的追踪效果优于岭回归法。 Index tracking refers to using a stock portfolio to replicate the market performance of a real or virtual index to obtain the market performance of the target index and try to minimize tracking errors. Its purpose is to track the holdings and earnings performance of a stock index. Before tracking, this paper carried out regression diagnosis on the data. The diagnosis results showed that there was multicollinearity among the variables. Stepwise regression and ridge regression methods can eliminate multicollinearity very well. Therefore, this paper mainly uses stepwise regression and ridge regression to track the 5-minute K-line data of the Shanghai Stock Exchange 50 Index. The index tracking results show that the tracking effect of the SSE 50 index using the stepwise regression method is better than that of the ridge regression method.
指数追踪是指通过利用一个的股票组合复制某一现实指数或者虚拟指数的市场表现,由此来得到目标指数的市场表现,并尝试最小化跟踪误差。其目的是追踪一个股票指数的持仓及盈利表现。本文在追踪之前,对数据进行了回归诊断,诊断结果表明变量间存在多重共线性,逐步回归与岭回归方法能够很好的消除多重共线性。因此,本文主要采用了逐步回归与岭回归对上证50指数的5分钟K线数据进行指数追踪。指数追踪结果表明,利用逐步回归法对上证50指数的追踪效果优于岭回归法。
指数追踪,最小二乘法,岭回归,逐步回归
Jin Zeng, Yuhao zhang, Qiancheng Du
School of Mathematics and Statistics, Guizhou University, Guiyang Guizhou
Received: Oct. 3rd, 2022; accepted: Nov. 1st, 2022; published: Nov. 8th, 2022
Index tracking refers to using a stock portfolio to replicate the market performance of a real or virtual index to obtain the market performance of the target index and try to minimize tracking errors. Its purpose is to track the holdings and earnings performance of a stock index. Before tracking, this paper carried out regression diagnosis on the data. The diagnosis results showed that there was multicollinearity among the variables. Stepwise regression and ridge regression methods can eliminate multicollinearity very well. Therefore, this paper mainly uses stepwise regression and ridge regression to track the 5-minute K-line data of the Shanghai Stock Exchange 50 Index. The index tracking results show that the tracking effect of the SSE 50 index using the stepwise regression method is better than that of the ridge regression method.
Keywords:Exponential Tracking, Least Squares, Ridge Regression, Regression Diagnostics
Copyright © 2022 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
指数追踪的目标是使得股票的投资者与股指期货空单对冲,由此来保值。指数型的基金管理者常常面临选择何种投资股票的问题,比较常用的有完全复制法和不完全复制法。其中,根据目标指数中每种成分股所占的权重来购买目标指数中的所有成分股,这种方法就叫做完全复制法。这种方法所需要的成本较高,在成分股较多的指数,比如沪深300这样的指数中并不适用。反之,购买目标指数中的部分股票的方法称为不完全复制法,然后最小化追踪组合收益率和目标指数收益率之间的误差获取资产比例,虽然存在一定的追踪误差,但是其投入的成本较低,更受投资者的青睐。
迄今为止,国内外学者们对指数追踪这一领域的研究还在持续不断的进行。Markowitz [
股票市场中没有严格的函数关系,但很多变量之间是存在关联的,回归分析能够很好的刻画变量之间的相关关系。在设计阵病态或变量间存在多重共线性时,传统的回归模型不再适用,因为最小二乘估计本身设计的结构问题,当条件数过大时,均方误差也会迅速增大。当存在多重共线性时,有偏估计能够避免均方误差迅速增大的情况发生,所以本文选用经典的有偏估计模型,岭回归与逐步回归。
一般的,设有p个解释变量 X 1 , X 2 , ⋯ , X p ,与被解释变量Y有如下关系:
Y = β 0 + β 1 x 1 + ⋯ + β p x p + ε (1)
ε ~ ( 0 , σ 2 ) (2)
称(1)~(2)式为多元线性回归模型,线性函数
f ( x 1 , x 2 , ⋯ , x k ) = β 0 + β 1 x 1 + ⋯ + β k x k (3)
称为多元线性回归函数, β i , i = 0 , 1 , ⋯ , p 称为回归系数。它们与 σ 2 均未知。
设 ( x i 1 , x i 2 , ⋯ , x i p , y i ) , i = 0 , 1 , ⋯ , n 为 ( X 1 , X 2 , ⋯ , X p , Y ) 的实验数据,且
{ y i = β 0 + β 1 x i 1 + ⋯ + β p x i p + ε i , i = 1 , 2 , ⋯ , n . E ε i = 0 , var ε i = σ 2 , i = 1 , 2 , ⋯ , n . cov ( ε i , ε j ) = 0 , i ≠ j ; i , j = 1 , 2 , ⋯ , n . (4)
记 β = ( β 0 , β 1 , ⋯ , β p ) ′ , Y = ( y 1 , y 2 , ⋯ , y n ) ′ , ε = ( ε 1 , ε 2 , ⋯ , ε n ) ′
X = ( 1 x 11 x 12 ⋯ x 1 p 1 x 21 x 22 ⋯ x 2 p ⋮ ⋮ ⋮ ⋱ ⋮ 1 x n 1 x n 2 ⋯ x n p )
则(4)式表示为:
{ Y = X β + ε E ε = 0 , cov ( ε ) = σ 2 I n (5)
这就是通常所说的线性模型,它是统计学中极为重要的研究分支之一,式中X是一个纯量矩阵,称为设计矩阵或结构矩阵,在回归分析中一般假设X为列满秩,即 r a n k ( X ) = p + 1 ; E ε = 0 是n维零向量, I n 是n阶单位矩阵。
设 β ^ = ( β ^ 0 , β ^ 1 , ⋯ , β ^ p ) ′ 是 β 的估计量,则称
y ^ = ( β ^ 0 + β ^ 1 x 1 + ⋯ + β ^ p x p ) ′ . (6)
为线性回归方程。记
y ^ = ( β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ p x i p ) ′ , i = 1 , 2 , ⋯ , n (7)
Y ^ = X β ^ . (8)
残差平方和为
S E 2 = S E 2 ( β ^ ) = ∑ i = 1 n ( y i − β ^ 0 − β ^ 1 x 1 − β ^ 2 x 2 − β ^ 3 x 3 − ⋯ − β ^ p x p ) 2 = ‖ Y − X β ^ ‖ 2 = Y ′ Y − 2 Y ′ X β ^ + β ^ ′ X ′ X β ^ (9)
对给定的观测数据 ( x i 1 , x i 2 , ⋯ , x i p , y i ) , i = 1 , 2 , ⋯ , n , β ^ 其实就是下面最优化问题
min β S E 2 ( β ) (10)
的最优解。因此 β ^ 为
∂ ∂ β S E 2 ( β ) = 0 (11)
的解。由(11)式可得
X ′ Y = X ′ X β (12)
(12)式为正规方程。因为 r a n k ( X ′ X ) = r a n k ( X ) p + 1 ,所以 ( X ′ X ) − 1 存在,故得到 β 得LS估计
β ^ = ( X ′ X ) − 1 X ′ Y (13)
从而,(8)式为
Y ^ = X β ^ = X ( X ′ X ) − 1 X ′ Y (14)
需要注意的是(13)式具有两重性。
如果 y 1 , y 2 , ⋯ , y n 换成随机变量Y得一组随机样本 Y 1 , Y 2 , ⋯ , Y n ,则 β ^ 是随机向量,为回归系数向量 β ^ = ( β 0 , β 1 , ⋯ , β p ) ′ 的估计量;同样 y 1 , y 2 , ⋯ , y n 可以看成 Y 1 , Y 2 , ⋯ , Y n 的观测值,从而(13)式又是一个纯量向量,是回归系数向量的一个估计值。
岭回归实质上是一种改良的最小二乘估计法,岭回归放弃了最小二乘的无偏性,以损失部分信息、降低精度为代价获得的回归系数更为符合实际,更可靠的回归方法,对病态数据的拟合要强于最小二乘法。岭回归模型如下:
β ^ ( λ ) = ( X T X + λ I ) − 1 X T y
λ 为岭系数,I为单位矩阵(对角线元素全为1,其他元素全为0)。岭回归的代价函数加入了一个正则项(如果没有正则项则是无偏估计)。下面是岭回归的代价函数:
J ( θ ) = 1 2 ∑ i = 1 n ( h θ ( x i ) − y i ) 2 + λ ∑ i n θ i 2 J ( θ ) = 1 2 ( X θ − Y ) T ( X θ − Y ) + λ θ T θ = 1 2 ( θ T X T X θ − θ T X T Y − Y T X θ + Y T Y ) + λ θ T θ ∂ J ( θ ) ∂ θ = X T X θ − X T Y + λ θ θ = ( X T X + λ I ) − 1 X T Y
其中, λ ≥ 0 ,通过对 λ 值的选择,可以减少多重共线性的影响,取不同的 λ 值,可以得到不同的估计。当 λ = 0 , β ^ ( 0 ) = ( X T X ) − 1 X ′ y 就是普通最小二乘估计。
逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,而后对以及选入逐步回归的变量进行逐个的检验,当后面选入的解释变量导致之前选入的解释变量不显著时将其剔除。由此可以保证每次引入新的解释变量,逐步回归方程里面的所有解释变量均显著。
有两种逐步回归的方法,一种是向前法:从模型中没有解释变量开始,反复添加最有帮助的解释变量,直到没有显著的预测变量选入回归方程。
首先,对p个自回归变量 X 1 , X 2 , ⋯ , X n ,分别对因变量Y建立一元回归模型
Y = β 0 + β i X i + ε , i = 1 , 2 , ⋯ , p
计算变量 X i ,并计算与之对应的回归系数的F检验统计量的值,记为 F 1 ( 1 ) , ⋯ , F p ( 1 ) ,取其中最大值 F i 1 ( 1 ) ,即:
F i 1 ( 1 ) = max { F 1 ( 1 ) , ⋯ , F p ( 1 ) }
对给定的显著性水平 α ,记相应的临界值为 F ( 1 ) , F i 1 ( 1 ) ≥ F ( 1 ) ,则将 X i 1 引入回归模型,记 I 1 为选入变量指标的集合。
建立因变量Y与自变量子集 { X i 1 , X 1 } , ⋯ , { X i 1 , X i 1 − 1 } , { X i 1 , X i 1 + 1 } , ⋯ , { X i 1 , X p } 的二元回归模型,共有 p − 1 个。计算变量的回归系数F检验的统计量,记为 F k ( 2 ) ( k ∉ I 1 ) ,选其中最大值,对应自变量脚标记为 i 2 ,即:
F i 2 ( 1 ) = max { F 1 ( 2 ) , ⋯ , F i 1 − 1 ( 2 ) , F i 1 + 1 ( 2 ) , ⋯ , F p ( 2 ) }
对给定的显著性水平 α ,记相应的临界值为 F ( 2 ) , F i 2 ( 1 ) ≥ F ( 2 ) 则变量 X i 2 引入回归模型。否则,终止变量引入过程。后面重复上一步,直到没有变量通过F检验为止。
还有一种方法是向后选择法,从完整模型中的所有预测变量开始,以迭代方式删除贡献最小的预测变量,直到没有不显著的解释变量从回归方程删除。
本文的数据来自于上证50指数及其成分股在2022年5月4日至2022年7月4日的5分钟K线收盘价数据,数据共2016条。其中,训练集占整个数据集的3/4,共计1344个数据,测试集占整个数据集的1/4,共计672个数据。
在多元线性回归模型中,需要假定随机误差项 ε i 服从 N ( 0 , σ 2 ) 。在目前的应用中,绝大多数都采用这样一些假设。如果分析表明实际问题不满足随机误差项的正态性假设,则可以对数据作适当的处理,使其满足或基本满足这些假设。
利用R语言获得上证50指数与其成分股之间的经验回归方程如下:
y ^ = − 1.02 X 1 + 5.93 X 2 − 0.59 X 3 + 4.41 X 4 + ⋯ + 1.93 X 14 + 0.29 X 15 + 9.74 X 26 + 0.27 X 27 + ⋯ + 9.45 X 43 + 3.08 X 44 + ⋯ + 0.31 X 49 + 0.63 X 50
模型检验结果如表1所示:
模型显著性检验P值 | R2 | 残差平方和 | 最大特征值 | 最小特征值 | 条件数 |
---|---|---|---|---|---|
2.2e-16 | 0.9997 | 1020.578 | 25.82 | 0.0026 | 9857.386 |
表1. 最小二乘估计模型检验
虽然模型通过检验,但拟合优度接近于1,存在过拟合现象;特征值最大为25.82,最小特征值为 0.0026。条件数大于1000,所以变量间存在复共线性。
结合图1初步分析得到该模型残差基本满足正态分布,但有多个异常值点。从QQ图来看基本满足正态性。
W正态性检验:H0:残差服从正态分布。 ω = 0.99831 , P = 0.2033 ,由W检验结果知P值不显著,接受原假设,即残差满足正态性假设;图2图显示绝大部分点都在置信区间内,说明残差符合正态分布假设。
图3给出了前9个变量的偏残差图,表明变量间呈现线性关系。
考虑上证50指数与成分股之间关系的岭回归方程。首先选择岭参数,HBK、L-W给出的 λ 值分别是0.0684、0.0092,GCV的最小值是0.0529,这里选择最小 λ 值0.0092,得到岭回归方程为:
y ^ = 112.42 − 0.88 X 1 + 3.27 X 2 + 0.08 X 3 + 4.53 X 4 + ⋯ + 1.91 X 14 + 0.29 X 15 + 9.75 X 26 + 0.3 X 27 + ⋯ + 9.83 X 43 + 3.53 X 44 + ⋯ + 0.33 X 49 + 0.6 X 50
将自变量的值带入岭回归方程中得到 y ^ 的预测值,分析残差,以此求出普通残差。图4给出了岭回归方程的残差图,残差平方和为7083.679。
图4表明,岭回归方程刻画了上证50指数的趋势,但从方程的系数来看,负系数较少。理论上主成
图1. 上证50指数残差图
图2. 上证50指数残差正太QQ图
图3. 上证50指数偏残差图
图4. 岭回归方程残差图
分估计和岭估计都能接近最小二乘估计的最佳残差,但主成分估计在应用中,会保留过多的主成分,会导致大量系数不显著,给进一步的分析带来困惑和隐患。
通过逐步回归选择变量,第一步计算表明全部变量进行回归后 AIC = − 267.98 ,有5个变量可供删除,删除后变量所能得到的最小值是 AIC = − 269.93 ,对应删除的变量是 X 38 ;第二步发现有4个变量可供删除,最小AIC值是−271.80,需要删除的变量是 X 40 ,以此类推:
y ^ = 114.1 − 6.5 X 1 + 3.7 X 2 + 5.49 X 3 + 4.59 X 4 + ⋯ + 2.65 X 14 + 0.25 X 15 + 5.87 X 26 + 0.2 X 27 + ⋯ + 9.14 X 43 + 2.14 X 44 + ⋯ + 0.07 X 49 + 0.22 X 50
模型平均残差平方和为38.25973,标准差为5.947346。
从图5中能够看到残差图显示是白噪声序列,且预测效果较好。
图5. 逐步回归方法的上证50指数追踪图
在多元线性回归中,变量间存在多重共线性是非常普遍的现象,对多重共线性程度的检测非常重要,这一定程度上决定了用何种方法去解决某一特定回归的复共线性问题。在本文中,多重共线性问题存在,但不算特别严重,所以本文用了两个比较经典的方法来对数据进行处理,分别是岭回归与逐步回归,这两个方法都能很好的解决多重共线性问题。另外,在指数追踪领域中,多元线性回归的应用较少。在本文的实证研究中,岭回归与逐步回归的残差平方和分别为7083.679与1912.9865。因此,在本文选用的上证50指数中,逐步回归法进行的追踪效果更优。相较于其他多元线性回归分析,逐步回归具备更合理的自变量筛选机制,能避免因无统计学意义的自变量对回归方程的影响。
曾 进,张雨豪,杜前程. 基于多元线性回归的上证50股指追踪研究Research on Tracking of Shanghai 50 Stock Index Based on Multiple Linear Regression[J]. 运筹与模糊学, 2022, 12(04): 1356-1364. https://doi.org/10.12677/ORF.2022.124143