Advances in Applied Mathematics
Vol.06 No.04(2017), Article ID:21457,11 pages
10.12677/AAM.2017.64067

The Financial Early Warning Model of Listed Companies Based on Lasso Method and Logistic Regression

Lu Qin1,2, Yujia Jin1,2, Zhuoxi Yu1,2*

1School of Management Science and Information Engineering, Jilin University of Finance and Economics, Changchun Jilin

2Jilin University of Finance and Economics Key Laboratory of Internet Finance, Changchun Jilin

Received: Jul. 2nd, 2017; accepted: Jul. 18th, 2017; published: Jul. 24th, 2017

ABSTRACT

Generally, the more the financial data indicators of listed companies are, the better the early warning is; However, due to a variety of factors, excessive financial indicators lead to multiple collinearity among variables. This paper presents a financial early-warning model of Logistic regression listed companies based on Lasso method. Firstly, the Lasso method is used to select variables for high-dimensional data, which can reduce the data dimension and eliminate the collinearity between variables. Then, the Logistic regression method is used to predict the financial status of listed companies. Simulation experiment shows that the method proposed in this paper can effectively eliminate the redundancy of data, improve the accuracy of early warning, and provide effective reference for enterprise operators.

Keywords:High Dimensional Data, Lasso Method, Logistic Regression, Early Warning

基于Lasso方法与Logistic回归的上市公司 财务预警分析

秦璐1,2,靳雨佳1,2,于卓熙1,2*

1吉林财经大学管理科学与信息工程学院,吉林 长春

2吉林省互联网金融重点实验室,吉林 长春

收稿日期:2017年7月2日;录用日期:2017年7月18日;发布日期:2017年7月24日

摘 要

一般情况下,上市公司财务数据指标越多,预警效果越好,但由于多种因素影响,财务指标过多会导致变量间具有多重共线性。本文提出一种基于Lasso方法的Logistic回归上市公司财务预警模型。首先应用Lasso法对高维数据进行变量选择,达到降低数据维度和消除变量间共线性的目的,再用Logistic回归法实现对上市公司财务状况的预警。仿真实验结果表明,本文提出的方法能够有效地消除数据的冗余性,提高预警的精确性,为企业经营者提供有效的参考意见。

关键词 :高维数据,Lasso方法,Logistic回归,财务预警

Copyright © 2017 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

近几年,我国A股市场中出现的一些上市公司,由于各种财务问题被证券交易所执行特别处理(Special Treatment, ST)。被特别处理的股票,除了涨跌幅度受限制以外,证监会要求在其股票名称前加上提醒性注释“ST”。此外,这些上市公司的中期报告必须审计。如果一个ST企业持续亏损,那么它将面临退市的风险。因此,利用上市公司财务数据,建立有效、稳定的财务危机预警模型具有重要的现实意义,为企业投资者制定合理的财务制度,锁定财务风险提供有价值的参考。

本文根据上市公司财务数据的特征,将Lasso方法引入到财务危机预警模型中,与Logistic回归进行有机结合,提出一种基于Lasso方法的Logistic回归上市公司财务预警模型。仿真实验结果证明了本文所提出的方法能够提高预警的准确性,有效地反映上市公司财务危机状况,为上市公司财务预警提出新的方法。

2. Lasso方法

Tibshirani于1996年提出最小绝对收缩选择法(Least absolute shrinkage and selection operator, Lasso),它是一种基于系数压缩方法的新的变量选择方法。Lasso方法的基本思想是在约束各个回归系数的绝对值之和小于某个特定值的情况下,求解使得回归方程的残差平方和达到最小的回归系数的估计值。Lasso方法能够有效地降低数据的维度,非常适用于高维数据的变量选择。Lasso方法的数学表达式如下所示:

(1)

(2)

(3)

其中,表示第个样本对应的输入变量,表示第个样本对应的输出变量,表示模型的惩罚函数,为惩罚参数,取值越大,剔除掉的变量越少;反之,取值越小,剔除掉的变量越多。

通过控制调和参数,使回归系数总体变小,即自动压缩回归系数。当取一定值时,一些相关程度较低的系数减小为0,得到一些稀疏解,从而达到变量选择的目的。

定义为回归模型的最小二乘估计,表示正则化参数,则在区间上,用的取值对预测误差

进行估计 [1] 。预测误差如下所示:

(4)

当 取适当值时,使误差达到最小,此时,即可确定回归系数。

求解Lasso模型的方法也层出不穷,最初,Tibshirani提出用二次规划进行求解,一些学者又提出了新的算法,例如shooting算法,同伦算法等。目前应用较为广泛的是最小角回归算法(Least Angel Regression,即Lars)。

Lars算法的过程是一个残差拟合的过程,即对变量进行最小二乘回归,它的主要思想是:最初令所有变量系数为0,从所有自变量中寻找出与因变量相关性最强的一个,记为,引入回归方程;然后在的方向上搜索另一个自变量,使与当前残差的相关系数和与当前残差的相关系数相同,引入回归方程;接着,沿着的等角线方向继续搜索,找到变量,使与当前残差的相关系数相同,引入回归方程;再沿着平分变量的夹角方向搜索到满足相关性最强的第四个变量,以此类推,直到所有变量进入方程即可。具体过程详见参考文献 [2] 。

本文采用准则作为变量选择的标准,它是基于残差平方和的准则,目前得到广泛应用 [3] 。假设有个自变量,从中筛选出个变量,其中的一个子集,则准则公式如下所示:

(5)

其中,是变量与因变量的残差平方和,为样本容量,是Y与方差的无偏估计量,其公式如下:

(6)

3. 基于Lasso方法的Logistic回归模型

Logistic回归模型是一种非线性概率模型,它具有对自变量类型无限制,不要求数据满足方差齐性和正态性,系数有较强的可解释性等优势,因此,Logistic回归模型广泛应用于医学、经济学、社会学以及地理研究等领域。

Logistic回归分析是将求解自变量与因变量之间关系问题转化成求解某一事件发生的概率问题。结合本文研究的内容,上市ST公司和非ST公司作为因变量是二元离散型变量,这里将被执行特别处理的ST公司视为发生了财务危机,没有被执行特别处理的非ST公司视为没有发生财务危机。定义如下:

(7)

其中,为假设的连续变量,代表事件发生的概率。

由于Lasso不仅适用于线性模型,也适用于广义线性模型和半参数模型等其他一些统计模型,因此,本文采用基于Lasso方法的Logistic回归模型,假设与自变量之间存在某种线性关系,具体形式如下:

(8)

由式(8)得到

(9)

其中,表示公司是否发生财务危机;表示第家公司的第个财务指标。

通常,误差项服从Logistic分布,属于对称分布,因此,公式(9)等价于下面的公式:

(10)

公式(10)称为Logistic函数,它呈现S型曲线分布,且值域为0到1之间。将公式(10)转换成如下形式,得到Logistic回归模型:

(11)

其中,表示第家公司发生财务危机的概率,它是由变量组成的非线性函数,并且可以转换成线性函数。

定义第 家公司不发生财务危机的概率为

(12)

由上面可以得到,第家公司发生财务危机与不发生财务危机的概率之比为

(13)

将公式(13)称为事件的发生比,其取值范围为0到,因此,通过Logit变换,可以将上式非线性函数转换成线性函数,如下所示:

(14)

Logistic回归模型将上市公司发生财务危机概率的预测问题转化成预测某个公司发生财务危机的发生比问题,该模型不仅能够预测上市公司是否发生财务危机,还能够直观地反映出公司发生财务危机的概率,客观地反映公司经营现状 [4] 。

4. 实验模拟与结果分析

4.1. 数据指标选取

本文选取了2014年~2016年间我国A股市场中因财务状况异常而被特别处理的上市公司(即ST公司)作为主要研究对象,剔除存在缺失值的数据后,共选取22家ST公司。因为上市公司出现财务危机需要经历一个过程,上市公司被特别处理是由于之前两年连续亏损,因此本文选取第T-3年的指标数据建立预警模型,预测公司在第T年是否因财务状况异常而被特别处理。此外,按照ST公司与非ST公司1: 3的配对比例随机选取66家非ST公司作为匹配样本。选取的这些配对非ST公司要与ST公司处于相同行业,资产规模相近,并且在同一时间段内。最终确定了由23家ST公司和与之匹配的66家非ST公司共同组成的研究样本集 [5] ,如表1所示。

Table 1. 2014-2016 A-share listed company

表1. 2014年~2016年A股上市公司

企业的财务指标反映了公司的财务状况和经营成果,不同时期的指标数据反映出企业不同时期的经营状况 [6] 。本文从公司的盈利能力、偿债能力、成长能力、现金流量、运营能力、资本结构等方面考虑,初步选取了19个反映公司财务状况的指标变量进行研究 [7] ,如表2所示。本研究数据主要来源于RESSET 数据库,使用 SPSS和R软件进行数据处理以及构建模型。

4.2. 实验结果与分析

使用R软件中的Lars程序包对数据处理,根据变量的移动顺序来判断指标的重要性,运行Lasso方法得到变量选择次序表,如表3所示 [8] 。

Table 2. Financial early-warning index

表2. 财务预警指标

Table 3. Variable selection order table

表3. 变量选择次序表

从上表可以看出,变量选择的顺序依次是

在变量选择过程中,根据准则来判断最优选择效果,即值越小,变量选择效果越好,计算过程中的各项参数值如表4所示。

表4中可以看出,在第5步时,当达到最小值为1.1919,此时变量选择效果达到最优,因此最终选择的变量是

图1为回归系数解路径图,可以直观地判断财务指标的选择过程。

图1可以看出,当回归系数估计值逐渐增大时,不同指标系数呈现出不同的离散程度 [9] ,当回归系数估计值逐渐减小时,部分变量的标准化系数为0。根据上面所述,在第5步时变量选择效果达到最优,则可以较为直观地看出所选择的变量分别为

对所选择的这5个变量进行共线性检验,如下表5所示。

从上表可以看出,所有条件指数均小于10,则可认为这5个变量间不存在共线性,也进一步证明了使用Lasso方法做变量选择达到了消除共线性的目的。

从样本数据中随机选取68家上市公司(其中包括17家ST公司和51家非ST公司)作为训练样本,其余的20家上市公司(其中包括5家ST公司和15家非ST公司)作为测试样本。将Lasso方法选择的5个

Table 4. Table of parameter values

表4. 各项参数值表

Figure 1. Regression coefficient solution path diagram

图1. 回归系数解路径图

Table 5. Collinearity diagnosis

表5. 共线性诊断

变量作为解释变量,选择训练样本的数据建立Logistic回归模型,得到的模型统计量,如表6所示。

根据表6,将Logistic回归分析结果代入公式(15),得到最终的上市公司财务预警模型为:

(15)

其中,是第个公司发生财务危机的概率,表示第家企业的净资产收益率,表示第家企业的营业利润率,表示第家企业的速动比率,表示第家企业的经营现金净流量,表示第家企业的资产负债率。

Table 6. Model statistic

表6. 模型统计量

Hosmer和Lemeshow检验财务预警模型的拟合优度,如表7所示。

表7可以看出,拟合优度检验得到的值为0.293,大于0.05,说明模型的拟合程度较好。

通常选取概率值为0.5作为财务状况正常与财务状况异常的临界点,即当时,则表示该公司财务状况发生异常;当时,则表示该公司财务状况正常。上市公司财务预警模型对训练样本的回判结果如表8所示。

回判结果包含两类错误,第一类错误是将财务危机公司误判为财务正常公司,第二类错误是将财务正常公司误判为财务危机公司 [10] 。从表8可以看出,训练样本的回判结果中,第一类错误率为23.5%,17家ST公司中判定有13家ST公司,4家非ST公司,正确率为76.5%;第二类错误率为3.9%,51家非ST公司中判定有49家非ST公司,2家ST公司,正确率为96.1%。68家上市公司的总正确率为91.2%,表明该预警模型具有较好的实用性。

同样,应用上市公司财务预警模型对测试样本进行财务危机预警,得到的预测结果如表9所示。

表9可以看出,测试样本的检验结果中,第一类错误率为20%,5家ST公司中判定有4家ST公司,1家非ST公司,正确率为80%;第二类错误率为0%,15家非ST公司全部判定正确,正确率为100%。20家上市公司的总正确率为95%。

为了检验本文提出的上市公司财务预警模型对财务状况预警的有效性,应用相同的训练数据和测试数据,将Logistic回归模型与本文提出的模型的预测结果作进一步对比,图2图3分别为训练数据和测试数据的对比结果。

图2图3的对比中可以看出,与Logistic回归模型比,上市公司财务预警模型对公司财务状况预警具有较高的准确性,因此,基于Lasso方法的Logistic回归上市公司财务预警模型更适用于我国A股市场的分析与预测。

综上所述,从模型的拟和优度检验和预测准确率两方面分析可以看出,基于Lasso方法的Logistic回归建立的上市公司财务预警模型不仅能够较好地判定公司的财务状况,而且也具有较强的预测能力,能够帮助企业管理者及时做好财务风险防控 [2] 。

5. 结语

由于上市公司财务数据指标较多,变量之间往往具有多重共线性,应用Logistic回归模型对上市公司进行财务预警时,当变量之间相关程度较高时,往往得不到理想的预警结果。针对此,本文提出一种基于Lasso方法的Logistic回归上市公司财务预警模型。应用2014年~2016年间我国A股上市公司财务数据进行拟合,仿真实验结果表明,本文提出的上市公司财务预警模型能够合理地分析和预警公司的财务状况,提高预警的精确性,帮助企业经营者有效地应对企业的财务状况。

Figure 2. Training data comparison results

图2. 训练数据对比结果

Table 7. Hosmer and emeshow test

表7. Hosmer和Lemeshow检验

Table 8. Training sample return result

表8. 训练样本回判结果

Table 9. Testing sample return result

表9. 测试样本回判结果

Figure 3. Test data comparison results

图3. 测试数据对比结果

基金项目

国家社会科学基金(16BTJ020)。

文章引用

秦璐,靳雨佳,于卓熙. 基于Lasso方法与Logistic回归的上市公司财务预警分析
The Financial Early Warning Model of Listed Companies Based on Lasso Method and Logistic Regression[J]. 应用数学进展, 2017, 06(04): 572-582. http://dx.doi.org/10.12677/AAM.2017.64067

参考文献 (References)

  1. 1. 张艳丽, 尤晓琳, 强薇, 等. 基于LASSO的企业财务危机预警与关键指标选择[J]. 河南师范大学学报: 自然科学版, 2016(3): 160-165.

  2. 2. Hui, Z. and Trevor, H. (2005) Regularization and Variable Selection via the Elastic Net. Journal of the Royal Statistical Society, 67, 301-320.

  3. 3. 孙浩. 基于Logistic模型的财务预警研究[D]: [硕士学位论文]. 衡阳: 南华大学, 2013.

  4. 4. 连晓丽. 我国A股上市公司财务危机预警模型实证研究[D]: [硕士学位论文]. 厦门: 厦门大学, 2014.

  5. 5. 秦志敏. 我国上市公司财务预警变量选择研究[D]: [博士学位论文]. 大连: 东北财经大学, 2012.

  6. 6. 成鹏伟, 费宇. LASSO和A-LASSO方法在财务预警模型变量选择中的应用[J]. 中国证券期货, 2013(3): 110-111.

  7. 7. 顾云燕. 基于Lasso和Cox模型的上市中小企业财务预警分析[D]: [硕士学位论文]. 兰州: 兰州大学, 2016.

  8. 8. 杨二宝. 上市公司财务危机预警模型的实证研究[D]: [硕士学位论文]. 西安: 西北大学, 2005.

  9. 9. 李敏捷. Lasso-Logistic与Group Lasso-Logistic模型在出生缺陷研究中的应用[D]: [硕士学位论文]. 太原: 山西医科大学, 2016.

  10. 10. 罗昊. 基于自适应LASSO变量选择的Logistic信用评分模型研究[D]: [硕士学位论文]. 南京: 东南大学, 2016.

  11. NOTES

    *通讯作者。

期刊菜单