Statistics and Application
Vol.
12
No.
02
(
2023
), Article ID:
64960
,
7
pages
10.12677/SA.2023.122058
基于多元回归分析的成品钢材需求量 影响因素实证分析
严玮
华南师范大学数学科学学院,广东 广州
收稿日期:2023年3月27日;录用日期:2023年4月17日;发布日期:2023年4月29日

摘要
本文引入了中国统计年鉴的2000~2021年各年份的我国钢材需求量、原油产量、生铁产量、原煤产量、发电量、铁路货运量、固定资产投资额、居民消费、政府消费、GDP、工业增加值11个不同的量来进行回归分析。通过建立回归模型充分说明成品钢材需求量与其他10个变量的关系,建立了多个回归模型,再选择相对最优模型,最后通过所建立的最优模型分析影响成品钢材需求量的因素。
关键词
多元线性回归,成品钢材,多元加权最小二乘估计,异方差性,多重共线性

Empirical Analysis of Influencing Factors of Finished Steel Demand Based on Multiple Regression Analysis
Wei Yan
Institute of Mathematical Sciences, South China Normal University, Guangzhou Guangdong
Received: Mar. 27th, 2023; accepted: Apr. 17th, 2023; published: Apr. 29th, 2023

ABSTRACT
In this paper, 11 different quantities of China’s steel demand, crude oil output, pig iron output, raw coal output, power generation, railway freight volume, fixed asset investment, resident consumption, government consumption, GDP and industrial added value from 2000 to 2021 are introduced in the China Statistical Yearbook for regression analysis. By establishing a regression model to fully explain the relationship between finished steel demand and other 10 variables, a number of regression models are established, and then the relative optimal model is selected. Finally, through the established optimal model it analyzes the factors affecting the finished steel demand.
Keywords:Multiple Linear Regression, Finished Steel, Multivariate Weighted Least Squares Estimate, Multicollinearity, Heteroscedasticity

Copyright © 2023 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
1. 引言
钢铁在各行各业都被广泛使用,也是迄今为止,在世界范围内金属材料中被使用最多的一种。一个国家钢铁工业的水平直接对一个国家的工业化基础有重要的影响和决定作用。作为基础工业之一的钢铁工业,对于一个国家的国民经济来说,是极其重要的支撑,无论是在一些相关的基础建设的使用中,还是在与我们息息相关的日常生活中,都离不开钢铁。在过去的十年中,我国钢铁业迅速发展,钢铁已经成为了我国所需要的重要工业基础物资。根据官方统计报告显示,我国钢铁出口量在2017年已经达到了全球第一名,进口量达到了全球第十一名,由此可见,钢铁行业的生产、销售及进口、出口,都密切关系着我国经济水平及发展情况。
随着全球经济一体化和全世界工业化进程提速,钢铁的重要性愈来愈重要尤其对于重工业较为落后的国家,自身生产的钢铁量不足以满足本国基础建设的需要,因此不得不选择从国外进口,这就对全球的贸易往来产生了积极作用,推动全球经济一体化的进程不断加快。无论是经济处于领先地位的发达国家,还是正在快速发展的发展中国家,都存在对钢铁相关的研究,其中包括对钢铁价格需求影响因素的研究,也包括对整个钢铁市场的研究。
在模型预测方面,多元回归模型的分析与挖掘作用被极其广泛地运用在各个主题。王春辉,周生路 [1] 以江苏省为例,运用多元回归方法对江苏省的粮食产量进行了预测,得出了合理的结果。Taylor G. Don [2] 对全国卡车货运量进行预测时,使用了经济指标作为影响变量建立回归模型。
在钢材需求量的预测的实证上,王志孟、陶雪良 [3] 从人均消耗量、钢铁积蓄量、部门钢材消费量以及居住条件的改善潜力四个测度,利用三种不同的方法,分别在主观和模型层次预测了我国2000年的钢材需求量。万洁雯 [4] 利用现期可以获取到的2000年至2020年上半年的以季度为单位的数据,以我国钢材销售量为核心分别构建多元回归模型、ARIMA模型,对我国2020年钢材需求量前两季度数据进行预测。
从现有的文献来看,国内对于我国钢材需求量的研究方向主要是钢材需求量的预测,较少有研究钢材需求量的影响因素,其中主要采用回归分析、ARIMA模型进行钢材需求量的预测。本文将采用回归分析研究钢材需求量的影响因素。
钢材是工业建设和经济发展不可或缺的重要物资。本文选取了2000年至2021年的钢材需求量以及对钢材需求量可能存在显著影响的多个变量的数据作为主要研究对象,对影响中国成品钢材需求量进行回归分析,并且建立多个回归方程,再选择相对最优模型,最后分析影响成品钢材的因素。
2. 变量设置
理论上认为影响成品钢材的需求量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,本文收集了我国成品钢材的需求量,选择与其相关的十个因素:原油产量x1 (万吨)、生铁产量x2 (万吨)、原煤产量x3 (亿吨)、发电量x4 (亿千瓦时)、铁路货运量x5 (万吨)、固定资产投资额x6 (亿元)、居民消费x7 (亿元)、政府消费x8 (亿元)、GDPx9 (亿元)、工业增加值x10 (亿元)作为解释变量,旨在通过建立这些经济变量的线性模型来说明影响成品钢材需求量的原因。
x1是指还没有经过加工处理的石油产量。因为目前国内钢材严重依赖国外矿石进口,而进口矿石运输主要依赖海运,海运的最重要费用就是产生在轮船耗油问题,原油涨价,汽油,柴油等相关轮船用油必然上涨,进而带动海运费用上涨,然后带动进口矿石成本增加,从而导致钢厂成本增加,钢材生产成本增加势必对钢材价格带来一定影响,进而影响钢材需求量,故本文选取原油产量探索对钢材需求量的影响。
x2是指含碳量大于2%的铁碳合金的产量。
x3是指包括无烟煤、烟煤、褐煤,不包括石煤的产量。
x4是指发电机进行能量转换产出的电能数量。
x5的全程是铁路货物运输量,是指铁路货物运输量。
x6是以货币表现的建造和购置固定资产的工作量以及与此有关的费用的总称。反映固定资产投资规模、速度和投资比例关系的综合性指标。国家规定投资计划和控制投资规模的重要依据。
x7是指常住住户对货物和服务的全部最终消费支出。
x8是指政府部门为全社会提供公共服务的消费支出以及免费或以较低价格向住户提供的货物和服务的净支出。
x9是指国内生产总值GDP,也就是我国所有常驻单位在一个季度内的生产活动按照我国市场价格测算的最终成果。在过去四十多年的时间里,我国GDP增长迅速,同时,我国工业化水平也随着GDP的增长不断提高,GDP可以反映经济大形势的好坏程度,GDP的增长与钢材产量息息相关,前者对后者有较大的冲击效应,前者的增长也对后者的增长有较大的积极作用和贡献度,加入该指标旨在探索经济大背景对钢材需求量的影响。
x10是指工业企业在生产活动中的成果扣除消耗和损失的部分后的价值。钢材消耗与工业生产密切相关,所以加入该指标希望从亲近指标测度上探索钢材需求量的变化趋势。
本文从国家统计年鉴上获取了2000至2021年共22年我国钢材需求量、原油产量、生铁产量、原煤产量、发电量、铁路货运量、固定资产投资额、居民消费、政府消费、GDP、工业增加值的年度数据。本文收集的数据均为定量变量,其符号和经济意义如下表1所示。
Table 1. Symbol description
表1. 符号说明
3. 多元回归模型的建立
3.1. 数据预处理
为了观察中国成品钢材需求量与已选取的其他变量之间的关系,从而建立出更合适的模型,因此先分别作出钢材需求量和每个已选取的自变量的曲线统计图和Pearson相关系数及其检验结果分别如图1和表2所示。
Figure 1. Statistical chart of curves of variables from 2000 to 2021
图1. 2000年至2021年各变量曲线统计图
Table 2. Phase relation table
表2. 相关系数表
由图1可以大致的来看, 和因变量y在2000年到2003年的增长速度都相对平稳没有明显的增势;从2003年到2008年,个别变量开始缓慢增长;从2008年到2019年中旬,增长的幅度开始加大了;在2019年中旬到2020年中旬,由于受新冠疫情的影响,大多数变量都是平缓甚至降低的,但在2020年中旬开始又有了明显的增势。 的曲线近似为一条水平直线,这两个变量分别表示原油和原煤的量,可能受到资源和政策的限制,因而增长的速度非常缓慢。从图1中可以明显看到,随着年限的增加,除了在2020年至2021年受新冠疫情的影响下部分量没有增长外,我国的各种产业和支出水平都随之逐渐增长。
由表1相关系数表可知,y与除x1以外的9个自变量 的相关系数都在0.9以上,说明所选取的这9个自变量是与y高度线性相关的,且y与x1的相关系数大于0.8,说明y与x1也高度线性相关,用y与自变量做多元线性回归是合适的。
3.2. 回归模型的初步建立
将原始数据导入到spss的数据框中,然后用spss软件回归线性分析可以得到y对10各自变量的线性回归方程为方程(1)。
(1)
从回归方程中可以看出 对成品钢材需求量起正影响, 对成品钢材需求量起负影响。从实际社会生活来看,生铁生产水平、原煤生产水平和居民的消费水平提高,都会促进成品钢材的需求量,应该和成品钢材的需求量成正相关,这与定性分析的结果不一致。为此,本文对它进行更深层次的分析。
3.3. 回归拟合优度诊断
拟合优度可用于检验回归方程对样本观测值的拟合程度。回归方程(1)的复相关系数 ,决定系数 ,由决定系数可知回归方程高度显著。
通过方差分析可知,F检验值为762.62,P值等于0.000,表明回归方程高度显著,说明 整体上对y有高度显著的线性影响。
通过T检验可知,当显著性水平 时,只有变量 的P值小于0.05,通过了显著性检验。虽然自变量 整体上对y有显著影响,但每个自变量对y的显著性却较差。其中 的 最大,不显著。 的P值分别是0.303,0.285,0.710,也不显著。 的P值在0.05~0.10之间,也只是弱显著。由此可见,在多元线性回归中,虽然回归方程整体的显著性很强但是并不意味着每个自变量都显著。
另外,每个自变量的显著性和这些自变量与因变量y两两之间的简单相关系数的大小并不一致,产生这个问题的原因是自变量之间存在共线性。其中 的偏回归系数是负数,而因变量y与这三个自变量却是高度正相关,这也是共线性带来的问题。为此,在本文的后面还需对共线性问题进行分析与消除。
为了尽可能的保留合理变量,本文就针对逐个变量给以T检验分析,逐步剔除P值最大的不合理变量,使回归模型更完善。由此可以得到y对4个自变量的线性回归方程为公式(2)。由回归方程(2)中可以看到,对成品钢材需求量起正影响,对成品钢材需求量起负影响。此时回归方程虽然通过了F,T检验,但是增加了不合理变量所占回归的比重,这不符合社会实际。
(2)
3.4. 异方差性的检验
首先,本文分别以回归标准化残差和因变量y来绘制残差图分析模型是否存在异方差。
我们可以残差图中看出,回归的标准化残差在一开始随因变量y的变大,回归的标准化残差以standardized Residual = 0为轴对称向外变大,呈现喇叭口形状,因此我们可以初步判定初等回归方程(1)可能存在异方差。
其次,计算残差绝对值与自变量xi的相关性时采用Spearman等级相关系数,而不采Pearson简单相关系数。这是因为级相关系数可以反映线性相关的情况,而简单相关系数不能如实反映非线性相关的情况。计算残差绝对值与xi的等级相关系数可知,等级相关系数 ,P值等于0.026,认为残差绝对值与自变量xi显著相关,存在异方差性。
3.5. 多元加权最小二乘估计
由于一般的多元线性回归方程出现异方差,故我们需要消除异方差性的影响,本文将使用应用较广泛的加权最小二乘法。首先,本文先选取权函数自变量。我们计算出普通残差的绝对值 与 的等级相关系数,其中残差绝对值与自变量x1的相关系数为 ,由于x1的相关系数比其他自变量的都要大,因此我们选x1构造权函数。其次,确定Weight Eetlmate估计幂指数m,最后得到m的最优解为m = 5。最后,进行加权最小二乘估计拟合,加权最小二乘的回归方程为方程(3)。对回归方程(3)进行方差分析,有决定系数 , ,普通最小二乘的回归方程为方程(1),y有 , ,通过对比两者的 和F可以说明加权最小二乘估计拟合效果略好于普通最小二乘的效果。因此选用加权最小二乘估计是正确合理的,但是 的系数都是负数,说明因变量y与自变量 呈负相关的关系,这与实际意义不符合。
(3)
3.6. 自相关性的检验
对于自相关性我们用DW检验来判断,已知回归估计式的残差来定义DW统计量,假设有原假设 为 ,通过化简后DW值与 的关系式为 。有 ,因而可以近似的计算出 ,通过查表可以判断出误差项的自相关性呈轻微的负自相关。由于自相关性不是很明显,所以本文将不做处理。
3.7. 多重共线性的诊断
首先,本文先通过方差扩大因子VIF对方程(1)进行多重共线性的诊断。由表3可知 的方差扩大因子VIF都很大,远远的超过了10,说明成品钢材需求量的回归方程(1)存在着严重的多重共线性。又因为 的方差扩大因子都是大于10的,说明回归方程的多重共线性就是由自变量间的多重共线性引起的。
Table 3. Variance enlargement factor VIF table
表3. 方差扩大因子VIF表
接下来,为了消除方程的多重共线性,本文通过逐步剔除最大的VIF的自变量以消除方程的多重共线性。最后,得到剔除了自变量 的新回归方程(4),剩下的自变量 的方差扩大因子分别为 ,都是小于10的,且回归系数也都有合理的社会经济解释,说明回归模型不存在强的多重共线性了,可以作为最终的回归模型。建立y与 的回归方程为方程(4)所示。
(4)
标准化的回归方程为方程(5)所示。
(5)
由标准化的回归方程(5)我们可以看到,对成品钢材需求量影响较大的是原油产量、铁路货运量和政府消费,其中政府消费的系数较大,影响也就较大。从整体上来看,消除多重共线性影响后得回归方程更较为符合社会实际。对方程(4)进行方差分析,有 ,P值为0.000,可知此回归方程仍然具有高度的显著。从方程(5)的样本决定系数 ,调整的样本决定系数 ,而方程(1)的样本决定系数 ,调整的样本决定系数 ,与方程(1)相比的方程(4)拟合优度仍然很高,并且回归系数有合理的经济解释。
4. 总结
随着社会经济的不断发展,科学技术的不断进步,统计方法越来越成为人们必不可少的工具手段。应用回归分析是其中的一个重要分支,本着国家经济水平的不断提高,我们采用回归分析的方法对我国成品钢材的需求量进行分析应用。我们首先建立了初等回归方程,对于初等回归模型是否违背原假设我们做了异方差性检验,自相关性检验,检验出了初等回归模型具有异方差性,故接下来使用了多元加权最小二乘估计消除异方差性。在分析中我们发现了变量之间存在共线性。因此我们对多重共线性进行了诊断,然后又通过逐步剔除最大的VIF的自变量对多重共线性给予了消除,重新建立了线性回归方程。我们建立了多个回归模型,最后发现通过逐步剔除最大的VIF的自变量的方式建立的多元回归方程 是最合理的,由方程可知对成品钢材需求量影响较大的是原油产量、铁路货运量和政府消费,其中政府消费对钢材需求量影响最大。
文章引用
严 玮. 基于多元回归分析的成品钢材需求量影响因素实证分析
Empirical Analysis of Influencing Factors of Finished Steel Demand Based on Multiple Regression Analysis[J]. 统计学与应用, 2023, 12(02): 543-549. https://doi.org/10.12677/SA.2023.122058
参考文献
- 1. 王春辉, 周生路, 吴绍华, 吴滢滢. 基于多元线性回归模型和灰色关联分析的江苏省粮食产量预测[J]. 南京师大学报(自然科学版), 2014(4): 105-109.
- 2. Stock, J.R. (1993) Marketing Intelligence & Planning. International Journal of Physical Distribution & Logistics Management, 11, 13-15.
https://doi.org/10.1108/EUM0000000001124 - 3. 王志孟, 陶雪良. 2000年我国钢材需求量预测[J]. 冶金经济与管理, 1993(2): 9-11.
- 4. 万洁雯. 后疫情时代我国钢材需求预测[D]: [硕士学位论文]. 南昌: 江西财经大学, 2021.
https://doi.org/10.27175/d.cnki.gjxcu.2021.000757