杭州市GDP数据的统计诊断分析 Statistical Diagnosis Analysis of Hangzhou’s GDP Data

doi:10.12677/SA.2020.92032

Statistics and Application
Vol. 09 No. 02 ( 2020 ), Article ID: 35116 , 8 pages
10.12677/SA.2020.92032

Statistical Diagnosis Analysis of Hangzhou’s GDP Data

Danni Lu, Hongfeng Song, Dengke Xu

●How to Cite this Article

Department of Statistics, Zhejiang Agriculture and Forestry University, Hangzhou Zhejiang

Received: Mar. 29^th, 2020; accepted: Apr. 12^th, 2020; published: Apr. 20^th, 2020

ABSTRACT

Gross domestic product (GDP) is often recognized as the best indicator to measure the economic situation of a country, which can reflect the economic strength and market size of a country or region. In order to explore the main factors affecting Hangzhou’s GDP, this paper selects several national economic indicators of Hangzhou from 2000 to 2018, and establishes a regression model based on multiple linear regression. Then the stepwise regression method is used to screen variables, and statistical diagnosis is carried out for the regression model. The strong influence points in the model are screened under certain standards. Based on the data deletion model after deleting the strong influence points, the stepwise regression analysis is carried out again, and the conclusion is that the GDP of Hangzhou is closely related to the year-end resident population, fixed asset investment, resident consumption index and total fiscal revenue.

Keywords:GDP, Multivariate Linear Regression, Multicollinearity, Statistical Diagnosis, Cook Distance, W-K Statistics

杭州市GDP数据的统计诊断分析

陆丹妮，宋红凤，徐登可

浙江农林大学统计系，浙江杭州

收稿日期：2020年3月29日；录用日期：2020年4月12日；发布日期：2020年4月20日

摘要

国内生产总值(GDP)常被公认为是衡量国家经济状况的最佳指标，可以反映一个国家或地区的经济实力和市场规模。为探索影响杭州市GDP的主要因素，本文选择杭州市2000~2018年若干国民经济指标，基于多元线性回归建立回归模型。然后利用逐步回归法进行变量筛选，并对回归模型进行统计诊断，在一定标准下筛选模型中的强影响点，基于删除强影响点后的数据删除模型再次进行逐步回归分析，得到杭州市GDP与年末常住人口、固定资产投资额、居民消费指数以及财政总收入密切相关。

关键词 :GDP，多元线性回归，多重共线性，统计诊断，Cook距离，W-K统计量

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).

http://creativecommons.org/licenses/by/4.0/

1. 引言

GDP是国民经济核算的核心指标，是反映各地区经济实力和国民生活水平的指标，受到人们的广泛关注，GDP数据质量的提高，对调控宏观经济有很大的促进作用。研究影响GDP变化的主要因素，建立一个可靠合理的模型，有助于找到提高国民经济水平和地区发展的关键因素，对影响GDP的因素进行定量分析和预测具有重要意义，促进GDP不断增长。

郭芳、冷洛 [1] 通过计量分析，利用回归分析发现影响中国国内生产总值的主要因素是最终消费支出和资本形成总额，即内因是主要因素。文静 [2] 通过对国内生产总值的变动进行多因素分析，建立多元线性回归模型，提出国家在注重财政支出带来的国内生产总值增加的同时应该关注外资的利用情况。张卜元、刘冰冰、张东旭 [3] 采取多元回归方法进行模型设定，并进行自相关、异方差及多元共线性检验及修正，得出我国最终消费和资本形成对GDP有重大影响。程静 [4] 通过各种因素对经济增长的作用来进行定量分析，指出能源消耗总量对国内生产总值有影响，并提出科技进步对农村建设的重要性。单翔翔、严浩坤 [5] 基于多元回归模型，并进行了异方差的检验修正，得出国内生产总值主要受到税收、城乡储蓄存款、财政支出和固定资产投资总额的影响。多元线性回归法显然是研究区域GDP及其影响因素的一种可行方案，对于探索影响GDP的关键因素有良好的应用价值 [5] [6] [7] [8] [9]。

杭州市作为新一线城市，GDP始终保持稳步增长状态，在全国也处于领先地位。近年来杭州市农业生产形势稳定，优势特色产业增速回升；工业生产总体平稳，新制造业动能增强；服务业态势良好，现代服务业贡献突出；固定资产投资增长快速，商品销售增长稳定，外贸多元发展，居民收入增加，就业社保也不断扩大；另外杭州的优势产业数字经济持续引领GDP的增长。本文基于多元线性回归模型，深入研究影响杭州市GDP变化的主要因素，并利用统计诊断提高模型的精度，更加准确地剖析杭州市国内生产总值变化的主要原因。

2. 数据的收集和杭州市GDP变化的基本情况

本文采用的数据源自浙江省统计信息网及杭州市统计局提供的统计年鉴，从网站中获得杭州市2000~2018年的国内生产总值数据及影响GDP变化的各项指标数据。以国内生产总值(亿元)为被解释变量，下面五个指标为解释变量：年末常住人口(万人)、全社会就业人员(万人)、固定资产投资(亿元)、居民消费指数(统计年鉴中以1978年的居民消费指数为基数100进行度量)和财政总收入(亿元)。对此建立多元线性回归模型并进行统计诊断。

图1是2000~2018年杭州市GDP变化情况折线图，折线图显示杭州市GDP呈现稳步上升趋势，且上升幅度较大。从2000年的1382.56亿元到2018年的13,509.15亿元，翻了将近十倍。说明杭州市的经济发展水平和国民生活水平较高，位居全国领先位置，根据杭州市各产业的发展状况，GDP指数仍将继续上升。

Figure 1. GDP change of Hangzhou in 2000~2018 (100 million yuan)

图1. 2000~2018年杭州市GDP变化情况(亿元)

3. 模型建立

多元线性回归分析

基于2000~2018年杭州市反映国民经济水平(GDP)的相关指标数据，以杭州市生产总值(GDP)为因变量(Y)，以年末常住人口(X1)、全社会就业人数(X2)、固定资产投资(X3)、居民消费指数(X4)、财政总收入(X5)为自变量，拟合多元线性回归模型，得到如下结果。

Table 1. Multiple linear regression results

表1. 多元线性回归结果

表1是根据原始数据建立的多元回归模型，从回归结果可知多元回归模型通过了F检验，并且5个自变量的回归系数都是显著的，因此可以得到多元回归模型为：

$Y = 2.909 X_{1} + 3.702 X_{2} + 0.476 X_{3} + 10.702 X_{4} + 1.352 X_{5} - 8740.869$ (1)

由回归方程可知，5个自变量与因变量之间均呈现正线性关系，年末常住人口增加，全社会就业人数增加，固定资产投资提高，居民消费指数提高，财政总收入增加，都会带动GDP的增长，这些因素都是影响GDP的关键因素。为了进一步提高模型的精度，需要对模型进行统计诊断，找到原始数据中的强影响点，并对模型进行改进。

4. 统计诊断

4.1. 影响分析

4.1.1. 基于Cook距离的统计诊断 [10]

对给定的多元线性回归模型： $Y = X β + ε, E (ε) = 0, V a r (ε) = σ^{2} I_{n}$ 和删除第i个数据点以后的模型： $Y_{(i)} = X_{(i)} β + ε_{(i)}, ε_{(i)} \sim N (0, σ^{2} I_{n - 1})$ ，度量第i个数据点 $(x_{i}^{T}, y_{i})$ 对参数 $β$ 的估计量影响大小的Cook距离定义为：

$C D_{i} = \frac{{(\hat{β} - {\hat{β}}_{(i)})}^{T} X^{T} X (\hat{β} - {\hat{β}}_{(i)})}{(p + 1) {\hat{σ}}^{2}}$

其中 $X = ({\tilde{x}}_{1}, \dots, {\tilde{x}}_{n})$ 为已知的列满秩矩阵， ${\tilde{x}}_{i} = {(1, x_{i}^{T})}^{T}, x_{i} = {(x_{i 1}, \dots, x_{i p})}^{T}$ ， $X_{(i)}$ 是删掉矩阵X的第i行向量 ${\tilde{x}}_{i}$ 后得到的矩阵； $\hat{β}$ 是原多元线性回归模型中参数 $β$ 的估计， ${\hat{β}}_{(i)}$ 是数据删除模型中参数 $β$ 的估计；p

是自变量个数。在给定模型下，Cook距离也可以简化为： $C D_{i} = \frac{h_{i i}}{1 - h_{i i}} \frac{r_{i}^{2}}{p + 1} = \frac{h_{i i}}{1 - h_{i i}} \frac{n - p - 1}{p + 1} b_{i}$ ，其中 $b_{i} = \frac{r_{i}^{2}}{n - p - 1} \sim Beta (\frac{1}{2}, \frac{n - p - 2}{2})$ ，所以Cook距离不仅与残差 $r_{i}$ 的大小有关，还与杠杆值 $h_{i i}$ 的大小有关，

它度量了 $β$ 和 $σ^{2}$ 的估计量之间的距离，因此残差和杠杆值相对大的点很有可能是强影响点。

4.1.2. 基于W-K统计量的统计诊断 [10]

对给定的多元线性回归模型： $Y = X β + ε, E (ε) = 0, V a r (ε) = σ^{2} I_{n}$ 和删除第i个数据点以后的模型： $Y_{(i)} = X_{(i)} β + ε_{(i)}, ε_{(i)} ~ N (0, σ^{2} I_{n - 1})$ ，第i个数据点 $(x_{i}, y_{i})$ 删除前后对 ${\tilde{x}}_{i}$ 处拟合值的影响可以定义为：

$W K_{i} = \frac{{\hat{y}}_{i} - {\tilde{y}}_{(i)}}{{\hat{σ}}_{(i)} \sqrt{h_{i i}}} = \frac{{\tilde{x}}_{i} (\hat{β} - {\hat{β}}_{(i)})}{{\hat{σ}}_{(i)} \sqrt{h_{i i}}}$

$W K_{i} = \sqrt{\frac{h_{i i}}{1 - h_{i i}}} t_{i}$ , ${(W K_{i})}^{2} = C D_{i} (X^{T} X, {\hat{σ}}_{(i)}^{2})$ , $t_{i} = \frac{e_{i}}{{\hat{σ}}_{(i)} \sqrt{1 - h_{i i}}}$

$W K_{i}$ 度量了 $(\hat{β}, {\hat{σ}}^{2})$ 与 $({\hat{β}}_{(i)}, {\hat{σ}}_{(i)}^{2})$ 之间的差异，比Cook距离更加通用，也更容易地被应用到线性模型以外的各种更复杂的统计模型。

4.2. 实例研究

利用R语言软件计算出所有样本点的Cook距离和W-K统计量，并制作折线图，图2是Cook距离散点图，图3是W-K统计量散点图，在一定标准下筛选出强影响点，并在图中标注。

强影响点对模型的参数估计和统计推断会产生一定影响，通过上述两个统计量可以得到Cook距离和W-K统计量的折线图，统计量的值越大，该数据点的影响也就越大。本例中Cook距离记作 $C D_{i}$ ，W-K统计量记作 $d f f i t$ ，不同情况下有不同的评价标准，此处将 $C D_{i} > 0.5$ ， $| d f f i t | > 1.5$ 的数据点视作强影响点 [11] [12] [13] [14]，由此本例共有3个强影响点，如表2所示。

Figure 2. Scatter plot of Cook distance

图2. Cook距离散点图

Figure 3. Scatter plot of W-K statistics

图3. W-K统计量散点图

Table 2. Summary of strong impact points

表2. 强影响点汇总表

这三年数据的Cook距离和W-K统计量相对较大，这是因为杠杆值的大小与数据点距离数据中心的距离相关，离中心值越远，杠杆值就越大，对数据产生的影响就越大，因此被认为是强影响点。杭州市GDP的强影响点呈现出聚集成堆的现象，即这3个强影响点就是近三年的数据。随机性成分一般是造成GDP出现强影响性的主要原因，随机性成分往往是在现实经济运行过程中出现的各种不可预测、非重复性或者基本没有规律的突发性情况，而且与不同情况下的经济发展政策和市场行情相关。对于杭州来说，虽然存在一系列无法掌控的挑战，但是杭州凭借自身的发展资源和优势，区域经济持续稳向走好，质量向优发展，人民的生活水平不断提高，产业结构日益凸显优势，高端技术和人才不断增加，吸引外资的潜力逐渐提升，发展的韧性和获得感明显增强，经济增长呈现出质量高、速度稳的新特点。另外近阶段由于国民经济已经经历过较大的增长，增长速度略微减缓，但是仍然保持良好的增长势头，与之前的经济状况相比，杭州市的经济发展到了一个独具特点的新阶段，虽然经济发展持续向好，但是仍然需要不断提升，获得更大的突破。

5. 模型修正

5.1. 数据删除模型概述

5.1.1. 数据删除模型

考虑多元线性回归模型： $Y = X β + ε$ ， $E (ε) = 0$ ， $V a r (ε) = σ^{2} I_{n}$ ，其中 $X = {({\tilde{x}}_{1}, \dots, {\tilde{x}}_{n})}^{T}$ 为已知的列满秩阵， ${\tilde{x}}_{i} = {(1, x_{i}^{T})}^{T}$ ， $x_{i} = {(x_{i 1}, \dots, x_{i p})}^{T}$ ； $β = {(β_{1}, \dots, β_{p})}^{T}$ ， $Y = {(y_{1}, \dots, y_{n})}^{T}$ ， $ε = {(ε_{1}, \dots, ε_{n})}^{T}$ 。

为了研究各个数据点在统计推断中的作用，就是要检测第i个数据点是否为异常点或强影响点。数据删除模型即多元线性回归模型中删除第i个数据点之后，研究该数据点删除前后对回归模型参数 $β$ 的估计量以及其他统计量是否有举足轻重的影响。数据删除模型的矩阵形式可以表示为：

$Y_{(i)} = X_{(i)} β + ε_{(i)}, ε_{(i)} \sim N (0, σ^{2} I_{n - 1})$

其中 $Y_{(i)}$ 和 $ε_{(i)}$ 表示Y和 $ε$ 删除第i分量后的向量，而 $X_{(i)}$ 表示删掉矩阵X的第i行向量 ${\tilde{x}}_{i}$ 后得到的矩阵。

5.1.2. 数据删除模型的参数估计

数据删除模型中参数 $β$ 和 $σ^{2}$ 的最小二乘估计可表示为：

${\hat{β}}_{(i)} = \hat{β} - \frac{{(X^{T} X)}^{- 1} {\tilde{x}}_{i} e_{i}}{1 - h_{i i}}, {\hat{σ}}_{(i)}^{2} = \frac{n - p - 1 - r_{i}^{2}}{n - p - 2} {\hat{σ}}^{2}$

上式也表明第i个数据点所对应的残差 $e_{i}$ 越大，则估计量 ${\hat{β}}_{(i)}$ 和 $\hat{β}$ 之间的差异越大，那么第i个数据点对模型的影响也越大。另外学生化内残差 $r_{i}^{2}$ 越大，估计量 ${\hat{β}}_{(i)}$ 和 $\hat{β}$ 之间的差异越大。第i个数据点对应的杠杆值 $h_{i i}$ 越大，那么估计量 ${\hat{β}}_{(i)}$ 和 $\hat{β}$ 之间的差异也会越大，即高杠杆点对模型的参数估计有较大的影响。

5.2. 实例研究

基于删除3个强影响点之后的数据，分别对因变量和自变量做一般多元线性回归和逐步回归，得到删除强影响点之后的多元回归模型。

Table 3. Modified multiple regression results

表3. 修正后的多元回归结果

Table 4. Stepwise regression results

表4. 逐步回归结果

表3是删除强影响点之后得到的多元回归结果，表4是利用逐步回归法得到的回归结果。基于数据删除模型的回归模型拟合度和解释程度更高，经过变量筛选后，模型的AIC有所降低，此时的模型更接近于实际情况。由表4可得修正后的回归模型为：

$Y = 14.944 X_{1} + 0.280 X_{3} + 11.622 X_{4} + 1.691 X_{5} - 15326.525$ (2)

此时回归模型通过F检验，并且排除了全社会就业人数这一变量，其余4个自变量的回归系数依旧显著。并且4个回归系数均为正，说明这4个自变量与因变量之间呈现正比例关系，随着年末常住人口的增多、固定资产投资额的增加、居民消费指数的提高及财政总收入的增加，杭州市GDP呈现上升趋势。因此，如若想要使杭州市GDP持续稳定增加，就要努力吸引人才和资金，提高就业率和工资水平，进而提高居民的生活消费水平。另外还要注意协调财政总收入和总支出，保持财政收入稳定增长，尽量避免不必要的财政支出。

6. 结论与建议

根据原始回归模型与数据删除模型的比较可知，近几年杭州市GDP与全社会就业人数的关系更大。而在删除了近3年的数据后，全社会就业人数的回归系数不再显著，此时得到的回归模型只有4个变量显著，分别是年末常住人口、固定资产投资额、居民消费指数以及财政总收入，且均为正相关关系。

根据以上模型的求解结果可知，杭州市GDP的发展与这些因素密不可分，进一步得出杭州市经济发展面临的主要问题。政府应该采取一系列可行措施：继续发展第三产业，扩大开放力度，吸引更多外资，努力提高固定资产投资额；提高就业率，吸引更多行业人才，特别是适应杭州发展的高端技术人员，发挥好杭州的产业优势；改善居民的生活水平，以此提高居民的收入和居民消费指数；掌握好政府与市场之间的关系，保证地区财政收入的稳定增长，并适当降低财政支出。从各个关键方面入手，共同促进杭州市国民经济的稳定、高效、全面可持续发展。

基金项目

浙江省高校重大人文社科攻关计划项目(2018QN037)。

文章引用

陆丹妮,宋红凤,徐登可. 杭州市GDP数据的统计诊断分析
Statistical Diagnosis Analysis of Hangzhou’s GDP Data[J]. 统计学与应用, 2020, 09(02): 296-303. https://doi.org/10.12677/SA.2020.92032

参考文献

1. 郭芳, 冷洛.国内生产总值影响因素的计量分析[J]. 云南财贸学院学报(社会科学版), 2008, 23(1): 90-92.

2. 文静. 影响国内生产总值的因素分析[J]. 商业文化(下半月), 2011(5): 109.

3. 张卜元, 刘冰冰, 张东旭. 我国国内生产总值影响因素实证分析[J]. 合作经济与科技, 2016(2): 10-11.

4. 程静. 国内生产总值影响因素分析[J]. 经济研究导刊, 2014(7): 7+46.

5. 单翔翔, 严浩坤. 基于多元回归模型分析我国国内生产总值的影响因素[J]. 时代金融, 2018(9): 238-239.

6. 赵深淼, 张英, 刘洋. 北京市国内生产总值影响因素分析[J]. 佳木斯大学学报(自然科学版), 2017, 35(4): 681-683.

7. 黄潇逸. 基于多元线性回归分析的地区生产总值影响因素研究[C]//浙江省地理学会. 浙江省地理学会2018年学术年会暨“城市国际化研究”高峰论坛论文摘要集. 浙江省地理学会: 浙江省地理学会, 2018: 15.

8. 李彦芙. 基于多元线性回归模型的江苏省GDP增长影响因素研究[J]. 特区经济, 2019(4): 84-88.

9. 王璐. 带线性约束的多元线性回归模型的统计诊断[D]: [硕士学位论文]. 南京: 南京理工大学, 2008.

10. 唐年胜，李会琼. 应用回归分析[M]. 北京: 科学出版社, 2014: 97-102, 105-108.

11. 黄守坤. 回归诊断中例外数据点及大影响点的处理[J]. 统计与决策, 2002(6): 47.

12. 赵喜仓, 渠田田, 许鲜欣. 数据删除模型在GDP诊断中的应用[J]. 统计与决策, 2011(10): 8-10.

13. 胡章刚. 线性回归诊断若干问题研究[D]: [硕士学位论文]. 武汉: 武汉科技大学, 2010.

14. 王彤. 线性回归模型的稳健估计及多个异常点诊断方法研究[D]: [博士学位论文]. 西安: 第四军医大学, 2000.

期刊菜单