Statistics and Application
Vol.06 No.04(2017), Article ID:22511,10 pages
10.12677/SA.2017.64053

Economic Comprehensive Evaluation and Regional Characteristics Analysis of Cities in Shandong Province

—Based on Big Data Analysis

Minggang Sui, Xiangdong Liu

School of Economics, Jinan University, Guangzhou Guangdong

Received: Oct. 9th, 2017; accepted: Oct. 23rd, 2017; published: Oct. 30th, 2017

ABSTRACT

Using the big data analysis, economic indicators in different cities of Shandong province in 2015 are investigated. Some economic indicators are visualized. Then the k-means cluster is used to cluster the cities. Both city rank and category are obtained by data mining, which provides the basis for the planning of city economy.

Keywords:Big Data Analysis, Economic Indicators, Visualization Method, Data Mining, k-Means Cluster

山东省各市经济指标和地区特征的综合评价

—基于大数据方法

眭铭刚,柳向东

暨南大学经济学院,广东 广州

收稿日期:2017年10月9日;录用日期:2017年10月23日;发布日期:2017年10月30日

摘 要

对2015年山东省各市的多个经济指标进行大数据方法分析,利用可视化方法显示出各市的一些指标,然后利用k-均值聚类算法对各市进行聚类,并结合数据挖掘,得出各地区经济排名及分类,为山东省经济规划提供了依据。

关键词 :大数据方法,经济指标,可视化分析,数据挖掘,k-均值聚类

Copyright © 2017 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

对一个区域的经济分析,有利于该区域的经济规划,并为政府决策提供建议。本文主要研究了山东省17个市的经济状况。通过对8项经济指标(x1人均地区生产总产值(元/人)、x2人均工业总产值(元/人)、x3人均建筑业总产值(元/人)、x4人均实际使用外资(元/人)、x5人均入境旅游外汇收入(元/人)、x6人均批发零售贸易业营业利润(元/人)、x7人均公共财政收入(元/人)、x8人均农林牧渔业总产值(元/人))的研究和分析,利用大数据的方法探索出几个具有代表性的因子,并对各市进行分类,得出各市的经济排名以及区域特征,并根据研究得出一些指导性的建议。

陈伟 [1] 用多元统计分析中的主成分分析和因子分析法对武汉城市圈的经济状况进行了较科学的分析;左瑞琼 [2] 介绍了多元统计分析方法的主要内容以及在经济研究工作的应用;柳向东和陈锦岚 [3] 在大数据与数据可视化方法方面进行的研究。本文就在此基础上探索了可视化方法包括脸谱图法和星象图法,并利用数据挖掘中的k-means均值聚类以及因子探索分析等方法得出了一些经济指标的综合因子分类和相对应的政策建议。

2. 经济指标的建立

在选取指标时,主要考虑这些指标能从国民经济、对外经济、旅游、财政、工业、农业等方面反映地区经济特性,统计数据应可靠且相关性较小。由于每个地方的人口总数不一致,所以每项指标的总值并不能很好的代表每个地方的经济发展水平,所以本文将选取的2015年山东省统计年鉴中17个市8项经济指标进行人均化,建立如下的经济指标体系:x1人均地区生产总产值(元/人)、x2人均工业总产值(元/人)、x3人均建筑业总产值(元/人)、x4人均实际使用外资(元/人)、x5人均入境旅游外汇收入(元/人)、x6人均批发零售贸易业营业利润(元/人)、x7人均公共财政收入(元/人)、x8人均农林牧渔业总产值(元/人)。

3. 数据描述和可视化分析

1) 各地区经济的星象(图1)。

2) 各地区经济的脸谱(图2)。

4. 基于数据挖掘的统计分析

4.1. 主成分分析

根据所搜集整理的数据 [4] ,R3.3.2 [5] 统计软件进行相关分析:

表1中可看出x7与x1、x2、x3、x4、x5相关性较强,尤其是与x1,即人均公共财政收入与人均

Figure 1. Star chart of economic analysis of cities

图1. 各市经济分析的星象图

Figure 2. Face spectrum city economic analysis

图2. 各市经济分析的脸谱图

地区生产总产值、人均工业总产值(元/人)、人均建筑业总产值(元/人)、人均实际使用外资(元/人)、人均入境旅游外汇收入(元/人)相关性较强,而尤其是与人均地区生产总值,这符合人均公共财政收入来源于这些项目的情况,故可把x7删掉。

Table 1. Coefficient matrix

表1. 系数矩阵

主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息,也是统计上处理降维的一种方法,是一种无指导学习方法。

下面做主成分分析,结果如下:

Importance of components:

Comp.1 Comp.2 Comp.3 Comp.4

Standard deviation 1.9999045 1.2467232 1.0808535 0.9118963

Proportion of Variance 0.4999523 0.1942899 0.1460305 0.1039444

Cumulative Proportion 0.4999523 0.6942421 0.8402727 0.9442170

Comp.5 Comp.6 Comp.7 Comp.8

Standard deviation 0.56468885 0.31901161 0.13468005 0.0865060867

Proportion of Variance 0.03985919 0.01272105 0.00226734 0.0009354129

Cumulative Proportion 0.98407620 0.99679725 0.99906459 1.0000000000

Loadings:

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8

x1 −0.464 0.194 0.209 0.155 0.367 0.732

x2 −0.338 0.472 0.238 0.269 −0.436 −0.226 −0.450 −0.299

x3 −0.330 −0.178 0.521 −0.313 0.596 −0.147 −0.335

x4 −0.363 −0.456 −0.285 −0.285 0.431 −0.498 0.243

x5 −0.379 −0.296 −0.419 −0.197 −0.104 −0.692 0.194 −0.165

x6 0.492 −0.141 −0.821 −0.136 0.189

x7 −0.484 0.110 0.467 0.480 −0.536

x8 −0.209 0.405 −0.584 0.276 0.581 −0.177

结果表明前4个主成分已达94%的累积贡献率,这说明前4个主成分已经反映了信息的94%,于是前4个因子可以作为评价山东省17个市的经济发展指标的综合变量。从而达到降维的目的,而损失的信息却不多。

上面Loadings反映了载荷的大小,它反映了原变量指标与主成分的相关关系,即反映了原变量对于主成分的重要程度。在解释主成分时,我们需要考察载荷,同时也需要考察一下原变量与主成分的相关系数。前者是从多变量的角度,后者是从单变量的角度,因而前者应更值得重视 [6] 。而我们知道相关系数与载荷同符号,且成正比(图3)。

下面得出前四个主成分:

F1代表反映地区的综合经济实力

F 1 = 0.464 x 1 0.338 x 2 0.330 x 3 0.363 x 4 0.379 x 5 0.484 x 7 0.209 x 8

第1主成分对应载荷的符号相同,且其值都在0.3左右,差别不大,它反映了地区的综合经济实力。综合经济实力较强的地区,它的8项指标的值都较大,所以第1主成分的值较小(因为载荷均为负数);而综合实力较弱的地区,它的8项指标的值都较小,因此第1主成分的值就较大。所以称第1主成分为综合经济因子。

F2代表反映批发零售贸易业、工业实力

F 2 = 0.194 x 1 + 0.472 x 2 0.178 x 3 0.456 x 4 0.296 x 5 + 0.492 x 6 + 0.405 x 8

第2主成分中x1、x2、x6、x8对应的载荷为正,载荷总和为1.563,而x1、x2、x6、x8分别代表人均地区生产总值、人均工业生产总值、人均批发零售贸易业营业利润、人均农林牧渔业总产值,其中x2、x6、x8对应的载荷较大;x3、x4、x5对应载荷为负,载荷绝对值总和为0.93,x4有绝对值较大的负载荷,x4代表人均使用外资;结合变量的含义,第2主成分反映了批发零售贸易业、工业相对于外商投资的经济状况,称为批发零售、工业因子。

F3代表反映了农林牧渔业的实力

F 3 = 0.209 x 1 + 0.238 x 2 + 0.521 x 3 0.285 x 4 0.419 x 5 0.141 x 6 0.584 x 8

第3主成分中x8有绝对值较大的负载荷,x3有较大大的正载荷,其余变量的载荷较小,大(小)的F值意味着x8有较小(大)的值,而x3倾向于有较大的值,这个主成分基本上是x8 (人均农林牧渔业总产值)

Figure 3. Scree plot

图3. 碎石图

和x3 (人均建筑业总产值)的对比,反映了农林牧渔业相对于建筑业的经济状况,故称第3主成分为农林牧渔业因子。

F 4 = 0.155 x 1 + 0.269 x 2 0.313 x 3 0.197 x 5 0.821 x 6 + 0.110 x 7 + 0.276 x 8

第4主成分中x6的系数最大,其余都较小,故反映了批发零售业经济和其余产业的经济状况对比,从而称第4主成分为批发零售业和其他行业的对比因子。

进一步利用R3.3.2 [5] [7] 计算各市的主成分得分状况如表2

另外选择方差贡献率作为综合经济因子的权重,计算出综合经济因子,计算结果如下:

F = 0.4999523 F 1 + 0.1942899 F 2 + 0.1460305 F 3 + 0.1039444 F 4

从主成分结果可以看到,每个地区经济都有自己的特点,但不同的地区又存在着许多共性,可以将具有一定共性的地区划为一类,以利于更好地进行区域经济规划搞好经济建设,下面就对上述17个市进行因子分析。

4.2. Varimax法旋转因子分析

主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标。在多变量分析中,某些变量间可能会有关联,存在不能直接观测到的、但影响可观测变量变化的公共因子。因子分析法就是寻找这些公共因子的模型分析方法,它是在主成分的基础上,构造若干意义较为明确的公共因子,以它们为基础分解原变量,以此考察原变量间的联系与区别。

Table 2. Principal component score

表2. 主成分得分

下面进行varimax法旋转因子 [7] 分析,然后得出结论(表3)。

旋转后公共因子代表的意义较为明显,因子F1在x1人均地区生产总产值(元/人)、x2人均工业总产值(元/人)、x7人均公共财政收入(元/人)上载荷值较高,因此因子F1代表地区的生产收入能力;因子F2在x4人均实际使用外资(元/人)、x5人均入境旅游外汇收入(元/人)上载荷值较高,因此因子F2代表吸引外资能力;F3在x8人均农林牧渔业总产值(元/人)上的载荷值较高,因此因子F3代表农业生产能力;因子F4在x6人均批发零售贸易业营业利润(元/人)上载荷值较高,因此因子F4代表批发零售贸易能力。可以看出,因子分析得到的公共因子的解释比对主成分的解释更为明确。

对比表4表5,旋转因子的排名和综合因子的排名并无太大差别,东营市、威海市、青岛市分别位居前三。

Table 3. Rotational factor loading

表3. 旋转因子载荷

Table 4. Rotation factor score

表4. 旋转因子得分

Table 5. Ranking of cities by factor

表5. 各城市综合因子排名

图4图5可以看出淄博在生产收入能力方面较强,而青岛市、威海市、烟台市在吸引外资能力方面较强,这与它们临海的便利交通有很大关系。

4.3. k-均值聚类分析法

利用R3.3.2统计软件对数据进行k-均值聚类分析法,并分为3类。得出结果见图6

第1类:泰安市、德州市、枣庄市、临沂市、菏泽市、莱芜市、聊城市、日照市、滨州市、潍坊市、济宁市。

第2类:济南市、淄博市。

第3类:青岛市、东营市、烟台市、威海市。

5. 综合评价

本文在前人研究的基础上选用2015年山东省统计年鉴 [4] 中的17个市的8项经济指标,借用R3.3.2 [5] [7] 对山东省地区的经济进行主成分分析,得到了与事实较吻合的结果,在此基础上用Ward法进行分析,把各市的经济状况分成3类,再结合综合因子得出相应结论:

1) 东营市、威海市、青岛市、烟台市综合因子排名靠前,综合经济水平最高,济南市、淄博市综合因子排名次之,综合经济水平位于第二,其他城市的综合因子最低,综合经济水平最低。出现这样状况的原因是:东营市、威海市、青岛市、烟台市濒临海域,交通便利,对外开放程度高,利于经济发展;济南是省会城市,经济基础好,人口整体素质较高,竞争力强,是重要的政府机关、商业机构的集中地,就业机会多,城市人口比重大、居民有着比较稳定的收入;而淄博地处黄河三角洲高效生态经济区、山东半岛蓝色经济区两大国家战略经济区与省会城市群经济圈的重要交汇处,是中国城市GDP40强,位列

Figure 4. Rotating factor score chart

图4. 旋转因子得分图

Figure 5. Spin factor information overlay

图5. 旋转因子信息重叠图

Figure 6. Shandong province city economic classification pedigree diagram

图6. 山东省各市经济分类谱系图

社科院2014年中国城市综合经济竞争力排行榜第34名,是全国首批科技兴市试点市和国家级星火技术密集区,为全国重要的石油化工基地。

2) 威海市、青岛市、烟台市在批发零售贸易业和工业方面的水平明显高于其它地区,济南市、淄博市在建筑业以及工业方面水平高于其他地区,而菏泽市、滨州市、聊城市、莱芜市、威海市等城市相对农林牧渔业较发达,像威海、青岛等沿海城市,由于靠海,故其渔林业较为发达,而菏泽、滨州、聊城、莱芜等城市农业较为发达,工业相对落后,故积极推进这些城市的农村发展,加快科技教育发展,调整产业结构,注意发展地区特色经济,在生产发展的基础上增加城乡居民收入。再比较每个地区的特点,几乎各个地区的发展都不是均衡发展,在工业等方面青岛、烟台、济南等城市处于较高水平,源于国家的大幅投入和自身处于交通发达地区的地优势,值得注意的是菏泽、临沂、聊城等这样的城市在六项指标上水平都较低,全省在经济规划中要注意调整这些城市的经济结构,有关部门应出台相应扶持政策,促进其经济快速发展。

文章引用

眭铭刚,柳向东. 山东省各市经济指标和地区特征的综合评价—基于大数据方法
Economic Comprehensive Evaluation and Regional Characteristics Analysis of Cities in Shandong Province—Based on Big Data Analysis[J]. 统计学与应用, 2017, 06(04): 472-481. http://dx.doi.org/10.12677/SA.2017.64053

参考文献 (References)

  1. 1. 陈伟. 多元统计分析在区域经济评价中的应用[D]: [硕士学位论文]. 武汉: 武汉科技大学, 2010.

  2. 2. 左瑞琼. 多元统计分析方法介绍及在经济中的应用[J]. 时代经贸, 2007, 78(5): 23-14.

  3. 3. 柳向东, 陈锦岚. 旅游电商对产品区域异质性的提升策略研究—基于大数据与数据可视化方法[J]. 统计与信息论坛, 2017, 32(8): 31-38.

  4. 4. 山东省统计局. 山东统计年鉴-2015[M]. 北京: 中国统计出版社, 2015: 100-560.

  5. 5. 薛毅, 陈立萍. 统计建模与R软件[M]. 北京: 清华大学出版社, 2007: 397-461.

  6. 6. 王学民. 应用多元分析[M]. 第4版. 上海: 上海财经大学出版社, 2014: 192-193.

  7. 7. Tan, P.N., Steinbach, M., Kumar. V. 数据挖掘导论(完整版)[M]. 范明, 范宏建, 等, 译. 北京: 人民邮电出版社, 2011.

期刊菜单