﻿ 基于因子分析和聚类分析的全国各地区空气质量评价 Air Quality Assessment in Various Regions of China Based on Factor Analysis and Cluster Analysis

Statistics and Application
Vol. 08  No. 02 ( 2019 ), Article ID: 29535 , 10 pages
10.12677/SA.2019.82026

Air Quality Assessment in Various Regions of China Based on Factor Analysis and Cluster Analysis

De Sun

Shandong University of Science and Technology, Qingdao Shandong

Received: Mar. 6th, 2019; accepted: Mar. 21st, 2019; published: Mar. 29th, 2019

ABSTRACT

Based on the perspective of pollutant emission and environmental protection, this paper constructs an environmental quality assessment index system including water environment, gas environment and solid waste. Factor analysis is used to reduce the dimension of the index, and three main factor components that can comprehensively explain the environmental quality are extracted, which are water pollution factor, gas pollution factor and solid pollution factor. Cluster analysis is used to identify 31 provinces and cities in China. The environmental quality of the autonomous region is classified and evaluated. The results show that in the provinces with better environmental comprehensive conditions in 2017, Sichuan, Guizhou, Hubei, Tibet, etc.; the poor provinces are Hebei, Gansu, Jilin, Shanxi and so on. Finally, according to the environmental quality of each province, suggestions for improvement of environmental governance were put forward.

Keywords:Factor Analysis, Cluster Analysis, Environmental Quality

1. 问题及背景

2. 环境质量综合评价模型

2.1. 指标的选取

2.2. 数据来源与处理

Table 1. Environmental quality evaluation index system

(1)

1) 求出各变量(指标)的算术平均值(数学期望) ${x}_{i}$ 和标准差 ${s}_{i}$

2) 进行标准化处理： ${z}_{ij}=\left({x}_{ij}-{x}_{i}\right)/{s}_{i}$

3) 将逆指标前的正负号对调。

3. 研究方法

3.1. 因子分析

1) 因子分析的前提分析。要将原有变量综合成因子变量的前提条件是：原有变量具有一定“共性”，存在“信息重叠”，即具有相关性。容易理解，若原有变量相互独立，则无法对其进行综合和浓缩，也就无须进行因子分析。所以，因子分析的前提分析是考察原有变量是否具有相关性。

2) 因子变量的提取。如何将原有变量综合成少数几个因子变量是因子分析的核心内容，也是因子分析的关键步骤。

3) 使因子变量具有命名可解释性。将原有变量综合为少数几个因子变量后，一般希望因子变量具有较为清晰的实际意义，以便于后续的分析。如何通过各种方法，提高因子变量含义的清晰度，使因子具有命名可解释性，是这一步需重点关注的问题。

3.2. 聚类分析

1) 将每个对象归为一类，共得到n类，每类仅包含一个对象。类与类之间的距离就是它们所包含的对象之间的距离。

2) 然后，度量所有观测点彼此之间的亲疏程度，并将其中最“亲密”的观测点聚为一个小类，形成 $n-1$ 类。

3) 再次度量剩余观测点和小类间的亲疏程度，并将当前最亲密的观测点或小类聚成一类。

4) 重复以上步骤，不断将观测点和小类聚集成越来越大的类，直到所有的观测点聚到一起，形成一个最大的类为止。

4. 全国各地区环境质量评价

4.1. 基于因子分析的指标提取

4.1.1. 因子分析的适应性检验

4.1.2. 提取公共因子

Ø 根据特征值 ${\lambda }_{j}$ 确定因子数

Table 3. Common factor variance table

Ø 根据累积方差贡献率确定因子数

Table 4. Variance contribution rate table

Continued

4.1.3. 因子的命名解释

Table 5. Rotating factor load matrix

4.1.4. 计算因子得分

$\begin{array}{c}{F}_{1}=-0.076{X}_{1}-0.017{X}_{2}-0.017{X}_{3}+0.324{X}_{4}+0.301{X}_{5}-0.106{X}_{6}-0.005{X}_{7}\\ +0.055{X}_{8}-0.198{X}_{9}+0.300{X}_{10}+0.222{X}_{11}.\end{array}$

$\begin{array}{c}{F}_{2}=0.055{X}_{1}-0.007{X}_{2}+0.002{X}_{3}-0.151{X}_{4}-0.090{X}_{5}+0.342{X}_{6}+0.278{X}_{7}\\ +0.212{X}_{8}+0.381{X}_{9}-0.066{X}_{10}-0.004{X}_{11}.\end{array}$

$\begin{array}{c}{F}_{3}=0.327{X}_{1}+0.310{X}_{2}+0.316{X}_{3}-0.025{X}_{4}-0.030{X}_{5}+0.053{X}_{6}-0.048{X}_{7}\\ -0.137{X}_{8}+0.107{X}_{9}-0.069{X}_{10}+0.039{X}_{11}.\end{array}$

Table 6. Factor score coefficient matrix

$F=\frac{32.402{F}_{1}+28.523{F}_{2}+28.254{F}_{3}}{89.179}.#$ (4)

Table 7. Provincial and city factor scores and rankings

4.1.5. 结果分析

l 第一公共因子(固体污染因子)排名较高的有北京、天津、湖南、四川、江苏，这是由于这些地区的城市建设和规划较好，对于生活以及工业废弃物处理地全面、及时；排名较低的有河北、海南、重庆、云南、甘肃，这些地区的旅游业发达，产生的固体废弃物多，固体污染严重。

l 第二公共因子(气体污染因子)排名较高的有云南、新疆、四川、贵州等，这些省份的产业结构中，重工业所占比重较小，且人口相对稀疏，私家车较少，所以气体环境较好；排名较低的有河北、北京、天津、山西、山东，可以看到这些省份位于京津唐工业区附近，重工业污染较重，且人口密集，私家车极多，排放大量尾气，严重影响空气质量。

l 第三公共因子(水污染因子)排名较高的有贵州、内蒙古、西藏、四川等，这些省份大多位于内陆地区，附近的水域较少，故水污染情况不太严重；排名较低的有吉林、安徽、黑龙江等，这是由于这些地区附近大多有水域，而工业化程度较高，所以有大量未经处理的工业及生活污水，而由于乱砍乱伐现象造成的水土流失也对水质有着重要影响。

4.2. 基于聚类分析的环境质量评价

4.2.1. 系统聚类法

4.2.2. 结果分析

l 第一类为北京、天津、陕西、宁夏等地区。北京和天津处于我国的华北地区，因子F1的排名分别为第一和第二，说明这两个省的固体污染非常轻，水污染情况也不算严重；而因子F2的排名为28、29，说明北京、天津的气体污染非常严重，由于它们位于京津塘工业区，工业污染较重，且人口密集，私家车极多，排放大量尾气，严重影响空气质量。陕西和宁夏的固体污染较为严重，而气体污染处于中等程度。

Figue 1. Tree clustering

Table 8. Clustering result

l 第二类为河北、山西等地区。可以看到，这些地区的综合因子排序都在15名以上，而河北属于最后一名，说明这些地区的综合环境质量较差。在F1和F2上的排名都很靠后，固体污染和气体污染都较为严重，这是由于这些省份的重工业较发达，能源消耗量较多，且人口密集，固体废弃物多。

l 第三类为内蒙古和辽宁。辽宁位于东北重工业区，而内蒙古位于中部地区，多沙尘暴，所以他们的气体污染较为严重，由F3值可以看出，辽宁附近水域的水质情况较差。

l 第四类多为我国的部分北部、西南、以及西北边远地区。这些地区的F1排名非常靠后，而F2的排名较为靠前，由于这些地区大多位于我国边远地区，产业结构中重工业所占比值较小，而旅游业所占的比重较大，所以产生的固体废弃物较多，固体污染比较严重。而这些地区的气体污染和水污染情况不太严重。

l 第五类为上海、江苏、安徽、湖南、湖北等华中以及沿海地区。这些地区的共同特点为F3的排名非常靠后，说明在这些地区的环境污染中，水污染比较严重，这是由于这些地区大多位于沿海地区或者附近有水域，而工业化程度较高，所以有大量未经处理的工业及生活污水；另一方面，由于乱砍乱伐现象造成的水土流失也是造成的水污染的重要原因之一。

l 第六类仅含一个地区即为广东地区。广东地区的综合因子排序位于中等水平，其中，固体污染较轻，气体污染程度也不太严重，而水污染比较严重。

5. 总结及建议

Air Quality Assessment in Various Regions of China Based on Factor Analysis and Cluster Analysis[J]. 统计学与应用, 2019, 08(02): 234-243. https://doi.org/10.12677/SA.2019.82026

1. 1. 陈军飞, 陈琳. 基于加权主成分距离聚类的江苏省环境质量评价[J]. 资源开发与市场, 2018, 34(10): 1383-1388.

2. 2. 薛薇. 统计分析与SPSS的应用[M]. 第五版. 北京: 中国人民大学出版社.

3. 3. 魏臻, 林芳. 基于聚类分析和主成分分析城市空气质量评价[J]. 淮阴工学院学报, 2018, 27(3): 86-96.