基于因子分析和聚类分析的全国各地区空气质量评价 Air Quality Assessment in Various Regions of China Based on Factor Analysis and Cluster Analysis

doi:10.12677/SA.2019.82026

Statistics and Application
Vol. 08 No. 02 ( 2019 ), Article ID: 29535 , 10 pages
10.12677/SA.2019.82026

Air Quality Assessment in Various Regions of China Based on Factor Analysis and Cluster Analysis

De Sun

●How to Cite this Article

Shandong University of Science and Technology, Qingdao Shandong

Received: Mar. 6^th, 2019; accepted: Mar. 21^st, 2019; published: Mar. 29^th, 2019

ABSTRACT

Based on the perspective of pollutant emission and environmental protection, this paper constructs an environmental quality assessment index system including water environment, gas environment and solid waste. Factor analysis is used to reduce the dimension of the index, and three main factor components that can comprehensively explain the environmental quality are extracted, which are water pollution factor, gas pollution factor and solid pollution factor. Cluster analysis is used to identify 31 provinces and cities in China. The environmental quality of the autonomous region is classified and evaluated. The results show that in the provinces with better environmental comprehensive conditions in 2017, Sichuan, Guizhou, Hubei, Tibet, etc.; the poor provinces are Hebei, Gansu, Jilin, Shanxi and so on. Finally, according to the environmental quality of each province, suggestions for improvement of environmental governance were put forward.

Keywords:Factor Analysis, Cluster Analysis, Environmental Quality

基于因子分析和聚类分析的全国各地区空气质量评价

孙得

山东科技大学，山东青岛

收稿日期：2019年3月6日；录用日期：2019年3月21日；发布日期：2019年3月29日

摘要

本文基于污染物排放和环境保护视角，构建包含水环境、气体环境、固体废物三个方面的环境质量评价指标体系。采用因子分析对指标进行降维，提取出能够综合解释环境质量情况的3个主因子成分，分别为水污染因子、气体污染因子和固体污染因子；再采用聚类分析对我国31个省、市、自治区的环境质量进行分类评价。结果表明，2017年环境综合状况较好的省份有四川、贵州、湖北、西藏等；较差的省份有河北、甘肃、吉林、山西等。最后根据各省份的环境质量状况，对环境治理提出了改进建议。

关键词 :因子分析，聚类分析，环境质量

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 问题及背景

人口快速增长、城市化进程加快使环境问题日益显现，大气污染、水体污染等各种环境问题频发，引起了社会的广泛关注。2016年我国“十三五”规划指出，当前工业化、城镇化、农业现代化的任务尚未完成，生态环境保护仍面临着巨大的压力，需发展资源节约循环利用关键技术和生态治理技术，加快节能环保产业发展。影响环境质量的因素多而复杂，如工业集中、人口众多、化石燃料的过度消耗、废气的排放等，只有找到最主要的因素，才可以较好地解决环境质量问题。研究环境质量的影响因素及各因素之间相互的影响程度，可为提高区域的环境质量提供有力的理论参考。

本文通过建立反映环境质量的指标体系，采用因子分析对指标进行降维，提取出能够综合解释环境质量情况的3个主因子成分。根据因子分析得到的主因子，利用聚类分析法对2017年我国31个省、市、自治区的环境质量进行了评价研究，得出其环境状况分类，由此为城市区域环境污染治理与可持续发展提供科学依据。

2. 环境质量综合评价模型

2.1. 指标的选取

由于指标体系的建立对评价结果具有较大的影响，为了严谨和客观，指标的选取应结合科学性、可操作性和综合性原则，并根据中国环境状况公报对环境状况的总结，充分考虑水环境、空气环境、固体废物，综合考虑工业、农业、居民生活方面的环境状况 [1] 。本文从水环境、气体环境、固体废物三个方面选取了与环境质量密切相关的11项指标，见表1。

2.2. 数据来源与处理

本文原始指标数据来源于2018年《中国统计年鉴》和各省、直辖市的统计年鉴、环境状况公报。由于各个指标之间存在量纲上的不统一，且各指标属于不同类型，有些指标的属性值越大越好(如一般工业固体废弃物利用量)，而有些指标的属性值越小越好(如废水排放总量等)，所以将原始数据采用Z-score标准化方法进行指标属性值的标准化，以消除变量间在量纲和类型上的不同以及对聚类结果的影响。

Table 1. Environmental quality evaluation index system

表1. 环境质量评价指标体系

对序列 $x_{1}, x_{2}, \dots, x_{n}$ 进行数据标准化定义如下：

(1)

其中， $\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}$ ， $s = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2}}$ 。

标准化步骤如下：

1) 求出各变量(指标)的算术平均值(数学期望) $x_{i}$ 和标准差 $s_{i}$ 。

2) 进行标准化处理： $z_{i j} = (x_{i j} - x_{i}) / s_{i}$ ，

其中， $z_{i j}$ 为标准化后的变量值； $x_{i j}$ 为实际变量值。

3) 将逆指标前的正负号对调。

标准化后的变量值围绕0上下波动，大于0说明高于平均水平，小于0说明低于平均水平。

3. 研究方法

本文从因子分析和聚类分析的角度，对我国各个省、市、自治区的环境质量状况进行全面性的研究和评价。

3.1. 因子分析

因子分析法是用较少个数的公共因子的线性函数和特定因子之和表达原来观测的每个变量，从研究相关矩阵内部的依赖关系出发，把具有错综复杂关系的变量归纳为少数几个综合因子的一种多变量统计分析方法。其优点在于可以用来寻求基本结构，简化观测系统，减少变量维数，对指标或样本进行分类。

因子分析的基本步骤 [2] 如下：

1) 因子分析的前提分析。要将原有变量综合成因子变量的前提条件是：原有变量具有一定“共性”，存在“信息重叠”，即具有相关性。容易理解，若原有变量相互独立，则无法对其进行综合和浓缩，也就无须进行因子分析。所以，因子分析的前提分析是考察原有变量是否具有相关性。

2) 因子变量的提取。如何将原有变量综合成少数几个因子变量是因子分析的核心内容，也是因子分析的关键步骤。

3) 使因子变量具有命名可解释性。将原有变量综合为少数几个因子变量后，一般希望因子变量具有较为清晰的实际意义，以便于后续的分析。如何通过各种方法，提高因子变量含义的清晰度，使因子具有命名可解释性，是这一步需重点关注的问题。

计算各样本的因子变量得分。因子分析的最终目标是减少变量个数，降低变量维度，并在进一步的分析中用较少的因子变量代替原有变量进行数据建模。通过怎样的方法计算各观测样本在各因子变量上的得分，是这一步研究的重点。

3.2. 聚类分析

聚类分析是研究事物分类的多元统计方法，按“物以类聚”原则，根据一批样品的多个观测指标，定量地确定样品或指标之间存在的相似性或亲疏关系，把相似程度较大的样品或指标聚合为一类，直到将所有的样本都聚合完毕。它的原则是同一类中的个体有较大的相似性，不同类的个体差异性很大。

层次聚类也称系统聚类，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者某个终结条件被满足。

层次聚类分析的基本步骤 [3] 如下：

1) 将每个对象归为一类，共得到n类，每类仅包含一个对象。类与类之间的距离就是它们所包含的对象之间的距离。

2) 然后，度量所有观测点彼此之间的亲疏程度，并将其中最“亲密”的观测点聚为一个小类，形成 $n - 1$ 类。

3) 再次度量剩余观测点和小类间的亲疏程度，并将当前最亲密的观测点或小类聚成一类。

4) 重复以上步骤，不断将观测点和小类聚集成越来越大的类，直到所有的观测点聚到一起，形成一个最大的类为止。

4. 全国各地区环境质量评价

4.1. 基于因子分析的指标提取

由于描述环境质量的指标较多，且可能存在线性关系，所以本文首先利用因子分析对指标进行降维，提取出能够综合解释环境质量情况的几个主因子成分，最终计算因子得分并得到各省市自治区的环境质量状况。本文采用SPSS对反映2017年全国31个省、市自治区环境质量状况的11个指标数据进行因子分析 [3] 。

4.1.1. 因子分析的适应性检验

因子分析的目的是从众多的原有变量中综合出少数具有代表性的因子，这有一个潜在的前提要求，即原有变量之间应具有较强的相关关系。通常可以采用巴特利特球度检验、KMO检验等方法。

本文采用KMO统计量和巴特利特球型检验进行因子分析适宜性检验，如表2所示。

Table 2. Adaptation checklist table

表2. 适应性检验表

从表2可以看出，KMO统计量为0.740，表明做因子分析效果较好。Bartlett球形检验中显著性概率为0.000小于0.05，拒绝相关矩阵是单位矩阵的零假设，说明各变量不相互独立，表明原有变量适合做因子分析。

4.1.2. 提取公共因子

一般情况下，根据公共因子选择标准，确定因子个数时，有如下两个标准：根据特征值 $λ_{j}$ 确定因子数、根据因子的累积方差贡献率确定因子数。

Ø 根据特征值 $λ_{j}$ 确定因子数

这里，特征值等于因子载荷矩阵第j列元素的平方和，即第j个因子的方差贡献，一般选取特征值大于1的因子，即至少应解释一个方差，公因子方差表如表3所示。

Table 3. Common factor variance table

表3. 公因子方差表

可以看到，提取3个因子时，所有变量的绝大部分信息(大于80%)可被因子解释，变量的信息丢失很少，因子提取的总体效果较为理想。

Ø 根据累积方差贡献率确定因子数

通过因子贡献率表(表4)可知，前3个公因子的累积方差贡献率达到89.179%，基本上包含大部分指标信息，故而提取此3个因子的总体效果较理想。

Table 4. Variance contribution rate table

表4. 方差贡献率表

Continued

4.1.3. 因子的命名解释

初步得出的因子荷载矩阵结构不够简单，各公共因子的典型代表变量不是很突出，容易使公共因子的意义含糊不清，不便于对公共因子进行解释。为此对因子荷载矩阵实行旋转，使因子荷载矩阵中的因子荷载的平方值向两个方向分化，即各变量在某公共因子上有高额荷载，如表5所示。

Table 5. Rotating factor load matrix

表5. 旋转的因子载荷矩阵

由以上旋转后的因子载荷阵可以看出：

公共因子 $F_{1}$ 在一般工业固体废物、烟(粉)尘、二氧化硫、一般工业固体废物这几个变量上有较高的载荷，主要反映了固体废弃物对环境质量状况的影响，命名为“固体污染因子”。

公共因子 $F_{2}$ 在PM2.5年平均浓度、臭氧年平均浓度、PM10年平均浓度、CO年平均浓度这几个变量上有较高的载荷，主要反映了气体污染对环境质量状况的影响，命名为“气体污染因子”。

公共因子在氨氮排放量、废水排放总量、化学需氧量这几个变量上有较高的载荷，主要反映了水污染对环境质量状况的影响，命名为“水污染因子”。

4.1.4. 计算因子得分

根据旋转后的因子载荷矩阵，得到了因子得分系数矩阵，如表6所示。

根据表6可以写出 $F_{1}$ 、 $F_{2}$ 、 $F_{3}$ 的因子得分函数：

$\begin{matrix} F_{1} = - 0.076 X_{1} - 0.017 X_{2} - 0.017 X_{3} + 0.324 X_{4} + 0.301 X_{5} - 0.106 X_{6} - 0.005 X_{7} \\ + 0.055 X_{8} - 0.198 X_{9} + 0.300 X_{10} + 0.222 X_{11} . \end{matrix}$

$\begin{matrix} F_{2} = 0.055 X_{1} - 0.007 X_{2} + 0.002 X_{3} - 0.151 X_{4} - 0.090 X_{5} + 0.342 X_{6} + 0.278 X_{7} \\ + 0.212 X_{8} + 0.381 X_{9} - 0.066 X_{10} - 0.004 X_{11} . \end{matrix}$

$\begin{matrix} F_{3} = 0.327 X_{1} + 0.310 X_{2} + 0.316 X_{3} - 0.025 X_{4} - 0.030 X_{5} + 0.053 X_{6} - 0.048 X_{7} \\ - 0.137 X_{8} + 0.107 X_{9} - 0.069 X_{10} + 0.039 X_{11} . \end{matrix}$

Table 6. Factor score coefficient matrix

表6. 因子得分系数矩阵

以各公共因子的方差贡献率占3个因子总方差贡献率的比重作为权重进行加权求和得到各因子的得分。

$F = \frac{32.402 F_{1} + 28.523 F_{2} + 28.254 F_{3}}{89.179} . #$ (4)

最终得到的各省市自治区的因子得分情况及排序如表7所示。

Table 7. Provincial and city factor scores and rankings

表7. 各省市因子得分及排名

4.1.5. 结果分析

从综合得分排序我们可以看出，环境综合状况较好的省份有四川、贵州、湖南、湖北、西藏等地区；较差的省份有河北、甘肃、吉林、山西等地区。

l 第一公共因子(固体污染因子)排名较高的有北京、天津、湖南、四川、江苏，这是由于这些地区的城市建设和规划较好，对于生活以及工业废弃物处理地全面、及时；排名较低的有河北、海南、重庆、云南、甘肃，这些地区的旅游业发达，产生的固体废弃物多，固体污染严重。

l 第二公共因子(气体污染因子)排名较高的有云南、新疆、四川、贵州等，这些省份的产业结构中，重工业所占比重较小，且人口相对稀疏，私家车较少，所以气体环境较好；排名较低的有河北、北京、天津、山西、山东，可以看到这些省份位于京津唐工业区附近，重工业污染较重，且人口密集，私家车极多，排放大量尾气，严重影响空气质量。

l 第三公共因子(水污染因子)排名较高的有贵州、内蒙古、西藏、四川等，这些省份大多位于内陆地区，附近的水域较少，故水污染情况不太严重；排名较低的有吉林、安徽、黑龙江等，这是由于这些地区附近大多有水域，而工业化程度较高，所以有大量未经处理的工业及生活污水，而由于乱砍乱伐现象造成的水土流失也对水质有着重要影响。

4.2. 基于聚类分析的环境质量评价

4.2.1. 系统聚类法

利用SPSS软件在因子分析的基础上将样品的3个公共因子的得分作为聚类变量进行聚类分析，用来划分各省市自治区的环境质量情况。

采用系统聚类方法，首先对原始变量的数据进行标准化处理，运用组间联结法，选择平方欧氏距离进行聚类，最终的树状聚类图如图1所示。

我们最终得到的聚类结果如表8所示。

4.2.2. 结果分析

通过分析以上聚类分析结果我们可以得出：

l 第一类为北京、天津、陕西、宁夏等地区。北京和天津处于我国的华北地区，因子F₁的排名分别为第一和第二，说明这两个省的固体污染非常轻，水污染情况也不算严重；而因子F₂的排名为28、29，说明北京、天津的气体污染非常严重，由于它们位于京津塘工业区，工业污染较重，且人口密集，私家车极多，排放大量尾气，严重影响空气质量。陕西和宁夏的固体污染较为严重，而气体污染处于中等程度。

Figue 1. Tree clustering

图1. 树状聚类图

Table 8. Clustering result

表8. 聚类结果

l 第二类为河北、山西等地区。可以看到，这些地区的综合因子排序都在15名以上，而河北属于最后一名，说明这些地区的综合环境质量较差。在F₁和F₂上的排名都很靠后，固体污染和气体污染都较为严重，这是由于这些省份的重工业较发达，能源消耗量较多，且人口密集，固体废弃物多。

l 第三类为内蒙古和辽宁。辽宁位于东北重工业区，而内蒙古位于中部地区，多沙尘暴，所以他们的气体污染较为严重，由F₃值可以看出，辽宁附近水域的水质情况较差。

l 第四类多为我国的部分北部、西南、以及西北边远地区。这些地区的F₁排名非常靠后，而F₂的排名较为靠前，由于这些地区大多位于我国边远地区，产业结构中重工业所占比值较小，而旅游业所占的比重较大，所以产生的固体废弃物较多，固体污染比较严重。而这些地区的气体污染和水污染情况不太严重。

l 第五类为上海、江苏、安徽、湖南、湖北等华中以及沿海地区。这些地区的共同特点为F₃的排名非常靠后，说明在这些地区的环境污染中，水污染比较严重，这是由于这些地区大多位于沿海地区或者附近有水域，而工业化程度较高，所以有大量未经处理的工业及生活污水；另一方面，由于乱砍乱伐现象造成的水土流失也是造成的水污染的重要原因之一。

l 第六类仅含一个地区即为广东地区。广东地区的综合因子排序位于中等水平，其中，固体污染较轻，气体污染程度也不太严重，而水污染比较严重。

5. 总结及建议

本文在因子分析的基础上，考虑指标之间的相关性和重要性差异，运用系统聚类分析方法对2017年全国各省、市、自治区的环境质量状况进行了分类评价。结果发现，2017年四川、贵州、湖北、西藏等省份的环境质量较好，而河北、甘肃、吉林、山西等省份的环境状况较差。

从区位上看，京津塘以及东北为重工业区，大气污染严重，应该加大环保科技创新力度，加快产业结构转变。大力发展新能源、信息等产业，以新能源、信息产业带动相关新兴产业发展，使之成为新的经济增长点，并以信息化推动冶金、机械等传统行业的改造与换代；通过发展高新技术对重工业进行节能减排，促进重工业企业的良性发展和生态环境的改善。

华中以及东部沿海地区的水污染严重，对此，企业应该推进环保制度改革，严格控制污水排放。改善生产工艺和管理制度，发展不用水或少用水的生产工艺(如用汽化冷却代替水冷却，干法熄焦等)；同时还要采用无污染或少污染的新工艺，合理安排生产，制定物料定额，减少污染物排放量；加快建立环保信用体系，对水污染企业开展环保信用评价，对水污染性企业实行分类监管。

部分西南和西北边远地区的固体污染严重，对此，必须实行对固体废物的资源化、无害化和减量化处理。应该实行对固体废物的再循环利用，须根据具体的行业生产特点而定，还应注意技术可行、产品具有竞争力及能获得经济效益等因素；对固体废物进行无害化处置，即经过适当的处理或处置，使固体废物或其中的有害成分无法危害环境，或转化为对环境无害的物质。

不同的省、市、自治区的经济状况、地理区位、人口密度等较大差异，所以31个省、市、自治区的环境质量呈区域性特征，不同地区的环境治理，要结合社会经济发展特点，依靠科技引领，加快产业结构的转型升级，促进产业结构向节能型、环保型发展，提升和改造传统产业，降低能耗，减少污染物排放，从而促进该省的排污减排和生态文明城市建设。

文章引用

孙得. 基于因子分析和聚类分析的全国各地区空气质量评价
Air Quality Assessment in Various Regions of China Based on Factor Analysis and Cluster Analysis[J]. 统计学与应用, 2019, 08(02): 234-243. https://doi.org/10.12677/SA.2019.82026

参考文献

1. 陈军飞, 陈琳. 基于加权主成分距离聚类的江苏省环境质量评价[J]. 资源开发与市场, 2018, 34(10): 1383-1388.

2. 薛薇. 统计分析与SPSS的应用[M]. 第五版. 北京: 中国人民大学出版社.

3. 魏臻, 林芳. 基于聚类分析和主成分分析城市空气质量评价[J]. 淮阴工学院学报, 2018, 27(3): 86-96.

期刊菜单