Advances in Applied Mathematics
Vol.06 No.05(2017), Article ID:21806,5 pages
10.12677/AAM.2017.65085

Discussion on Correlation of Beijing-Tianjin-Hebei Region’s Air Quality Index and Fuzzy Clustering Analysis

Hangliang Li, Huili Pei

Key Laboratory of Machine Learning and Computational Intelligence, College of Mathematics and Information Science, Hebei University, Baoding Hebei

Received: Aug. 5th, 2017; accepted: Aug. 20th, 2017; published: Aug. 24th, 2017

ABSTRACT

This paper introduces a new statistical method by Bhattacharyya distance, studies thirteen cities’ daily air quality index (AQI) data of the Beijing-Tianjin-Hebei region, between December 2013 and September 2016. The line charts generated by data, show that Beijing-Tianjin-Hebei regional AQI charts have a similarity. Then, based on Bhattacharyya distance, this article studies correlation of different cities’ AQI, uses the fuzzy clustering method to cluster different regions’ data, and analyzes the clustering results. The clustering results and the average of data show that most cities in the Beijing-Tianjin-Hebei region are under the condition of bad air quality.

Keywords:Beijing-Tianjin-Hebei Region, Air Quality Index, Fuzzy Clustering, Bhattacharyya Distance

京津冀地区空气质量指数相关性的研究及模糊聚类分析

李洪亮,裴慧丽

河北大学,数学与信息科学学院,机器学习与人工智能重点实验室,河北 保定

收稿日期:2017年8月5日;录用日期:2017年8月20日;发布日期:2017年8月24日

摘 要

本文提出基于巴氏距离的统计方法,研究了京津冀地区十三个城市2013年12月至2016年9月每日空气质量指数(AQI)数据,对该地区的空气质量的相关性进行了分析。通过观察数据生成的折线图,发现京津冀各地区的AQI折线图具有一定的相似性。于是,本文基于巴氏距离研究了各地空气质量的相关性,利用模糊聚类方法对上述地区聚类,并分析了聚类结果。聚类结果及数据平均值显示京津冀地区大部分城市处于空气质量恶劣的条件下。

关键词 :京津冀地区,空气质量指数,模糊聚类,巴氏度量

Copyright © 2017 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

用近年来,空气质量问题一直困扰着中国北方很多城市。特别突出的是京津冀地区频繁出现严重雾霾天气。这种现象吸引了大量的学者进行研究 [1] [2] [3] ,近几年的相关研究数量也成快速增长趋势。模糊数学是一门实用性很强的数学科学 [4] [5] ,运用模糊数学方法研究京津冀地区的空气质量数据蕴含的规律,可以定量的验证人们对客观观察的猜测,同时,也能挖掘出一些人们没有观察到的一些规律。

2. 京津冀地区AQI数据定性分析及问题提出

通过记录 2013 年 12 月 2 日 2016 年 9 月 30 日 共计1034天,京津冀地区北京,天津,石家庄等共计13个城市的AQI数据 [6] ,以北京,天津,石家庄,张家口为例绘制数据折线图如图1

通过观察图1中数据,可以发现:北京,天津,石家庄的AQI数据折线图形状有一定的相似。这表明上述数据具有一定的相关性,各地区之间的AQI会相互影响。根据空气流动,可以猜测:相邻的城市之间,AQI相互影响会比较大。同时,由于城市交界的复杂性,相邻城市哪一个对中心城市的影响最大,即相关性最大,这些问题需要具体的数据分析才能验证。

3. 京津冀地区AQI的相关性

巴氏距离是描述概率分布之间差异性的一种方式,可以定量的描述随机变量分布之间的差异。下面是离散型随机变量巴氏距离的定义:

定义3.1 两个离散型随机变量的分布律为:。称为巴氏系数,称为离散型随机变量的巴氏距离。

京津冀地区的个城市天的AQI指数,记为,表示第个城市第天的AQI指数。为了度量不同城市之间的差异性,对数据作如下操作:

Figure 1. Line chart of AQI of Beijing, Tianjin, Shijiazhuang, Zhangjiakou

图1. 北京,天津,石家庄,张家口的AQI数据折线图

通过这种变换,既保持原有单个城市的数据结构,又使数据成为某离散型随机变量的分布律,便于利用巴氏距离度量不同城市AQI的差别。计算不同城市间的巴氏度量,会得到的巴氏距离矩阵,根据巴氏度量的对称性可知,该矩阵是对称矩阵。利用MATLAB计算,并添加城市名称信息得到表1巴氏度量矩阵

通过对城市所在行的非零数值取最小值,得到与城市最相关的一个城市,记为(城市,城市)。得到如下结果:(石家庄,邢台),(承德,北京),(张家口,承德),(秦皇岛,唐山),(唐山,天津),(廊坊,天津),(保定,石家庄),(沧州,衡水、天津),(衡水,邯郸),(邢台,石家庄),(邯郸,邢台),(北京,承德),(天津,唐山)。可以看到除了衡水之外,其他12个城市AQI最相关的城市均与该城市相邻,证实了开始的猜测:相邻的城市之间,AQI影响较大。但是,影响不一定是相互的。

4. 京津冀地区AQI的模糊聚类

由于巴氏距离矩阵本身是对称矩阵,而且巴氏距离取值于,因此巴氏距离矩阵表示了一种模糊相似关系。巴氏距离取值越小,表示两个分布越相似。为了利用模糊相似关系进行聚类,对巴氏距离矩阵做取余运算得到模糊相似矩阵:

利用二次方法 [5] ,求得模糊相似矩阵的传递闭包,即表2,与最接近的模糊等价矩阵

基于模糊等价矩阵,设置置信水平时,得到聚类结果:第一类:承德;第二类:张家口;第三类:秦皇岛;第四类:其他城市。

为了探讨上述聚类结果的实际意义,计算了各个城市AQI的平均值,如表3

该表显示显示:第四类城市的AQI平均值都已达到轻度污染程度,而前三类的承德,张家口,秦皇岛的AQI平均值在良好状态。

Table 1. Bhattacharyya distance matrix of 13 cities in Beijing-Tianjin-Hebei

表1. 京津冀13个城市AQI巴氏度量矩阵

Table 2. Fuzzy similar matrix of 13 cities in Beijing-Tianjin-Hebei

表2. 京津冀13个城市AQI模糊相似矩阵

Table 3. Average of AQI of 13 cities

表3. 13个城市AQI的平均值

5. 总结

通过对京津冀地区13个城市1034天的空气质量指数AQI的定量分析,证实了相邻地区的空气质量有影响,但这种影响不一定是相互的,如与保定AQI相关性最大的城市是石家庄,而与石家庄AQI相关性最大的城市是邢台。这在某种程度上反映了石家庄可能是污染源或空气质量较好的地区。但石家庄的AQI指数较高,我们倾向于其是污染源的可能性更大。

基于巴氏距离得出的各个城市AQI之间的模糊相似矩阵,利用传递闭包法对数据经行了聚类。当时,京津冀地区除了承德,张家口,秦皇岛三个城市,其他城市聚为一类,说明这些地区的AQI相关性较强。同时,由于上述地区AQI指数平均值较高。因此推测该地区出现雾霾的可能性较大。

京津冀地区城市的AQI之间有影响,但这种影响不一定是相互的,确实有一些城市的AQI是被动性的变差。因此,下一步的研究是对被动性污染城市与主动性污染城市的模糊聚类分析。

基金项目

国家自然科学基金项目(61572011);河北省自然科学基金项目(F2016201161);河北省高等学校科学技术研究重点项目(ZD2017005);河北省教育厅青年基金(QN2014039)。

文章引用

李洪亮,裴慧丽. 京津冀地区空气质量指数相关性的研究及模糊聚类分析
Discussion on Correlation of Beijing-Tianjin-Hebei Region’s Air Quality Index and Fuzzy Clustering Analysis[J]. 应用数学进展, 2017, 06(05): 711-715. http://dx.doi.org/10.12677/AAM.2017.65085

参考文献 (References)

  1. 1. Wang, Y., Jia, C., et al. (2016) Chemical Characterization and Source Apportionment of PM2.5 in a Semi-Arid and Petrochemi-cal-Industrialized City, Northwest China. Science of the Total Environment, 573, 1031-1040. https://doi.org/10.1016/j.scitotenv.2016.08.179

  2. 2. 徐恒鹏, 李岳, 史国良, 王玮, 轩淑艳. 基于模糊聚类的PM2.5拟合组分选择模型的研究[J]. 中国环境科学, 2016, 36(1): 12-17.

  3. 3. 刘俊, 安兴琴, 朱彤, 翟世贤, 李楠. 京津冀及周边减排对北京市PM2.5浓度下降评估研究[J]. 中国环境科学, 2014, 34(11): 2726-2733.

  4. 4. 吴从炘, 马明, 方锦喧. 模糊分析学的结构理论[M]. 贵阳: 贵州科技出版社, 1994.

  5. 5. 谢季坚, 刘承平. 模糊数学方法及其应用[M]. 武汉: 华中科技大学出版社, 2006: 44-88.

  6. 6. 中国空气质量在线监测分析平台. 空气质量历史数据[EB/OL]. https://www.aqistudy.cn/historydata/daydata.php?city=北京&month=201610, 2016-10-09.

期刊菜单