本文提出基于巴氏距离的统计方法,研究了京津冀地区十三个城市2013年12月至2016年9月每日空气质量指数(AQI)数据,对该地区的空气质量的相关性进行了分析。通过观察数据生成的折线图,发现京津冀各地区的AQI折线图具有一定的相似性。于是,本文基于巴氏距离研究了各地空气质量的相关性,利用模糊聚类方法对上述地区聚类,并分析了聚类结果。聚类结果及数据平均值显示京津冀地区大部分城市处于空气质量恶劣的条件下。 This paper introduces a new statistical method by Bhattacharyya distance, studies thirteen cities’ daily air quality index (AQI) data of the Beijing-Tianjin-Hebei region, between December 2013 and September 2016. The line charts generated by data, show that Beijing-Tianjin-Hebei regional AQI charts have a similarity. Then, based on Bhattacharyya distance, this article studies correlation of different cities’ AQI, uses the fuzzy clustering method to cluster different regions’ data, and analyzes the clustering results. The clustering results and the average of data show that most cities in the Beijing-Tianjin-Hebei region are under the condition of bad air quality.
李洪亮,裴慧丽
河北大学,数学与信息科学学院,机器学习与人工智能重点实验室,河北 保定
收稿日期:2017年8月5日;录用日期:2017年8月20日;发布日期:2017年8月24日
本文提出基于巴氏距离的统计方法,研究了京津冀地区十三个城市2013年12月至2016年9月每日空气质量指数(AQI)数据,对该地区的空气质量的相关性进行了分析。通过观察数据生成的折线图,发现京津冀各地区的AQI折线图具有一定的相似性。于是,本文基于巴氏距离研究了各地空气质量的相关性,利用模糊聚类方法对上述地区聚类,并分析了聚类结果。聚类结果及数据平均值显示京津冀地区大部分城市处于空气质量恶劣的条件下。
关键词 :京津冀地区,空气质量指数,模糊聚类,巴氏度量
Copyright © 2017 by authors and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
用近年来,空气质量问题一直困扰着中国北方很多城市。特别突出的是京津冀地区频繁出现严重雾霾天气。这种现象吸引了大量的学者进行研究 [
通过记录 2013 年 12 月 2 日 至 2016 年 9 月 30 日 共计1034天,京津冀地区北京,天津,石家庄等共计13个城市的AQI数据 [
通过观察图1中数据,可以发现:北京,天津,石家庄的AQI数据折线图形状有一定的相似。这表明上述数据具有一定的相关性,各地区之间的AQI会相互影响。根据空气流动,可以猜测:相邻的城市之间,AQI相互影响会比较大。同时,由于城市交界的复杂性,相邻城市哪一个对中心城市的影响最大,即相关性最大,这些问题需要具体的数据分析才能验证。
巴氏距离是描述概率分布之间差异性的一种方式,可以定量的描述随机变量分布之间的差异。下面是离散型随机变量巴氏距离的定义:
定义3.1 两个离散型随机变量
京津冀地区的
图1. 北京,天津,石家庄,张家口的AQI数据折线图
通过这种变换,既保持原有单个城市的数据结构,又使数据成为某离散型随机变量的分布律,便于利用巴氏距离度量不同城市AQI的差别。计算不同城市间
通过对城市
由于巴氏距离矩阵本身是对称矩阵,而且巴氏距离取值于
利用二次方法 [
基于模糊等价矩阵,设置置信水平
为了探讨上述聚类结果的实际意义,计算了各个城市AQI的平均值,如表3。
该表显示显示:第四类城市的AQI平均值都已达到轻度污染程度,而前三类的承德,张家口,秦皇岛的AQI平均值在良好状态。
城市 | 石家庄 | 承德 | 张家口 | 秦皇岛 | 唐山 | 廊坊 | 保定 | 沧州 | 衡水 | 邢台 | 邯郸 | 北京 | 天津 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
石家庄 | 0 | 0.0282 | 0.0415 | 0.0302 | 0.0218 | 0.0185 | 0.0113 | 0.0176 | 0.0159 | 0.0067 | 0.014 | 0.0296 | 0.0204 |
承德 | 0.0282 | 0 | 0.019 | 0.0184 | 0.0151 | 0.0184 | 0.0257 | 0.0214 | 0.0257 | 0.0292 | 0.0302 | 0.0144 | 0.0185 |
张家口 | 0.0415 | 0.019 | 0 | 0.0342 | 0.0305 | 0.0358 | 0.0419 | 0.0349 | 0.0357 | 0.042 | 0.0415 | 0.0321 | 0.0343 |
秦皇岛 | 0.0302 | 0.0184 | 0.0342 | 0 | 0.0123 | 0.0207 | 0.0234 | 0.0202 | 0.0257 | 0.0287 | 0.0302 | 0.0284 | 0.014 |
唐山 | 0.0218 | 0.0151 | 0.0305 | 0.0123 | 0 | 0.0106 | 0.0172 | 0.0119 | 0.0176 | 0.0219 | 0.0227 | 0.0199 | 0.0071 |
廊坊 | 0.0185 | 0.0184 | 0.0358 | 0.0207 | 0.0106 | 0 | 0.0124 | 0.0145 | 0.0188 | 0.0208 | 0.025 | 0.0119 | 0.0091 |
保定 | 0.0113 | 0.0257 | 0.0419 | 0.0234 | 0.0172 | 0.0124 | 0 | 0.0141 | 0.0138 | 0.0132 | 0.0164 | 0.0261 | 0.0146 |
沧州 | 0.0176 | 0.0214 | 0.0349 | 0.0202 | 0.0119 | 0.0145 | 0.0141 | 0 | 0.0081 | 0.0155 | 0.0142 | 0.0293 | 0.0081 |
衡水 | 0.0159 | 0.0257 | 0.0357 | 0.0257 | 0.0176 | 0.0188 | 0.0138 | 0.0081 | 0 | 0.0107 | 0.0079 | 0.0338 | 0.0144 |
邢台 | 0.0067 | 0.0292 | 0.042 | 0.0287 | 0.0219 | 0.0208 | 0.0132 | 0.0155 | 0.0107 | 0 | 0.0074 | 0.0348 | 0.0203 |
邯郸 | 0.014 | 0.0302 | 0.0415 | 0.0302 | 0.0227 | 0.025 | 0.0164 | 0.0142 | 0.0079 | 0.0074 | 0 | 0.041 | 0.0207 |
北京 | 0.0296 | 0.0144 | 0.0321 | 0.0284 | 0.0199 | 0.0119 | 0.0261 | 0.0293 | 0.0338 | 0.0348 | 0.041 | 0 | 0.0219 |
天津 | 0.0204 | 0.0185 | 0.0343 | 0.014 | 0.0071 | 0.0091 | 0.0146 | 0.0081 | 0.0144 | 0.0203 | 0.0207 | 0.0219 | 0 |
表1. 京津冀13个城市AQI巴氏度量矩阵
城市 | 石家庄 | 承德 | 张家口 | 秦皇岛 | 唐山 | 廊坊 | 保定 | 沧州 | 衡水 | 邢台 | 邯郸 | 北京 | 天津 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
石家庄 | 1 | 0.9856 | 0.981 | 0.9877 | 0.9919 | 0.9909 | 0.9887 | 0.9919 | 0.9921 | 0.9933 | 0.9926 | 0.9881 | 0.9919 |
承德 | 0.9856 | 1 | 0.981 | 0.9856 | 0.9856 | 0.9856 | 0.9856 | 0.9856 | 0.9856 | 0.9856 | 0.9856 | 0.9856 | 0.9856 |
张家口 | 0.981 | 0.981 | 1 | 0.981 | 0.981 | 0.981 | 0.981 | 0.981 | 0.981 | 0.981 | 0.981 | 0.981 | 0.981 |
秦皇岛 | 0.9877 | 0.9856 | 0.981 | 1 | 0.9877 | 0.9877 | 0.9877 | 0.9877 | 0.9877 | 0.9877 | 0.9877 | 0.9877 | 0.9877 |
唐山 | 0.9919 | 0.9856 | 0.981 | 0.9877 | 1 | 0.9909 | 0.9887 | 0.9919 | 0.9919 | 0.9919 | 0.9919 | 0.9881 | 0.9929 |
廊坊 | 0.9909 | 0.9856 | 0.981 | 0.9877 | 0.9909 | 1 | 0.9887 | 0.9909 | 0.9909 | 0.9909 | 0.9909 | 0.9881 | 0.9909 |
保定 | 0.9887 | 0.9856 | 0.981 | 0.9877 | 0.9887 | 0.9887 | 1 | 0.9887 | 0.9887 | 0.9887 | 0.9887 | 0.9881 | 0.9887 |
沧州 | 0.9919 | 0.9856 | 0.981 | 0.9877 | 0.9919 | 0.9909 | 0.9887 | 1 | 0.9919 | 0.9919 | 0.9919 | 0.9881 | 0.9919 |
衡水 | 0.9921 | 0.9856 | 0.981 | 0.9877 | 0.9919 | 0.9909 | 0.9887 | 0.9919 | 1 | 0.9921 | 0.9921 | 0.9881 | 0.9919 |
邢台 | 0.9933 | 0.9856 | 0.981 | 0.9877 | 0.9919 | 0.9909 | 0.9887 | 0.9919 | 0.9921 | 1 | 0.9926 | 0.9881 | 0.9919 |
邯郸 | 0.9926 | 0.9856 | 0.981 | 0.9877 | 0.9919 | 0.9909 | 0.9887 | 0.9919 | 0.9921 | 0.9926 | 1 | 0.9881 | 0.9919 |
北京 | 0.9881 | 0.9856 | 0.981 | 0.9877 | 0.9881 | 0.9881 | 0.9881 | 0.9881 | 0.9881 | 0.9881 | 0.9881 | 1 | 0.9881 |
天津 | 0.9919 | 0.9856 | 0.981 | 0.9877 | 0.9929 | 0.9909 | 0.9887 | 0.9919 | 0.9919 | 0.9919 | 0.9919 | 0.9881 | 1 |
表2. 京津冀13个城市AQI模糊相似矩阵
石家庄 | 承德 | 张家口 | 秦皇岛 | 唐山 | 廊坊 | 保定 | 沧州 | 衡水 | 邢台 | 邯郸 | 北京 | 天津 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
137.05 | 78.2 | 67.848 | 82.94 | 120 | 119 | 148 | 108 | 141 | 148 | 134 | 110 | 107 |
表3. 13个城市AQI的平均值
通过对京津冀地区13个城市1034天的空气质量指数AQI的定量分析,证实了相邻地区的空气质量有影响,但这种影响不一定是相互的,如与保定AQI相关性最大的城市是石家庄,而与石家庄AQI相关性最大的城市是邢台。这在某种程度上反映了石家庄可能是污染源或空气质量较好的地区。但石家庄的AQI指数较高,我们倾向于其是污染源的可能性更大。
基于巴氏距离得出的各个城市AQI之间的模糊相似矩阵,利用传递闭包法对数据经行了聚类。当
京津冀地区城市的AQI之间有影响,但这种影响不一定是相互的,确实有一些城市的AQI是被动性的变差。因此,下一步的研究是对被动性污染城市与主动性污染城市的模糊聚类分析。
国家自然科学基金项目(61572011);河北省自然科学基金项目(F2016201161);河北省高等学校科学技术研究重点项目(ZD2017005);河北省教育厅青年基金(QN2014039)。
李洪亮,裴慧丽. 京津冀地区空气质量指数相关性的研究及模糊聚类分析 Discussion on Correlation of Beijing-Tianjin-Hebei Region’s Air Quality Index and Fuzzy Clustering Analysis[J]. 应用数学进展, 2017, 06(05): 711-715. http://dx.doi.org/10.12677/AAM.2017.65085