Statistical and Application
Vol.3 No.01(2014), Article ID:13217,10 pages DOI:10.12677/SA.2014.31002

乌鲁木齐大气环境影响因素研究

Jianjun Wang, Xiaojuan Ye, Yuwei Chen, Wenying Ma

Statistics School, Xinjiang University of Finance and Economics, Urumqi

Email: xj.wangjianjun@126.com

Copyright © 2014 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

Received: Dec. 19th, 2013; revised: Jan. 22nd, 2014; accepted: Jan. 30th, 2014

ABSTRACT

Urumqi was one of the cities with the most serious air pollution in China. The research of atmospheric environment pollution about present situation, trend and influencing factors is particularly important in Urumqi. This paper applies statistical model to analyze the air quality of Urumqi. Through the descriptive analysis of the air quality status in Urumqi, we can find the most obvious periodicity of pollution. Through the time series ARIMA predictive model, we can predict the air pollution index in 2014. Through the influencing factors analysis of the atmospheric environment pollution based on association rules, we can find that the more obvious impact factors are the weather, season, and the wind. Result shows that the air pollution index had significant differences between the heating season and the non-heating season or between the Sunny day and the cloudy day. Through the corresponding analysis of air quality levels and season, we found that the air quality levels were “better” from March to October; the more serious pollution periods were concentrated in November, December, January and February.

Keywords:Air Pollution Index; Association Rules; Arima Model; Regression Model; Correspondence Analysis

乌鲁木齐大气环境影响因素研究

王建军,冶晓娟,陈玉伟,马文英

新疆财经大学统计与信息学院,乌鲁木齐

Email: xj.wangjianjun@126.com

收稿日期:2013年12月19日;修回日期:2014年1月22日;录用日期:2014年1月30日

摘  要

乌鲁木齐市是全国城市空气污染最为严重的城市之一,对乌鲁木齐大气环境污染的现状、趋势和影响因素的研究尤为重要。本文运用统计模型对乌鲁木齐空气质量数据进行三个方面的研究,通过现状描述分析发现其污染具有明显的周期性;通过时间序列ARIMA模型预测了2014年各月的空气污染指数;运用关联规则分析方法发现天气、季节、风力对空气污染状况都有明显的影响;结果表明供暖季节、非晴天对空气污染指数存在显著影响;通过对应分析发现3-10月的空气质量级别多为优良,而污染较严重的情况多集中在11月、12月、1月和2月这四个月。

关键词

空气污染指数;关联规则;ARIMA模型;对应分析

1. 引言

乌鲁木齐市曾被列为世界十大污染严重城市之一[1] -[3]。多年来,乌鲁木齐市空气质量一直低于国家二级标准,是全国污染较严重的城市之一,不仅严重制约了经济和社会的可持续发展,而且也极大地影响了广大市民的身心健康。因此,对乌鲁木齐大气环境污染的现状、趋势和影响因素的研究尤为重要。

本次研究的思路为:第二部分,对2005~2012年乌鲁木齐大气污染状况总体趋势进行描述统计分析;第三部分,对2014年乌鲁木齐的空气污染指数进行预测;第四部分,对乌鲁木齐大气环境污染与季节、天气、风力之间的关联性分析。

 

大气污染,就是指人类生产、生活活动或自然界向大气排出各种污染物,其含量超过环境承载能力,使大气质量发生恶化,使人们的工作、生活、健康、设备财产以及生态环境等遭受恶劣影响和破坏的现象。1

空气污染指数(Air pollution Index,简称API)就是将常规监测的几种空气污染物浓度简化成为单一的概念性指数值形式,并分级表征空气污染程度和空气质量状况,适合于表示城市的短期空气质量状况和变化趋势。2

2. 乌鲁木齐空气质量现状

2.1. 数据来源

本文所用数据有:2005~2012年乌鲁木齐空气污染指数、空气质量级别、空气质量状况日度数据各2918个,来源于中华人民共和国环境保护部-政府网站数据中心[4] ,2011~2012年天气、风力日度数据719个,来源于天气网[5] 。

2.2. 2005~2012年空气质量污染现状分析

图1为乌鲁木齐市2005~2012年日度数据的空气质量污染指数状况图,该图可以大致看出,乌鲁木齐市的污染主要产生在冬季,具有明显的周期性。也从侧面反映了乌鲁木齐市的冬季供暖系统还有待改善[6] [7] 。

2.3. 2005~2012年乌鲁木齐空气质量级别的趋势分析

图2反映了乌鲁木齐市2005~2012年空气质量优良级别所占比例,从图中显示:自2005年开始乌鲁木齐市空气质量状况出现优的天数比例呈下滑趋势,出现良的天数比例呈上升趋势,且良的涨幅与优的降幅度大致相同,基本呈现了此消彼长的替代关系。说明总体上空气质量呈下降趋势。

图3反映了乌鲁木齐市2005~2012年空气质量级别的变化趋势图,2006年以后乌鲁木齐市重污染天数呈现下降趋势,近年所占比例逐渐稳定在2%以内;八年期间中度重污染保持在2%左右,2009年略有增加;中度污染天数占比均在2%以内;轻度污染天数所占比例整体上略有增加,2009年比重有所下降,2010年以后呈稳步增加趋势;轻微污染有明显的增减变化情况,在2010年后减小幅度较大。本文在4.4节就此现象作了解释。

3. 乌鲁木齐空气污染指数趋势预测

3.1. 趋势预测模型选择

为了能显著地表示不同月份的空气污染程度,考虑用季节因素并对其进行单独量化分析,采用了乘

Figure 1. Air quality pollution index diagram in 2005-2012                            

图1. 2005~2012年空气质量污染指数图                                          

Figure 2. Trend graph of air quality level in 2005-2012             

图2. 2005~2012年空气质量优良级别趋势图                   

法分解形式对模型进行预测[8] 。因素乘法分解模型形式为:

其中趋势因素、季节因素、周期因素、不规则因素

本文用SAS软件的X-11过程剔除季节指数,该过程基于中心化移动平均法进行季节调整它的特征在于能适应各种经济指标的性质。

趋势预测ARIMA模型称为差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),ARIMA(p, d, q)模型中,AR是自回归过程,p为自回归项数;MA为移动平均过程,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。ARIMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用惯性和自相关原理的数学模型来描述这个序列。选择模型参数的方法是检验有统计意义和诊断残差序列是否为白噪声。本文用ARIMA模型对剔除季节因素后的数据进行预测,将所得到的预测值乘以季节指数即为各月的空气污染指数预测值。

3.2. 乌鲁木齐空气污染季节指数

将2005~2012年各月平均数除以总平均数计算得到各月季节指数,它刻画了序列在一个年度内各月的典型季节特征。表1中给出了乌鲁木齐十二个月份空气污染指数的季节指数,根据该表的季节指数可以看出,样本期8年中各月的空气污染指数有明显的季节性,污染程度从每年11月增加,到1月达到最高值。6~7月污染程度最低。

表中一月、二月、十一月和十二月的季节指数均高于1,说明这四个月的空气污染指数高于全年平

Figure 3. Trend graph of air pollution levels in 2005-2012                                                

图3. 2005~2012年空气质量污染级别趋势图                                                        

Table 1. 2005-2012 season index table                                                                     

表1. 2005~2012年季节指数表                                                                         

均空气污染指数的值,也就是说这四个月的空气污染状况较全年平均污染状况比较严重。

根据乘法分解模型将各月的空气污染指数除以季节指数,得到了各月剔除季节因素的空气污染指数。图4反映了2005~2012年空气污染指数趋势图,其中细线为空气污染指数真实值,粗线为剔除季节因素后的空气污染指数趋势图,结果显示乌鲁木齐空气污染没有明显改善。

3.3. 建立ARIMA空气污染程度预测模型

3.3.1. 平稳性检验

表2中给出了利用单位根检验得到的检验结果,该表可以看出,P值均高于5%的显著性水平,认为数据是平稳时间序列数据。

3.3.2. 模型参数估计(表3和和表4)

得到的ARIMA模型为:

Figure 4. Air Pollution Index Chart in 2005-2012                                               

图4. 2005~2012年空气污染指数趋势图                                                    

Table 2. Stationary test                                                                                  

表2. 平稳性检验                                                                                      

Table 3. Autocorrelation Check for White Noise           

表3. 自相关的白噪声检验                            

由于模型用剔除季节因素的2005~2012年乌鲁木齐空气污染指数进行预测,根据乘法分解模型需要考虑到季节因素的影响,用未考虑季节因素的预测值乘以季节指数,得到2014年各月的空气污染指数的预测值如表5中所示,各月空气质量预测值显示,11月、12月、1月、2月这四个月污染指数比较高,冬季供暖系统影响造成的污染情况仍然比较严重,符合现实状况。

3.3.3. 预测精度分析

在ARIMA模型中用平均绝对百分比误差MAPE来表示模型对原始数据序列的预测精度的评判标准,平均绝对百分比误差MAPE是用相对数形式百分数表示的预测误差指标。平均绝对百分比误差指标是对预测值与实际值之间的离差除以实际值的比值的绝对值计算平均数,计算公式:

利用ARIMA模型可以算出,2005年~2012年各个月份的预测值,再根据上式可以计算得出MAPE为9.985%,平均绝对百分比误差小于10%,我们认为预测效果是较好的。

4. 乌鲁木齐大气环境污染影响因素分析

4.1. 空气污染因素的描述分析

显然的,天气、风力对一个地区的空气质量级别有关键性的影响[9] [10] 。以1~2月、3~4月此类的形式代表季节因素来研究季节因素与空气污染之间关系。由于受数据的限制,本文选取了2011~2012年,在

Table 4. Autocorrelation check of residuals                     

表4. 模型残差的自相关检验                                

Table 5. Pollution index predictive value table of 2014            

表5. 季节影响后的2014年各月预测值表                   

2011~2012年的719个观测值中,晴天最多,占了47.8%,多云、雾、阴天次之,占了29.1%,其他的占的比例都比较小,风力为微风居多,占了75.5%;3~5级的次之,占了23.9%;5~7级的最少,占了0.6%。

4.2. 影响大气污染因素的关联规则分析

关联规则是形如X→Y的蕴涵式,其中X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS)。设I是所有研究项目的集合,将每天的天气,风力,污染,季节构成一个数据库D。其中每一天的数据称为事务(Transaction)t是I的非空子集,每一天各项因素组合都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。

规则置信度(Confidence)是对简单关联规则准确度的测量,描述了包含项目X的事物中同时也包含项目Y的概率,反应X出现条件下Y出现的可能性,其数学表达为:

其中,表示包含项目X的事务数在总事务数中的比例,表示同时包含项目X和项目Y的事务数在总事务数中的比例。如果置信度高则说明X出现则Y出现的可能性高,反应的是在给定X的条件下Y的条件概率。

支持度(support)测度了简单关联规则的普通性,表示项目X和项目Y同时出现的概率,其数学表达式为:

表示同时包含项目X和项目Y的事务数在总事务数中的比例。

提升(lift)是置信度与后向支持度的比,其数学表达式为:

规则提升度反映了项目X的出现对项目Y出现的影响程度,大于1说明X的出现对Y有促进作用。规则提升度越大越好。

那么天气、风力、季节对乌鲁木齐空气质量级别到底起着怎样的影响呢?结合数据的实际情况,我们设定最小支持度0.01,最小置信度为0.02,最小提升为1.5。以Apriori算法为基础,运用R软件编程序筛选出多条符合要求的规则。

表6可以看出,规则1、3;规则4、5;规则7、8;规则10、12非常的相似,规则中除了有1~2月与3~4月、7~8月与9~10月不一样之外其它先导是一样的。为此本文对以上几条规则进行合并,合并原理为:以规则1、3合并为例,A1、A2别表示月份中的7~8月、9~10月,B1表示空气质量级别中的优。支持度、置信度、提升这三个参数的计算公式如下:

合并支持度 =,即原规则1、3支持度的和。

合并置信度 =

合并提升 =

合并结果如表7中给出的关联规则所示:

由规则N1得出:每年7~8月、9~10月出现优的空气质量级别的天数占所有天数的0.0260。7~8月、

Table 6. Association rules of air pollution factors                                                            

表6. 空气污染因素的关联规则                                                                          

Table 7. Combined association rules of air pollution impact                                                     

表7. 空气污染因素的合并关联规则                                                                     

9~10月出现优的天气达到0.0772,是两年中出现优的次数的1.7353倍。

由规则N2得出:雨天出现优的空气质量级别的天数占所有天数的0.0123。雨天出现优的天气达到0.1011,是两年中出现优的次数的2.3069倍。

由规则N3得出:晴,微风,1~2月,3~4月并且出现轻微污染的空气质量级别的天数占所有天数的0.0438。在晴,微风,1~2月,3~4月的天数中出现轻微污染的天气达到0.3199,是两年中出现轻微污染的次数的2.6445倍。

由规则N4得出:雪,微风出现轻微污染的空气质量级别的天数占所有天数的0.0164。雪,微风的天数中出现轻微污染的天气达到0.2667,是两年中出现轻微污染的次数的2.2375倍。

由规则N5得出:多云、雾、阴,1-2月,3~4月出现轻微污染的空气质量级别的天数占所有天数的0.0301。多云、雾、阴,1-2月,3-4月的天数中出现轻微污染的天气达到0.3548,是两年中出现轻微污染的次数的2.9325倍。

由规则N6得出:雪天出现轻度污染的空气质量级别的天数占所有天数的0.0137。雪天的天数中出现轻度污染的天气达到0.1299,是两年中出现轻度污染的次数的1.9348倍。

由规则N7得出:晴,1~2月,3~4月出现轻度污染的空气质量级别的天数占所有天数的0.0233。晴,1~2月,3~4月的天数中出现轻度污染的天气达到0.1491,是两年中出现轻度污染的次数的2.1881倍。

由规则N8得出:多云、雾、阴,微风,1~2月出现轻度污染的空气质量级别的天数占所有天数的0.0110。多云、雾、阴,微风,1~2月的天数中出现轻度污染的天气达到0.2286,是两年中出现轻度污染的次数的3.4052倍。

由规则N9得出:晴,微风出现重度污染的空气质量级别的天数占所有天数的0.0126。晴,微风的天数中出现重度污染的天气达到0.0288,是两年中出现重度污染的次数的1.7548倍。

4.3. 空气质量状况与季节的对应分析

对应分析(Correspondence analysis)是一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个列联表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

对应分析法整个处理过程由两部分组成:表格和对应分析图。表格是一个二维列联表格,如表8。在对应分析图上,各个样本都浓缩为一个点集合。

根据月份与空气污染程度的对应图5,该图可将变量点与样品点分为四类:

Ⅰ类:变量点为空气质量状况为优,样本点为5~6月,7~8月

Ⅱ类:变量点为空气质量状况为良,样本点为3~4月,9~10月

Ⅲ类:变量点为空气质量状况为轻微污染,样本点为11~12月

Ⅳ类:变量点为空气质量状况主要是中度重污染、重污染,样本点为1~2月

图5反映出3~10月的空气质量级别多为优良,这期间的空气状况比较好,而污染较严重的情况多集中在11月、12月、1月、2月这四个月,原因是这四个月是乌鲁木齐市供暖的月份。

结合图2图5得出,2005~2012年乌鲁木齐市空气质量级别为优主要集中在5、6、7、8月,空气质量级别为良主要集中在3、4、9、10月,空气质量级别为优所占比例呈下降趋势,说明夏季空气污染

Table 8. Correspondence analysis test                                            

表8. 对应分析检验                                                         

卡方检验值为1692.648,df = 30,P < 0.001。

Figure 5. Correspondence graph of air pollution and season               

图5. 月份与空气污染程度对应图                                  

状况呈下降趋势,5、6、7、8月的空气质量略微变差;空气质量级别为良的天数占比逐渐增加,说明在3、4、9、10月春秋季节乌鲁木齐市的空气质量有所改善。

结合图3图5得出,2005~2012年乌鲁木齐市空气质量级别为轻微污染主要集中在11、12月,空气质量级别为轻微污染的波动较大,由于11、12月是空气质量良好与空气质量严重的过渡阶段,从而导致其波动变化较大。空气质量级别为重污染、中度重污染、中度污染、轻度污染主要集中在1、2月,其中重污染有所缓解。

5. 研究结论及尚需深入研究的问题

5.1. 结论

2005~2012年乌鲁木齐的空气质量状况呈现季节性变化,11月、12月、1月和2月空气污染状况比较严重。从2005年~2012年乌鲁木齐市空气质量状况呈现为优的天数呈下滑趋势,呈现为良的天数呈上升趋势,重污染的天数也明显减少,其他污染程度在总体上呈平稳的趋势。

雨天与空气质量为优是有关联的,说明雨天的空气质量状况比较好;晴,微风,1~2月,3~4月与空气质量为轻微污染是有关联的;雪,微风与空气质量为轻微污染是有关联的;多云、雾、阴,1~2月,3~4月与空气质量为轻微污染是有关联的;雪天与空气质量为轻度污染是有关联的;晴,1~2月,3~4月与空气质量为轻度污染是有关联的;多云、雾、阴,微风,1~2月与空气质量为轻度污染是有关联的;晴,微风与空气质量为重度污染是有关联的。

供暖期与非供暖期之间的空气污染指数存在显著差异,晴天与非晴天之间的空气污染指数存在显著差异。由对应分析可知,3-10月的空气质量级别多为优良,这期间的空气状况比较好,而污染较严重的情况多集中在11月、12月、1月和2月这四个月,主要原因可能是这四个月是乌鲁木齐市供暖的月份。

5.2. 尚需深入研究的问题

本课题的研究由于数据的缺乏,结论仅限于此,若能得到乌鲁木齐地区煤、天然气、石油等的消耗量、汽车牌照的发放量月度数据[11] ,就可以进行更深层次的研究分析。

参考文献 (References)

  1. 储淑琴, 古丽夏提 (2012) 乌鲁木齐城市用煤质量分析. 煤质技术, 6, 31-32.

  2. 郑玉峰 (2013) 重点城市大气污染现状分析及对策研究. 资源节约与环保, 3, 54-55

  3. 平措 (2006) 我国城市大气污染现状及综合防治对策. 环境科学与管理, 1, 18-21.

  4. 中华人民共和国环境保护部, 政府网站数据中心. http://datacenter.mep.gov.cn/report/air_daily/air_dairy.jsp?city=乌鲁木齐

  5. 天气网 http://lishi.tianqi.com/wulumuqi

  6. 陈景辉, 卢新卫, 任春辉 (2010) 陕西省大气环境质量状况分析与评价. 陕西科技大学学报, 6, 137-140.

  7. 魏文静 (2009) 中国城市大气污染现状及综合防治措施探析. 天津科技, 6, 23-25.

  8. 贾俊平 (2012) 统计学(第五版). 清华大学出版社, 北京.

  9. 黄恺敏, 杨昆 (2013) 城市大气污染地理信息系统模块的研究. 数字技术与应用, 1, 82-83.

  10. 毛存峰, 杨瑞霞 (2012) 青岛市大气环境质量状况分析与评价. 中国环境管理, 4, 56-58.

NOTES

1来源于百度百科http://baike.baidu.com/view/42413.htm

2来源于百度百科http://baike.baidu.com/view/30738.htm

期刊菜单