Gibbs抽样是MCMC抽样算法中应用最广泛的方法之一,其核心思想是对高维参数进行后验推断时,通过参数向量的分量的条件分布族来构造Markov链,使其不变分布为目标分布。本文利用Gibbs抽样方法结合分层贝叶斯模型,对我国各地区火灾发生次数进行了回测,结果显示,相比于传统的poisson分布刻画方法,基于Gibbs抽样的分层贝叶斯方法充分利用了历史信息使结果更具可信度。 Gibbs sampling method is the most widely used method in MCMC algorithm. The basic idea of Gibbs sampling is to construct the Markov chain by the conditional distribution family of the components of the parameter vector when the high-dimensional parameters are posteriorly inferred, so that its invariant distribution is the target distribution. This topic is based on the method to determine the parameters of the model, which can be based on existing information to estimate the number of years, the number of fire occurred in the region and the estimated confidence interval of the parameters.
曹康
上海海事大学,上海
收稿日期:2018年4月3日;录用日期:2018年4月21日;发布日期:2018年4月28日
Gibbs抽样是MCMC抽样算法中应用最广泛的方法之一,其核心思想是对高维参数进行后验推断时,通过参数向量的分量的条件分布族来构造Markov链,使其不变分布为目标分布。本文利用Gibbs抽样方法结合分层贝叶斯模型,对我国各地区火灾发生次数进行了回测,结果显示,相比于传统的poisson分布刻画方法,基于Gibbs抽样的分层贝叶斯方法充分利用了历史信息使结果更具可信度。
关键词 :Gibbs抽样,分层贝叶斯模型,马尔科夫链,火灾
Copyright © 2018 by author and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
近年来,由于我国在城镇化进程中的快速推进,城市规模和人口越来越多,因此而产生的城市问题也越来越多,火灾即是其中之一。据公安部消防局公布的数据,2016年全国共接报火灾31.2万起,造成死亡1582人,伤1065,直接财产损失37.2亿元。可见,火灾对市民人身和财产安全造成了巨大的危害,如何寻找出火灾易发区域,采取有效措施及时防范已是一项十分艰巨和重要的任务。
影响火灾发生率的因素有很多,如Schaeman [
本文即是在此背景下,从统计抽样的角度,利用贝叶斯思想,建立分层贝叶斯模型,再利用Gibbs抽样方法得到不同地区火灾发生次数的Markov链,借此分析了不同地区火灾发生次数的分布特点。
分层贝叶斯模型 [
1) 写出联合后验密度p(θ,φ|y),其非正规化的形式是超先验分布p(φ)、总体分布p(θ|φ)和似然函数p(y|θ)的乘积。
2) 在给定超参数φ的情况下,确定θ的条件后验密度,固定观测值y的情况下,它是φ的函数p(θ|φ, y)。
3) 使用贝叶斯分析范例估计φ,也就是要获取边缘后验分布p(φ|y)。
Gibbs抽样 [
已知。在给定初值点
给定
(1) 生成
···
(i) 生成
···
(p) 生成
设
第0步.任意选取一个初始点
第1步.按下列方法生成
生成
生成
···
生成
第2步。置
在这个算法过程中,θ的每一个分量按照自然顺序生成,每一个循环需要生成p个随机变量。
本文根据2012年全国各地区发生火灾的次数(见表1,数据来源于公安部消防局中国火灾消防统计年鉴)为样本,使用分层贝叶斯方法对各地区的火灾发生次数进行统计推断,具体数据如表1所示。
假设第i地区发生火灾的次数服从参数为
则,各层的条件密度分别为:
次数(千次) | 地区 | 次数(千次) | |
---|---|---|---|
北京 | 3.409 | 湖北 | 4.962 |
天津 | 2.213 | 湖南 | 10.399 |
河北 | 5.012 | 广东 | 8.154 |
山西 | 3.897 | 广西 | 1.386 |
内蒙古 | 7.545 | 海南 | 0.688 |
辽宁 | 8.265 | 重庆 | 3.758 |
吉林 | 5.652 | 四川 | 6.899 |
黑龙江 | 5.794 | 贵州 | 0.959 |
上海 | 4.469 | 云南 | 1.251 |
江苏 | 7.739 | 西藏 | 0.192 |
浙江 | 3.5 | 陕西 | 7.857 |
安徽 | 5.653 | 甘肃 | 4.434 |
福建 | 5.698 | 青海 | 1.054 |
江西 | 3.79 | 宁夏 | 3.304 |
山东 | 11.918 | 新疆 | 7.286 |
河南 | 5.11 |
表1. 2012年各地区火灾发生次数数据
参数
各参数的全条件后验分布为:
该Gibbs抽样是直接从各参数的全条件后验中进行抽样的,取超参数
由上可以看出参数大部分都是在迭代2000次后趋于稳定,故将前2000次作为预迭代剔除出去,得到的结果见图3。
剔除前2000次最后得到的参数估计值(均值)及95%置信区间见表2。
图1. 部分参数后验直方图和密度曲线图
图2. 迭代10,000次的部分参数的动态均值
图3. 剔除前2000次的后验直方图和密度曲线图
序号 | 地区 | 参数 | 均值 | 置信下限 | 置信上限 |
---|---|---|---|---|---|
1 | 北京 | λ1 | 3.366557 | 3.31342 | 3.360541 |
2 | 天津 | λ2 | 2.078503 | 2.028595 | 2.080018 |
3 | 河北 | λ3 | 4.918985 | 4.927619 | 4.967373 |
4 | 山西 | λ4 | 3.814735 | 3.827368 | 3.909014 |
5 | 内蒙古 | λ5 | 7.434227 | 7.414996 | 7.466077 |
6 | 辽宁 | λ6 | 8.087923 | 8.110538 | 8.18734 |
7 | 吉林 | λ7 | 5.565465 | 5.485664 | 5.569156 |
8 | 黑龙江 | λ8 | 5.697199 | 5.648096 | 5.697268 |
9 | 上海 | λ9 | 4.358082 | 4.346526 | 4.399555 |
10 | 江苏 | λ10 | 7.589888 | 7.510398 | 7.579255 |
11 | 浙江 | λ11 | 3.440375 | 3.361206 | 3.431547 |
12 | 安徽 | λ12 | 5.584512 | 5.536405 | 5.574634 |
13 | 福建 | λ13 | 5.596041 | 5.595939 | 5.651254 |
14 | 江西 | λ14 | 3.721809 | 3.716697 | 3.756724 |
15 | 山东 | λ15 | 11.721 | 11.67724 | 11.75821 |
16 | 河南 | λ16 | 5.028443 | 4.929083 | 5.017305 |
17 | 湖北 | λ17 | 4.857016 | 4.856308 | 4.91549 |
18 | 湖南 | λ18 | 10.1198 | 10.14167 | 10.30233 |
19 | 广东 | λ19 | 7.984993 | 7.971372 | 8.048027 |
20 | 广西 | λ20 | 1.342791 | 1.350906 | 1.380346 |
21 | 海南 | λ21 | 0.688424 | 0.654358 | 0.68352 |
22 | 重庆 | λ22 | 3.72425 | 3.698123 | 3.726004 |
23 | 四川 | λ23 | 6.787429 | 6.686947 | 6.772387 |
24 | 贵州 | λ24 | 0.941195 | 0.934009 | 0.958631 |
25 | 云南 | λ25 | 1.23728 | 1.221238 | 1.240721 |
26 | 西藏 | λ26 | 0.191603 | 0.183452 | 0.193099 |
27 | 陕西 | λ27 | 7.665271 | 7.666456 | 7.76611 |
28 | 甘肃 | λ28 | 4.348795 | 4.323805 | 4.351662 |
29 | 青海 | λ29 | 1.04032 | 1.042944 | 1.076705 |
30 | 宁夏 | λ30 | 3.2596528 | 3.2189546 | 3.2548818 |
31 | 新疆 | λ31 | 7.1295013 | 7.1438106 | 7.2328882 |
32 | β | 0.03262869 | 0.03287894 | 0.03697632 |
表2. 参数置信区间
以上得到了31个地区的λ、β及其95%置信区间。在此基础上可对2012年以后火灾发生次数进行统
计推断。以北京地区为例,其火灾发生次数xi概率为
区2013发生1千次火灾的概率为c由于火灾发生次数数据的不可重复性,传统经典统计方法在样本量较小的情形下很难得到具有说服力的结论,而贝叶斯方法充分利用了历史数据中所包含的信息,通过Gibbs抽样,可推断下一期的火灾发生次数的概率,为消防部门的工作安排提供理论指导,具有很强的实际意义。
曹康. 基于Gibbs抽样的分层贝叶斯模型在火灾发生次数统计推断中的应用 Application of Hierarchical Bayesian Model Based on Gibbs Sampling in Statistical Inference of Fire Occurrences[J]. 统计学与应用, 2018, 07(02): 247-255. https://doi.org/10.12677/SA.2018.72029