基于机器学习对森林火灾的预测分析 Prediction and Analysis of Forest Fire Based on Machine Learning

doi:10.12677/SA.2016.52016

设为首页加入收藏期刊导航网站地图

期刊菜单

文章导航

Statistics and Application 统计学与应用, 2016, 5(2), 163-171

Published Online June 2016 in Hans. http://www.hanspub.org/journal/sa

http://dx.doi.org/10.12677/sa.2016.52016

文章引用: 刘丹. 基于机器学习对森林火灾的预测分析[J]. 统计学与应用, 2016, 5(2): 163-171.

http://dx.doi.org/10.12677/sa.2016.52016

Prediction and Analysis of Forest Fire Based

on Machine Learning

Dan Liu

College of Statistics and Mathematics, Yunnan University of Finance and Economics, Kunming Yunnan

Received: Jun. 8th, 2016; accepted: Jun. 27th, 2016; published: Jun. 30th, 2016

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

Abstract

Forest fire is a kind of destructive and huge disaster, which causes irreparable damage in the eco-

logical environment and brings great harm to human survival and life. Especially since the 1980s,

the global warming has continued, and forest fires occur more frequently, leading to huge eco-

nomic losses to the world each year. So how to predict, prevent or reduce the hazards of forest

fires become the common concern of many science disciplines. Rapid detection is an effective way

to predict forest fire. To achieve this goal, one approach is to use automated tools based on sensor

data, such as the data that meteorological stations offer. The study found that the meteorological

conditions (such as temperature, wind speed) are important factors influencing forest fires and

some fire indicators (such as forest fire weather index). Therefore, we will explore several ma-

chine learning methods to predict forest fire area. Using the data collected from Montesinho Na-

tional Park in Northeastern Portugal, and a variety of different machine learning techniques, such

as support vector machines (SVM) and random forests, four different characteristics (distribution

of space, time, climate indicators and FWI system indicator) were analyze d. The best results were

obtained using support vector machines and four basic meteorological inputs (such as tempera-

ture, relative humidity, wind speed and precipitation), which could accurately predict the damage

area of small-scale and frequent fires. The above prediction methods are of great significance for

improving the management and allocation of fire-fighting resources.

Keywords

Forest Fire, Machine Learning, Support Vector Machine, Random Forest

基于机器学习对森林火灾的预测分析

刘丹

164

云南财经大学统计与数学学院，云南昆明

收稿日期：2016年6月8日；录用日期：2016年6月27日；发布日期：2016年6月30日

摘要

森林火灾是一种破坏性及其巨大的灾难，在对生态环境造成难以挽回的破坏的同时还对人类生存与生活

带来极大的危害，特别是20世纪80年代以来，全球气候持续变暖，林火有上升的趋势，每年发生的森林

火灾都给世界各国造成了巨大的经济损失，使得对于如何预测、防治或减少森林火灾的危害成为许多学

科领域共同关注的科学任务。而快速检测正是预测森林火灾的一个有效途径。为了实现这一目标，一种

方法是使用基于传感器的自动工具，如气象观测站所提供的数据。研究发现，气象条件(如气温，风速)

是影响森林火灾发生和一些火灾指标(如森林火险天气指数)的重要因素。因此，我们将探讨几种机器学

习预测森林火灾面积的方法。利用来自葡萄牙东北部的Montesinho国家公园采集测试的真实数据，使用

多种不同的机器学习技术，如支持向量机(SVM)和随机森林，对四组不同的特征(分布空间，时间，气候

指标和FWI系统指标)进行分析。最好的结果是使用支持向量机和四个基本气象输入(如气温，相对湿度，

风速和降水量)，它能够准确预测规模较小且发生频繁的火灾的受灾面积。上述预测方法对于提高消防资

源的管理和调配有重大意义。

关键词

森林火灾，机器学习，支持向量机，随机森林

1. 引言

森林火灾已经成为备受关注的环境问题，不仅影响森林保护，还会造成巨大经济损失和严重的生态

破坏，给人类的生活带来灾难性影响。森林火灾的发生源于多种原因(如人为疏忽和闪电)，尽管越来越多

的国家斥巨资来控制这场灾难，全世界每年仍有数百万公顷的森林葬身火海。

近几年，快速检测已慢慢成为预测火灾的关键要素，但由于传统的监视费用昂贵且受主观因素的影

响较大，人们逐渐重视并发展自动化的解决方案。这些方案大致可分为三类：卫星，红外扫描仪和局部

传感器[1]。由于卫星定位的延迟和扫描仪高昂的设备成本和维护成本，这些方案不能用来解决所有的情

况。研究表明，天气条件，如气候和相对湿度，是影响火灾发生的关键因素。而自动气象站[2]通常可以

提供有效数据，这些数据可以实时采集且成本低廉。

在过去，气象数据已纳入量化指标体系，用以预防火灾危险、警告公众和支持消防管理决策。特别

是，加拿大森林火险天气指数(FWI)系统[3] [4]的设计，在上世纪 70年代计算机还十分稀缺的情况下它只

需要利用手动收集的四个气象观测读数(气候，相对湿度，风速和降水量)进行简单的计算。目前该指数系

统在加拿大和其他一些国家广泛使用。

现今，由于计算机技术的快速发展，使得对数据的采集越发的实效和便捷。机器学习就是信息技术

进步的一个体现，使用自动化的数据挖掘工具分析原始数据可以为高层决策者提取有效信息。事实上，

机器学习技术已经应用到火灾探测领域[5] [6]。例如采用神经网络(NN)预测人类引起的森林火灾；红外扫

描仪和神经网络结合在减少森林火灾误报率方面达到 90%的成功率；北美森林大火的卫星图像应用支持

向量机获得了 75%的准确率在森林火灾可能性上；使用卫星和气象数据应用逻辑回归、随机森林和决策

刘丹

165

树来探测斯洛文尼亚森林火灾。

学习上述方法，我们利用机器学习对森林火灾的发生做出预测，并分析的模型的错判率。我们使用

从葡萄牙东北部的 Montesinho 国家公园采集的最新数据预测森林火灾的受灾面积。应用多种方法(即多元

回归，支持向量机和随机森林)对四类指标进行分析(即分布空间，时间，气候指标和 FWI系统指标)。将

对四类不同性质的指标分别进行基于机器学习的数据分析，如气候指标(即气候，相对湿度，风速和降水

量)与支持向量机相结合，能够预测森林火灾的燃烧面积，构建火灾燃烧等级对未来的火灾防治和消防管

理决策是非常有用的。

2. 数据分析

2.1. 数据介绍

论文涉及的森林火灾数据来自葡萄牙东北部的Montesinho 国家公园的数据库，信息包含13 个变量：

Montesinho 国家公园的空间坐标；信息采集的月份和每周的其中一天；FWI 系统的指数变量 FFMC (细小

可燃物湿度码)、DMC (粗腐殖质湿度码)、DC (干旱码)和ISI (初始蔓延指数)；四种可直接测量的气温、

相对湿度、风速和降水量的气象数据；森林火灾燃烧的面积。

2.2. 变量解释

FWI 系统是由 6个部分组成：3个代表可燃物湿度的基本子指数，分别为细小可燃物湿度码(FFMC,

fine fuel moisture code)，粗腐殖质湿度码(DMC, duff moisture code)和干旱码(DC, drought code)；2个代表

可燃物扩散速率和消耗率的中间子指数，分别为初始蔓延速度(ISI, initial spread)和累积指数(BUI, build

up)；1个代表火强烈程度的最终指数，FWI。火险气候指数系统中所涉及的元素由每天测量的气温、相

对湿度、风速和降水量的气象数据中计算得到。

2.2.1. 细小可燃物湿度码 FFMC

FFMC 代表的是森林中地被物干质量为 0.25 kg∙m−2，厚度为 1.2 cm的枯枝落叶和其他的已经固化的

细小燃料的含水率。FFMC 是代表细小可燃物的可燃性和易燃性的指标，它受温度、降水、相对湿度和

风速的影响，值随着燃料含水率的变化而改变，其核心是一个简单的水分交换的指数模型：

() ()

147.2 101.059.5

FFMC FFMC

m cc

=×− +

。其中

为前一天的燃料含水率。

2.2.2. 粗腐殖质湿度码 DMC

DMC 代表的是森林地被物最上层厚度约为 7 cm，干质量为 5.00 kg∙m−2的有机物质的含水率。DMC

用来表明中等下层落叶层和中型木质物质的燃料消耗，DMC 模型是一个简单的水分交换的指数模型：

244.73

20.00 ln43.43

DMC

M−



=+ 

−



。其中

表示前一天的地表可燃物含水率。

2.2.3. 干旱码 DC

DC 代表的是森林地被物中干质量为 25.00 kg∙m−2，厚度为 18 cm的深层可燃物和粗死木残体的含水

率。干旱码用于衡量季节性干旱对森林燃料以及深层下层落叶层和大型段木的影响指标。DC 模型的核心

是一个简单的指数模型：

400

400 e

−

= ×

。其中

表示前一天干旱码的湿度指标。

2.2.4. 初始蔓延指数 ISI

ISI 代表的是火灾蔓延的潜在等级，由 FFMC 和风速两个指标决定。ISI 一直是表示火灾蔓延等级的

很好指标。

刘丹

166

3. 模型描述

3.1. 多元线性回归模型

将给定

12 3

,,,

ii i

xx x

条件下的均值

( )

120112 2

E |,

iiiiik ki

yxxx xx

ββ ββ

= ++++

(1)

定义为总体回归函数(Population Regression Function, PRF)。定义

( )

E |,,,

iii iki

yyxx x−

为误差项

(error term)，记为，即

()

E |,,,

iiii iki

yyxx x

= −

，这样

()

E |,,,

iii ikii

yyxxx

= +



，或

0112 2iiik kii

y xxx

ββ ββµ

= +++++

(2)

由于多元线性回归模型只能学习线性映射，它拟合本数据效果很差，本文为了解决这个问题，一种

替代的方法是使用基于树结构的方法，如决策树(DT)，或非线性函数，如支持向量机(SVM)。

3.2. 决策树(DT)模型

决策树大多是用来分类的。选择分类属性的标准是信息增益最大，涉及到熵的概念。而在做回归树

的时候，我们希望和回归有多一点联系，因此选择变量的标准我们用残差平方和。我们知道回归分析的

最小二乘的解就是最小化残差平方和。在决策树的根部，所有的样本都在这里，此时树还没有生长，这

棵树的残差平方和就是回归的残差平方和。然后选择一个变量也就是一个属性，这个变量使得通过这个

进行分类后的两部分的残差平方和的和最小。然后在分叉的两个节点处，再利用这样的准则，选择之后

的分类属性。一直这样下去，直到生成一颗完整的树。

3.3. 支持向量机(SVM)模型

支持向量机(support vector machine)是一种分类方法，而由 SVM发展出来的回归方法称为支持向量

回归(support vector regression)。假定其目的是把空间中的两类点(

1y= −

或

1y=

)用超平面

0xb

分

开(在严格线性可分的情况下，存在这样的超平面)。而且希望这个超平面距离两类点的距离最大，也就是

说，使得隔离带宽

ρω

最大。这等价于用 Lagrange 乘子法求下式的极小值

( )

,, 1

iii

Lbayxb

ωω αω



= −+−



∑

，根据得到的解

，

得到最优分割超平面方程

*T *

+ =

。任意点x的函数值

*T *

的符号确定了该点的分类，或者说判别函数为

( )

*T *

sgn xb

。

上面介绍的是严格线性可分的情况，如果允许一些错误，则称为近似线性可分问题，结果与此有同样的

形式。

3.4. 随机森林模型

随机森林作为一种组合分类器，采用 bootstrap 抽样技术从原始数据集中抽取

tree

个训练集，每个训

练集的大小约为原始数据集的三分之二。为每一个 bootstrap训练集分别建立分类回归树(Classification and

Regression Tree, CART)，共产生

tree

棵决策树构成一片“森林”，这些决策树均不进行剪枝(unpruned)。

在每棵树生长过程中，并不是选择全部

个属性中的最优属性作为内部节点进行分支(split)，而是从随

机选择的

try

mM≤

个属性中选择最优属性进行分支。集合

tree

棵决策树的预测结果，采用投票(voting)的

方式决定新样本的类别。

随机森林在训练过程中的每次 bootstrap抽样，将有约三分之一的数据未被抽中，这部分数据被称为

袋外(out-of-bag)数据。随机森林利用这部分数据进行内部的误差估计，产生 OOB 误差(out-of-bag error)。

Breiman 通过实验证明，OOB 误差是无偏估计，近似于交叉验证得到的误差。

刘丹

167

4. 实验验证及结果

4.1. 线性相关性分析

做出细小可燃物含水率(FFMC)与气象因子之间的相关性矩阵，查看他们之间的相关性。

从表 1可以看出 temp 与FFMC 成正相关，他们的相关性为 0.432；RH 与FFMC 成负相关，他们的

相关性为−0.301；wind 与FFMC 成负相关，他们的相关性为−0.028；rain 与FFMC 成正相关，他们的相

关性为 0.057。同时我们可以看出 temp 和RH 与FFMC 的相关性不是很强，wind和rain 与FFMC 几乎不

相关，在做线性回归时，可以不考虑变量 wind 和rain。

用R里面的程序包"car"中的 scatterplotMatrix函数，画出各个量之间函数图(图1)以及散点图(图2)。

从图 1和图 2我们可以看出气候变量与 FFMC 的线性相关性并不强，他们之间可能存在某种非线性

关系，本文主要考虑存在交互项和高次幂项的多元回归，同时也考虑机器学习方法中的决策树、随机森

林以及支持向量机等方法，我们用五折交叉验证方法验证模型的优劣性，选出最好的模型来预测 FFMC。

也许模型效果不好，我们认为主要缺少前一、两天 FFMC的数据，前一、两天 FFMC的数据对预测下一

天FFMC 的数据起着比较重要的作用。

4.2. 多元线性模型

用temp 和RH 作为变量的多元线性模型的输出结果可以看出，回归方程为：

0.378 0.102

FFMCtemp RH

y Xx

=⋅−⋅

，变量

temp

和变量

的t统计量的估计值为 8.106 和−2.181，由对应的

P值都比显著水平 0.05小，可得两个偏回归系数在显著水平 0.05下均显著不为零，进一步估计地剩余方

差

的估计值为 0.899，统计量的估计值为 61.73，由对应的 P值为 2.2e−16，说明回归方程显著，可决

系数

0.194R=

，修正的可决系数

0.191R=

，说明方程的拟合效果很差，主要原因是 temp 和RH 的相

关性不是很高，导致他们线性关系较差。

我们考虑非线性回归，在原模型上添加 temp 和RH 的交互项和二次项，模型输出结果可以看出，回

归方程为：

0.09 0.420.010.18

FFMCtempRHtemp RH

yXx xx=+⋅+ ⋅+ ⋅⋅

，变量

temp

、变量

和变量

temp RH

xx⋅

的

t统计量的估计值为 9.120、0.287和5.247，除

由对应的 P值比显著水平0.05 大，其余都比显著水平

0.05 小，可得除

偏回归系数在显著水平 0.05下均显著为零，其余两个偏回归系数在显著水平 0.05下

均显著不为零，进一步估计地剩余方差

的估计值为 0.8773，F统计量的估计值为 52.46，由对应的 P

值为 2.2e−16，说明回归方程显著，可决系数

0.235R=

，修正的可决系数

0.230R=

，说明方程的拟合

效果很差，主要原因是 temp 和RH 的相关性不是很高，导致他们线性关系较差。而逐步回归的结果：可

决系数

0.194R=

，修正的可决系数

20.191R=

，同样说明方程的拟合效果很差，故用传统的多元统计回

归模型不能很好的拟合该数据，可能数据受到一些极端值的影响，导致拟合效果很差。

Table 1. Table of linear correlation coefficient of meteorological factors

表1. 气象因子数据线性相关系数表

FFMC temp RH wind rain

FFMC 1.000 0.432 −0.301 −0.028 0.057

temp 0.432 1.000 −0.527 −0.227 0.069

RH −0.301 −0.527 1.000 0.069 0.099

wind −0.028 −0.227 0.069 1.000 0.061

rain 0.057 0.069 0.099 0.061 1.000

刘丹

168

Figure 1. Function diagram of data among variables

图1. 数据各变量之间的两两函数图

Figure 2. Scatter plots of climate variables on FFMC

图2. 气候变量对 FFMC的散点图

4.3. 决策树和随机森林

下面运用机器学习方法来拟合数据，首先使用机器学习中的回归树模型拟合数据，输出结果如图 3，

可以看出第一个节点是在 temp = 0.17 进行分支的，然后在 RH = −1.2 和temp = −2.4进行分支从决策树的

生成过程可以知道，主要根据 temp 和RH 进行分支，说明 temp 和RH 在决策树生成过程中起主要作用，

其他两个变量几乎不起作用。

刘丹

169

使用机器学习中的随机森林模型拟合数据，输出结果如图 4，我们可以看出随机森林回归过程中 temp

Figure 3. Decision tree

图3. 决策树

Figure 4. Importance of random forest variables

图4. 随机森林变量重要性

刘丹

170

起主要作用，RH 其次，wind 再次之，而 rain 起作用最小。我们通过五折交叉验证来判断上述模型的优

劣性。

五折交叉验证结果如表 2，我们看出多元统计模型在这些模型中是最优的，但是多元统计模型的MSE

= 1.259，说明模型拟合数据很很不好，可能是数据本身波动性较大。也许该数据适合用来回归。

4.4. 机器学习方法

由于数据回归效果不好，但该数据可以用来分类回归，在本文主要用 Logistic 回归和机器学习方法，

如决策树，人工神经网络回归，随机森林，支持向量机和 K近邻等方法处理数据。

Logistic 回归，决策树，人工神经网络回归，随机森林，支持向量机和 K近邻等的实验结果见表3。

从表 3可以看出这些方法的误判率都比较高，都在 40%左右，效果不是很好，这可能跟数据受到干

扰有关，随机森林和支持向量机的结果相对还是好一点，也许这些方法不能很好的拟合该数据，我们以

后会寻找更好的方法来拟合数据，使得我们的模型预测的精确度提高。

5. 结论

根据所做模型相关性分析气候向量必然与火灾发生有一定的相关性，直接利用 4种基本气候指标拟

合的线性回归并不是显著的，意味着 4种基本指标与森林燃烧面积可能是非线性相关的(本文由于数据的

非完整性并没能证明它们是非线性相关的)。

改进模型检测可以看出气候变量与 FFMC 的线性相关性也并不强，他们之间可能存在某种非线性关

系，考虑到存在交互项和高次幂项的多元回归，我们用五折交叉验证方法验证模型的优劣性，选出最好

的模型来预测 FFMC。得出模型效果仍然不好，我们认为 FFMC 数据的记录缺少时间上的连续性，并不

能在某个时间段中连续的观测出 FFMC的数值。

模型中我们先将燃烧面积大于0的数据看作森林火灾发生一次，生成一个新变量，变量为1时，火

灾发生，变量为 0时，利用机器学习方法来回归预测是否发生森林火灾。可以看出随机森林回归过程中

Table 2. Half off cross validation results

表2. 五折交叉验证结果

回归方法 MSE

多元统计回归 1.259

决策树 1.285

随机森林 1.278

Table 3. Machine learning half off cross validation results

表3. 机器学习五折交叉验证结果

分类方法误判率

Logistic 回归 0.487

决策树 0.412

随机森林 0.325

人工神经网络 0.433

支持向量机 0.362

K近邻 0.507

刘丹

171

temp 起主要作用，RH 其次，wind 再次之，而 rain 起作用最小，虽然检测模型的误判率一度达到 40%，

但我们仍觉得在森林火灾的发生很大程度上取决于 temp，控制temp 的临界值(或者临界区间)可以很好的

预防森林火灾的发生。

参考文献 (References)

[1] Cortez. P. and Morais, A. (2007) A Data Mining Approach to Predict Forest Fires Using Meteorological Data.

http://www3.dsi.uminho.pt/pcortez/fires.pdf

[2] 曲智林, 胡海清. 基于气象因子的森林火灾面积预测模型[J]. 应用生态学报, 2007, 18(12): 2705-2709.

[3] 袁建, 江洪, 信晓颖. 基于 FWI 的浙江省森林火险等级划分[J]. 福建农林大学学报: 自然科学版, 2013, 42(3):

283-288.

[4] 田晓瑞, Douglas J. McRae, 舒立福, 赵凤君, 王明玉. 大兴安岭地区森林火险变化及 FWI适用性评估[J]. 林业科

学, 2010, 46(5): 127-132.

[5] 王正旺, 庞转棠, 魏建军, 杨艳萍, 杨梅红. 森林火险天气等级预测及火情检测应用[J]. 自然灾害学报, 2006,

15(5): 154-161.

[6] 牛若芸, 翟盘茂, 孙明华. 森林火险气象指数及其构建方法回顾[J]. 气象, 2006, 32(12): 3-9.

再次投稿您将享受以下服务：

1. 投稿前咨询服务 (QQ、微信、邮箱皆可)

2. 为您匹配最合适的期刊

3. 24小时以内解答您的所有疑问

4. 友好的在线投稿界面

5. 专业的同行评审

6. 知网检索

7. 全网络覆盖式推广您的研究

投稿请点击：http://www.hanspub.org/Submission.aspx