Artificial Intelligence and Robotics Research
Vol.07 No.01(2018), Article ID:23959,9 pages
10.12677/AIRR.2018.71004

Research on WIFI Probe Data Preprocessing for Indoor Location

Zhenya Zhang1, Huaqian Cao1, Qinqin Nie1, Mengjie Dong1, Hongmei Cheng2, Ping Wang1

1Anhui Province Key Laboratory of Intelligent Building & Building Energy Saving, Anhui Jianzhu University, Hefei Anhui

2School of Economics & Management, Anhui Jianzhu University, Hefei Anhui

Received: Feb. 9th, 2018; accepted: Feb. 21st, 2018; published: Feb. 28th, 2018

ABSTRACT

To verify the feasibility of identifying whether a WIFI terminal is within a designated indoor area based on RSSI value collected by multi WIFI detector, data preprocessing task for the construction of detection data set is divided into three phase such as WIFI probe data parsing, time frame Numbering for probe data and the construction of indoor occupant location oriented data set in this paper. Flow charts for those three phases are given. In this paper, a BP neural network based discriminator for the identification that whether a WIFI terminal is within a designated indoor area is implemented with multi RSSI vector as input. And experimental results show that the precision of the discriminator for indoor area location is high. It is feasibility of identifying whether a WIFI terminal is within a designated indoor area based on multi RSSI detected.

Keywords:WIFI Detector, Received Signal Strength Indication, Discriminator, BP Neural Network

面向室内定位的WIFI探针数据预处理研究

张振亚1,操华茜1,聂芹芹1,董梦杰1,程红梅2,王萍1

1安徽建筑大学智能建筑与建筑节能安徽省重点实验室,安徽 合肥

2安徽建筑大学经济与管理学院,安徽 合肥

收稿日期:2018年2月9日;录用日期:2018年2月21日;发布日期:2018年2月28日

摘 要

为验证依据多探针同时感知到的同一WIFI终端的RSSI值辨识WIFI终端是否在指定区域内的可行性,本文围绕多探针数据集的构造将将WIFI终端数据预处理流程划分为探针探测数据集解析、探针探测数据时间帧编号、面向室内人员定位的探针数据构造等三个阶段,并设计了相关预处理任务的流程并进行了实现。实验结果表明,以预处理后的数据为输入,基于BP神经网络的判别器可以以很高的准确率判别WIFI终端是否在指定的区域内,依据多探针同时感知到的同一WIFI终端的RSSI值辨识WIFI终端是否在指定区域内是可行的。

关键词 :WIFI探针,接收信号的强度指示,判别器,BP神经网络

Copyright © 2018 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

通常,建筑物内人员数量、人员流量和人员位置分布都是建筑节能实现可利用的重要基础数据 [1] [2] [3] 。准确获知建筑物内人员的相关准确信息(包含数量、流量、位置、分布等)对建筑的智能运行以及建筑节能管理具有重要意义 [4] 。近目前,室内人员计数研究及其在建筑节能领域的应用已成为学术界和工业界的研究热点 [5] [6] 。其中,无需额外的硬件发射设备、基于WIFI技术的人员定位以其廉价、无需待估计人员主动参与的被动式室内人员自动计数方法由为研究者和工业界所关注 [7] [8] 。

WIFI通信过程中,只要WIFI模块开启,无论是否已经成功接入到某个AP,终端都会间歇性地、明文形式的突发地广播WIFI探测请求(probe request)帧。该帧中含有终端的MAC地址、接收信号强度(RSSI)等信息。WIFI探针即利用WIFI探测请求帧的明文特性,监测并解析出其中的有用信息。为实现建筑物内指定区域内人员数量比较准确的计量,我们设计了一个基于多个WIFI探针的室内人员技术系统。本文讨论了使用多个WIFI探针的探测数据计量建筑物内指定区域内人员数量时的数据预处理过程,并使用了一个基于BP神经网络的判别器对依据多探针同时感知到的同一WIFI终端的RSSI值辨识WIFI终端是否在指定的区域内的可行性进行了实验验证。

2. 探针探测数据集解析

系统中,每个探针周期性的将探测到的WIFI终端信息发送到数据库服务器,数据库服务器中,探针探测到的一个WIFI终端的信息被保存到表格TZD中。表格TZD定义了ID、tID、tData、tTime四个字段,其中:ID字段为增量为1的标识字段,用于标识每一条被探测到的WIFI终端的信息;tID为探测到该条WIFI终端的信息的探针的名字;tData为探针探测到的WIFI终端相关信息;tTime为该条探测信息被保存到数据库的时间。依据探针数据协议中规定的格式,需要将存储在tData字段中的内容解析为WIFI终端MAC地址、AP点MAC地址、信号大类类别、信号小类类别、传输信道、信号强度等信息。最终,表格TZD的每一行被保存为表格Analyze_LocTZdata的一行。数据集解析的流程如图1示意。

表格Analyze_LocTZdata的字段包括timeFrameCounter、ID、tID、tData、tTime、WIFI终端MAC地址、AP点MAC地址、信号大类类别、信号小类类别、传输信道、信号强度、解析时间、终端位置locClass、终端水平位置locX、终端水平位置locY。其中,ID、tID、tData、tTime字段的取值为表格TZD对应字段的取值;WIFI终端MAC地址、AP点MAC地址、信号大类类别、信号小类类别、传输信道、信号强

Figure 1. Flow chart for data parser

图1. 数据解析流程

度等字段的取值从表格TZD中tData字段取值中解析获得;解析时间字段的取值为解析tData字段完成后的时间;终端位置locClass取值为WIFI终端所在区域的标识,取值为0时表示在区域外,1表示为在区域内;终端水平位置locX、终端水平位置locY字段的取值为WIFI终端所在位置的横坐标和纵坐标;timeFrameCounter为数据采集时间tTime的时间帧编号。

探针探测数据存储表格TZD中的数据被解析到Analyze_LocTZdata表格时,timeFrameCounter、终端位置locClass、终端水平位置locX、终端水平位置locY取值均为空。其中,终端位置locClass、终端水平位置locX、终端垂直位置locY的取值需通过人工标注,而timeFrameCounter由专门的编码过程赋值。

3. 面向室内人员定位的探针数据构造

考虑到WIFI终端发送probe帧的随机性和突发性,本文相关的研究在使用WIFI探针计量建筑物内指定区域内人员数量时将一段时间内被WIFI探针感知到的全部WIFI终端信息作为一个时间帧内被探针系统感知到的WIFI终端信息。全部时间帧自1开始顺序编号。因此,对表格Analyze_LocTZdata,需要根据每行tTime的取值确定timeFrameCounter的值。图2给出了对Analyze_LocTZdata的每一行的timeFrameCounter字段的赋值流程。图2示意的流程中,起始时间timeStart、时间帧长度timeInterval是

Figure 2. Flow chart for the numbering of time frame for probe data

图2. 探针数据的时间帧计数流程

必须的输入;timeFrameCounter的值逐1增加,时间格式为YYYY-MM-DD hh:mm:ss,精确到毫秒。

为准确的判定WIFI探针感知到的WIFI终端是否在指定区域内,研究在指定区域内部署了4个探针,只有当4个探针在同一时间帧内都感知到某一WIFI终端时才对该终端是否在指定区域内进行判定。所以需要从解析后的WIFI探针数据集中提取具timeFrameCounter取值相同、被4个探针分别感知的WIFI终端的数据。虽然分析的目的以及所使用的分析模型不进相同,但目标数据的基本格式可以表述为四元组rssiV = (RSSI1, RSSI2, RSSI3, RSSI4),其中RSSIi表示第i个探针感知到WIFI终端的probe帧时测得的接收信号的强度指示(Received Signal Strength Indication)值。为适合判断是否在指定区域内的室内定位模型构建,研究使用的数据是四元组rssiV形式基本格式的扩展,rssiV’ = (RSSI1, RSSI2, RSSI3, RSSI4, locStatus),其中,locClass为WIFI终端所在区域的标识,取值为0时表示在区域外,1表示为在区域内。从解析后的数据表格Analyze_LocTZdata中构造目标数据集的流程由图3给出。

Figure 3. Flow chart for the construction of indoor occupant location oriented data set

图3. 探针定位模型数据集构造流程

图3中:所谓构造原始矩阵所需的列是指从Analyze_LocTZdata中构造具有timeFrameCounter、WIFI终端MAC地址、信号强度、终端位置locClass等列的子视图;而最终数据集矩阵Dataset是指为便于不同研究平台下数据共享而以excel文件格式保存好的目标数据。

4. 实验结果与分析

为快速验证基于上述探针探测数据集解析、面向室内人员定位的探针数据构造等步骤以及流程所构造的数据集的有效性,研究在Matlab环境中使用BP神经网络快速实现了一个辨识WIFI终端是否在指定区域判别器:1) 该判别器以四个WIFI探针在同一时间帧内嗅探到的同一WIFI终端的RSSI值为输入,每个WIFI探针对应着一个输入神经元,即该判别器使用的BP神经网络有四个输入神经元;2) 该判别器使用的BP神经网络的输出层包含一个输出神经元,该神经元输出值为1时表明被感知的WIFI终端在指定的区域内,而输出值为0时表明被感知的WIFI终端在指定的区域外;3) 该判别器使用的BP神经网络有1个隐层,包含5个隐含神经元;4) 该判别器使用的BP神经网络隐层神经元的激活函数为

f ( x ) = tan s i g ( x ) = 2 1 + e 2 x 1 ,输出层神经元的激活函数为 f ( x ) = purelin ( x ) = x 。试验中,对训练完成

的判别器,若其使用的BP神经网络的输出值x时,若 x ε ,则认为判别器的输出为1,否则认为判别器的输出为1,其中ε为实现指定的阈值。

实验使用的数据为我们部署在智能建筑与建筑节能安徽省重点实验室物联网应用研究室的WIFI探针系统采集到的WIFI终端数据;关注的WIFI终端共16部,7部放在室内的不同位置,9部放在室外走廊的不同位置。

实验中,全部数据分成样本数据和测试数据两部分。实验中,对每一个采样率,判别器被重复1000次构造并计算判别的准确率。图4显示了当采样率从0.005到0.995变化时,使用基于BP神经网络的WIFI终端是否在指定区域判别器判别的准确率随着采样率的变化而变化的情况。图4中,横坐标表示采样率,纵坐标表示识别的准确率。图4中,蓝色实线表示对样本数据进行判别时判别准确率的平均值随

Figure 4. Effecting of sampling ratio on identification precision

图4. 采样率对识别准确率的影响

着采样率的变化情况,红色虚线表示对测试数据进行判别时判别准确率的平均值随着采样率的变化情况。显然,在采样率不需要很大时,基于样本数据,判别器可以以较高的准确率(90%)辨识WIFI终端是否在指定的区域中。类似的结论对测试数据依然成立。这表明,依据多探针同时感知到的同一WIFI终端的RSSI值判别WIFI终端的位置是可行的。

表1出来了采样率为0.1、0.2、∙∙∙、0.9时,使用判别器判别WIFI终端是否在指定区域内的误判情况。表1中,错误率1表示被样本数据的判别错误情况,错误率2表示被测试数据的判别错误情况。显然,对不同的采样率,使用基于BP神经网络的判别器辨识WIFI终端是否在指定区域内不仅保持较低的错误率,且错误率的变化较稳定,这进一步表明,依据多探针同时感知到的同一WIFI终端的RSSI值判别WIFI终端的位置是可行的。

表1中可以发现,虽然在采用率比较小的时候无论是错误率1还是错误率2的平均值都保持较低的水平,但是由于方差都比较大(与错误率在同一数量级)。从图5图6可以更直观的发现同样的现象:

Table 1. Sample rate VS identification error rate

表1. 采样率与识别错误率

Figure 5. Effecting of sampling rate on error rate (error1, with standard deviation)

图5. 采样率对样本数据识别错误率(error1)的影响(带标准差)

Figure 6. Effecting of sampling rate on error rate (error2, with standard deviation)

图6. 采样率对样本数据识别错误率(error2)的影响(带标准差)

图5图6分别以及给出的是采样率对样本数据识别错误率(error1)的影响采样率对测试数据识别错误率(error2),显然,无论从图5还是图6都可以发现,当采样率较小时,判别器识别的误差率波动较大。因此故实际应用中需要选取合适的采样率,在辨别器的训练时间、错误率以及错误率的稳定性三个性能指标之间进行平衡。

5. 结论与研究展望

围绕WIFI探针系统采集到的WIFI终端数据的预处理,本文将WIFI终端数据预处理流程划分为探针探测数据集解析、探针探测数据时间帧编号、面向室内人员定位的探针数据构造等三个阶段。并在对每个阶段的任务目标厘清的基础上设计了相关预处理任务的流程并进行了实现。实验结果表明,所获得的预处理后的WIFI终端数据被当作基于BP神经网络的判别器的输入时,该判别器可以以很高的准确率判别WIFI终端是否在指定的区域内。基于BP神经网络的判别器的性能表明依据多探针同时感知到的同一WIFI终端的RSSI值辨识WIFI终端是否在指定的区域内是可行的。

为更好的提升基于BP神经网络的判别器在辨识WIFI终端是否在指定的区域内时的准备率,基于BP神经网络的判别器的优化,包括BP神经网络的隐层数、隐层神经元的数量、判别器阈值都是值得优化的参数。进一步,由于BP神经网络中要求所有非输入神经元的激活函数一阶可导,而是否在指定区域内的0/1辨识结果是离散的的,因此,结合具体的应用需求,面向离散判别的基于神经网络、辨识WIFI终端是否在指定区域内的判别器的前向神经网络架构以及训练方法是值得探索的楼宇智能化实现相关的研究。

基金项目

本文受国家重点研发计划项目“新型建筑智能化系统平台技术”(2017YFC0704100)、国家自然科学基金(11471304)部分资助。

文章引用

张振亚,操华茜,聂芹芹,董梦杰,程红梅,王萍. 面向室内定位的WIFI探针数据预处理研究
Research on WIFI Probe Data Preprocessing for Indoor Location[J]. 人工智能与机器人研究, 2018, 07(01): 34-42. http://dx.doi.org/10.12677/AIRR.2018.71004

参考文献 (References)

  1. 1. Kim, Y.S. and Srebric, J. (2017) Impact of Occupancy Rates on the Building Electricity Consumption in Commercial Buildings. Energy and Buildings, 38, 591-600. https://doi.org/10.1016/j.enbuild.2016.12.056

  2. 2. Rahman, K.A., Hariri, A., Leman, A.M. and Yusof, M.Z. (2017) Energy Consumption in Residential Building: The Effect of Appliances and Human Behavior. AIP Conference Proceeding.

  3. 3. Oldewurtel, F., Sturznegger, D. and Morari, M. (2013) Importance of Occupancy Information for Building Climate Control. Applied Energy, 101, 521-532. https://doi.org/10.1016/j.apenergy.2012.06.014

  4. 4. Shen, W.M., Newsham, G. and Gunay, B. (2017) Leveraging Existing Occupancy-Related Data for Optimal Control of Commercial Office Buildings: A Review. Advanced Engineering Informatics. https://doi.org/10.1016/j.aei.2016.12.008

  5. 5. Bahl, P. and Pad-manabhan, V.N. (2000) RADAR: An In-Building RF-Based User Location and Tracking System. Proceeding of IEEE Infocom, 26-30 March 2000, 775-784. https://doi.org/10.1109/INFCOM.2000.832252

  6. 6. Jia, M., Srinivasan, R.S. and Raheem, A.A. (2017) From Occupancy to Occupant Behavior: An Analytical Survey of Data Acquisition Technologies, Modeling Methodologies and Simulation Coupling Mechanisms for Building Energy Efficiency. Renewable and Sustainable Energy Reviews, 68, 525-540. https://doi.org/10.1016/j.rser.2016.10.011

  7. 7. Candanedo, L.M., Feldheim, V. and Deramaix, D. (2017) A Methodology Based on Hidden Markov Models for Occupancy Detection and a Case Study in a Low Energy Residential Building. Energy and Buildings, 148, 327-341. https://doi.org/10.1016/j.enbuild.2017.05.031

  8. 8. Gu, Y., Lo, A. and Niemegeers, I. (2009) A Survey of Indoor Positioning Systems for Wireless Personal Networks. IEEE Communications Surveys and Tutorials, 11, 13-32. https://doi.org/10.1109/SURV.2009.090103

期刊菜单