随着位置信息服务的日益普及,位置信息中包含的个人隐私信息逐渐受到了人们的广泛关注。学术界近年来对位置隐私保护问题进行了深入研究并提出了一系列实现技术。本文对位置隐私保护技术的研究进展进行综述。首先介绍基于位置的服务系统的基本框架及其面临的风险,然后将位置隐私保护技术划分为四类,包括空间模糊化、虚拟对象技术、隐私信息检索和差分隐私保护技术,详细讨论它们的基本原理及有代表性的实现方法,并在此基础上进行性能上的分析和比较。最后归纳总结位置隐私保护进一步的研究方向。 While location-based services (LBSs) have become increasingly popular and provided enormous benefits in daily life, location privacy of individuals has been confronted with serious concerns. To address the issue, a number of location privacy preserving techniques have been proposed during the last decade. This paper surveys the state of the art of location privacy preserving techniques. Firstly, we introduce the general framework of LBS system as well as the potential threats to LBS user. Then we group the location privacy preserving techniques into four categories including space cloaking, dummy-based method, private information retrieval, and differential privacy- based method. The general principle and representative techniques of each category are discussed in detail respectively and a comparison of the techniques is presented. Finally, we summarize some new research directions and make a conclusion.
卢小丹,张乐峰,熊平
中南财经政法大学信息与安全工程学院,湖北 武汉
Email: lxd0937@126.com
收稿日期:2016年6月15日;录用日期:2016年6月24日;发布日期:2016年6月28日
随着位置信息服务的日益普及,位置信息中包含的个人隐私信息逐渐受到了人们的广泛关注。学术界近年来对位置隐私保护问题进行了深入研究并提出了一系列实现技术。本文对位置隐私保护技术的研究进展进行综述。首先介绍基于位置的服务系统的基本框架及其面临的风险,然后将位置隐私保护技术划分为四类,包括空间模糊化、虚拟对象技术、隐私信息检索和差分隐私保护技术,详细讨论它们的基本原理及有代表性的实现方法,并在此基础上进行性能上的分析和比较。最后归纳总结位置隐私保护进一步的研究方向。
关键词 :基于位置的服务,位置隐私,隐私保护,差分隐私
随着智能手机和无线网络的广泛应用,移动应用近年来呈现出爆炸式的增长。据统计2014年全球移动应用的使用量增长了76% [
近年来,学术界对位置隐私保护问题进行了广泛的研究,并提出了一系列保护方法。从已有的位置隐私保护技术来看,可以将其分为四类,即空间模糊化、虚拟对象、隐私信息检索(Privacy Information Retrieval, PIR)和差分隐私保护。其中,空间模糊化技术是将用户的真实位置模糊成一个满足用户个性隐私需求的空间,并用模糊后的空间代替精确位置提交给位置信息服务器处理;虚拟对象技术将虚拟的对象与真实对象混合在一起作为位置服务请求发送者,使攻击者无法实现位置与用户的准确映射,这种方法的研究重点在于如何合理的选择虚拟对象;PIR技术是基于不可信数据库提出的隐私保护技术,它能实现用户访问服务器的同时阻止服务器获知用户访问内容,提供了高水平的隐私保护,该技术最大的挑战在于设计一个好的检索算法来加快检索效率和降低存储空间;差分隐私是近年来提出的一种新的隐私保护定义,由于其独立于攻击者的背景知识,并提供了严格的、可证明的隐私保护,成为目前隐私保护领域的一个研究热点。
本文首先分析LBS系统所面临的隐私泄露风险,然后对以上四类隐私保护技术的基本原理和实现方法进行综述,通过对已有研究成果的梳理,详细分析和比较这些技术的优缺点,最后探讨位置隐私保护技术在未来的研究方向。
LBS的基本结构(如图1)通常由4个部分构成:移动终端、定位系统、传输网络和位置信息服务器 [
图1. LBS系统的基本结构
端。用户及查询结果的位置信息由定位系统提供。可见,位置信息是LBS网络中传输的最核心数据,也是位置隐私保护的对象。
在LBS体系结构中,传输网络和LBS服务器被认为是存在安全威胁的不受信任方。用户的请求信息有可能在传输网络中被截获和分析,也有可能在服务器端被非授权的泄露,从而对用户隐私造成威胁。位置隐私威胁并不仅仅指位置信息的泄露,更重要的在位置信息暴露后受到的与时间和空间相关的推理攻击 [
(1) 物理威胁:攻击者直接攻击传输网络或者服务器等物理设备获取用户最原始的位置信息;
(2) 推理威胁:攻击者在获得用户的位置信息后,利用观察、推理、挖掘等技术推断出关于用户的隐私信息 [
(3) 联合攻击:攻击者在获得用户位置信息后联合用户使用的其他移动应用等外部资源,对用户隐私进行更深度的挖掘。例如,攻击者可以联合用户的社交网络信息来挖掘用户朋友的隐私信息 [
显然,物理威胁只涉及到用户的物理位置信息,推理威胁会危及到用户的个人身份信息,联合攻击则影响到了用户的整个生活环境。位置隐私的泄露是导致以上威胁的根本原因。
近年来,学术界对位置隐私保护的研究取得了丰富的成果,各种隐私保护理论与模型在位置隐私保护中得到应用。本节对已有的位置隐私保护技术进行梳理和比较。
空间模糊化技术 [
之后的研究对k-anonymity模型进行了改进以克服这些缺点。文献 [
Casper模型主要解决了查询快照中的位置隐私保护问题,但用户是不断运动的,连续位置之间的相关性往往可以被攻击者利用并进行相关位置攻击。相关位置攻击指攻击者利用用户运动位置之间的相关性推理用户精确位置的攻击方式。如图3(a)所示,
对此,文献 [
从实际应用效果来看,空间匿名技术能够为位置隐私保护提供了一个个性化的解决方案,但其缺点在于对区域的人口密度比较敏感。另外,匿名器的处理性能及其自身的安全性都会影响到空间匿名技术的应用效果。
图2. Casper模型的数据结构
图3. 相关位置攻击。(a)位置的正向推导;(b)位置的逆向推导
图4. iCliqueCloak模型的要求
Dummy [
文献 [
图5. 基于圆的虚拟位置
图6. 基于网格的虚拟位置
Dummy的生成方式解决了Casper模型过于依赖区域人口密度的缺点,但其自身的缺点也不可忽视,PAD算法中取得虚拟位置的方法过于规则化,而忽略了实际的地理特征。例如,按照这种规则化的方式选取的虚拟位置可能在现实环境中根本不可能有活动对象出现,那么这个虚拟位置就失去了混淆攻击者的功能。类似的,如果攻击者预先掌握了一些背景知识,例如地理环境、区域人口密度、运动最大速度等,即可实施背景知识攻击 [
文献 [
H值越大说明匿名效果越好。由式(1)可知,当所有参与匿名的k个位置的热门程度相同,即pi为1/k时,H值达到最大。如图7所示,DLS模型选取的虚拟位置分布在与真实位置热门程度接近的区域中。
使用Dummy的位置隐私保护机制的优点在于能够摆脱对现实环境的过度依赖,无论在人口密集区
图7. DLS模型中虚拟位置的选取
还是稀疏区都能较好地满足用户的隐私需求,提高了匿名化的成功率。但这些方法共同的不足在于,攻击者所掌握的背景知识是难以量化和准确建模的,因此在选取虚拟对象时往往忽略了对背景知识的考虑或者仅仅根据特定的背景知识假设提出针对性的解决方案,这样的保护机制无法应对基于新的背景知识的攻击。
隐私信息检索(private information retrieval, PIR)是一种客户与服务器通信的安全协议,能够保证服务器无法识别客户在查询数据库时具体的查询对象,从而防止服务器端根据客户的查询对象来确定客户的兴趣点进而推断客户的隐私信息,因其能够提供了高水平的隐私保护,成为位置隐私保护的主要技术之一 [
在服务器中储存了整个地区的地图和兴趣点(points of interest, POIs)信息,LBS根据索引结构将DB划分为几个子数据库DB1, DB2, …, PIR处理器根据用户的请求对DB1, DB2, …进行查询,并将结果返还给用户。在信息查询过程中,PIR处理器就像一个黑盒子自动完成查询而不让服务器知道它访问了哪些子数据库。因此,这类方法的研究重点在于如何设计索引结构和访问顺序从而减少执行的检索复杂度和储存空间。文献 [
图8. 基于硬件PIR的LBS系统结构
域用网格表示,并用Hilbert值表示每个网格单元,同时建立了3个数据库DB1, DB2, DB3来分别存储POI的不同信息。DB1按照H值的顺序存储每个网格单元中POI的数量信息,DB2按照H值存储每个POI的ID、坐标和指向DB3的指针,DB3存储了每个POI的其他详细信息。这样的存储结构能够在不遍历整个数据库的前提下高效地进行kNN (k Nearest Neighbor)查询。首先根据用户的位置信息在DB1中查找kNN,然后在DB2中确定kNN的ID和坐标,并根据指针在DB3中获取kNN的详细信息。除此之外,还为每个查询建立了查询计划,保证每个查询都按照同样的顺序和次数进行检索,以避免外部的模式攻击。
PIR协议能够对用户请求、信息检索及结果返回等整个通信过程都提供可靠的保密性,因此受到越来越多的关注。PIR除运用在查询快照的位置隐私保护中,还被广泛应用在近邻查询和最短路径查询中 [
差分隐私是由Dwork在2006年提出的一种新的隐私安全定义 [
则称算法M提供ε-差分隐私保护,其中ε称为隐私保护预算。从原理上看, 隐私实质上是将数据集的精确查询结果转化为一个分布,使得对两个邻近数据集进行查询得到相同结果的概率几乎相同。Laplace机制 [
由于差分隐私无需考虑攻击者掌握的任何背景知识,并能提供严格可证明的隐私保护,因此在隐私保护数据发布 [
为此,文献 [
则称K在半径r内满足ε-地域不可分,其中ε表示每单位距离的隐私保护水平。这一定义表明,对于两个非常接近的真实位置x1和x2,它们产生相同新位置z的概率分布也越接近;反之,随着x1和x2距离增大,产生相同新位置z的概率分布则可以相差较大,两个概率分布之间的差异由隐私保护水平
如何降低噪声量是差分隐私在应用中无法回避的问题。文献 [
图9. 隐私保护水平随r发生变化
(PriLocation)。位置数据发布的内容通常包括用户到过的位置集及其统计频次,如果直接应用差分隐私来保护发布的内容,将会因为位置频次的稀疏性导致噪声量过大。PriLocation算法由位置聚类、权重干扰、位置选择等三个操作构成,首先根据距离将所有位置划分到k个簇中,每个位置则泛化为其所在的簇;然后将每个用户的位置统计频次转化为簇的频次统计,并用Laplace噪声进行干扰;最后利用指数机制从涉及的簇中选择位置作为用户到过的位置。由于簇的数量要远小于位置的数量,使得加入噪声的次数急剧减少,从而降低了噪声量。
差分隐私的主要优点在于它对攻击者所掌握的背景知识完全免疫,能够为用户提供强健的隐私保护。但从其在位置隐私保护中的应用效果来看,在有些方面还有待继续深入的研究,包括:(1)在处理高敏感度查询时,添加的噪声过大,会极大地降低数据的可用性;(2)给定的隐私预保护算会限制数据查询次数;(3)计算复杂度普遍较高。
由于无线通信技术和LBS服务模式的不断创新,位置隐私保护技术目前以及未来的一段时期仍将处于研究的高峰期。本节对现有的实现技术进行了分类梳理,将这些技术分为了四类,包括空间模糊化、虚拟对象、PIR和差分隐私,并分别对其中的代表性成果进行了介绍和分析。每一类的技术都有其各自的优缺点和适用范围,它们在隐私保护水平、运行开销以及主要优缺点等方面的比较如表1所示。
总的来看,空间模糊化和虚拟对象技术相对成熟,能够较好地达到数据安全性和可用性的平衡,在目前来说,实用性相对较好;PIR技术由于基于密码学基础,能够提供高水平的隐私保护,但计算代价高是其主要劣势,因此主要更适合于安全级别要求较高的场合;差分隐私能够提供可控的和可证明的隐私保护,但噪声大进而影响到数据可用性是有待继续研究的问题。
位置隐私保护是一个相对年轻的研究领域,从目前的研究现状来看,在理论基础和实现技术等许多方面尚有待深入研究。同时,随着移动通信业务的不断推陈出新,位置隐私保护也必将面临更多的挑战,其未来的研究方向主要包括以下几个方面:
(1) 隐私保护参数的设置与优化
位置隐私保护技术在理论上都是基于一些隐私保护模型,例如k-anonymity [
种类 | 隐私保护水平 | 复杂度 | 性能 | 优点 | 缺点 |
---|---|---|---|---|---|
空间模糊化 | 中 | 中 | 高 | 能通过调整隐私保护参数来达到 较好的数据安全性和可用性的平衡 | 对用户密度过于敏感. |
虚拟对象 | 中 | 中 | 高 | 能通过调整隐私保护参数来达到 较好的数据安全性和可用性的平衡 | 不能抵抗背景知识攻击 |
PIR | 高 | 高 | 中 | 适用于具有较强的隐私水平 和一般实用性的特定应用程序 | 运行开销高,所需存储空间较大 |
差分隐私 | 高 | 高 | 中 | 提供可证隐私保护, 能对抗背景知识攻击 | 大量的噪声导致可用性降低 |
表1. 位置隐私保护技术比较
(2) 个性化的位置隐私保护方案
在现实当中,对隐私保护的需求往往因用户或地域的不同而有很大的区别。但目前的位置隐私保护方案大多并没有考虑这些多样化的需求,隐私保护系统往往工作在某种统一的设置下。虽然有些研究已经意识到这个问题并提出了相应的解决方法 [
(3) 社交网络中的位置隐私保护
社交网络的风靡对隐私保护提出了新的挑战 [
随着LBS的广泛应用,位置隐私保护问题受到了学术界、政府部门、消费者和产业界的多方关注。本文对LBS的一般体系结构和存在的位置隐私威胁进行阐述和分析,介绍了目前主要的位置隐私保护技术,并对各自的适用范围及优缺点进行了详细的分析和对比。最后,结合位置隐私保护的研究现状,指出了该领域在未来的研究方向。
国家自然科学基金项目(61304067);湖北省自然科学基金项目(2014CFB354);中央高校基本科研业务费专项资金(31541511301)。
卢小丹,张乐峰,熊平. 位置隐私保护技术研究综述A Survey on Location Privacy Preserving Techniques[J]. 计算机科学与应用, 2016, 06(06): 354-367. http://dx.doi.org/10.12677/CSA.2016.66044