差分隐私下的频繁模式挖掘算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lxlove584
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今我们生活在数据时代。通过数据挖掘和机器学习能够从数据中获得大量有价值的知识。与此同时,数据亦是危险的“潘多拉之盒”,一旦泄漏用户的隐私将被侵犯。如何保护隐私数据成为当前面临的重大挑战。  差分隐私作为一种新的隐私保护技术,定义了一个相当严格的攻击模型,通过添加噪音使数据失真达到隐私保护的目的,能够防止攻击者拥有任意背景知识下的攻击。实施差分隐私主要考虑两个方面的问题:(1)如何保证设计的算法满足差分隐私,以确保不泄露隐私;(2)如何减少数据失真带来的误差,以提高数据可用性。  目前差分隐私的应用研究主要集中在两个方向:数据发布和数据分析。频繁模式挖掘是一项重要的数据挖掘任务,是数据分析的基础。然而,频繁模式本身和相应计数信息都有可能泄露用户的隐私。差分隐私下的频繁模式挖掘算法研究,主要考虑在保护频繁模式本身和相应计数信息不被披露即满足差分隐私的同时,如何提高数据的可用性。  本论文主要取得了以下两个方面的成果:  1.分析了差分隐私下的频繁模式挖掘算法研究。根据模式类型的不同,从频繁项集挖掘、频繁序列挖掘和频繁子图挖掘三个方面对现有的差分隐私下的频繁模式挖掘算法研究进行了分类整理,理清了研究现状,同时指出了有待解决的问题,为后续研究奠定了基础。  2.提出了一种满足差分隐私的频繁序列模式挖掘算法。序列数据内在序列性和高维度的特点,给差分隐私应用于频繁序列挖掘带来了挑战。对此提出了一种基于交互式差分隐私保护框架的频繁序列模式挖掘算法Diff-FSPM。该算法利用指数机制获取最优序列长度,并采用一种维规约策略获得原始序列数据集的规约表示,有效降低序列高维度的影响;应用前缀树压缩频繁序列模式,利用拉普拉斯机制产生的噪音扰动频繁模式的真实支持度计数,同时采用闭频繁序列模式和马尔可夫假设,有效分配隐私预算,并利用一致性约束后置处理,增强输出模式的可用性。理论角度证明算法满足ε-差分隐私,实验结果验证算法具有较好的可用性。
其他文献
管理信息系统(MIS)是一个由人、计算机和管理软件等组成的能进行信息的收集、传递、存储、加工和使用的系统。随着科技的发展,信息的日益膨胀,企业信息化成了企业在竞争中处
面对规模庞大并且每天都在飞速增长的互联网,Web挖掘技术的研究和探索变得越来越重要。Web挖掘一般分为Web内容挖掘、Web结构挖掘和Web使用记录挖掘三个研究方向。在Web结构挖
计算机技术目前在企事业单位的广泛应用极大地提高了这些单位的管理水平,但由于业务需求的变化,造成应用系统的许多功能和业务流程不断变化,其中许多业务流程本身较复杂(如涉及
开放式数控系统是当前数控技术的研究热点。在发展高速高效高精度及智能化等性能的同时,功能的发展也要求越来越高,具体体现在尽量用软件来实现数控的所有功能,使硬件规模达
面向方面软件开发(AOSD)是一种基于关注点分离的软件开发新方法,它使用aspect封装横切关注点,解决了面向对象技术在进行非功能需求处理上的局限性。与传统的OO技术相比,AOSD从软
中国网通长途数据网是一个全国性的、以ATM技术为基础的电信级服务网络,是中国网通集团电信基础网络的有机组成部分,有效管理长途数据网是中国网通集团提高用户服务质量的重要
学位
本文在总结了访问控制相关的理论和虚拟企业特点的前提下,提出了基于任务的虚拟企业访问控制模型,实现了虚拟企业基于任务的协作。 模型将访问控制的角色职责分离和任务结合
软件复用是解决软件危机、实现软件产业工业化生产方式的有效途径。软件复用活动包含两个相关的阶段:可复用软件资产的生产阶段和基于可复用软件资产的应用系统开发阶段。领域
互联网的蓬勃发展带来网络信息的爆炸式增长,如何快速准确地找到用户需要的信息一直是亟待解决的重大问题。信息搜索是解决信息获取的主要技术之一。传统基于关键词匹配的搜索
随着互联网、云计算的发展,虚拟化技术受到越来越多的关注。虚拟化技术可以在一台物理计算机上虚拟出多台虚拟机,虚拟机间相互隔离,每个虚拟机可以运行各自的操作系统和应用。虚