数据挖掘中的隐私保护方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:luckcarrier
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘中的隐私保护方法研究,是近年来出现的一个新兴热门研究方向。它将数据挖掘技术与隐私信息保护技术相结合,试图在不精确访问原始数据详细信息的条件下,挖掘出准确的模式与规则。本文紧紧围绕数据挖掘中的隐私保护问题展开研究,主要研究内容和创新性成果包括以下五个方面: 1.提出了一个数据挖掘中隐私保护方法的KD<3>通用架构与流程为了提高数据挖掘中隐私保护方法的适用性和可扩展性,本文提出了一个通用的KD<3>(Knowledge Discovery in Distorted Database)架构,其基本流程由分析数据特征、确定隐私保护策略、进行数据处理、调整挖掘算法、实施特征重构和生成挖掘结果这六个步骤组成。在KD<3>架构的基础上,本文分别设计了针对不同数据类型、不同挖掘算法的数据处理和特征重构方法,并实现了关联规则挖掘中的隐私保护方法和朴素贝叶斯分类中的隐私保护方法。 2.建立了一套数据挖掘中隐私保护方法的评估指标体系为了更加有效的对数据挖掘中的隐私保护方法进行评价和选择,本文提出了一套包括隐私性、准确性、高效性和适用性,这四个方面的评估指标体系,以及相应的量化指标。隐私性是方法对隐私信息的保护程度;准确性是实际挖掘结果与真实结果之间的差异;高效性是计算所需的时间开销和空间代价;适用性则是方法所能应用的数据类型、数据分布和挖掘算法的范围。 3.分别针对布尔类型、枚举类型和数值类型的隐私数据,设计了一组数据处理和特征重构方法,即RRPH方法、ERRPH方法和TRR方法首先,为了提高对隐私信息的保护程度,相互弥补数据干扰和查询限制这两种隐私保护策略本身所固有的缺陷,本文将它们二者相结合,针对布尔类型的隐私数据,提出了一种部分隐藏的随机化回答(Randomized Response、with PartialHiding,简称RRPH)方法。然后,再将其所支持的隐私数据类型扩展到枚举类型,提出了一种扩展的部分隐藏随机化回答(Extended Randomized Response withPartial Hiding,简称ERRPH)方法;最后,为了支持对不同类型隐私数据的处理和特征重构,本文又专门针对数值类型的数据,提出了一种转换的随机化回答(Transforming Randomized Response,简称TRR)方法。这三种方法不但隐私保护的效果好,而且用于数据挖掘时的结果准确性高,还具有适用范围广和计算复杂度低等良好的特性。 4.分别基于数据处理和特征重构,实现了一种隐私保护的关联规则挖掘算法和一种隐私保护的朴素贝叶斯分类算法本文首先提出了一种基于RRPH的频繁项集生成算法,进而实现了关联规则挖掘中的隐私保护。理论分析和实验结果均表明,通过合理的参数选择,该方法可以在相同的时间开销和空间开销条件下,得到比原有方法更好的隐私保护程度和更高的挖掘结果准确性。然后,本文又提出了一种基于ERRPH和TRR的朴素贝叶斯分类算法,实现了分类挖掘中的隐私保护,并通过理论分析和实验结果,说明了随机化参数对隐私信息保护程度和挖掘结果准确性的影响。 5.提出了一种针对强相关属性的SRR数据处理和特征重构方法.本文采用集合同步变换的策略,针对强相关属性,提出了一种集合同步变换的随机化回答(Set-based Randomized Response,简称SRR)方法。在进行数据处理和特征重构的过程中,既保持了相关属性之间的内在联系,又达到了对隐私信息有效保护的目的。 本文还实现了一种基于SRR的关联规则挖掘算法,并通过理论分析和实验结果说明了,关联规则中基于SRR的隐私保护方法能够得到比原有方法更准确的挖掘结果。
其他文献
本文论述了 三维数据网络发布技术的研究与应用,具体内容如下:  1,首先介绍了目前具有代表性的几种常见的Web3D技术并对这些技术进行了比较。  2,然后,通过比较的结果,分析并选
随着人类进入信息化社会,信息安全已成为人们在信息空间生存与发展的重要保证。作为信息安全的核心目标之一,信息的完整性在整个信息安全体系中占据着关键位置。本文主要研究使
学位
本论文的主要研究目的是实现测绘仪器检定数据管理的规范化、程序化、自动化。 测量仪器检定资料管理系统具有手工管理所无法比拟的优点:检索迅速、操作方便、存储量大、
现代数据库和网络技术的发展,使得人们面对的数据量以惊人的速度增长,为了获取有价值的信息,人们提出了数据挖掘技术。发展自统计学的聚类分析已成为数据挖掘中的一个十分活跃的
该论文的工作即着重于图像检索中的人-机协同问题,一方面,对色彩空间中的非均匀量化问题进行研究,使量化算法更符合人的视觉感知特性和主观感受,另一方面,对图像检索中的交互
作为主流的分布式软件系统运行支撑平台,中间件封装了一组公共服务以提高分布应用的开发、部署、维护和演化的效率与质量。Internet的普及、中间件标准化的完善、以及开源软件
性能测试工具根据测试需求模拟不同规模的负载强度,需要大量的软硬件投入,是典型的资源密集型系统。云计算技术为性能测试提供了新的使用模式,出现了基于云的性能测试在线服务。
学位
目前互联网的IP地址资源分配极不平衡,发达国家尤其美国占据了绝大多数的IP,其它国家的IP资源匮乏。这种情况下,IETF提出了NAT协议,它一经问世就得到了广泛部署,在一定程度上有效
嵌入式系统是以应用为中心,以计算机技术为基础,软硬件均可裁剪,适应应用系统对功能、可靠性、成本、体积、功耗严格要求的专用计算机系统。在嵌入式系统的体系结构中,嵌入式