论文部分内容阅读
数据挖掘中的隐私保护方法研究,是近年来出现的一个新兴热门研究方向。它将数据挖掘技术与隐私信息保护技术相结合,试图在不精确访问原始数据详细信息的条件下,挖掘出准确的模式与规则。本文紧紧围绕数据挖掘中的隐私保护问题展开研究,主要研究内容和创新性成果包括以下五个方面:
1.提出了一个数据挖掘中隐私保护方法的KD<3>通用架构与流程为了提高数据挖掘中隐私保护方法的适用性和可扩展性,本文提出了一个通用的KD<3>(Knowledge Discovery in Distorted Database)架构,其基本流程由分析数据特征、确定隐私保护策略、进行数据处理、调整挖掘算法、实施特征重构和生成挖掘结果这六个步骤组成。在KD<3>架构的基础上,本文分别设计了针对不同数据类型、不同挖掘算法的数据处理和特征重构方法,并实现了关联规则挖掘中的隐私保护方法和朴素贝叶斯分类中的隐私保护方法。
2.建立了一套数据挖掘中隐私保护方法的评估指标体系为了更加有效的对数据挖掘中的隐私保护方法进行评价和选择,本文提出了一套包括隐私性、准确性、高效性和适用性,这四个方面的评估指标体系,以及相应的量化指标。隐私性是方法对隐私信息的保护程度;准确性是实际挖掘结果与真实结果之间的差异;高效性是计算所需的时间开销和空间代价;适用性则是方法所能应用的数据类型、数据分布和挖掘算法的范围。
3.分别针对布尔类型、枚举类型和数值类型的隐私数据,设计了一组数据处理和特征重构方法,即RRPH方法、ERRPH方法和TRR方法首先,为了提高对隐私信息的保护程度,相互弥补数据干扰和查询限制这两种隐私保护策略本身所固有的缺陷,本文将它们二者相结合,针对布尔类型的隐私数据,提出了一种部分隐藏的随机化回答(Randomized Response、with PartialHiding,简称RRPH)方法。然后,再将其所支持的隐私数据类型扩展到枚举类型,提出了一种扩展的部分隐藏随机化回答(Extended Randomized Response withPartial Hiding,简称ERRPH)方法;最后,为了支持对不同类型隐私数据的处理和特征重构,本文又专门针对数值类型的数据,提出了一种转换的随机化回答(Transforming Randomized Response,简称TRR)方法。这三种方法不但隐私保护的效果好,而且用于数据挖掘时的结果准确性高,还具有适用范围广和计算复杂度低等良好的特性。
4.分别基于数据处理和特征重构,实现了一种隐私保护的关联规则挖掘算法和一种隐私保护的朴素贝叶斯分类算法本文首先提出了一种基于RRPH的频繁项集生成算法,进而实现了关联规则挖掘中的隐私保护。理论分析和实验结果均表明,通过合理的参数选择,该方法可以在相同的时间开销和空间开销条件下,得到比原有方法更好的隐私保护程度和更高的挖掘结果准确性。然后,本文又提出了一种基于ERRPH和TRR的朴素贝叶斯分类算法,实现了分类挖掘中的隐私保护,并通过理论分析和实验结果,说明了随机化参数对隐私信息保护程度和挖掘结果准确性的影响。
5.提出了一种针对强相关属性的SRR数据处理和特征重构方法.本文采用集合同步变换的策略,针对强相关属性,提出了一种集合同步变换的随机化回答(Set-based Randomized Response,简称SRR)方法。在进行数据处理和特征重构的过程中,既保持了相关属性之间的内在联系,又达到了对隐私信息有效保护的目的。
本文还实现了一种基于SRR的关联规则挖掘算法,并通过理论分析和实验结果说明了,关联规则中基于SRR的隐私保护方法能够得到比原有方法更准确的挖掘结果。