频繁模式挖掘中的隐私保护方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:ywh831002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁模式挖掘是许多数据挖掘问题的核心任务,并有广泛的应用。人们对数据隐私和信息安全的关注,往往限制和阻碍正常的挖掘任务。如何在基于隐私和安全考虑的环境中,很好地实施频繁模式的挖掘任务和各种应用,是频繁模式挖掘和信息安全领域结合后的一个研究热点。频繁模式挖掘中的隐私保护就是要研究解决此热点问题,它一方面要能保护好数据隐私,防止敏感知识泄露;另一方面要尽可能得到真实正确的挖掘结果。本文紧紧围绕频繁模式挖掘中的隐私保护方法展开研究,主要研究内容和创新性成果如下: (1)提出三类新的多参数随机化模型,给出随机化模型的分类框架。其中,“个体多参随机化模型”(PN)针对不同个体需要不同保护的多样化隐私保护需求,可为不同个体设置不同的随机化参数;“复合多参随机化模型”(P2×m、P2×N、Pm×N、P2×m×N)组合基本的多参随机化模型,使随机化参数控制的范围更细致;“分组多参随机化模型”(Pm/g、PN/g、P2×m/g、P2×N/g、Pm/g×N/g、P2×m/g×N/g)对不同数据单元进行分组,使随机化参数对于数据粒度的控制更灵活。新提出的这三类模型,弥补了已有随机化模型在隐私保护差异性上的不足,增强了随机化过程参数设置的灵活性。同时,本文依据随机化过程是否根据取值、属性和个体的不同作了区分,给出了随机化模型分类框架,依此框架形成的分类层次构成了随机化模型的整体视图。 (2)提出基于个体分组多参随机化模型的个性化隐私保护频繁模式挖掘方法GP-PPFM(GroupingPersonalizedPrivacyPreservingFrequentpatternMining)。该方法能实现对个体隐私数据的分组保护,并确保频繁项集挖掘结果的准确性。准确性的获得依靠支持度重构技术,本文设计三种支持个体分组多参随机化模型的支持度重构方法,以及相对应的隐私保护频繁模式挖掘算法。同时,本文在理论上给出了三种支持度重构方法的隐私保护度公式、1-项集支持度重构偏差公式;并结合实验数据,详细分析了支持度重构误差与项集长度的关系、与支持度阈值的关系,对支持度重构与不重构的误差作对比。结果表明,在整体隐私保护度相同情况下,面向个性化分组多参数随机化的rec2方法的支持度重构结果准确性,高于已有的单参数随机化mask方法,更为重要的是,GP-PPFM方法能满足个体的多样化隐私保护需求。 (3)提出基于样例学习和项集同步随机化的隐私保护频繁模式挖掘方法LS-PPFM(LearningandSynchronizedPrivacyPreservingFrequentpatternMining)。该方法旨在充分利用不需要隐私保护的个体数据,以提高挖掘结果的准确性。LS-PPFM首先对不需要隐私保护的个体数据进行学习,得到样例数据中蕴涵的强关联项,然后在对数据随机化时,将强关联项绑定为一个项作同步随机化变换,以保持项与项之间的潜在关联性。实验结果表明,相对于项独立随机化,通过选取样例数据中支持度高的项集项作为强关联同步项,LS-PPFM能在牺牲一定程度的隐私保护性情况下,显著提高频繁模式挖掘结果准确性。 (4)提出基于FP树的反向频繁项集挖掘方法FP-IFIM(FP-tree-basedInverseFrequentItemsetMining)。该方法利用FP树实现从频繁项集到事务数据集的转换;通过将频繁项和非频繁项分开处理,减小线性约束问题的规模和目标解搜索空间;通过采用分治策略将目标约束分解为若干子约束迭代求解,减小计算开销。分析和实验结果表明FP-IFIM能大大加快问题求解过程,且与现有方法仅能输出一个目标数据集比,能输出较多的满足约束的目标数据集。同时,本文对数据集、FP树、频繁项集之间的映射关系进行了探索。该方法适用于当支持数阈值较高而从原始数据集产生的频繁项较少的情况,其主要意义在于,它能帮助数据拥有者在不泄露真实数据情况下,生成多个具有真实数据集特征的共享数据集供公众使用。 (5)研究频繁模式挖掘中的敏感知识隐藏技术。综合分析比较已有关联规则隐藏技术,提出基于数据重构的关联规则隐藏框架DR-ARH(DataReconstructionbasedAssociationRuleHiding)。该框架通过在知识层面的清洗来隐藏敏感规则,旨在对发布数据集中的敏感关联规则进行隐藏时,为用户提供对于规则更直观、有效的控制。
其他文献
本文要解决的问题是:文档电子化过程中,对以数码相机为采集设备的文档图像展平修正的问题,其目的是去除数码相机采集的文档图像中的文档弯曲以及透视形变,从而提高录入文档图像的
本文以数字化校园数据中心的建设为背景,以异构数据交换的实施为着眼点,提出了利用数据交换中间件产品来进行异构数据交换的实现方案。从北京大学数字化校园建设的实际出发,找到
随着嵌入式系统的广泛应用,新的嵌入式设备层出不穷,为这些设备快速编写正确的驱动程序因而越来越困难。一方面,设备寄存器相关的操作代码(如:位操作代码)编写繁琐且容易出错
条码作为一种高效、快速的信息存储和传递技术,从诞生之时就受到了国际社会的关注。随着人们对条码技术的需要层次不断提高,尤其是需要在有限的面积上表示更多的信息量,二维
无线传感器网络(WSN,Wireless Sensor Network)被人们用于对所关心的场地进行监测和控制,在军事国防、工农业、城市管理、生物医疗、环境监测、抢险救灾、反恐、危险区域远程控
当前,数据中心普遍利用虚拟化技术来提高部署灵活性、降低操作成本、提高资源利用率。虚拟机具有封装性,可以避免重复安装操作系统、中间件、应用软件等软件栈,虽然方便了数据中
随着服务逐渐向智能化和自动化发展,计算机已经渗透到人们生产和生活的各个方面,计算机中最重要的软件,协助计算机在软硬件中交互的操作系统,也受到的广泛的关注。操作系统在计算
随着网络技术的蓬勃发展,在互联网上出现了越来越多的音乐下载服务以及在线音乐播放服务,而在这背后是海量的数字音乐。一个问题是当用户在接受这些服务的时候,往往面对过多的资
传统的主存储器DRAM由于制造工艺的束缚,其集成度已经很难再攀新高。另外,DRAM又受限于能耗高等问题,给计算机系统带来了巨大的挑战。新型存储器PCM(phase change memory,相变存储
近些年来,家庭网络技术迅猛发展,多种家庭网络技术共存。由于不同家庭网络技术之间存在广泛的异构性,致使不同家庭网络的设备无法互操作。本文围绕异构家庭网络互操作问题进行了