论文部分内容阅读
频繁模式挖掘是许多数据挖掘问题的核心任务,并有广泛的应用。人们对数据隐私和信息安全的关注,往往限制和阻碍正常的挖掘任务。如何在基于隐私和安全考虑的环境中,很好地实施频繁模式的挖掘任务和各种应用,是频繁模式挖掘和信息安全领域结合后的一个研究热点。频繁模式挖掘中的隐私保护就是要研究解决此热点问题,它一方面要能保护好数据隐私,防止敏感知识泄露;另一方面要尽可能得到真实正确的挖掘结果。本文紧紧围绕频繁模式挖掘中的隐私保护方法展开研究,主要研究内容和创新性成果如下:
(1)提出三类新的多参数随机化模型,给出随机化模型的分类框架。其中,“个体多参随机化模型”(PN)针对不同个体需要不同保护的多样化隐私保护需求,可为不同个体设置不同的随机化参数;“复合多参随机化模型”(P2×m、P2×N、Pm×N、P2×m×N)组合基本的多参随机化模型,使随机化参数控制的范围更细致;“分组多参随机化模型”(Pm/g、PN/g、P2×m/g、P2×N/g、Pm/g×N/g、P2×m/g×N/g)对不同数据单元进行分组,使随机化参数对于数据粒度的控制更灵活。新提出的这三类模型,弥补了已有随机化模型在隐私保护差异性上的不足,增强了随机化过程参数设置的灵活性。同时,本文依据随机化过程是否根据取值、属性和个体的不同作了区分,给出了随机化模型分类框架,依此框架形成的分类层次构成了随机化模型的整体视图。
(2)提出基于个体分组多参随机化模型的个性化隐私保护频繁模式挖掘方法GP-PPFM(GroupingPersonalizedPrivacyPreservingFrequentpatternMining)。该方法能实现对个体隐私数据的分组保护,并确保频繁项集挖掘结果的准确性。准确性的获得依靠支持度重构技术,本文设计三种支持个体分组多参随机化模型的支持度重构方法,以及相对应的隐私保护频繁模式挖掘算法。同时,本文在理论上给出了三种支持度重构方法的隐私保护度公式、1-项集支持度重构偏差公式;并结合实验数据,详细分析了支持度重构误差与项集长度的关系、与支持度阈值的关系,对支持度重构与不重构的误差作对比。结果表明,在整体隐私保护度相同情况下,面向个性化分组多参数随机化的rec2方法的支持度重构结果准确性,高于已有的单参数随机化mask方法,更为重要的是,GP-PPFM方法能满足个体的多样化隐私保护需求。
(3)提出基于样例学习和项集同步随机化的隐私保护频繁模式挖掘方法LS-PPFM(LearningandSynchronizedPrivacyPreservingFrequentpatternMining)。该方法旨在充分利用不需要隐私保护的个体数据,以提高挖掘结果的准确性。LS-PPFM首先对不需要隐私保护的个体数据进行学习,得到样例数据中蕴涵的强关联项,然后在对数据随机化时,将强关联项绑定为一个项作同步随机化变换,以保持项与项之间的潜在关联性。实验结果表明,相对于项独立随机化,通过选取样例数据中支持度高的项集项作为强关联同步项,LS-PPFM能在牺牲一定程度的隐私保护性情况下,显著提高频繁模式挖掘结果准确性。
(4)提出基于FP树的反向频繁项集挖掘方法FP-IFIM(FP-tree-basedInverseFrequentItemsetMining)。该方法利用FP树实现从频繁项集到事务数据集的转换;通过将频繁项和非频繁项分开处理,减小线性约束问题的规模和目标解搜索空间;通过采用分治策略将目标约束分解为若干子约束迭代求解,减小计算开销。分析和实验结果表明FP-IFIM能大大加快问题求解过程,且与现有方法仅能输出一个目标数据集比,能输出较多的满足约束的目标数据集。同时,本文对数据集、FP树、频繁项集之间的映射关系进行了探索。该方法适用于当支持数阈值较高而从原始数据集产生的频繁项较少的情况,其主要意义在于,它能帮助数据拥有者在不泄露真实数据情况下,生成多个具有真实数据集特征的共享数据集供公众使用。
(5)研究频繁模式挖掘中的敏感知识隐藏技术。综合分析比较已有关联规则隐藏技术,提出基于数据重构的关联规则隐藏框架DR-ARH(DataReconstructionbasedAssociationRuleHiding)。该框架通过在知识层面的清洗来隐藏敏感规则,旨在对发布数据集中的敏感关联规则进行隐藏时,为用户提供对于规则更直观、有效的控制。