论文部分内容阅读
数据挖掘是从海量数据中获取新颖的、潜在有用知识的过程,目前已经得到了广泛的应用。数据共享给用户带来好处的同时,也带来了泄密的风险。伴随着数据共享而来的隐私保护数据挖掘(privacy-preserving data mining)越来越受到人们的重视。
隐私保护数据挖掘包含两个方面的问题:敏感数据的保护和敏感知识的保护。敏感数据是指,身份证号码、家庭地址、个人收入等方面的私人数据。敏感知识是指,借助数据挖掘工具从数据库中提取出的诸如关联规则、分类规则等敏感规则。序列模式也是敏感知识的一种。本文主要对关联规则隐藏和序列模式隐藏方法进行研究,主要工作如下:
第一,提出了一组基于FP-Tree重构事务数据集的关联规则隐藏算法,分别是模式添加算法和模式删除算法。模式添加算法通过增加FP-Tree中对应规则左部的节点的计数,使规则的置信度降低,以此达到隐藏规则的目的。模式删除算法通过降低FP-Tree中对应于生成规则的大项集的节点的计数,使规则的支持度降低,从而实现规则的隐藏。
第二,提出一组基于不同粒度的序列模式隐藏算法,包括顾客序列直接删除算法、最多参与约束算法和频繁项约束算法。顾客序列直接删除算法,在顾客序列粒度上对数据集进行清洗操作,通过直接删除支持敏感序列的原始顾客序列来达到隐藏目的。顾客序列可能包含对敏感序列模式的多次支持。直接删除操作可以完全消除顾客序列对敏感序列模式的支持。最多参与约束算法,在事务粒度上对数据集进行清洗操作,通过选取顾客序列中参与支持次数最多的事务进行删除来隐藏敏感序列。这样既可以保证隐藏敏感序列,同时又可以减少对原始数据集的改动程度。频繁项约束算法,在项目粒度上对数据集进行清洗操作,通过选取顾客序列中的事务进行删除来隐藏敏感序列。选取单个项目进行删除操作对数据库的改动程序最小。
此外,针对敏感序列隐藏问题,提出级联隐藏概念:子序列被隐藏会引起超序列被隐藏。在隐藏过程中,根据级联隐藏特点,对敏感序列进行预处理,提前删除超序列,可以减少后续工作量。
序列模式隐藏中使用泄密阈值来度量敏感序列信息的保护程度。泄密阈值是用户设定的最小支持度。用户可以根据信息保护程度的不同,选择不同的泄密阈值。