隐私保护数据挖掘方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:aileenliuwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从海量数据中获取新颖的、潜在有用知识的过程,目前已经得到了广泛的应用。数据共享给用户带来好处的同时,也带来了泄密的风险。伴随着数据共享而来的隐私保护数据挖掘(privacy-preserving data mining)越来越受到人们的重视。   隐私保护数据挖掘包含两个方面的问题:敏感数据的保护和敏感知识的保护。敏感数据是指,身份证号码、家庭地址、个人收入等方面的私人数据。敏感知识是指,借助数据挖掘工具从数据库中提取出的诸如关联规则、分类规则等敏感规则。序列模式也是敏感知识的一种。本文主要对关联规则隐藏和序列模式隐藏方法进行研究,主要工作如下:   第一,提出了一组基于FP-Tree重构事务数据集的关联规则隐藏算法,分别是模式添加算法和模式删除算法。模式添加算法通过增加FP-Tree中对应规则左部的节点的计数,使规则的置信度降低,以此达到隐藏规则的目的。模式删除算法通过降低FP-Tree中对应于生成规则的大项集的节点的计数,使规则的支持度降低,从而实现规则的隐藏。   第二,提出一组基于不同粒度的序列模式隐藏算法,包括顾客序列直接删除算法、最多参与约束算法和频繁项约束算法。顾客序列直接删除算法,在顾客序列粒度上对数据集进行清洗操作,通过直接删除支持敏感序列的原始顾客序列来达到隐藏目的。顾客序列可能包含对敏感序列模式的多次支持。直接删除操作可以完全消除顾客序列对敏感序列模式的支持。最多参与约束算法,在事务粒度上对数据集进行清洗操作,通过选取顾客序列中参与支持次数最多的事务进行删除来隐藏敏感序列。这样既可以保证隐藏敏感序列,同时又可以减少对原始数据集的改动程度。频繁项约束算法,在项目粒度上对数据集进行清洗操作,通过选取顾客序列中的事务进行删除来隐藏敏感序列。选取单个项目进行删除操作对数据库的改动程序最小。   此外,针对敏感序列隐藏问题,提出级联隐藏概念:子序列被隐藏会引起超序列被隐藏。在隐藏过程中,根据级联隐藏特点,对敏感序列进行预处理,提前删除超序列,可以减少后续工作量。   序列模式隐藏中使用泄密阈值来度量敏感序列信息的保护程度。泄密阈值是用户设定的最小支持度。用户可以根据信息保护程度的不同,选择不同的泄密阈值。
其他文献
随着计算机与信息技术的发展,数据挖掘技术已经广泛应用到人工智能、模式识别、生物信息等许多领域。当前,复杂类型数据的挖掘需求上升,专家学者开始关注这方面的新应用和理
复杂网络可以用来描述社会关系网络、生物网络、通信网络、网页链接关系等真实网络。从20世纪90年代,复杂网络概念提出之后,很多不同领域的研究者都开始关注复杂网络的研究,但是
工业生物技术知识环境建设及其e-Science应用是中国科学院信息化专项项目,本文即是以工业生物技术知识环境建设为项目背景展开。   工业生物技术(Industrial Biotechnology
概念知识是根据面向对象原理定义词汇涵义。本文提出此方法,以属性名及属性值定义一个词,将某一领域内的词汇构成层次或继承关系图,并按照表的形式将此图存储于数据库中,由此
本文以提高回归测试成本效益为目标,对黑盒测试集优先化技术展开研究。成功软件在整个生命周期中会经历持续变更,造成回归测试频繁发生且开销巨大。提高回归测试成本效益一直是
随着数据库的广泛应用和发展,人们不再仅仅满足于一般的数据存储和业务处理,而对系统提出了更高的要求:提供决策支持。目前,数据库已经广泛投入到了各行各业的应用当中,作为数据库
学位
随着信息技术的发展,计算机网络已经成为人们日常学习和工作中必不可少的一部分,其安全性得到了越来越多的重视。然而由于计算机系统的复杂性以及利益的驱使,攻击始终没有间断过
Skyline计算就是从一个数据集中找到不被其他数据点支配的所有点的集合。如果一个数据a支配另一个数据b,那么a的每一维属性值都不比b对应属性值“差”,而且必须至少有一个属
在建筑结构设计领域,随着CAD技术的发展和广泛应用,设计的过程和方式发生了根本的变化。CAD技术的出现极大的提高了设计的效率,减轻了建筑结构设计师的设计负担。建筑结构设计CA
分布式仿真是一种形成可参与的综合性仿真环境的仿真技术,它采用协调一致的结构、标准、协议等手段,通过网络环境将部署于各地的仿真系统进行互联。这种技术的出现使得构建大