论文部分内容阅读
随着互联网络的快速发展,人类的生活方式正发生着巨大的改变。博客、微博、QQ、社区网站、门户网站等等这些互联网上的新事务让我们能获取更多的信息,学会更多的交流,离开了这些我们的生活将缺乏活力,我们将落后于这个社会。但是有了这些高度共享和快速传播的信息化工具和新媒体,我们开始担心我们的个人隐私信息是否会被泄漏,成为他人攻击的目标、娱乐的消息,给生活和工作带来巨大的压力和不便。这些问题都要求我们认真研究隐私保护技术,保护好个人的隐私信息。K-匿名作为数据库数据发布隐私保护技术中的一种,以其简单直观、易于实现得到了广泛的关注和应用。但是,由于K-匿名提出的时间较早,已经不能满足社会对隐私保护的要求,严重地制约了它的继续发展。本文详细分析了K-匿名模型和一些改进型模型的思想、优点和缺点。针对现有模型的不足,提出了一些改进的匿名模型。本文的主要工作包括: ①研究了隐私保护相关技术,分析了K-匿名模型的特点、实现算法、评价标准以及K-匿名模型和一些改进模型对同质性攻击存在的不足,提出了基于平均泄漏概率和概率差值的(a,d)-匿名模型,该模型能有效防止链接攻击和同质性攻击。 ②分析了发布数据中数值型敏感属性值的特点和现有隐私保护模型在该领域上的不足。针对现有模型对相似型攻击防止不足的弱点,提出了(S,K)-匿名模型,该模型对数值型敏感属性进行处理,以解决相似性攻击的问题。 ③分析了采用泛化和隐匿方法实现匿名模型的特点,指出了该方法容易造成过度泛化使信息损失较大的问题。在匿名模型的实现中引入了聚类思想,提高了数据精确性,更好的保证了数据的可用性,平衡了隐私保护和数据可用性的要求。 ④使用加利福尼亚大学机器学习中心的Adult数据集对本文提出的模型从执行时间、隐私保护效果和信息损失程度几个方面进行了验证实验。实验结果表明了(a,d)-匿名模型与(S,K)-匿名模型和实现算法的正确性及有效性,进一步扩展了以K-匿名模型为基础的隐私保护技术,不但能有效防止隐私泄露,其数据精确度也能达到较高水平。