论文部分内容阅读
随着隐私保护意识的提高,人们越来越重视发布数据的隐私泄露问题。为了使隐私信息尽可能少地被泄露,研究人员提出各种隐私保护手段,不确定性的k-匿名隐私保护模型已经成为数据发布者可信的隐私保护模型。然而,受隐私保护要求的制约,即使最优化的k-匿名算法,也不能产生完全精确的数据,正因为这种不精确性导致了数据可用性的降低,数据接受者当作垃圾数据而拒之门外。为了使数据接受者能够更好地处理和管理k-匿名隐私保护模型中的数据而提高其可用性,在文中从另外一个角度来研究k-匿名数据,即把k-匿名隐私保护模型中的数据看成是一种不确定性数据,用不确定性的方式来处理它。建模是不确定性数据管理的基础,k-匿名隐私保护模型中不确定性数据有其特殊性:它是人为泛化后的不确定性数据,泛化后的每个实例还原成泛化前元组的概率是相等的。由于其特殊性,以往针对非人为造成不确定性的数据建模方法已经不能简单用于描述k-匿名隐私保护模型中的不确定性数据。为了描述k-匿名隐私保护模型中不确定性数据,文中提出几种新的建模方法:kattr模型使用attribute-ors方法来描述k-匿名数据中准标识符属性值的不确定性;ktuple模型把k-匿名表中不确定的属性值转化成一个关系表形式的值,对关系表使用tuple-ors方法来描述;kupperlower模型把k-匿名表中泛化属性分开成两个字段:上限字段和下限字段,使用两个字段的具体值来表示泛化值不确定性值;ktree模型根据k-匿名表是对普通表通过泛化树泛化而形成这一特性逆向把泛化值拆分成树型结构,用树来表示k-匿名数据的不确定性。将由这几种模型及它们之间的组合构成了一个描述k-匿名隐私保护模型中不确定性数据的模型空间,根据实际情况从中选择最适合的描述模型,然后讨论了模型空间中各模型的完备性和封闭性性质,形式化地证明了模型的完备性和封闭性问题。在文章的最后探讨了模型的存储问题。经典的关系型数据库模型无法考虑数据的不确定性,要想把模型中不确定性数据存储在关系数据库中,需要在存储之前对数据进行合理地处理。从数据的匿名化过程可以知道k-匿名数据表中每个字段的值都是根据相互独立的泛化树通过泛化而成,因此k-匿名数据属性之间是相互独立的,从而可以对不确定性数据进行垂直分割,再使用列存储的方式把数据存储于关系数据库中。本文先把不同模型的格式统一转化成一种关系型模型,然后在关系表基础上进行垂直分割,使用列存储方式存储每个不确定性属性的具体实例值。最终用多个关系表把不确定性的k-匿名隐私保护模型中的数据存储在关系型数据库中。