论文部分内容阅读
数据发布中的隐私保护问题是目前信息安全领域中的一个研究热点。如何有效地防止敏感隐私信息泄露已成为信息安全领域的重要课题。k-匿名隐私保护模型是数据发布应用环节中保护个人敏感隐私信息的一种重要技术手段和操作方法。但许多研究者发现k-匿名隐私保护技术并不能完全有效地防止敏感属性数据信息泄露,仍存在敏感属性信息泄露的安全风险。k-匿名隐私保护模型使用的概化和抑制方法,在实际应用过程中,能够有效地保护个人敏感隐私数据信息,但同时它也造成一定的数据偏差,因而降低了发布数据的真实性、可读性、也限制了其在实际应用环节的普及和推广。最新发展起来的差分隐私保护技术,它的最大优点是不对攻击者的背景知识做任何特定假设,该技术不但能为隐私数据发布提供强有力的安全防护,而且在实践中也得到了广泛应用。现有的差分隐私保护技术并不能全面有效地处理高维隐私数据的发布问题,虽然基于贝叶斯网络的隐私数据发布方法有效地处理了高维数据集转化为低维数据集的发布问题,但这种方法也存在一定的缺陷和不足。 本文主要针对面向数据发布应用的隐私安全研究,在k-匿名隐私保护模型的基础上,从敏感属性、准标识符、发布数据集体积大小三个维度进行了扩展研究,主要贡献和创新性工作如下: (1)提出了一种新的数据发布隐私保护模型—(f,t)-敏感属性隐私保护模型。虽然k-匿名隐私保护模型能够有效地防止链接攻击,但许多研究者发现k-匿名隐私保护技术并不能完全有效地防止敏感属性数据信息泄露,仍存在敏感属性数据信息泄露的安全风险。随后发展起来的l-多样性和t-接近等模型已经阐释了k-匿名隐私保护模型的安全缺陷。针对k-匿名隐私保护模型的安全缺陷,经过分析研究和实验探索,提出了一种新的隐私保护模型—(f,t)-敏感属性隐私保护模型,它是在借鉴k-匿名隐私保护模型的基础上,通过引入真子树的概念,将要发布数据集的敏感属性值重新归类和加权处理,形成一套独有的数据选择发布方法。它能够有效地弥补l-多样性和t-接近等经典隐私保护模型存在的缺陷。通过对比实验结果和分析论证,可以得出该模型不仅能有效地保护个人敏感隐私数据信息的安全,防止个人敏感隐私数据信息的泄露,同时还能保证发布数据集的高精确性和强实用性。(f,t)-敏感属性隐私保护模型中参数f,t的选择与发布数据集中敏感属性值的分类层次树的构成息息相关,确定方法简单、直观,众多应用者易于达成普遍共识,不同的应用者不会产生太大的歧异性,即该模型更容易形成多方普遍接受的发布标准,因此该模型在实践中具有更高的使用性、推广性和普及性。 (2)提出了一种新的改进概化方法—δ-概化方法。概化和抑制方法是数据发布应用环节中保护个人敏感隐私数据信息的一种重要技术手段和操作方法。在实际应用过程中,概化和抑制方法能够有效地保护个人敏感隐私数据信息,但同时它也造成一定的数据偏差,进而降低了发布数据的真实性、发布数据的可读性、也限制了数据信息的实际应用范围。经过概化和抑制方法处理后的发布数据集,可能会存在数据概化程度高,发布数据真实有效性过低的情况;也可能存在数据概化程度低,发布数据安全性过低的情况。针对这个问题,本文在k-匿名隐私保护模型属性值概化处理方法的基础上,提出了一种新的改进概化处理方法—δ-概化方法。δ-概化方法在保证发布匿名数据集具有同等安全性的前提下,通过设置相应的δ-概化约束参数,有效地增强了k-匿名隐私保护模型发布数据的数据精确度,δ-概化方法处理属性值的方法更灵活,更高效。在实际应用过程中,具有极其重要的现实意义和使用价值。在仿真实验测试环境下,使用该方法进行实验测试,结果证明δ-概化方法比常规概化方法具有更高的发布数据真实性和现实应用性,发布的数据集真实性更高,在实际应用中更广泛。 (3)提出了加权贝叶斯网络隐私数据发布方法。差分隐私保护技术是最新发展起来的隐私保护技术,它的最大优点是不对攻击者的背景知识做任何特定假设,该技术不但能为隐私数据发布提供强有力的安全防护,而且在实践中也得到了广泛应用。现有的差分隐私保护技术并不能全面有效地处理高维隐私数据的发布问题,虽然基于贝叶斯网络的隐私数据发布方法有效地处理了高维数据集转化为低维数据集的发布问题,但这种方法也存在一定的缺陷和不足。基于对贝叶斯网络的隐私数据发布方法的分析研究和改进优化,建立了加权贝叶斯网络隐私数据发布方法。通过理论分析和实验评估,该方法不仅能保证原始隐私发布数据集的隐私安全性,同时又能大幅提升原始隐私发布数据集的数据精确性。