论文部分内容阅读
差分隐私模型因其可证的隐私保障和有效实现方式而获得了广泛研究。粗略来说,如果统计查询结果与单个个体的数据的存在与否几乎没什么关系,则该查询满足差分隐私。本论文研究差分隐私模型的一些问题,主要分为以下四个方面: 第一,相关数据的隐私模型。差分隐私基于不同个体的数据互不相关的假设。但是,这个假设在实际中并不成立。这动摇了差分隐私的理论基础。为了弥补差分隐私模型的这个缺陷,通过信息论对相关数据问题进行了建模,提出了身份差分隐私模型。该模型可保证输出结果与每个个体的互信息不超过一个很小的值。该模型可非常精确地解释差分隐私模型在数据相关情形隐私保护能力下降的原因。在不同个体的数据互相独立的情形,该模型可继承差分隐私的绝大部分实现机制。在不同个体的数据弱相关的情形,找到了实现身份差分隐私的有效机制,该机制添加的噪声要比群隐私方法小得多。 第二,差分隐私机制设计策略。敏感度方法被广泛地用来设计差分隐私机制。然而,当查询函数的敏感度很大时,基于该方法的机制就会给输出数据添加太大的噪声。通过对差分隐私问题的抽象,发现设计机制可转化为两个度量空间上的随机映射寻找问题。基于这个发现,敏感度方法可以视为通过第二个度量空间的度量来构造机制。受此启发,通过第一个度量空间的度量构造了机制。接着,通过两个度量构造了组合机制。更进一步,构造了能权衡不同数据集间效用的机制。本文的机制设计方法非常强大,很多机制可视为其特殊类型,如全局敏感度机制、Staircase机制、Ladder机制及K-范数机制。最后,通过理论分析及对比试验说明了设计机制的精确性。实验结果显示,对非单调函数,该机制相比于其他机制有较大优势。 第三,对称性与线性查询的最优机制。最优机制问题讨论在隐私预算确定的条件下效用达到最大时的机制寻找问题和最优条件寻找问题。该问题涉及到差分隐私的深层理论及应用前景,是一个非常重要且复杂的问题。现阶段还缺乏有效的研究方法来对该问题进行深入研究。对最优机制问题进行了表示和分析。对线性查询问题,通过其对称性特点,对其最优机制问题进行了简化。最后,将线性查询进行了分类,并证明了几个特殊线性查询函数的机制的最优性。这些工作拓展了最优机制问题的研究方法及思路。 第四,差分隐私在分布式情形的实现。当数据分布在多个互不信任的实体间时,如何实现差分隐私是一个重要的应用问题。研究如何将一个差分隐私算法改造为分布式情形的差分隐私算法(协议)。该问题可被视为将差分隐私作为构造安全协议的额外安全要求,因此是一个很复杂的问题。发现很多相关协议未能严格实现差分隐私。经过分析发现,这些协议的问题是没能将随机函数计算问题安全地转化为确定性函数计算问题而导致的。因此,证明了安全转化的一个充要条件。进一步证明了一个安全协议继承其所计算的函数的差分隐私性质的条件。接着,构造了具体的实现差分隐私的基本协议。通过这些基本的协议,构造了很多差分隐私协议,如拉普拉斯机制、高斯机制及指数机制等。 综上所述,差分隐私是一个迅速发展的多学科交叉研究领域,其还有很多问题没能研究清楚,需要更进一步的探索和研究。