论文部分内容阅读
事务数据流下频繁模式挖掘是大多数在线数据挖掘应用中的一个最基础的工作。然而,在数据流上挖掘简洁的关键模式比频繁模式更有优势,因为关键模式既可以避免频繁模式里包含的冗余信息以减少内存存储空间,又可以高效无损地提取频繁模式。但是,由于连续时间戳发布的统计信息可以作为辅助知识增强攻击者的推理能力,所以从包含个人信息的事务数据流中挖掘关键模式比静态场景下更容易造成隐私泄露。然而,还没有工作涉及事务数据流连续发布挖掘的关键模式中的隐私保护问题,因此,本文在每个时间戳提出了一个实时的差分隐私关键模式计算算法(Real-time Differentially Private Crucial Pattern Computation,简称RDP-CPC),该算法在每个时间戳设计一个三阶段机制:预处理阶段、深入计算阶段和噪音挖掘阶段。该算法不仅能在满足关键模式连续发布的隐私的前提下,尽可能提高发布的关键模式统计信息的效用性;而且根据关键模式的特点,在不增加维护开销的情况下减少了平均挖掘时间。为了减少对关键模式计算算法(Crucial Pattern Computation,简称CPC)的调用次数,在三阶段机制的前两个阶段算法根据频繁模式和关键模式的关系设计了两个差异计算的公式,通过差异的大小来决定当前时间戳是返回低噪音统计值还是精确的近似统计值。如果是返回低噪音统计值,算法进入噪音挖掘阶段。在噪音挖掘阶段,为了发布隐私的关键模式及其噪音支持度,首先通过扰动打分函数来筛选关键模式候选集,然后使用拉普拉斯机制给筛选出的候选集里的模式的支持度加入随机噪音得到最终的噪音支持度。最后,进行了严格的理论分析和大量的实验来表明RDP-CPC算法的效用性和执行效率。本文针对事务数据流关键模式挖掘方法存在的隐私问题展开研究,通过对关键模式和频繁模式之间的关系进行详细的分析,提出了一种基于滑动窗口的实时的差分隐私关键模式计算算法(RDP-CPC),用以解决事务数据流相邻窗口定期发布关键模式导致的更严重的隐私泄露问题。主要研究工作如下:(1)首次讨论了在事务数据流上挖掘关键模式存在的新的隐私问题,针对该场景阐述并分析了由于连续时间戳的发布可作为辅助知识增强了攻击者的推断能力,所以动态数据流上连续发布挖掘的关键模式的隐私泄漏比静态场景更严重。(2)面对现有方法存在的挑战,为实现事务数据流关键模式隐私保护提出了三个关键的子算法。首先提出了一个构造前缀树算法,里面增加了第一个差异的计算,能够有效减少挖掘算法的调用提高平均挖掘效率;考虑到数据效用性和挖掘效率取决于前缀树的紧凑性,提出了一种前缀树调整算法。接下来,在噪音挖掘阶段,根据关键模式的发布要求设计了两步顺序加噪方法来发布隐私的关键模式及其噪音支持度。并且在第一步扰动模式时,根据频繁模式和关键模式的相关性提出了一种筛选关键模式候选集算法,该算法计算了一个组合敏感性来提高效用性。最后对各子算法的隐私性和时空复杂性进行了分析。(3)为了对一个窗口内所包含的w个连续的时间戳进行合理的隐私预算分配,使得每个窗口的总预算不超过总的ε,在每个时间戳设计了一个定制的三阶段机制(即总算法RDP-CPC)来实现每个时间戳的隐私发布。其中,为了减少关键模式计算算法(CPC)的调用,在前两个阶段通过考虑关键模式与频繁模式的关系提出了两个差异计算公式。最后对提出的实时的差分隐私关键模式计算算法(RDP-CPC),以严谨的数学公式证明了该方法满足ε_i-差分隐私,并证明了预算吸收策略满足w-transaction差分隐私。(4)在三个密集型和稀疏型的真实数据集(其中Chess和Accidents是密集型数据集,Retail是稀疏型数据集)上进行了大量的实验,由于没有直接的对比方法,所以通过和直接拓展其他场景下目前最先进的方法提出的直接方法(Straightforward Approach,简称SA)进行对比,选择F-score、相对误差(RE)和运行时间三个评价指标分别从模式的效用性、支持度的效用性以及平均运行时间上对所提出的RDP-CPC方法和SA进行评估。实验结果表明随着隐私预算逐渐增大,效用性越高;随着W逐渐减小,数据集越稀疏,效用性越好;随着一个窗口内包含的时间戳数目r逐渐增大,平均运行时间越小。