事务数据流关键模式挖掘的差分隐私保护方法

来源 :广西师范大学 | 被引量 : 1次 | 上传用户:xiaojianlan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事务数据流下频繁模式挖掘是大多数在线数据挖掘应用中的一个最基础的工作。然而,在数据流上挖掘简洁的关键模式比频繁模式更有优势,因为关键模式既可以避免频繁模式里包含的冗余信息以减少内存存储空间,又可以高效无损地提取频繁模式。但是,由于连续时间戳发布的统计信息可以作为辅助知识增强攻击者的推理能力,所以从包含个人信息的事务数据流中挖掘关键模式比静态场景下更容易造成隐私泄露。然而,还没有工作涉及事务数据流连续发布挖掘的关键模式中的隐私保护问题,因此,本文在每个时间戳提出了一个实时的差分隐私关键模式计算算法(Real-time Differentially Private Crucial Pattern Computation,简称RDP-CPC),该算法在每个时间戳设计一个三阶段机制:预处理阶段、深入计算阶段和噪音挖掘阶段。该算法不仅能在满足关键模式连续发布的隐私的前提下,尽可能提高发布的关键模式统计信息的效用性;而且根据关键模式的特点,在不增加维护开销的情况下减少了平均挖掘时间。为了减少对关键模式计算算法(Crucial Pattern Computation,简称CPC)的调用次数,在三阶段机制的前两个阶段算法根据频繁模式和关键模式的关系设计了两个差异计算的公式,通过差异的大小来决定当前时间戳是返回低噪音统计值还是精确的近似统计值。如果是返回低噪音统计值,算法进入噪音挖掘阶段。在噪音挖掘阶段,为了发布隐私的关键模式及其噪音支持度,首先通过扰动打分函数来筛选关键模式候选集,然后使用拉普拉斯机制给筛选出的候选集里的模式的支持度加入随机噪音得到最终的噪音支持度。最后,进行了严格的理论分析和大量的实验来表明RDP-CPC算法的效用性和执行效率。本文针对事务数据流关键模式挖掘方法存在的隐私问题展开研究,通过对关键模式和频繁模式之间的关系进行详细的分析,提出了一种基于滑动窗口的实时的差分隐私关键模式计算算法(RDP-CPC),用以解决事务数据流相邻窗口定期发布关键模式导致的更严重的隐私泄露问题。主要研究工作如下:(1)首次讨论了在事务数据流上挖掘关键模式存在的新的隐私问题,针对该场景阐述并分析了由于连续时间戳的发布可作为辅助知识增强了攻击者的推断能力,所以动态数据流上连续发布挖掘的关键模式的隐私泄漏比静态场景更严重。(2)面对现有方法存在的挑战,为实现事务数据流关键模式隐私保护提出了三个关键的子算法。首先提出了一个构造前缀树算法,里面增加了第一个差异的计算,能够有效减少挖掘算法的调用提高平均挖掘效率;考虑到数据效用性和挖掘效率取决于前缀树的紧凑性,提出了一种前缀树调整算法。接下来,在噪音挖掘阶段,根据关键模式的发布要求设计了两步顺序加噪方法来发布隐私的关键模式及其噪音支持度。并且在第一步扰动模式时,根据频繁模式和关键模式的相关性提出了一种筛选关键模式候选集算法,该算法计算了一个组合敏感性来提高效用性。最后对各子算法的隐私性和时空复杂性进行了分析。(3)为了对一个窗口内所包含的w个连续的时间戳进行合理的隐私预算分配,使得每个窗口的总预算不超过总的ε,在每个时间戳设计了一个定制的三阶段机制(即总算法RDP-CPC)来实现每个时间戳的隐私发布。其中,为了减少关键模式计算算法(CPC)的调用,在前两个阶段通过考虑关键模式与频繁模式的关系提出了两个差异计算公式。最后对提出的实时的差分隐私关键模式计算算法(RDP-CPC),以严谨的数学公式证明了该方法满足ε_i-差分隐私,并证明了预算吸收策略满足w-transaction差分隐私。(4)在三个密集型和稀疏型的真实数据集(其中Chess和Accidents是密集型数据集,Retail是稀疏型数据集)上进行了大量的实验,由于没有直接的对比方法,所以通过和直接拓展其他场景下目前最先进的方法提出的直接方法(Straightforward Approach,简称SA)进行对比,选择F-score、相对误差(RE)和运行时间三个评价指标分别从模式的效用性、支持度的效用性以及平均运行时间上对所提出的RDP-CPC方法和SA进行评估。实验结果表明随着隐私预算逐渐增大,效用性越高;随着W逐渐减小,数据集越稀疏,效用性越好;随着一个窗口内包含的时间戳数目r逐渐增大,平均运行时间越小。
其他文献
对外汉语教学方法一直受到学界的关注。本文着眼于宏观教学策略,旨在设计可以为学生提供更多有效学习机会的外语课堂。我们提出将不同类型的故事叙述活动应用于对外汉语教学
<正>目的探讨儿童不明原因叹气与直立倾斜试验(HUTT)的关系。方法对2003年5月~2012年3月在中南大学湘雅二医院儿童晕厥专科门诊就诊的以不明原因叹气为主要症状的4~14岁(平均8.
会议
介绍了城市轨道交通牵引网架空刚性悬挂的两种布置方式。分析了采用传统正弦波拉出值布置方式时产生受电弓磨耗不均匀的原因,以及新的"八"字形拉出值布置方式及其解决受电弓
伴随着时代的发展和社会的进步,国内旅游专业教育开始飞速的发展了起来,然而有关旅游专业学位却没有得到应有的建设,学科地位也没有达到一定的高度;在旅游专业所开设的课程当
结合作者在纳米磁性液体方面的研究经历,介绍了生物医学应用领域纳米磁性粒子的组成结构及特点,指出高分子改性纳米磁性粒子具有生物相容性好、稳定性强、载药量高的优点,并
外耳道皮肤的耵聍腺分泌一种淡黄色的、有的呈粘稠样的物质,俗称耳屎,医学上叫耵聍。
担保机构的产生能够有效的降低借贷关系中风险的发生,担保机构业务流程较为复杂,传统的担保机构工作方式不能满足社会发展对担保行业的需求,人工业务跟踪的工作模式造成了担
目的:检测CD5蛋白在弥漫大B细胞淋巴瘤(DLBCL)的表达情况,并探讨CD5表达与临床病理特征及疗效的关系。方法:采用免疫组化方法(ElivisionTM法)检测232例患者中CD5蛋白的表达,
降解产物的生物安全性是生物降解类材料生物学评价的重要内容。本文采用自体对照的方法,通过测定聚乙交酯丙交酯(PGLA)材料植入前后动物体内某些生化指标的变化,研究降解产物对
随着全球经济一体化,品牌名称作为一种特殊语言符号,其翻译受到学界关注,文化因素在品牌名称翻译中至关重要。本文对国外品牌名称的中文翻译进行深入研究,通过例证考察中国传