【摘 要】
:
大数据时代的到来引领了数据分析技术发展的热潮,大数据分析的意义在于其能透过数据的表象发现隐藏在数据中的规律,从而找到无关事物之间的联系,进而能总结为经验指导决策.数
论文部分内容阅读
大数据时代的到来引领了数据分析技术发展的热潮,大数据分析的意义在于其能透过数据的表象发现隐藏在数据中的规律,从而找到无关事物之间的联系,进而能总结为经验指导决策.数据挖掘技术作为大数据分析的基本算法,在飞速发展的同时,也给数据分析带来了一系列问题。隐私问题就属于数据分析带来的问题之一,考虑到敏感数据所携带的信息,使得数据拥有方不得不担忧数据信息泄露后所带来的隐私泄露问题,这种担心制约着数据拥有方开展数据分析的工作,因此在保护数据隐私的同时进行数据分析工作是隐私保护技术的目标.差分隐私数据保护技术作为隐私保护技术的第三代技术,在发展之初遍在学术圈引起了广泛的关注,并迅速成为行业的代表性技术。差分隐私技术不仅在理论上严格保证了隐私的保护度,并且引入了量化指标量化隐私保护的程度,是隐私保护技术中突破性技术.在众多差分隐私数据保护算法中,DiffGen算法是代表性算法之一,本论文的研究基于DiffGen算法,针对DiffGen算法的不足,优化算法过程,提供了一种基于小波变换的差分隐私数据发布方法W-DiffGen,有效减少了算法过程中的噪音量,提升了加噪后数据的可用性。本文的主要工作如下:1)背景研究.就数据挖掘隐私保护技术,差分隐私数据保护技术等数据挖掘应用问题的联系,介绍课题背景和研究现状.2)发现问题.差分隐私数据保护技术的代表性算法DiffGen在隐私预算的合理利用和加噪方式上存在可优化空间.3)解决问题.通过设计新的隐私预算合理分配方案及融合小波变换加噪方式优化DiffGen算法的问题,设计并实现了W-DiffGen算法.4)实验分析.通过真实数据集和分类器验证W-DiffGen算法的有效性,证实W-DiffGen算法在分类精度上的有效提升.5)展望算法的其他不足之处,以及差分隐私技术发展的方向.
其他文献
掌握词汇是二语习得的必要环节。在词汇习得的音形义三方面中,词汇字形习得指的是学习者通过阅读词汇进而掌握词汇拼写、成功提取其对应的发音及概念,并能够通过口头或书面再现这一拼写的过程。词形习得是第二语言词汇学习不可分割的组成部分,而词形读写能力也是判断受教育程度的重要标准之一。本研究着眼于增强现实技术在二语教育产品中的飞速发展,具体目的在于以实证性的研究设计考查增强现实技术相比传统教学方法对二语学习者
表量结构是人类语言中非常重要的一个部分。量词自甲骨文时代就已经存在,为满足人们对世界的理解和认知需要而产生。随着社会文化生活的发展而不断扩大。世界语言分为单复数标记型及量词标记型,如身为印欧语系的英语和汉藏语系的汉语,但即使是在单复数标记的英语语言中,仍旧有着非常丰富的表量结构,英语中的表量结构形式为“a+N1+of+N2”,汉语中的表量结构形式为“数量名”。可见量词的功能不仅仅局限于计数。丰富的
本文尝试以王子云为研究对象,对王子云早期艺术活动历程与西北文物考察活动展开论述,进而分析王子云艺术探索与艺术“转向”。首先是概述王子云艺术成长历程,当时社会的巨大变动以及外来文化对王子云思想形成产生影响,王子云艺术很大程度是受中西文化思想影响,针对王子云留法以及最终使王子云在艺术道路上选择“转向”,将其艺术活动划分成两个阶段进行概述,明确两阶段艺术活动的具体内容。其次,本文的侧重点仍然是王子云艺术
随着中国城镇化的高速发展,截止2015年,我国在用电梯总数已超过400万台,每年仍以15%-20%的速度增长。近年来电梯事故频发,直接威胁到乘客生命安全和社会经济利益,事故背后主要原因是电梯安装之后的维护保养工作不到位。本文旨在研究影响电梯可靠性和生存寿命的因子,对维修保养服务提出改进建议。首先,将电梯所在城市类型、所在楼宇类型、梯龄、电梯类型四个变量与生存寿命、生存状态联系起来,建立Cox比例风
近年来,燃油中含硫化合物的燃烧产生的SOx会造成许多危害,比如产生雾霾,形成酸雨等天气,而且还会损害燃油品质、降低发动机使用寿命等。随着世界各国更严苛的含硫标准,传统的
战国策派是产生于抗战大后方的一个学术派别,它旨在重建人们对时局的认识,树立“大政治”的意识,改造旧的国民性、官僚政治文化,建立现代民族国家,重建“第三周文化”等等。由于这些特殊的主张,它在学界的评价长期呈现两极化态势,上世纪九十年代以来开始对该学派进行价值重估,不同学者从不同角度予以解释,在文化观、哲学观、历史观方面获得了丰硕的学术成果,但是专门从政治学角度研究该学派的成果还比较少,而且现有研究成
矩阵库名为COS_matrix,出于让实验室研发的数据流编程语言COStream便于进行矩阵操作的目的而对其进行设计与开发,由于宿主语言COStream是基于静态数据流调度的数据流编程语言,因此矩阵库中包含的矩阵操作必须要是COStream可以对其进行工作量估计的,而目前现有的矩阵库无法满足该条件,因此选择开发此库,而不使用其他矩阵库。COS matrix库实现了较多常用的矩阵运算,如矩阵乘,矩阵
近年来,带箱型约束的L2-Lp(0<p<1)最小化问题在信号还原、变量选择等方面有着广泛的应用。然而,这是一类非凸非光滑非Lipschitz连续的约束优化问题,求解非常困难。一般而言,这类问题都是NP难的。本论文致力于研究该类问题的数值算法,主要工作如下:第一个方面,我们通过变量替换,将原问题转化为目标函数在约束域上连续可微且其梯度函数是Lipschitz连续的箱型约束最小化问题。我们
随着国内高校科研管理信息化的不断发展,各类科研文档数据迅速增长,如何有效地组织和利用这些科研文档数据,是目前亟待解决的问题。层次主题模型能够挖掘文档集中隐含的主题信息以及主题之间的层次结构关系,可以对数据进行深入地理解和分析。然而,没有融合任何先验知识的无监督层次主题模型往往产生较弱的主题层次结构,为了解决这一问题,本文对融合知识的层次主题模型进行了深入的研究,并对其在科研管理平台上的应用进行了探
随着点云获取技术的提高和以微软的Kinect为先导的低成本点云获取设备的大量上市,三维重建技术在逆向工程、机器视觉、虚拟现实、人机交互等诸多领域的应用更加广泛。点云配准技术作为三维重建技术的重要环节,很多学者都对配准算法进行改进研究,但是针对无任何预知信息的散乱点云,现有的迭代最近点(ICP)算法难以在配准速度与配准精度之间取得很好的平衡。为了解决这一问题,本文提出了一种基于关键点的彩色点云初始配