重复数据并行化研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:sun54965436
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,数据量的爆炸式增长使得对于存储的需求越来越大,而同时被存储的数据内部存在大量的冗余(例如数据备份系统生成的数据),造成系统存储空间的浪费。重复数据删除技术的出现缓解了冗余数据问题,大大提高了存储利用率,因而受到学术界和工业界的广泛关注。目前最为火热的虚拟化领域和云计算领域,对消除数据冗余同样有着迫切的需求,因此重复数据删除技术已成为目前存储领域的一个研究热点,其中对于重复数据删除系统吞吐率的研究最受关注。以往的研究都是通过减少磁盘访问来提高系统吞吐率的,本文研究发现当磁盘访问这一系统系统性能瓶颈被消除之后,系统的性能还是会受到系统中计算密集型任务的影响。如何降低计算任务对重复数据删除系统的影响是本文的研究重点。   本文采取了一系列技术手段来对重复数据删除系统进行并行优化。首先,系统引入了流水线技术来提高重复数据删除过程中计算任务的并发度,提高系统的整体性能。本文给出了详细的重复数据删除流水线设计方案和流水线平衡性解决方案。其次,本文将协处理器引入重复数据删除系统来加速计算密集型任务,降低CPU的计算负载。本文引入PadLock加速重复数据删除过程中的摘要计算和数据加密工作,引入GPU来降低Bloom filter计算和数据压缩计算的执行时间。上述两个措施提高了重复数据删除系统的并发度,降低了计算任务对系统性能的影响,很好地提升了系统的性能。   本文设计了调整流水线执行顺序来提高重复数据删除系统数据集适应性的解决方案。通过调整流水线的执行顺序使得系统在不同的数据集上都能发挥最好的性能,得到最佳的吞吐率。本文给出了一个数学模型来选择最优的流水线顺序。   实验表明经过并行优化的重复数据删除系统在吞吐率上确实有很大的提升,数学模型也确实达到了预期的效果。
其他文献
半个世纪以来,随着研究的不断深入,已有多种模型用于基因调控网络的构建,包括布尔网络模型、贝叶斯网络模型、微分方程模型等,并取得了一些成果。20世纪90年代,基因芯片等高通量生
增强现实是将计算机生成的虚拟信息与真实世界的叠加,而全景视频是将拍摄到的视频拼接后可任意角度拖动观看的动态视频。在一些受到保护且不便让用户进入的场景(如文物古迹、
一直以来,自动语义分析是自然语言理解的主要目标之一,然而由于深层语义分析的复杂性,人们目前更关心浅层语义分析,一种简化的语义分析形式,它只分析与句子中谓词有关成分的
数据质量已被公认为是数据管理的首要问题之一。针对数据质量管理领域的数据记录不匹配及不一致问题,本文分别从记录匹配检测及不一致修复两个角度出发,提出了基于CON模型的
由于有着标准化、简洁、结构严谨和可高度扩展等优点,可扩展标记语言XML在飞速发展的互联网中逐渐成为网络数据表示和交换的标准格式。现今网络上出现了大量的XML文档,这些文档
序列数据库搜索是生物信息学中的重要应用,具有计算密集型和可并行性的特点。由于生物技术的发展,序列数据库以指数增加,使得搜索越来越耗时,传统的计算机已经难以满足计算需求。
随着人民生活水平的不断提高,城市化进程的不断加快,现代城市各类公共场所人口和资源不断集中,各种风险和非常规突发事件的威胁日益凸现。非常规突发事件引起的行人疏散过程
在不影响意思表达的情况下,为了语言的简洁明了通常会省略部分语言成分,这种现象称为缺省。缺省是一种常见的语言现象,在汉语中更加普遍。国内外对于中文缺省的研究起步比较早,但
关联规则分析是数据挖掘中最主要的分支,其主要目的就是为了挖掘存在于事务数据库中隐藏的关系或者联系。随着大数据的普及,传统的关联规则挖掘算法暴露出的问题越来越明显,
数字多媒体数据极易在网络上复制、伪造、传播,数据的版权验证保护问题随之凸显出来。数字水印技术因成为解决这一问题的有效方案而受到广泛关注。但是目前大多数水印算法是嵌