面向图计算的分布式内存管理技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:q251208414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着社交媒体的发展,图计算成为了学术界和产业界的研究热点。图计算旨在对社交媒体用户产生的海量图数据进行分析处理,挖掘出隐含的重要信息,服务于商业应用和国计民生。目前出现了很多图计算系统,比如Pregel、Giraph以及GraphLab等。在实践中,通用大数据平台,比如Hadoop和Spark等也可用于图计算。  现有图计算系统中普遍采用分布式文件系统或者分布式NoSQL数据库作为图数据的管理系统。这些方法解决了海量图数据的存储与组织问题,能较好地满足图数据管理的可靠性和扩展性。但是,图数据存储管理依然存在三个突出问题:1)图数据的频繁随机增量更新导致数据写入效率低下的问题;2)海量图数据管理与图数据随机访问需求并存,引起的图数据在磁盘和内存间频繁交换现象,导致I/O性能低的问题;3)图计算的复杂的计算依赖导致图数据远程读操作吞吐量低的问题。  针对以上问题,本文分析和对比了现有的图数据管理系统,并结合图数据的自身特征,提出了面向图计算的分布式内存管理的三项关键技术。并在实际应用场景中设计和实现了图数据管理系统NYNN。本文的主要研究内容如下:  1.针对图数据的频繁随机增量更新导致数据写入效率低下的问题,提出了一种零移动的数据组织策略,该策略降低了数据寻址和资源分配的时间,避免了数据写入时的数据挪动,是数据写入效率提高了2~3倍。  2.针对图数据在磁盘和内存间交换现象导致I/O性能低的问题,提出了一种自适应数据规模的存储管理方法,根据集群的内存容量,动态地调整自身存储策略以适应日渐增长的图数据规模,该方法即可有效管理海量图数据,又具有良好的随机访问性能。  3.针对图计算的复杂的计算依赖导致图数据远程读操作吞吐量低的问题,提出了一种应用感知的远程预取策略,根据应用特征,预取和缓存批量数据,降低了网络IO次数,提高了带宽利用率,图数据远程访问的吞吐量提升了2~2.5倍。  4.设计和实现一个面向图计算的分布式内存管理系统NYNN,验证了所提方法的有效性。NYNN系统应用于工程项目中,取得了良好的效果。
其他文献
为软件过程构建度量方法(模型)是软件业界长期以来所讨论的热点话题。尽管如此,当改变发生的时候,诸如GQM、GDSM和FCM之类的软件过程度量方法已经不能够满足软件工程师和软件管
这些年来,智能手机凭借其丰富的功能、简单的操作以及可携带性已经深入到大众生活的方方面面。与此同时,由于智能手机的私密性,其上包含大量设备用户隐私和财产信息,因此对智能手
随着基础电信业务量(主要指语音业务)的逐渐饱和,我国基础电信运营商不约而同地将目光对准了增值电信业务。随着电信业务市场改革开放不断的深入,增值业务进入了前所未有的高速
输配电网是构成复杂、规模巨大的网络系统,是国计民生的命脉。随着我国经济建设和社会的快速发展,我国电网建设发展迅速,大规模的农网改造、城网改造工作已经全面展开,电力网日益
本文采用的是回归分析预测法,回归分析是一种非常实用的统计方法,应用范围很广,回归分析在数据分析上的定量功能使之成为统计分析中的常用方法之一。由于在分析时,回归分析能生成
Reed—Solomon码是目前纠错效果最好、使用最为广泛的纠错码。在这篇论文中,我们首先介绍传统的译码算法,然后介绍了Guruswami—Sudan译码算法,该算法的纠错能力为n—1—「平方
随着计算机应用技术范围地不断拓广,在医院信息系统建设中,电子病历系统的开发与研究更加迫切,目前已经受到业界厂商和研究机构的广泛的关注,纷纷投入大量的人力物力对这一领域进
细分曲面造型方法已经成为计算机图形学和计算机辅助设计(CAD)的一种重要造型手段。随着图形硬件广泛应用于通用计算领域,基于GPU进行几何造型方面的研究也越来越收到人们的关
地理信息系统(Geographic Information System,简称GIS)是以地理空间数据为基础,在计算机硬、软环境的支持下,对与空间相关的数据进行采集、管理、操作、分析、模拟和显示,实时地
作为一种新的网路拓扑结构,组合星图日趋受到重视,其不仅保留了星图小直径、高连通度、高容错度、点对称、层次结构和度较低等特点,同时克服了星图增量因子较大的弊端(n维星图有