面向大规模图计算的I/O优化

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xuhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图计算作为一类重要的大数据计算,应用十分广泛。伴随着图数据规模的迅速增长,人们试图使用二级存储设备对图计算系统进行扩展,以期设计更高性价比的图计算系统。但因为二级存储设备相较于内存随机访问性能弱,所以这种方式使得存储I/O成为整个图计算系统的性能瓶颈。本文为解决这个问题,从三个角度对图计算系统的I/O软件层次进行了优化。首先,我们分析了基于二级存储的图计算系统相较于基于内存的图计算系统在内存利用率方面的不足。针对这个问题,我们设计了能高效利用内存进行数据缓存的优化方法,将数据访问尽可能转移到对内存的访问,从而减少对慢速二级存储的访问。同时该方法可以避免缓存内存到目标内存的拷贝,并将系统调用的数量从O(n3)降低到O(n2),进一步提升了图计算系统的整体性能。其次我们发现,对于图数据访问I/O的不均衡也会导致系统整体性能的下降。因此,我们在图计算预处理阶段对图数据进行划分,使得每块存储设备上的数据量尽可能一致,保证设备并行工作的状态以提高I/O聚合带宽。最后我们针对图计算应用了用户态I/O的优化方法,利用用户态轻量级的软件栈替换基于内核的存储软件栈。上述三种优化方式分别在前一系统的基础上加速50倍、2倍和1.23倍。对于远远超过内存容量的大规模图数据,优化后的系统较目前国内外最先进的同类型系统Chaos加速了近11倍,进一步缩小了与完全基于内存的计算系统之间的差距,证明基于二级存储的图计算系统不仅低能耗、高性价比,同时也有非常高的性能潜力。
其他文献
自然语言处理是人工智能的一个重要研究领域。它是利用计算机进行语言知识的获取、表示以及应用的技术,为人和计算机之间的信息交流提供高效、便捷的方法。自然语言处理技术已
软件工程学的奠基人Dijkstra早在1968年就提出:软件工程师不仅要关注系统的功能,还需要理解软件的结构。但随着软件规模的不断扩大,软件系统中大量元素及其之间错综复杂的交互
随着Internet的快速发展,Web数据库得到了广泛的应用,越来越多的普通用户通过查询接口访问Web数据库以获取更多信息。当前,数据库查询处理模式通常假定了用户能够明确其查询
随着第三代移动通信(3G)网络应用的普及和发展,其自身的安全问题也日益受到人们的广泛关注。GTP协议作为3G核心网中最为重要的一种IP承载和隧道封装协议,其自身没有采用任何
随着对软件系统的连续运行性要求的提高,构件的动态演化逐渐成为研究热点,而保证构件系统的行为一致性是构件动态演化的首要问题和根本目标。不受约束的系统行为改变可能导致
随着互联网的迅速发展,各个网络服务提供商都需要为越来越多的用户提供服务,用户对应用服务器也提出了更高的要求:7×24小时全天候服务、响应速度快、I/O吞吐量高、容错性好、
近年来,实时Linux系统已逐渐被人们用作嵌入式应用软件的支撑平台。RTAI作为一种优秀的实时Linux系统,实时性、开源性、多平台支持以及可定制性为其广泛的应用奠定了一个良好的
随着信息时代的到来,计算机的普及和应用给各行各业带来了极其深远的影响。在工业控制领域,现代工业技术的快速发展为工业检测提供了众多的检测技术与手段,比起传统的测量技术具
近年来,我国高等职业教育迎来了蓬勃发展的新局面,各院校招生规模不断扩大,学校的教学管理负担越来越重。采用传统的学生信息管理模式(如直接手工管理或者开放性程度不高的管
无线传感器网络(Wireless Sensor Network,简称WSN)是计算机科学与技术学科一个新的研究领域。它涉及到拓扑控制、路由协议、节点定位、时间同步和数据融合等相关技术,其中以