一种基于RDMA的高效一对多数据划分机制的流处理系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lijiquan_555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了处理大量的实时数据流,现有的分布式流处理系统遵循数据并行的原理,并利用不同的数据分区策略。其中一对多分区策略(例如,ApacheStorm中的广播分组)在各种大数据应用程序中起着至关重要的作用。对于一对多数据分区,上游处理实例将生成的元组发送到大量的下游并行处理实例。现有的分布式流处理系统通常基于面向实例的通信来实现一对多数据分区,其中上游实例将数据元组分别传输到不同的下游实例。但是,多个下游目标实例通常在同一台物理机上并行运行,以充分利用服务器多核计算资源。因此,现有的分布式流处理系统多次将包含相同数据项的元组发送到同一台物理机器,从而带来了不必要的多次序列化和服务器间网络通信的开销。通过实验表明,这种机制会由于高并行度级别的CPU过载而导致严重的性能瓶颈。
  为了解决该问题,设计并实现了Whale系统,这是一种新颖的利用RDMA(Remote Direct Memory Access)辅助的分布式流处理系统。Whale系统中两个主要方面的设计提高了系统效率。首先,Whale系统提出了一种新颖的RDMA-assisted流多播方案,以减轻分布式流处理系统中上游实例的CPU工作负载。通过探索一种具有轻量级切换机制的自我调节Non-blocking的多播树结构,Whale系统可以很好地应对高度动态的数据流。其次,通过使用面向工作进程的通信机制来代替面向实例的通信机制,系统重新设计了现有的分布式流处理系统中的通信机制。面向工作进程的通信机制利用Batch-and-dispatch的通信样式,上游实例可以避免与在同一个工作进程上的多个下游实例进行通信。因此,它极大地节省了不必要的通信和序列化成本。Whale系统被实现于ApacheStorm平台之上,并采用实际应用系统的大规模数据集进行了全面的测试。结果表明,与现有设计相比,Whale的系统吞吐量提高了39倍,处理延迟减少了96%。
其他文献
在社交网络极大普及的今天,如何获取和维护社交网络中一些关键和重要的属性成为了一项极有意义的工作。通常来说,大多数工作都将社交网络抽象化为动态图模型进行结构分析,在图论与网络分析中,中心性是判定网络中节点重要性的指标,是节点重要性的量化。这些中心性度量指标最初应用在社会网络中,随后被推广到其它类型网络的分析中。在对于社会网络的分析过程中,其中一项最基本的任务就是需要区分一个社区中那些对象比其他人更具
学位
集成学习是一类重要的机器学习策略。集成学习通过构造含有多个学习器的集合,以期望获得比其中任意一个个体学习器更优的算法准确度。然而,机器学习模型的训练与使用需要消耗相应的资源,包括但不限于为完成计算任务所需的存储空间、执行时间,和耗费的能量,以及其他所需的物质与人力资源。额外的存储需求和计算成本很大程度上限制了集成学习的潜在应用。有限的计算资源成为许多集成学习方法无法回避的问题,特别是当集成规模较为
随着云计算技术的发展,云存储凭借其扩展性好、部署快、成本低等诸多优势而得到广泛应用,然而近年来屡次出现的数据丢失、泄露、恶意攻击等事件使用户数据面临巨大的安全风险。数据加密技术和访问控制技术是保护数据安全的两个重要手段,现有的密文策略属性基加密方案(CP-ABE)将访问控制技术与数据加密技术相融合,被认为是云环境中最为理想的数据保护方法,但多数CP-ABE存在效率低、对恶意用户攻击的抵御方式过于简
学位
大脑神经网络对人类的思维、情感与行为都起着决定作用,在脑疾病以及类脑智能研究方面具有重要价值。而神经元是构成脑网络的基本单元,重建神经元的拓扑结构并分析其形态特征是脑网络研究中的重要方向。  近十几年来,随着神经标记和光学成像技术的逐渐成熟,科学家已经能够获得单神经元水平的全脑三维图像,为神经元形态重建奠定了数据基础。接下来的问题是如何从这些图像中识别、分割神经元的形态结构,并重建数字化三维模型。
多模型数据库是近年来数据库领域里一个新的研究方向。OrientDB作为一种新兴的多模型数据库,默认的参数配置并不能使其达到最佳性能,需要针对实际应用负载对其参数配置进行调优,现有的单模型数据库上的参数配置调优经验无法直接迁移到OrientDB上,为了降低参数配置调优难度,提高OrientDB性能,充分发挥其潜能,亟需研究OrientDB参数配置自动调优技术。  论文研究OrientDB参数配置自动
为了减少数据处理过程中数据移动带来的开销,近数据处理(Near Data Processing, NDP)提出在存储数据的地方就近处理数据。分布式对象存储系统中的存储节点不仅能用于存储数据,还可以用于近数据处理。然而现有的面向存储系统的NDP方案并未能充分利用大量存储节点的资源来满足近数据处理的需求。  首先设计并实现了一个基于存储节点的本地近数据处理方案,接着复现了已有的异地近数据处理方案,通过
新兴的非易失性存储器件(NVM ,Non-volatile Memory)具有持久性、字节寻址、高集成度、低能耗、价格低廉等优点,相比于DRAM等传统存储器件具有更广阔的发展前景。但NVM器件单元一般仅能承受108~1012次写入,远小于传统DRAM器件的使用寿命。而应用负载的写分布不均更是加速了器件的老损,如何延长NVM器件的使用寿命是目前应用研究的难点之一。  针对现有NVM器件磨损均衡方案存
近年来,云盘凭借其高可用、高可靠、低成本以及可定制化的特点,在云块存储系统中的应用越来越广泛。云块存储系统后端有很多存储仓库,系统通过一定的分配策略将新云盘分配到最合适的仓库来供用户使用。随着云计算和互联网技术的快速发展,用户数据量显著增长,对云盘的分配策略带来了巨大的挑战。由于新云盘在分配前的负载信息未知,现有的云盘分配策略仅考虑存储容量维度,从而导致云块存储系统多维度资源(例如容量、IOPS、
学位
随着多媒体数据的爆发式增长和云存储技术的迅猛发展,海量云端数据呈现出多模态混合并存的特性,如何以内容语义为标准对其进行智能化管理和跨模态分析成为传统云存储系统面临的新挑战。一方面,数据体量的增加和模态之间的差异导致有效数据的检索难度陡然提升。另一方面,现有存储系统中,数据无法建立以内容语义为标准的标签与关联。因此,根据用户需求和内容相关性智能化检索云端多模态数据是当下亟待解决的热点问题。  目前,
大脑作为中枢神经的主要组成部分,是生物体最复杂、最重要的器官之一,其结构和功能机制是当前脑科学研究领域的热点和难点。脑科学研究者们从高分辨生物图像中重建出神经元、血管、核团形态并进行计算和分析,由于形态学研究需要大量数据,数据共享变得尤为重要。然而,目前的数据共享方式局限于文件、文字、图片、视频等静态信息,需要用户下载或者拷贝数据并使用本地软件才可进行形态观察,浪费大量人力与物力。此外,现有的可视