基于混合缓存架构的Cassandra读性能优化

来源 :山东大学 | 被引量 : 0次 | 上传用户:andyylaopo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,传统的数据存储、查询、分析方式渐渐力不从心,难以适应海量数据的处理需求。关注非关系型、分布式、开源、可以线性扩展这几个特点的NoSQL数据库应运而生,能够很好地满足大数据时代的数据存储与处理需求。Cassandra作为NoSQL数据库的代表之一,被广泛地应用于各大IT公司,承担着极其重要的数据存储和处理任务。然而Cassandra仍旧是一个相对较为年轻的分布式数据库系统,其在各方面尤其是性能方面还有很大的改进空间。在实际使用过程中,我们发现Cassandra的读性能较差,难以满足日渐增长的读数据需求。经过对Cassandra系统架构的分析以及性能测试,我们发现读操作较慢的主要原因是数据读取过程中涉及较多的硬盘IO操作。如果在读数据时命中Cassandra的RowCache缓存,就可以直接从缓存中获取完整数据进而省略硬盘IO过程,故增大缓存可以明显地提升读操作的性能。但是内存空间是有限的,且价格较高,无法进行大规模扩充来满足缓存高命中率的要求。而近年来出现的固态硬盘具有低消耗、高容量、高速度、低耗费的特点,将其作为内存的扩展,是增大缓存的极佳方案。目前将固态硬盘作为系统交换区来扩展内存是较为常用的手段,但是这种方案有较多的缺点,无法充分利用固态硬盘的优点。为此我们针对性地设计并实现了基于内存和固态硬盘的混合缓存架构,将固态硬盘作为内存的扩展,为Cassandra提供大容量、高速度的RowCache缓存服务,来优化其读性能。我们设计的缓存架构分为两层五区,其中内存层分为三个区域,固态硬盘层分为两个区域。混合缓存在充分利用内存和固态硬盘的存储空间和读写速度的情况下,尽量减少固态硬盘读写过程中的擦除操作,来减少固态硬盘的使用损耗。同时我们设计了一种使数据在各区域中有序转移交换算法,能够区分对待混合缓存中的冷热数据,使较热的数据能够存储在内存层,而相对较冷的数据存储在固态硬盘层。混合缓存系统可以与Cassandra无缝衔接,并对用户提供了友好的参数配置界面,包括静态和动态两种配置接口,使用户可以简单方便的使用。在最后的效果测试中,我们设计的混合缓存架构,在Cassandra上的性能表现是使用固态硬盘作为交换区方案的1.4倍。
其他文献
随着全球网络化进程的不断推进,我国传统银行小额信贷的发展模式正在不断改变,出现了小额信贷由线下向线上发展的趋势,因此小额信贷由线下到线上发展这个问题的研究变得极具
铜阳极板自动提取机是铜圆盘浇铸系统中提取浇铸铜板的重要工作装置,介绍了铜阳极板自动提取机的机构组成及工作原理。针对原自动提取机工作过程中存在的晃动过大、发生滑板
亨利·詹姆斯曾说:"艺术品就是‘情感生活’在空间、时间或诗中的投影。"因此,艺术创作结果也就是情感的形式或是能够将内在情感系统地呈现出来供我们认识的形式。而如今,艺
建立了基于制粉系统运行状态分析的电站锅炉入炉煤收到基水分的监测模型 ,通过测量磨煤机出力、磨煤机入口风量、进出磨煤机的干燥剂的温度等参数间接实现入炉煤收到基水分的
掺石灰对膨胀土进行改性是膨胀土地区筑路常用方法之一。相关技术规范仅规定强膨胀土不能作为路基填料和中膨胀土经过改性处理后可作为高速公路路基填料,但并未阐述其具体配
对燃煤机组和燃气轮机联合循环机组在发电过程中产生的CO2进行矩阵计算方法研究,列出上海电气主要产品排放的数量,推算出60年来生产的发电设备运行时的排放总量。并得知,单位
脉冲功率源(PPS)是一种初级能源,应用范围广泛,许多国家都在对其进行研究。时序触发控制是PPS的关键技术之一,可以对脉冲电源模块进行触发时序设置进而提供负载所需的脉冲调
杭新景高速公路衢州段处于浙江省西部山区,该地区地质地貌复杂,不良地质类型多样,潜在地质灾害严重。在该高速公路路线设计阶段,贯彻地质选线的理念,进行多方案比选,对不良地
通过对高速公路沥青路面几种早期破坏形式及其成因的论述,提出沥青路面早期破坏的防治措施。