基于DOT的实时数据分析系统研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：xing3653

【摘要】

：

随着互联网技术的广泛应用，电信、交通、金融等各传统行及新兴的互联网行业出现了数据的爆炸性增长，大规模数据处理技术首先在互联网行业诞生并迅速应用于各种大规模数据处理场

【作者】

：

刘佳

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2012年期

【关键词】

：

互补聚簇索引 DOT表实时数据分析在线计算框架硬件透明压缩关系型数据库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的广泛应用，电信、交通、金融等各传统行及新兴的互联网行业出现了数据的爆炸性增长，大规模数据处理技术首先在互联网行业诞生并迅速应用于各种大规模数据处理场景中。其中以Google提出的MapReduce编程框架应用最为广泛，并得到了工业界的广泛支持。各种基于MapReduce的离线数据处理工具应运而生，类似于Hive、 Pig、Cascading的离线数据处理工具很好地解决了大规模数据离线批量处理的问题。但是由于MapReduce编程框架处理数据延时较高，同时数据存储缺乏适当的管理结构使得许多基于传统LAMP结构的实时数据处理应用的需求不能得到满足。　　由于支撑传统web应用的LAMP结构其底层基于关系型数据库，通常情况下扩展性较差，当数据规模扩大时存储层性能成为系统的瓶颈。所以许多支持大规模数据存储查询分析的系统如雨后春笋般层出不穷，DOT系统就是其中的典型，本文主要研究了DOT表上如何通过调整数据分布、构建索引、添加统计计算功能来满足大数据上在线应用的实时统计查询需求。　　针对DOT表不支持多维区间查询的问题，本文实现了互补聚簇索引方法(Complemental Clustering Index简称CCIndex)，把数据副本组织成为多份互为补充和校验的聚簇索引，利用高效的连续扫描代替随机读，从而大幅提高多维区间查询性能;针对DOT表不支持数据统计计算功能的问题，本文研究并构建了DOT上的在线计算框架，利用服务端系统资源进行数据本地计算，减少数据迁移来提高统计速度;针对DOT表数据膨胀率高的问题，我们设计实现了基于硬件压缩卡的HDFS上透明压缩技术，数据的压缩借助特殊硬件压缩卡完成，减少了压缩过程消耗的系统资源，由于压缩卡压缩数据通量大于磁盘通量，数据写入延迟小。相关实验证明数据压缩比约为1∶4，相当于将磁盘的通量提高了4到5倍。压缩技术基于HDFS实现对于上层应用透明，所以基于HDFS的数据分析系统都可以方便地使用数据压缩。　　实验证明CCIndex的查询速度为二级索引的11倍，为MySQL Cluster的2倍。DOT上的在线计算框架数据处理速度最高达单服务器45万行每秒，为HBase上Hive统计速度的7倍左右。使用HDFS上的硬件透明压缩技术后，HBase写入速度提高3倍，数据压缩到原表的1/4，同时在线计算框架的统计速度也提高到原来的3倍左右。本文研究的索引及在线计算框架等相关技术还被应用于国内某电子商务网站的数据分析应用中，改造后的系统可查询的数据量为原系统的12倍左右，复杂查询的响应时间为原系统一半。目前改造后的系统在线上已经稳定运行一年，为30万注册用户提供查询服务。　　

其他文献

C元(CCS)并行编程语言研发成果汇报

这份工作报告汇报的是“C元”并行编程语言的研发成果。该编程语言的目的是把繁琐复杂的分布式众核并行计算应用软件开发工作变得轻松简单。为此，本文作者设计了“C元”的并行

学位

C元并行编程语言软件开发并行编程语法编译器软件

眼底图视盘定位，动静脉分类以及疾病检测

目前，部分疾病如动静脉交叉压迫、棉絮斑都能从眼底图中找到依据，且眼底图由于拍摄简单，成本低廉，信息丰富而被广泛应用到疾病检测中。随着数字医疗的发展，如何利用前沿的图像处理

学位

疾病检测眼底图视盘定位动静脉分类

竞价广告中动态规划的研究与改进

随着互联网广告的兴起，越来越多的商业机构通过投放网络广告获得客户购买行为，来产生利润。其中百度的搜索推广系统应用最为普遍，利用其精准的关键词定位技术，将高质量的企业推广

学位

贪心算法竞价广告投资优化动态规划

网络虚拟化环境下的故障探测和诊断算法

网络虚拟化作为解决互联网架构的僵化问题的可行性方案,引起了越来越多研究机构的关注。本文在此背景之下,重点关注网络虚拟化环境下的故障管理。故障管理可以保证及时获得网

学位

网络虚拟化故障探测探针站部署故障诊断

面向维修的智能虚拟人行为规划方法研究

学位

基于虚拟机的MS Windows兼容片上系统固件技术研究

随着半导体技术的发展和消费类电子产品复杂度的不断增长,基于平台的设计(Platform-Based Design)方法逐渐成为片上系统(System-on-Chip,SoC)设计主流,且SoC运行的软件系统日

学位

片上系统固件技术兼容性能操作系统设备驱动程序协同验证

基于元胞自动机的林火蔓延三维模拟仿真研究

森林火灾会给人类带来很多重大的灾害,而林火行为受到多种因素的制约,研究制约林火蔓延的规律,并借助计算机的帮助模拟林火从发生到发展的蔓延状态具有非常现实的意义。本文

学位

元胞自动机森林灭火三维模拟粒子系统实地点烧

基于XPDL的工作流引擎访问外部应用程序的研究与实现

随着信息化技术的发展，工作流技术已经被越来越广泛的应用到企业的信息化系统中，人们对于工作流技术的需求也越来越多样。工作流引擎在执行流程实例的过程中会调用执行一些系统

学位

XPDL语言工作流引擎外部应用程序软件设计

基于运动控制的稀疏纹理图像增强现实技术研究

基于图像的增强现实技术有着广泛的应用领域，如拍摄视频轨迹跟踪、虚实图像融合、基于图像的三维建模等技术广泛应用于教育、影视、娱乐等行业。这些技术通过从图像中提取有效

学位

运动控制相机轨迹跟踪手眼标定虚实融合三维建模图像匹配增强现实

IMS下MRF的功能与部署结构的改进

世界移动通信技术的飞速发展,将在经济发展和社会进步中发挥更重要的作用,也将会给人们的生活带来越来越大的影响力。随着第三代移动通信(3rd Generation Mobile Communicati

学位

IMSMRFSIPNCSPAS

基于DOT的实时数据分析系统研究

其他学术论文