基于列存储的数据库物理层优化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：wanfl1985

【摘要】

：

由于网络数据的海量增长、数据仓库和OLAP的飞速发展以及商务数据分析的需求，在海量数据存储和分析方面占有优势的列存储得到很快的成长。但以列为导向的物理层存储结构意味着

【作者】

：

胡俊飞

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2013年期

【关键词】

：

列存储索引技术树索引元辅音树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

由于网络数据的海量增长、数据仓库和OLAP的飞速发展以及商务数据分析的需求，在海量数据存储和分析方面占有优势的列存储得到很快的成长。但以列为导向的物理层存储结构意味着在设计列存储模块或列数据库的物理层时，需要采用不同于传统行存储的方式。同时，传统的许多优化技术和方法在列存储中的效率普遍不高，且存储代价较大。其中比较典型的例子是索引技术。因此，研究列存储的物理层架构和索引技术，对列数据库的开发和应用具有重要的意义。基于以上需求，研究了列存储的物理层架构，对物理层各模块进行设计，实现了一个列存储的原型系统。在数据组织上采用固定记录数据块的方式和基于大内存分配的内存池管理方式。在压缩算法上，采用基于字典编码的LZW压缩算法，并与基于统计编码的PPM压缩算法进行性能对比。针对英文单词特征的长字符串类型，设计了一种旨在减少不相关检索数据块的元辅音树。首先，针对列存储索引的需求和字符串特性，设计了一种精简的树结构；基于该树的结构，研究了字符串输入过程的状态变化，并基于此定义了有限自动状态机的各元组。之后，针对该树结构和有限自动状态机的各元组定义，设计了树的初始化、存储、字符串扫描等操作算法；在对有限自动状态机进行状态转移和状态推导的基础上，设计了查询匹配算法。在实际应用于列存储时，对元辅音树进一步改进，设计出元辅音根树和数据块元辅音树的双层结构，同时采用单模式和双模式匹配相结合的策略，在一次单模式匹配基础上进行二次双模式匹配，以此更进一步提高查询效率。

其他文献

学生信息管理系统的设计与分析

学生信息管理是在整个学校管理中,有关学生入学,绩效管理,学校管理等方面的关键环节。计算机和网络技术的学生信息管理操作已经成为当今社会的主流,依靠计算机和计算机网络,

学位

学生教师综合管理信息系统Visual C#2005Microsoft SQL Server C/S

车载容迟网络中机会路由的研究与仿真

在间歇性连接的机会网络中,移动车辆节点携带通信数据形成车载容迟网络(Vehicular Delay -Tolerant Networks),通过携带—存贮—转发机制缓存数据,进入目标节点通信范围后进

学位

车载容迟网络DTN机会主义路由智能交通系统

容错处理器阵列的并行重构算法

二维网状结构的处理器阵列具有简单、规整的特性，在实际的应用中具有良好的性能，因而被广泛应用在信号、图像处理等复杂数据计算领域以快速、高效地实现数据处理。随着技术的发

学位

处理器阵列多核系统容错技术并行重构算法

票据图像压缩编码算法的研究

近年来随着信息管理系统的广泛应用和互联网技术的不断发展，以图像来保存的票据越来越多，主要应用于政府机构或者企业的办公系统、医院信息系统和电子金融管理系统诸多领域，每天

学位

票据图像颜色聚类颜色位图多分辨率分解零树编码码流截断压缩编码算法

带权图的k划分算法研究

图划分的应用背景极其广泛，包括软硬件协同设计、大规模集成电路设计和数据划分等领域。其实，从图划分的众多应用背景来看，图划分问题是某一类问题的集合，即将一个给定的图的顶点

学位

图划分均衡k划分禁忌搜索算法扰动机制

信息系统生存性分析的关键技术研究及系统实现

传统的信息系统安全性研究都是基于入侵阻止和入侵检测思想的,关注的主要是对入侵事件的防范工作,虽然通过各种先进的安全措施可不断提高系统的安全性,但还是不能百分百的阻

学位

信息系统安全性生存性指标层次化分析模型分析框架量化分析实例分析

基于拟态防御和环签名的区块链安全保护方法

随着区块链技术的成熟与发展,区块链技术的应用已经不仅仅局限于数字加密货币,在电力、交通物流、物联网、金融、供应链和医疗数据等方面出现了越来越多的相关应用。以区块链技术为基础的以太坊、超级账本等项目逐渐成熟深化,推动了对区块链安全性需求的多样化发展,超级账本的Fabric项目作为最早脱离数字加密货币体系局限的实用项目,推动了区块链技术在政府、金融、企业等层面的应用与发展。但随着区块链相关应用的多样化

学位

面向大型数据集的近似图像搜索研究

从现有的图像描述和大规模近似图像搜索方法主要是基于全局特征和基于局部特征两大类。由于局部特征能够更好的展现和利用局部图像的图案和纹理，流行的BoW和词汇树方法在找寻

学位

近似图像搜索大型数据集特征提取PageRank算法

多分辨率分析在工程几何造型中的应用研究

几何造型是研究在计算机中如何表达物体模型形状的技术。参数曲面造型和细分造型是几何造型的两个重要技术。参数曲面造型从上世纪60年代Bezier曲线曲面开始发展，70年代发展的

学位

多分辨率分析参数曲面细分技术逼近插值

基于属性约简与半监督学习的入侵防御系统研究

随着网络技术的快速应用与发展，网络安全问题日益突出。传统的防火墙与入侵检测技术已无法满足网络安全问题的需求，因此，入侵防御系统（Intrusion PreventionSystem,IPS）应运而生。

学位

入侵防御系统半监督学习协同训练属性约简量子粒子群优化

基于列存储的数据库物理层优化研究

其他学术论文