基于指令集并行的倒排索引压缩算法的研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:leolee19820604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,海量数据使得压缩技术变得越来越重要。同样地,对于搜索引擎来讲,高效的压缩算法将会提升倒排索引的查询性能和空间利用率。近十年来,计算机处理器得到了快速发展,提供了性能卓越的SIMD指令集。如果把SIMD指令集应用到搜索引擎索引压缩算法中,将有助于进一步改善搜索引擎的性能。本文使用SIMD指令集对已有倒排索引压缩算法进行两种方式的优化:(1)基于原地优化的SIMD压缩算法。这种方式基本不修改已有算法编码架构,直接对可并行部分使用SIMD指令优化,提出了SIMD-PB,SIMD-PFD,SIMD-Rice和SIMD-Simple算法;(2)基于UPCF的SIMD压缩算法。首先提出一种通用的适于并行的压缩框架UPCF,并将已有压缩算法在UPCF下进行编码结构的修改,使其适于并行化,再应用SIMD指令得到并行算法,如SIMD-Group-Simple,SIMD-Group-Scheme, SIM D-Group-VSEncoding, SIMD-Group-AFOR和SIMD-Group-PFD等。在基于千万网页级别的公开数据集GOV2、ClueWeb09B、Wikipedia和Twitter构建的倒排索引上的实验表明,本文提出的基于SIMD指令集的压缩算法在压缩速度和解压缩速度上均优于对应的串行压缩算法,并具有较好的压缩率和鲁棒性。此外,基于SIMD的压缩算法对倒排索引查询速度也具有提升作用。
其他文献
该课题采用高速CPU芯片和嵌入式软件技术解决了用户计算机和隔离器之间的网络通信问题.采用虚拟双硬盘技术用软件解决了单硬盘的分区隔离问题,实现了用单硬盘来代替双硬盘完
作为J2EE(Java 2 Platform Enterprise Edition)应用服务器重要组成部分的分布事务管理器遵循JTS(Java Transaction Service)和JTA(Java Transaction API)规范,提供J2EE分布计
该课题采用B/S多层软件的结构,实现高速公路收费系统的各子功能,通过WEB系统来实现收费系统的网络管理.该论文的第一章介绍了课题的背景及B/S软件结构的基本概念,以及多层软
近年来,随着互联网的发展,移动互联网、物联网的普及,可探测和采集的数据急剧增加。随着数据量的增加,人们开始认识到蕴含在数据中巨大的财富,并开始以各种形式挖掘、开采,数据渗透
该文对ME部件的设计分为四部分:图像组控制器、运算部件、控制部件和后处理部件.该文采用一种封闭的图像组格式,由图像组控制器实现对其控制.采用脉动阵列做为运算单元,在课
本文首先分析了传统分布式计算技术CORBA、DCOM和RMI的特点,揭示了其固有的不足及缺陷:都不太适合于在Internet这样松散耦合、异构的、有防火墙的网络环境下进行电子商务应用系
该文所做的工作是国家863科研项目—构件化嵌入式操作系统及其开发环境研制的一部分.目标是设计并实现一个构件化、嵌入式的TCP/IP协议栈JBEIP.该文的重点是如何使协议栈满足
该文的工作主要集中在对包含有特殊信息内容的文本,进行的有害度评测上.参考以往文本过滤系统所采用的技术,我们发现在这个特定领域,特殊应用上,它们有明显的不足之处.该文根
随着多媒体技术的发展,对各种媒体之间交互作用的研究越来越受到人们的关注。可视语音研究是这个领域的一个重要研究方向,在智能化人机交互界面等研究中占有重要地位。本文结合
目前,集成电路工业作为信息产业的基础,对国民经济和和社会发展产生着日益重要的影响。随着超大规模集成(VLSI)技术和深亚微米工艺的发展,集成电路中广泛存在宽度仅为深亚微米量