基于索引的压缩文本查找算法研究及其并行化实现

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:knighthaha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
压缩查询是近几年兴起的一种文本模式查找技术,它是通过查找压缩文本实现初始文本的查找。在最初的时候,压缩查询是在线的,也就是在压缩文本上直接执行模式子串的匹配操作。对于海量的文本,在线的压缩查询不能满足性能要求,于是将压缩和索引结合起来形成了压缩索引的文本查询。文本索引一般包含两种类型:单词索引和全文索引。单词索引只能检索文本中的单词,而全文索引可以检索任意字符串。自索引是一种完全的索引,它完全包含索引的文本数据。   FM-index是一种压缩的自索引结构,可以实现全文检索。FM-index在简单查询和索引空间占用方面达到了很好的性能,但是在建立索引时却要消耗很大的内存,并且很难处理复杂查询,于是我们提出了一种重叠分块的FM-index索引结构,并且使用MPI对重叠分块FM-index的建立和查询实现了并行化。我们通过实验发现重叠分块的FM-index很好的解决了建立时内存占用过多的问题,它占用的内存跟文本数据量大小没有关系,只跟分块大小有关;它相对于原来的FM-index在复杂查询方面性能也有所改进;同时它占用的存储空间跟原来FM-index的大致相等。重叠分块FM-index的并行化也取得了较好的加速比效率,具有较好的可扩展性。
其他文献
访问控制是对信息系统资源进行保护的重要措施,本文对下一代的访问控制统一框架--使用控制(Usage Control,UCON)做了详细的介绍,同时提出UCON参数化应用思想并成功应用于实际系
随着互联网技术的成熟,以及浏览器客户端Web应用程序的普及,Web安全漏洞已经成为互联网最严重的安全隐患之一,其中跨站脚本(XSS)漏洞是近年来较为流行的一种漏洞。由于JavaSc
目前,随着语义网的发展,本体越来越多地在各个领域被应用,使得本体演化开始受到越来越多的研究者重视。为本体提供一种有效的演化方法,使它能够及时地得到更新以适应各种变化成为
无线传感器网络(Wireless Sensor Networks,WSNs)因其巨大的应用前景和商业价值而受到学术界和工业界的广泛关注。基于WSNs的各类系统在军事、环境、医疗以及其他商业领域具
随着社会信息化网络化的发展,信息安全变的越来越重要。传统的身份认证方式已经难以满足信息社会的需要,因此人们将目光投向了生物特征识别这个广阔的领域。掌纹识别作为一种可
随着移动互联设备和各类传感器愈发普及,人们能够轻松地捕获周围发生的事物,并将其上传到网络上共享。我们所处的世界已经变成了一个感知世界。互联网上的信息在很大程度上可
面向服务体系结构的应用与发展对作为其主要实现方式的Web服务在交互方式的灵活性以及服务非功能属性的保障能力方面提出了更高的要求。在交互模式方面,面向服务体系架构不只
学位
测试是当前工业界应用最为广泛的软硬件确认技术,近年来正在向系统化、规范化、自动化的方向发展。基于模型的测试成为研究关注的焦点之一。   作为引导测试用例选择的标准
学位
数据资源的集成、共享是目前信息化工作中的一个基础性工作。随着企业信息化的发展,数据集成的规模越来越广,参与单位也日益增多,不同的单位关心的数据也是不一样的,而且参与的周
学位
软件规模度量是软件项目成本、工作量估算和合理策划项目进度的基础。近年随着CMMI和软件过程改进在软件行业的流行,软件规模度量作为分析软件过程的一个重要手段,也逐渐成为研
学位