一种开放式高性能全文检索平台的研究与实现

来源 :中南大学 | 被引量 : 0次 | 上传用户:rockegg2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息的快速增长促使搜索引擎的迅速发展。通用搜索如Google、Baidu已取得很大成功,然而,一方面它们的技术严格保密,另一方面,开发人员不可能将庞大的通用搜索引擎无缝地嵌入到自己的应用程序中;此外,缺乏对中文支持良好的开源搜索引擎。为此,本文研究并实现了一种新的中文全文检索平台。该平台具有高性能、架构灵活等特点。它既可以很方便地应用于各种动态数据环境的实际领域,也可以用来构建信息检索的实验系统。本文的主要研究工作如下:1.针对传统最大正向匹配算法的效率较低和灵活性差的问题,提出了一种改进算法。该算法采用了基于HASH和TRIE树的词典结构,使分词效率提高了约200%。同时,该算法摆脱了传统最大正向匹配算法的固定最大词长度限制,具有更好的灵活性。2.针对传统索引结构难以满足动态数据环境的不足,本文提出一种新的索引创建方案。该方案主要包括:(1)分级的倒排索引组织结构和链式存储方式,能够很好地解决索引动态增长要求;(2)基于动态平衡树的索引合并策略;(3)可配置的限制性指数分配策略,提高了索引内存利用率和分配效率;(4)基于d-gap的差量压缩算法,使索引文件大小减少了75%,从而减少I/O次数,提高系统性能。3.基于前面提出的分词算法和索引创建方案,采用C++面向对象设计思想以及工厂模式等设计模式,设计和实现一个架构灵活、扩充性良好的全文检索平台,系统平台主要包括索引子系统,检索子系统,存储子系统和插件管理子系统,以及内存管理组件。4.利用该平台设计和实现一个实用的商用搜索引擎系统。该搜索引擎提供用户对网络监控数据的搜索。为各种类型(文本、html、email、office文档、pdf文档等)的监控数据创建大容量索引,提供基于内容分类的高性能查询。该系统投入实际使用半年多所取得显著的成效也很好地证明检索平台的高效性。
其他文献
随着传感器技术、微控制器、无线通信技术的不断发展,无线传感器网络得到迅速的发展,成为21世纪最重要的计算机技术之一。无线传感器网络的应用领域十分广泛,受到越来越多人
复杂网络是研究自然界复杂系统的一种新方法,本文主要利用复杂网络分析方法对新浪微博这种热门社交网络上消息的传播动力学展开研究。微博是在通过用户关注机制建立的用户网络
面对复杂而庞大的Internet,多数用户往往觉得力不从心,当用户在网络上搜索信息时,往往就会因为信息量过大且无目的性发生“迷航”、“认知过载”等现象。基于此种情况,面对用
项目管理是在二战后在国外发展起来的一门学科。上世纪80年代后期,我国也开始在建筑业和国内工程建设项目的管理体制和管理方法上借鉴和采用国际先进的现代化项目管理方法。而
在当前,协作办公系统在许多的企事业单位中都得到了广泛的应用,如何快速、高效地开发灵活、可扩展的企业级应用便是一个难题,企业间的应用集成更是阻碍企业应用进一步发展的
Web服务作为面向服务体系架构(SOA)的典型代表,它为系统的集成提供了有效的解决方案。然而,单个Web服务的功能通常无法满足复杂的应用需求,只有对服务进行组合才能最大程度实现服
夜间车辆检测和状态判断指的是基于前向摄像头,对于前方车辆进行检测,并根据其尾灯状态对车辆整体状态做出判断。本文的研究内容主要分为两部分:第一部分对夜间车辆检测的核心问
在图像处理领域中,色彩迁移指的是把一幅图像的颜色信息转移到另一幅图像,使新生成的图像既保存原图像的形状信息又具有其他图像的色彩信息。根据所选的目标图像的不同,不仅能产
软件测试是伴随着软件的产生而产生的,有了软件的生产和运行就必然有软件测试。软件测试作为保证软件质量和可靠性的关键技术,正日益受到广泛的重视。随着软件工程规模越来越大
数据工程负责信息系统中数据的设计、研究开发、管理和利用,具体包括:数据库设计,数据知识及处理,数据的语言描述,访问及利用数据库,数据访问的策略及技巧,安全性及完整性的控制,工程