基于Xapian的全文检索系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:cheayu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息大爆炸时代的到来,数字图书馆中电子书、图片、视频、音频等各类多媒体数字资源的数量日益庞大。为用户提供检索服务,让用户能够在海量的数字资源中找到感兴趣的内容成为数字图书馆亟待解决的问题。本课题是国家图书馆合作项目“数字家庭互动媒体服务系统”的子项目,任务是设计和实现一个全文检索系统,为多媒体数字资源发布平台提供对各种类型的多媒体资源统一的检索服务。本文设计的全文检索系统通过事先创建的元数据模板抽取多媒体数字资源的内容和特征建立索引,提高查全率和查准率。系统分为数字资源解析模块、建立索引模块、检索模块、中文分词模块以及权限控制模块共五个部分。中文分词模块是整个系统的核心模块,它为索引模块和检索模块提供分词功能。本文提出的中文分词模块具有三个特点:第一,被设计成独立的python第三方软件包,为应用开发者提供通用的分词功能;第二,配备了常用的中文分词组件,对上层应用提供统一的接口,降低中文分词模块与整个系统的耦合度。该模块可以无缝地整合到开发者的各类复杂应用系统中。第三,开发者通过简单的配置可以在不同的中文分词组件之间切换以便比较分词效果。本文首先对国家图书馆多媒体数字资源的特殊的存储格式、元数据的内容和结构设计进行了研究。接着对基于字符串匹配的分词算法、基于统计的分词算法和基于理解的分词算法进行了研究与分析,并且对常用的分词系统从实现原理、切分效果、暴露接口等方面进行了分析比较。最后对Xapian全文检索工具包的组织结构、实现原理和常用接口进行了研究。基于上述的研究,本文从用户角色分析、全文检索系统总体架构、功能模块设计和数据库设计这四方面对全文检索系统进行了详细设计与实现。通过对系统的查全率、查准率和检索速度等性能指标进行测试与分析,验证了系统具有较高的检索准确率和检索效率,最终能够满足对电子书、图片、视频、音频等各类多媒体数字资源统一检索服务的需求。
其他文献
IMS是由3G移动通信领域中的权威组织3GPP提出的重要概念。IMS可以提供IP多媒体服务,是下一代电信网的关键,因此IMS网络的安全问题必须引起人们的关注。IMS安全测试仪能够生成
伴随着空间位置技术的快速发展和广泛应用,空间数据挖掘也成为数据挖掘领域的热点之一,而对空间频繁co-location模式的挖掘也成为空间数据挖掘中最为重要的研究方向。目前空
社区问答(Community Question Answering, CQA)是一种基于网络社区帮助用户获取信息和共享知识的新型互联网服务。问题推荐的目标是自动将社区问答中新提出的问题推荐给合适的
随着数字作品版权保护的重要性发展,数字指纹技术起着非常重要的作用。文中主要使用基于分数阶混沌动力系统的数字指纹技术,对数字图像和视频实现数字指纹的嵌入和跟踪从而达
随着互联网应用的快速发展,网民对互联网应用使用有了广度和深度的提升。网络应用已经呈现出越来越多类别,致使网络流量剧增,占据了巨大的网络带宽,不利于高质量的服务,给网络运营
该文在比较几咱电子邮件系统的基础上,设计了一种基于Web的POP3电子邮件系统---WWWPOP.文中阐述了该系统的设计思想,分析和设计了系统结构,并重点讲述了相关的主要技术.
近年来,随着移动互联网的发展和移动智能终端的发展与普及,移动智能终端逐渐具有了更方便快捷的网络接入途径和更强大的计算能力,移动设备也出现于人们生活中的方方面面。然而在
信息化的快速发展,使得利用计算机来存储和传输的数据日益增多,同时数据安全问题也越来越严峻。特别是涉密网络中存储的涉密信息,一旦发生泄露,将对国家、政府和企事业部门造
伴随着互联网的持续迅猛发展,互联网用户和接入终端的数量仍处于持续上升阶段,互联网中流转的总数据量呈现着爆炸性增长态势,各类网络设备的处理能力面临巨大的挑战。网络设备处
随着视频编码标准的发展,其编码算法的复杂度持续提升,传统的单核处理器已经很难满足当前先进的视频编码技术对计算能力的要求。同时,随着集成电路制造技术进入纳米级,众核(Many-