专业搜索引擎索引技术的研究与实现

来源 :北京化工大学 | 被引量 : 26次 | 上传用户:teddy18chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet和www的迅速发展,Internet上的资源日趋丰富,基于Internet的各类信息检索服务应运而生并得到了迅速发展。Google、Yahoo等综合型搜索引擎功能虽然非常强大,但是当使用它们来检索某些特定专业的信息时,综合型搜索引擎系统就有些力不从心。为了满足特定专业科学研究的需求,有必要开发针对特定专业的信息检索系统。 本文首先通过对全文检索中的正排表、倒排表,以及倒排表的字表法、词表法的研究与实践,深入了解全文检索索引的构建使用;接下来通过对Apache全文检索系统Lucene源码的剖析和实践,理解Lucene的系统组织结构、基本数据类型、索引内存结构以及索引数据库的文件结构;在对Lucene重要类UML类图进行分析后,深刻理解其索引过程以及索引方式,掌握了索引权重的控制和索引优化的方法。在此基础上,利用Lucene API函数,设计了索引器的批量索引方法与增量索引方法,实现了化工专业搜索引擎系统中索引器部分。在设计和开发的过程中,严格按照软件工程代码重用的要求重用了Lucene的
其他文献
近年来,随着各种移动终端拥有量不断提高,在全球的通讯市场中,移动无线互联网接入已经成为最新的移动服务和最快的发展区域。基于IP的移动宽带无线接入技术802.11和802.16发
RMI-IIOP模型的价值在于RMI可以使用CORBA的IIOP作为分布式对象通信中的标准传输协议,使得RMI应用程序与CORBA系统之间的互操作成为可能。RMI最初使用的JRMP是一个非标准的协
随着基于闪存的固态盘技术的不断发展,当前被广泛应用于混合存储系统中。它具有随机读写性能高,能耗低,噪声小的优点,但相对于传统机械磁盘,容量小,价格贵,受擦写次数的限制
基于角色的访问控制模型是近十几年来在自主访问控制和强制访问控制的基础上发展起来的一种重要的访问控制技术。基于角色的访问控制模型的特点是通过分配和取消角色来完成用
政府工作中存在政府管理企业的工作模式。在政府部门实施电子政务,存在政府系统和企业系统并存的现象。政府需要从企业系统中抽取内容和数据来发布信息,而这些企业系统在开发平
电子邮件作为互联网发展的产物,如今已与人们日常的工作生活密不可分。网络安全审计系统通过实时监控上网场所内用户的网络活动,收集了大量的用户邮件,其中垃圾邮件占据了绝
随着信息技术在社会生活各个领域的快速应用,人们越来越重视数据收集工作,建立了数量众多的数据库,把它们广泛应用于商业、行政、教育、科研等不同行业。同时,为了从丰富的数
传统的售电运营系统具有计量不精确、人工抄表费时费力、统计繁琐等缺点。随着网络技术的迅速发展,网络己经无处不在,人们的生活方式也随之改变。针对传统后付费管理系统的缺
随着温室气体的不断排放,全球变暖已经成为一个不容忽视的问题,现在越来越多的企业和研究机构在数据中心的建设中已经考虑到了节能减排的问题;随着数据中心服务器数目逐年增
近年来,信息技术飞速发展,人们对网络通信的需求不断提高,需要实现在任何时间、任何地点和任何人进行任何方式的通信。作为个人通信的一个重要组成部分,无线局域网因其具有移