基于Lucene的搜索引擎技术的研究与改进

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:qichen1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,各种各样的繁多的信息在互联网上传播和存在,人们越来越多的喜欢使用互联网来获取信息,因此,如何在纷繁复杂的上万上亿的信息里,快捷而准确的获取自己所需要的信息呢?由此搜索引擎技术应运而生。搜索引擎是指能在互联网上搜集并检索出用户需要的信息的系统,该系统主要由三部分组成:信息搜索、信息整理、用户查询。Lucene是由Apache软件基金会支持和提供的一套开放源代码的用于全文检索引擎工具包,即它不是一个完整的全文检索引擎,而只是一个全文检索引擎的架构。由于Lucene本身并没有像网络爬虫在互联网上搜集信息的模块,因此本文就要设计一个多线程的搜集信息的模块。本文首先分析开源的全文检索引擎工具包Lucene的架构,然后分析Lucene在中文分词方面的不足,设计一种基于字典快速检索的中文分词算法;另一方面Lucene在检索结果排序方面也有不足之处,提出一种按出现的检索关键字的个数、检索关键字在文中出现的位置、频率等几种权重指标来对结果排序的算法;接着介绍用Java语言实现一个用于在网络上搜集信息的模块设计原理和流程;最后,实现一个完整的搜索引擎,从而对Lucene在中文分词和结果排序算法改进进行测试和评价。
其他文献
作为现代信息采集的重要技术,无线传感器网络从诞生之日起,就一直是研究和应用的热点。并且随着智能电网的提出,无线传感器网络在输电线路监测方面的应用将实现线路报警信息
动态手势识别是人机交互技术的一部分,因其具有直观、形象、生动和信息蕴含丰富等特性,而倍受人们的关注,已经成为当今研究热点之一。本文首先概述了基于视觉的动态手势识别
小水电作为可再生清洁能源,是社会发展的重要组成部分,数量庞大的农村小水电对农村的电力事业做出了巨大的贡献。近年来,随着可持续发展理念的提出以及智能优化调度和设备节能方
近年来,随着计算技术、移动通信技术以及全球定位技术的迅速发展和投入使用,加上移动计算机的大量普及,使得一种新的计算模式--移动计算模式得到了飞速的发展。在该模式下,各种高
目前,软件测试越来越受到重视,而测试用例的设计与生成又是软件测试的重点和难点,其本质是如何依据一种以适当方式描述的软件规格说明来设计和生成有效的测试用例。近年来,随
PIM-SM协议作为IP组播域内路由协议事实上的工业标准,目前被广泛应用于核心组播网络中。然而,随着IP组播业务的大规模部署,PIM-SM协议逐渐面临着性能、灵活性和可扩展性等方
摘要计算机网络如今成为全球信息共享的平台,但是随之而来的网络安全问题一直困扰着人们。常用的网络防护手段逐渐露出了弊端,这就需要新的安全防护技术来解决网络安全问题。
随着计算机技术的不断发展,计算机视觉领域越来越被人所关注。立体视觉主要研究利用二维投影图像恢复三维景物世界的问题,是计算机视觉技术的主要任务之一。计算机三维重构理论及其技术在工业,科研等领域有着重要的应用。根据火电厂对盘煤的具体需求,本文对立体视觉技术中的图像预处理、图像特征提取、基于图像特征及图像分割的匹配、三维重构等问题进行了理论及实现技术的研究。图像的基本特征获取是计算机三维重构的基础。通过
学位
实时数据库是数据库系统发展的一个分支,不仅仅单单的在关系数据库中加入时间的特性,而是数据库技术与实时处理技术相结合的产物,是开发实时控制系统、数据采集系统等的支撑软件
学位
多尺度分析在图形图像、地理信息、信号分析、数据挖掘等领域已有应用,多尺度数据挖掘在关联规则分析、聚类分析、分类分析领域也有相关研究与应用。但如何对数据集进行普适性的多尺度划分,以及如何构建多尺度数据集仍未展开研究,已有相关研究多集中在具有明显尺度的数据集上,针对如何构建多尺度数据集尚未形成普适性的方法。论文结合多尺度科学与数据挖掘理论,进一步研究面向多尺度挖掘的、对一般数据集的数据尺度划分方法。论
学位