论文部分内容阅读
随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎在信息采集、存储等方面都将面临更加严峻的挑战。此外,通用搜索引擎面向Web上所有的检索用户检索不同类别的各种信息,但是,包罗万象的检索结果显然不能满足特定领域用户的精确搜索的需求。因此,面向主题的垂直搜索引擎系统应运而生。
垂直搜索引擎概念的提出,就是针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。垂直搜索是搜索引擎的细分和延伸,可以简单的说成是搜索引擎领域的行业化分工。众多专业性网站、行业网站独立服务于互联网的成功,恰恰证明了互联网的格局应该是多方面的。通用搜索引擎的性质,决定了其不能满足特殊领域、特殊人群的精准化信息需求服务。市场需求多元化决定了搜索引擎的服务模式必将出现细分,针对不同行业提供更加精确的行业服务模式。可以说通用搜索引擎的发展为垂直搜索引擎的出现提供了良好的市场空间,势必将出现垂直搜索引擎在互联网中占据部分市场的趋势,也是搜索引擎行业细分化的必然趋势。
垂直搜索引擎系统包括网络爬虫程序、索引程序和搜索程序。与通用搜索引擎不同,垂直搜索引擎的网络爬虫程序只采集Web中与主题相关的网页信息。网络爬虫程序在爬行时要不断地计算当前网页的主题相关度数值,并根据数值评价网页的主题相关度,因此,垂直搜索引擎可以有效地避开与主题无关的大量网页,搜索出属于特定主题领域内的相关网页。所以,垂直搜索引擎与通用搜索引擎相比,在系统准确率、召回率和效率方面都具有很大的优势。另外,由于所采集的网页数量减少,垂直搜索引擎系统在数据维护方面所付出的代价也远远低于通用搜索引擎系统,一般使用普通的硬件设备即可建立一个高质、高效的垂直搜索引擎系统运行所需的硬件环境。
本文从搜索引擎的概念介绍到垂直搜索引擎的各个模块的实现,完整的介绍了如何实现一个购物搜索引擎。论文可以分为4个主要部分。
在文章第一部分,论文首先介绍了通用搜索引擎以及垂直搜索引擎的行业背景,发展现状并通过分析通用搜索引擎所存在的问题提出了构建垂直搜索引擎系统的现实意义。之后论文从垂直搜索引擎的实现角度出发,提出了设计垂直搜索引擎所要解决的几个难题。
在文章第二部分,论文首先对通用搜索引擎的概念,历史,分类以及系统结构与工作流程进行了详细的介绍。然后介绍了垂直搜索引擎的概念,应用方向以及在系统中所要使用的关键技术。最后通过从采集方式,采集深度、动态网页采集的优先级、结构化数据库信息采集等方面的对比,更直观的介绍了通用搜索引擎与垂直搜索引擎之间的具体差异。
在文章第三部分,论文首先介绍了购物搜索引擎系统的体系结构,接着根据所设计的体系结构简单介绍了各个功能模块中所要实现的功能。然后从第五章开始,直到第七章,通过对各个模块功能及原理的详细介绍,给出了具体实现过程以及相应的实现原理。最后对系统相关模块进行了测试,并给出了模块的性能数据。
在文章第四部分,论文对整个购物搜索引擎系统进行了总结,介绍了本文的主要工作和研究成果,以及购物搜索系统的不足,并给出了改进的方法。
本文的主要工作和研究成果如下:
(1)对通用搜索引擎及垂直搜索引擎的工作原理,体系结构,主要技术等进行了研究,深入分析了网络爬虫,信息提取等模块。
(2)设计了一个垂直搜索引擎系统的系统结构,并按照这个架构,初步实现了购物搜索引擎系统;其中网络爬虫及信息抽取模块是系统中的两个重要组成模块,本论文很好的实现了这两个模块,并具有很好的实用性。
(3)研究了中文分词技术,并在CLucene中添加了自己的中文分词模块。
本文创新点:
(1)在网络购物风靡之际,提出了设计一个购物搜索引擎系统,具有很强的现实意义。
(2)采用改进和扩展CLucene的思想来进行垂直搜索引擎系统的开发,有效地重用了CLucene中的核心代码;
(3)在CLucene的基础上独立开发了中文分词模块,具有新颖性