论文部分内容阅读
Internet的普及和网络技术的飞速发展使人们面临一种网络信息爆炸性增长的现状,基于文本的垂直搜索引擎因其能够在海量信息中对某些特定垂直领域的信息进行快速检索的突出能力而备受搜索引擎开发人员的青睐,如何实现快速、高效、准确地垂直搜索也是一个非常活跃的研究领域。本文主要就是针对该问题开展的研究,通过对网络信息的获取、处理、检索技术进行研究,实现对网络数据的有效获取、智能抽取、快速精确检索。取得的主要成果如下:
1.垂直搜索引擎的网络信息采集器的研究与设计:用户在使用传统搜索引擎查询时,检索词可能出现在多个领域中,因而难以准确获取所需垂直领域的信息。为了解决该问题,本文提出了一种适用于垂直搜索引擎的网络信息采集器,使用内容评价搜索策略和链接分析策略结合的方法,从而大大减小检索结果的信息冗余度,使用户能够快速获取其真正需要的信息。除此之外该网络信息采集器还采用了多主体并行运行的方式,提供高效、高速的抓取服务。
2.网页信息的过滤与抽取:为了避免网页噪音数据对后续处理的干扰,本研究通过网页判别器确定网页类别,并根据分析噪音数据特点使用噪音过滤器去除网页噪音数据减少检索中冗余信息。考虑到垂直搜索针对不同的领域,本文根据网页的特点,定位Web页面的结构信息,通过解析器将Web文档解析成语法树,再通过半自动的方式产生抽取规则来实现信息抽取。
3.移动垂直搜索引擎的设计与实现:移动搜索引擎受到移动终端设备的屏幕较小、运算处理能力较差和无线带宽受限等各方面的限制,往往不能达到有效的信息检索。针对该问题,本文提出了将垂直搜索技术应用到移动搜索领域来满足移动搜索对智能化、精确度和有效性等方面的需求。本文使用网络信息采集器获取商品信息,根据商品购物网的特点运用信息抽取技术,自动提取页面中的有用信息(如商品名称、价格、图片、商品简介等),然后采用分类器将商品按照其所属的类别进行分类存储。当用户提交商品查询时,系统将商品相关信息智能地编排在一个页面内并返回给用户,提高查询的针对性和命中率。在设计过程中遇到的具体问题,如WAP服务器的建立和设置、Openwave仿真器的安装与实现、搜索页的设计与封装等等,本文都提出了相应的应对策略,并详细描述了解决方法。