论文部分内容阅读
Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何快速、准确获取满足用户感兴趣信息的要求,己经成为摆在人们面前的一大难题。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息,也不能满足人们日益增长的个性化需求。为此,本文展开了对Web上局部范围内信息的有效采集研究,也就是基于网页分块的个性化Web信息采集研究。
根据我们在信息采集领域的长期积累以及国内外在信息采集领域的发展现状,结合网页分块的相关研究,本文在综述了基本情况后提出了一个基于网页分块的个性化Web信息采集结构模型,这包括用户兴趣初始化及起始URL选择、页面采集、网页分块解析、板块的定位及内容的抽取、JavaScript链接解析以及内容查重等一系列步骤。具体工作如下:
1)Web信息采集概述,主要包括Web信息采集系统的基本原理、基本结构及研究现状。
2)个性化服务在Web信息采集中的应用。主要包括个性化服务的背景、个性化服务技术的分类、资源处理的方法、用户兴趣的描述方式及用户兴趣个性化信息的收集和更新。
3)网页分块技术。首先介绍了网页分块的背景然后介绍了三种网页分块的主要技术手段,最后在分析各种技术手段利弊的基础上提出了我们的算法TVPS。网页分块技术突破了在处理Web信息采集时以网页为最小单位的瓶颈,在语义块的级别上进行信息采集。
4)设计了一个基于网页分块的个性化Web信息采集系统,并针对具体的问题提出了多个新的算法。具体如下:
页面的采集算法;索引块和内容块的区分;板块的定位和内容的抽取;JavaScr ipt链接解析;内容查重算法。
试验结果显示,我们的工作是有效的,我们的系统对追踪商务网站的特定板块有很强的实用价值,特别是把网页分块与个性化Web信息采集相结合,有较大的突破。