论文部分内容阅读
目前Web已经发展成为全球最大的分布式共享信息资源库。但是因为Web上的信息数量庞大、动态性高,且缺乏统一的格式,导致现有的Web信息检索工具的检索效果持续下降,难以满足用户日益增长的个性化的信息需求。本文介绍并研究的面向主题的Web信息收集技术,是解决这一问题的热门技术。这一技术通过定制收集主题并对Web上该主题领域内的信息进行集中收集,能够直接为用户更高效地提供更为详尽的专门信息。
本文对主题收集技术的原理和关键技术进行了研究,并设计和实现了主题Web信息收集系统(CuteCrawler)。
本文的主要研究工作包括以下几个方面:(1)分析了Web信息收集系统的体系结构,以及主题收集的特点。本文分析了Web信息收集的基本原理,给出了Web信息收集系统的一般性体系结构,分析了各大功能模块的功能和原理。在此基础上提出了主题收集所需要解决的关键技术。
(2)提出了一种综合性的收集主题的确定机制。分析了用于确定主题内容的关键词集和样本集这两种基本方法的优缺点,同时分析了主题的一般性、内聚性,以及权威性对主题收集的影响。提出了综合采用关键词集和样本集的有效主题确定机制。
(3)给出了基于VSM的Web页面的主题相关判别方法。对常见Web页面的预处理技术进行了介绍和分析,介绍了Web页面的表示模型-向量空间模型,在此基础上给出本文的Web页面主题相似度计算方法,以及相关的阈值确定方法。
(4)对超链的拓展方向进行了比较研究,设计了本文的超链拓展机制。本文分析了正向链接拓展的局限性,以及逆向链接拓展的诸多优点。并给出了正向链接与逆向链接的具体获取方法。最后,提出了正向和逆向链接拓展相结合的高效的超链拓展机制
(5)分析比较了各种URL排队机制的效果,设计了本文的URL排队机制。本文首先介绍了各种常见的URL排队机制,比较并分析了它们的实际应用效果。并在此基础上设计了一种新颖的URL排队启发式函数,以及主题收集算法Context-BestFirst,并给出了比较实验结果。
(6)设计并实现了一个面向主题的Web信息收集系统--CuteCrawler,给出了系统结构设计和模块功能介绍,最后对系统的性能进行了比较分析。本文旨在对主题收集的关键技术和系统的设计和实现进行深入探讨,本文的工作和结论对深入开展Web信息智能处理的研究具有重要意义。