论文部分内容阅读
信息时代互联网的繁盛极大地丰富了人们获取信息的途径,网上聊天、网络购物、网上办公已经成为人们日常生活中不可缺少的一部分。然而随着互联网的爆炸式增长以及海量信息的涌现,新问题随之而来:如何排除干扰信息,快速定位到自己感兴趣的资源,已经成为困扰每一个互联网用户的难题。面对这个难题,传统的通用式搜索引擎显得有些力不从心。人们渴望更加专业以及更加个性化的信息检索服务。在这一背景下,面向主题的搜索引擎应运而生,它们大多扎根于特定领域,具有深厚的领域背景,因而能够提供更具个性化以及更加细致专业的搜索服务,并且它们对硬件要求低、更新及时,从诞生之初就成为互联网市场新的宠儿,我们将这类搜索引擎统称为垂直搜索引擎。
垂直搜索引擎的核心组成部分是主题爬虫。这是一种可以自动采集网页并迅速判定其是否与目标主题相关的网络应用程序。主题爬虫在爬取过程中,对目标页面的主题分析或者基于启发式的规则或者基于文本分类,由于爬虫对主题网页的爬取是一种在线行为,其效率是整个爬取过程的关键。本文基于对外汉语领域,对这一主题爬虫技术进行了深入研究,分析比较了各种算法优劣,提出了基于标题和正文的两阶段主题分类模型。我们首先利用特征提取技术提取出了对外汉语领域的主题关键字集合,在此基础上结合互联网网页的结构特点,分别进行标题和正文的主题相似度计算,当结果满足一定的阈值条件时即判定为主题相关。通过试验,我们证明了这一分类模型在不牺牲准确率和召回率的前提下大大提高了网络爬虫的效率,因而具有较高的实际应用价值。
与此同时,考虑到需要对采集到的大规模主题资源实施有效的管理,本文构建了针对主题资源的检索模块,分别实现了基于词的检索、基于文本的检索以及基于内容的图像检索,大大方便了主题资源的管理工作。其中在实现基于文本的检索模块时,我们借鉴了图像检索中比较常用的颜色直方图技术,构建了面向特定主题的文本向量直方图,基于这种文本表示方法,参考有关文献关于相似度的定义,我们设计了两个文本之间相似度的计算方法,并与传统的cosine度量方法进行了对比试验。试验结果表明,我们提出的新方法准确率以及稳定性均要好于传统方法,并且借鉴图像检索计算文本相似性的思想也为文本相似性度量的进一步研究提供了新的思路和研究方向。