论文部分内容阅读
随着互联网信息的指数级增长,面向特定主题的搜索引擎(垂直搜索)日益受到人们的关注。面向特定主题的搜索引擎通过针对性的收集与主题相关的数据内容,并进行分析,最后展现给用户内容更加结构化、信息更加丰富的检索结果。面向主题的互联网信息发现和采集是面向主题搜索引擎的一个重要组成部分,如何高效快速的收集与指定主题相关的互联网信息,是面向主题互联网采集课题的研究目标。本文针对以上研究目标,在深入分析国内外研究现状的基础上,对面向主题的互联网信息发现和采集技术进行了研究。主要研究内容及结果如下:
⑴提出了一种基于互联网拓扑结构的面向主题采集方法。该方法是一种基于互联网拓扑结构,并利用反馈信息的采集方法。根据Cocitation算法的核心思想----两个页面如果被大量页面所共同指向,那么这两个页面就是主题相关的,该方法认为在采集的过程中,一旦发现一个与主题相关的已采集页面,那么那些与它拥有大量共同父亲的页面将被优先采集。本文作者把这种方法简称为CBFC。通过实验证明,该方法具有很高的采集精确率,而且较普通的基于文本信息的主题采集方法具有更好的覆盖率。另一方面,本文通过分析发现CBFC和HITS算法本质上是相似的,但通过引入窗口变量,使得CBFC方法能够将页面结构信息、互联网拓扑结构信息以及已采集链接的主题相关性反馈信息有机的结合,从而更进一步提高CBFC面向主题采集的精确性。为了更进一步提高面向主题采集的采集覆盖率,提出了一种面向主题的随机采集模型。通过实验发现,利用该模型与CBFC的有效结合,动态的调整随机采集因子,CBFC的采集覆盖率得到了进一步提高。
⑵提出了一种基于Web信息抽取技术的面向主题采集方法。该方法的主要过程是:首先利用Web信息抽取技术中RoadRunner的核心思想,对页面内容进行分析,生成互联网页面的相关链接集合,然后将相关链接集合转化成CBFC中的窗口变量,最后运用CBFC进行主题采集。通过实验,我们发现利用相关链接集合结果只能解决某一类特定问题。根据这一特点,本文对该方法进行进一步改进,即利用Web信息抽取技术生成一系列不同的窗口变量,将窗口变量进行有机的融合,再继续运用CBFC进行主题采集。改进后的方法能够将各窗口变量的特点有效地结合,起到了取长补短的作用。
⑶实现了两种基于不同分布式策略的视频采集系统。为了验证上述方法在大规模采集实验中的可行性及有效性,实现了两种基于不同分布式策略的视频采集系统。基于多节点协作的分布式视频采集系统通过Master、Slave、VideoCrawler三类节点的共同协作,完成对视频信息的采集工作。然后通过在该系统上进行的实际采集实验,证明了上述主题采集方法在大规模采集当中完全是可行并且有效的。由于基于多节点协作的分布式采集系统存在着扩展性差以及数据存储缺陷,本文结合上述主题采集思想又设计了一个基于Hadoop分布式平台的视频系统。该系统充分利用Hadoop平台的存储和计算优势,使得整个视频采集过程更具灵活性,所有数据信息的存储更加稳定。