面向主题的互联网信息发现与采集

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:win1917
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的指数级增长,面向特定主题的搜索引擎(垂直搜索)日益受到人们的关注。面向特定主题的搜索引擎通过针对性的收集与主题相关的数据内容,并进行分析,最后展现给用户内容更加结构化、信息更加丰富的检索结果。面向主题的互联网信息发现和采集是面向主题搜索引擎的一个重要组成部分,如何高效快速的收集与指定主题相关的互联网信息,是面向主题互联网采集课题的研究目标。本文针对以上研究目标,在深入分析国内外研究现状的基础上,对面向主题的互联网信息发现和采集技术进行了研究。主要研究内容及结果如下:   ⑴提出了一种基于互联网拓扑结构的面向主题采集方法。该方法是一种基于互联网拓扑结构,并利用反馈信息的采集方法。根据Cocitation算法的核心思想----两个页面如果被大量页面所共同指向,那么这两个页面就是主题相关的,该方法认为在采集的过程中,一旦发现一个与主题相关的已采集页面,那么那些与它拥有大量共同父亲的页面将被优先采集。本文作者把这种方法简称为CBFC。通过实验证明,该方法具有很高的采集精确率,而且较普通的基于文本信息的主题采集方法具有更好的覆盖率。另一方面,本文通过分析发现CBFC和HITS算法本质上是相似的,但通过引入窗口变量,使得CBFC方法能够将页面结构信息、互联网拓扑结构信息以及已采集链接的主题相关性反馈信息有机的结合,从而更进一步提高CBFC面向主题采集的精确性。为了更进一步提高面向主题采集的采集覆盖率,提出了一种面向主题的随机采集模型。通过实验发现,利用该模型与CBFC的有效结合,动态的调整随机采集因子,CBFC的采集覆盖率得到了进一步提高。   ⑵提出了一种基于Web信息抽取技术的面向主题采集方法。该方法的主要过程是:首先利用Web信息抽取技术中RoadRunner的核心思想,对页面内容进行分析,生成互联网页面的相关链接集合,然后将相关链接集合转化成CBFC中的窗口变量,最后运用CBFC进行主题采集。通过实验,我们发现利用相关链接集合结果只能解决某一类特定问题。根据这一特点,本文对该方法进行进一步改进,即利用Web信息抽取技术生成一系列不同的窗口变量,将窗口变量进行有机的融合,再继续运用CBFC进行主题采集。改进后的方法能够将各窗口变量的特点有效地结合,起到了取长补短的作用。   ⑶实现了两种基于不同分布式策略的视频采集系统。为了验证上述方法在大规模采集实验中的可行性及有效性,实现了两种基于不同分布式策略的视频采集系统。基于多节点协作的分布式视频采集系统通过Master、Slave、VideoCrawler三类节点的共同协作,完成对视频信息的采集工作。然后通过在该系统上进行的实际采集实验,证明了上述主题采集方法在大规模采集当中完全是可行并且有效的。由于基于多节点协作的分布式采集系统存在着扩展性差以及数据存储缺陷,本文结合上述主题采集思想又设计了一个基于Hadoop分布式平台的视频系统。该系统充分利用Hadoop平台的存储和计算优势,使得整个视频采集过程更具灵活性,所有数据信息的存储更加稳定。
其他文献
本论文主要介绍了基于DSP的自适应智能型积分器和交替式积分器的设计。作者通过对传统模拟积分器电路及数字信号处理等方面的深入调研,给出了实际积分电路的理论计算和误差分
在血液常规检查中,血球分析仪是医学临床检验最常用的仪器,为疾病的诊断提供重要的依据。随着微电子技术和超大规模集成电路的高速发展,基于嵌入式技术的血球分析仪系统在功
定位同步系统为综合检测列车上的各检测系统提供统一的距离采样控制基准及统一的时间、速度和里程标签,并通过实时的里程同步和距离脉冲通道发布,使处于整列车不同断面位置的检
随着医院信息系统的普及,医院数据库规模不断扩大,数据复杂程度日益增加。如何从现行医院信息系统大量的业务数据中抽取有用的知识,以辅助企业决策层进行管理决策,是企业的愿
学位
自1972年Parke研究人脸动画开始以来,国内外研究工作者使用各种方法合成人脸动画,诸如基于参数控制方法,基于数据驱动方法等等。人脸动画的合成具有广泛的实用价值,用于游戏、娱
在遥感数据的获取、处理、分析、数据转换等各种操作中,都会引入不同类型和不同程度的不确定性,并在随后的各种处理过程中传播,最终的不确定性则是各种不确定性不断积累的结果。随着遥感分类数据被广泛地作为GIS中研究土地覆盖和利用情况以及GIS中各种模型的重要数据源,研究遥感影像分类过程中的不确定性具有十分重要的意义。粗糙集理论是一种处理不确定性的数学工具,作为一种新兴的归纳学习方法,以其“不需对数据的任何
个性化、实时化、高效化构建三维人体模型已经成为虚拟人体建模的发展趋势,有着重要的研究价值和广泛的应用前景。三维人体虚拟人体的个性化建模、降低三维人体建模的构造成本
消息中间件(Message Oriented Middleware,MOM)是目前中间件技术的发展热点。它利用高效可靠的消息传递机制来进行平台无关的数据交流,并基于数据通信来实现分布式系统的集成。
互联网飞速发展,已经渗透到人们日常生活的方方面面,互联网所容纳的数据量不断增长,人们面对海量数据的时候对数据的检索提出了更高的要求,期待可以用更少的时间找到自己感兴趣的
自然语言的语义分析是实现自然语言理解的必要手段,其中面向信息处理用的词义分析一直是自然语言处理的焦点和难点。传统语言学的词义研究主要关注词义的发展和演变。汉语词典