主题网络爬虫系统的设计与实现

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:asdfsadfsad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代互联网的繁盛极大地丰富了人们获取信息的途径,网上聊天、网络购物、网上办公已经成为人们日常生活中不可缺少的一部分。然而随着互联网的爆炸式增长以及海量信息的涌现,新问题随之而来:如何排除干扰信息,快速定位到自己感兴趣的资源,已经成为困扰每一个互联网用户的难题。面对这个难题,传统的通用式搜索引擎显得有些力不从心。人们渴望更加专业以及更加个性化的信息检索服务。在这一背景下,面向主题的搜索引擎应运而生,它们大多扎根于特定领域,具有深厚的领域背景,因而能够提供更具个性化以及更加细致专业的搜索服务,并且它们对硬件要求低、更新及时,从诞生之初就成为互联网市场新的宠儿,我们将这类搜索引擎统称为垂直搜索引擎。   垂直搜索引擎的核心组成部分是主题爬虫。这是一种可以自动采集网页并迅速判定其是否与目标主题相关的网络应用程序。主题爬虫在爬取过程中,对目标页面的主题分析或者基于启发式的规则或者基于文本分类,由于爬虫对主题网页的爬取是一种在线行为,其效率是整个爬取过程的关键。本文基于对外汉语领域,对这一主题爬虫技术进行了深入研究,分析比较了各种算法优劣,提出了基于标题和正文的两阶段主题分类模型。我们首先利用特征提取技术提取出了对外汉语领域的主题关键字集合,在此基础上结合互联网网页的结构特点,分别进行标题和正文的主题相似度计算,当结果满足一定的阈值条件时即判定为主题相关。通过试验,我们证明了这一分类模型在不牺牲准确率和召回率的前提下大大提高了网络爬虫的效率,因而具有较高的实际应用价值。   与此同时,考虑到需要对采集到的大规模主题资源实施有效的管理,本文构建了针对主题资源的检索模块,分别实现了基于词的检索、基于文本的检索以及基于内容的图像检索,大大方便了主题资源的管理工作。其中在实现基于文本的检索模块时,我们借鉴了图像检索中比较常用的颜色直方图技术,构建了面向特定主题的文本向量直方图,基于这种文本表示方法,参考有关文献关于相似度的定义,我们设计了两个文本之间相似度的计算方法,并与传统的cosine度量方法进行了对比试验。试验结果表明,我们提出的新方法准确率以及稳定性均要好于传统方法,并且借鉴图像检索计算文本相似性的思想也为文本相似性度量的进一步研究提供了新的思路和研究方向。
其他文献
传统的视频监控系统有许多缺点,例如大部分只能在监视器上提供一幅监控场景的画面,有的即使能够把多路视频显示在一个监视器上,也不能为用户在一幅画面上无冗余地提供被监控
学位
随着信息技术的飞速发展,视频信息逐渐成为我们生活中必不可少的一部分。视频编码技术可以实现视频压缩,大大降低视频信息的数据量。因此,视频编码技术已经成为多媒体产业的核心
随着敏捷开发、终端用户编程等的流行。软件开发人员的个人能力受到了软件工程研究的重视。作为提升软件开发人员能力的重要途径之一,编程过程的复用利用已有方案解决新的编程
学位
目前,推荐系统在各种资源社区以及电子商务网站得以应用,其中最主流的推荐方法便是协同过滤。但迄今为止,没有任何方法能很好的适应任何的数据集合。针对特定的数据集,人们往往根
现代信息技术高速发展,知识和科技领域的革新重组了人们的生活、交流与学习方式,越来越多的人开始使用互联网,各种背景和身份的人通过网络获取以及发布自己的信息。BBS、阅读
随着人们对搜索的效率和准确性的要求不断提高,单一的搜索引擎已经不能满足很多用户的需要,有时为了搜索一个内容而要查找几个独立的搜索引擎,为了解决这个问题,元搜索引擎出
数控技术的迅猛发展,对数控系统中的整个运动控制核心的机床逻辑控制提出了越来越高的要求,而其逻辑控制是由可编程控制器(PLC)来实现的。PLC程序是使数控机床的各部件有效可靠工作的关键部分,因此PLC编程工具是数控系统中必不可少的部分。蓝天数控系统原由PLC编程语言是SIPROM语言,一种文本化编程语言。本文正是针对蓝天数控系统对PLC梯形图与SIPROM语言相互转换进行研究与实现,实现图形化编程及
数据交换与集成旨在解决分布式异构系统间数据交互和信息共享的应用需求。信息化的实践证明,大型信息系统的建设一般都需要相当长的过程,这其间由于需求变化、技术发展和人为因
无线传感器网络(Wireless Sensor Networks,WSN)是一种综合了计算机、微电子与通讯等多种学科研究内容的新兴的网络技术。它通常是由大量廉价的具有信息获取能力的节点组成自
候鸟迁徙行为过程主要中涉及到栖息地发现、迁徙路线追踪以及栖息地之间的活动关系等。如何寻找候鸟迁徙过程的栖息地、追踪候鸟的迁徙路线、挖掘栖息地之间的强关联关系对候