基于网页分块的个性化Web信息采集技术研究

来源 :中国科学院研究生院(本部) 中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:suzuzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何快速、准确获取满足用户感兴趣信息的要求,己经成为摆在人们面前的一大难题。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息,也不能满足人们日益增长的个性化需求。为此,本文展开了对Web上局部范围内信息的有效采集研究,也就是基于网页分块的个性化Web信息采集研究。   根据我们在信息采集领域的长期积累以及国内外在信息采集领域的发展现状,结合网页分块的相关研究,本文在综述了基本情况后提出了一个基于网页分块的个性化Web信息采集结构模型,这包括用户兴趣初始化及起始URL选择、页面采集、网页分块解析、板块的定位及内容的抽取、JavaScript链接解析以及内容查重等一系列步骤。具体工作如下:   1)Web信息采集概述,主要包括Web信息采集系统的基本原理、基本结构及研究现状。   2)个性化服务在Web信息采集中的应用。主要包括个性化服务的背景、个性化服务技术的分类、资源处理的方法、用户兴趣的描述方式及用户兴趣个性化信息的收集和更新。   3)网页分块技术。首先介绍了网页分块的背景然后介绍了三种网页分块的主要技术手段,最后在分析各种技术手段利弊的基础上提出了我们的算法TVPS。网页分块技术突破了在处理Web信息采集时以网页为最小单位的瓶颈,在语义块的级别上进行信息采集。   4)设计了一个基于网页分块的个性化Web信息采集系统,并针对具体的问题提出了多个新的算法。具体如下:   页面的采集算法;索引块和内容块的区分;板块的定位和内容的抽取;JavaScr ipt链接解析;内容查重算法。   试验结果显示,我们的工作是有效的,我们的系统对追踪商务网站的特定板块有很强的实用价值,特别是把网页分块与个性化Web信息采集相结合,有较大的突破。
其他文献
重构是在保留软件外部行为的同时重新组织代码的过程和一组技术,由于它在创建敏捷代码方面的实用价值而受到普遍欢迎。目前的重构步骤只是将代码模块化为整洁的面向对象实现,
由于太空具有微重力、超洁净等特殊环境,很多在地面无法完成的实验可以在太空得到实现,因此,各国竞相发展自己的空间实验事业来促进科学技术和国民经济的发展。但是随着实验的要
学位
隐马尔可夫模型(HiddenMarkovModel,HMM)是将实时信号源视为Markov信号源或Markov链的概率密度函数的一种统计模型,一直被公认为是处理与话者无关语音识别研究的主流方法。目前
随着企业信息系统开发技术和水平的不断提高,对其功能的要求也越来越全面。信息系统不仅要完成企业基本信息流程的组织处理,而且随着知识管理越来越受到人们的重视,还要有一些辅
随着用户对软件产品性能需求的不断增加,软件规模越来越大,复杂性也越来越高。为保证软件质量、提高软件的可靠性,以软件体系结构为设计规范的开发方法越来越受到软件开发人
随着软件产业的发展,手工软件测试已经满足不了软件测试的要求,自动化软件测试技术显得越来越重要。但自动化软件测试也存在着一些局限性,不能完全替代手工软件测试,因此在什么情
当前,无论是整个社会的发展,还是军队自身的改革和发展,都对军队财务管理工作提出了更高、更新的要求,建立以信息技术、计算机技术、网络技术为支撑的军队财务综合信息管理系统是
XML查询技术一直是国际和国内很多研究所关注的热点,随着Web应用的快速增长,XML数据逐渐成为数据存储的一种新的标准,由于XML数据半结构化和有序性的特点,针对XML数据的复杂Twig
随着我国经济的高速增长和汽车工业的迅猛发展,汽车正在逐步进入普通百姓的家庭。作为汽车电子的车载导航产品也正逐渐显示出其广阔的应用前景和巨大的市场潜力,成为当今汽车工
随着计算机技术的发展,特别是Internet技术的发展,在许多行业、单位或机构部门内部都逐步实现了业务、信息的计算机管理。但是各个机构、单位或部门内部由于业务和功能归属不同