基于视觉特征的网页信息抽取方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liongliong563
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网在我国已成为人们生活中不可或缺的一部分,在互联网上存在着海量的数据,并且每天都在爆炸增长中,这些信息丰富且实时,还可以作为信息检索、数据挖掘等很多方面应用的基础数据,对这些数据进行深入的分析可以获得很多更有价值的深层信息。然而,由于数据十分庞大,并且网页本身不是结构化的数据格式且包含噪音信息,我们需要对网页进行信息抽取,提取网页中的关键信息并转化为结构化数据用于后续的数据分析等工作。目前学者提出的大部分抽取方法都是基于HTML源码或者基于将源码解析后生成的DOM树,使用网页的文本特征或结构特征进行抽取。事实上,网页还有一类非常重要的特征可以用于信息抽取,即为视觉特征,视觉特征蕴含了用户对网页内容的认知,因此利用这些视觉特征进行网页信息抽取能够更好地模拟人对网页内容的识别,进而提高抽取效果,这是仅基于HTML源码或DOM树无法达到的效果,目前已有学者提出了一些的基于视觉特征的抽取算法,但仍然存在一些不足。  因此,本文首先从实际工程需求出发,提出了基于视觉特征的有监督机器学习的网页抽取框架WELVF,并在论坛网站和新闻评论网站中通过实验,证明其具有良好的抽取效果。  然后,针对视觉特征提取效率低的问题,我们提出了基于WEMLVF的通过XPath和通过包装器归纳的自动生成抽取模板的方法,该方法生成的抽取模板不包含视觉特征,使得在抽取的过程中我们无需提取视觉特征,大大提升了抽取的效率。通过实验,证明其具有良好的抽取效果和抽取效率。  最后,我们开发了元搜索采集系统,该系统已经在多个项目中得到很好的应用。并且基于上述研究成果,我们对元搜索采集系统中的原始页面抽取模块进行了改进,通过实验表明其能够更好地满足实际工程需求,具有很好的实用价值。
其他文献
近年来,在移动增值业务得到大力发展的同时,语音增值业务也逐渐成为移动运营商和SP新的业务增长点。其中移动IVR业务是语音增值业务中备受瞩目和极具发展前景的业务形式。中
目前,中国国土航空物探遥感中心(简称“航遥中心”)合同管理主要使用Excel和Access单机版数据库,以手工操作和人为方式管理。本课题是航遥中心信息化项目的一部分,从角色控制
学位
随着经济全球一体化进程的加快,企业对能够快速响应市场需求的大批量定制技术越来越重视。变型设计方法替代了传统的设计方法,可以快速有效的对产品进行设计,成为了大批量定
信息共享,是信息化建设的重要目标之一,而多源异构空间数据的整合建库是实现信息共享的重要基础。为了能有效地控制数据库建库成果的质量,解决由于数据的异构带来的数据共享问题
学位
随着互联网的迅猛发展和信息传播手段的飞速进步,人类已经进入一个信息爆炸的时代.而面对日益增长的网络信息,如何高效快捷的获取有用信息逐渐成为研究的热点和难点.本文将从
交通检测系统在智能交通系统中具有重要的意义。交通检测的方法很多,而视频检测因其具有安装方便、覆盖范围大、效果好等特点而迅速成为智能交通系统领域的一个研究热点,并已
三维地质模型可视化分析技术在20世纪90年代初期开始为人类所重视,并逐渐成为数学地质、石油勘探、岩土工程、GIS和科学计算可视化领域的研究与应用热点,目前已经成为地学领域
近年来,工作流技术在计算机应用领域迅速发展。在人员密集型的办公环境,如银行、证券以及行政管理等行业中得到广泛的应用。同时工作流管理系统(WorkflowManagement System,简称
电子机构作为人类代理组织的电子副本,为开放异构多自治主体系统的开发提供了一个比较系统的概念框架。但现有的电子机构模型对其中存在的各种信息流还缺乏有效地分析和规范,
计算机网络技术的飞速发展使得通过网络实时传输连续多媒体数据已成为可能,由此产生的大量实时多媒体应用对网络的服务质量(Quality of Service,Qos)提出了更高的要求。而路由