基于视觉的数据密集型网页信息抽取

来源 :南京大学 | 被引量 : 0次 | 上传用户:huashu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,特别是Deep Web(暗网)的发展,Web信息资源越来越丰富。网上出现了大量数据质量较高、领域性较强的信息,但是能够快速、准确地获取这些信息的途径却比较有限,自动Web信息抽取成为一项必要的工作。本文主要对数据密集型页面进行信息抽取工作,并提出一套基于视觉的数据区域检测和数据记录检测算法。  Web信息抽取由于受到文本抽取的影响,长期以来的做法是利用HTML源码进行文本分析,或者利用页面的DOM结构来抽取一些页面规则。这类方法往往涉及到文本语义,技术难点较多。微软在“基于视觉的页面分块”(VIPS)中提出了利用视觉信息进行Web信息抽取,并指出了视觉信息更能够准确的反映页面结构信息。VIPS算法的对象是普通Web页面,算法中使用了大量的启发式规则。本文利用视觉信息对数据密集型页面进行信息抽取工作,解决了基于DOM结构技术中的两个难点:  (1)一条数据记录中的DOM节点在DOM树上是不连续的。  (2)节点相似度计算方法复杂,通常利用字符串编辑距离,但阈值的选择会受到不同页面结构的影响。本文处理的数据密集型页面中含有多条数据记录,利用重复模式检测算法,可以减少VIPS算法中对启发式规则的依赖。  本文的主要工作可以概括为以下几个方面:  (1)页面视觉信息的重构。HTML页面经过页面排版引擎解析后,利用脚本引擎可以获取DOM节点视觉信息。但由于CSS对页面结构会造成一定的影响,导致节点大小发生变化。通过视觉信息重构可以得到每个DOM节点实际的大小信息,这也是本文后续工作的基础。  (2)基于视觉的页面分块。DOM结构的一个缺点是不能够正确的反映各个节点之间的关系,DOM树上距离很远的两个节点可能有较高的相关度。为了解决这一问题,本文首先对DOM树进行切分,使DOM节点从DOM树上独立出来,然后利用视觉信息计算这些节点间的相关度,进行节点重组工作。  (3)基于视觉重复模式的数据区域、数据记录检测算法。本文提出了基于视觉信息的节点相似度计算方法,利用数据密集型页面的视觉特征,提出了基于视觉的噪音节点过滤算法和迭代的数据区域检测算法。数据记录识别过程中,数据区域中通常含有多条数据记录。为解决这一问题,数据记录的检测算法采用了自底向上的方法,将数据区域划分成较小的节点,然后按照一定的规则组合成数据记录。  基于上述工作,本文设计和实现了一个在线购物集成检索系统。通过对多个网站进行实验以及对实验结果进行深入分析,验证了本文所提出的各种方法的效果。
其他文献
近年来,以微博、论坛为代表的社交媒体平台凭借其开放性、实时性等特点迅速成为公众获取新闻消息的重要渠道。然而,社交媒体平台给公众提供了方便快捷的信息渠道之余,也带来了泛
无线传感器网络因其具有广阔的应用前景,目前已经受到广泛的关注。在传感器网络中,廉价的传感器节点被大量部署以提供如数据收集、安全监控以及目标追踪等应用。这些小型的传感
随着计算机控制技术的逐步普及,铝电解生产过程积累了大量的原始数据。用数据挖掘技术,找出这些数据中蕴含的新颖的知识,来指导生产,对改善我国铝电解行业决策多靠经验的现状,提高
随着信息技术的不断发展,各种各样的多媒体数据在不断地增加,而图像更是目前最直观和数量最多的多媒体数据之一。如何组织、管理和利用以图像为主的多媒体信息具有重要的意义
学位
人脸属性,例如眼镜、表情、姿态等,是对人脸除身份信息外的描述。不同于人脸属性预测,人脸属性分析与编辑解决了一个对偶问题,即在保持人脸身份信息的条件下,生成该人脸特定属性的
无线传感器网络由于其广阔的应用前景,已成为近年来的研究热点之一。在无线传感器网络中,传感器节点的位置信息十分重要。这是因为传感器节点收集的数据一般需要与其位置进行绑
关联规则是数据挖掘领域最为成熟的研究内容之一,也是基于数据库的知识发现中知识的主要表示形式。但一般关联规则仅限于体现事物间的关联关系,是一种弱关系,在实际应用中往往不
随着入侵检测技术的不断进步,入侵检测系统(IDS)愈来愈呈现出分布性、智能化的特征。传统的分布式入侵检测系统,往往仅采取一种分布式数据采集和层次化数据分析的方法。这虽然
内容管理系统常用于企业信息化建设和电子政务,利用内容管理系统可以协助企业和组织实现其内容的创建、存储、应用和更新。内容管理系统中对象资源客体可以是任何类型的数字信
随着无线通信和移动定位技术的发展,基于位置的服务成为一种流行趋势,受到学术界和工业界的广泛关注。位置服务是与用户当前位置相关的增值服务,包括基于位置的紧急救援服务、基