论文部分内容阅读
随着Internet的飞速发展,特别是Deep Web(暗网)的发展,Web信息资源越来越丰富。网上出现了大量数据质量较高、领域性较强的信息,但是能够快速、准确地获取这些信息的途径却比较有限,自动Web信息抽取成为一项必要的工作。本文主要对数据密集型页面进行信息抽取工作,并提出一套基于视觉的数据区域检测和数据记录检测算法。 Web信息抽取由于受到文本抽取的影响,长期以来的做法是利用HTML源码进行文本分析,或者利用页面的DOM结构来抽取一些页面规则。这类方法往往涉及到文本语义,技术难点较多。微软在“基于视觉的页面分块”(VIPS)中提出了利用视觉信息进行Web信息抽取,并指出了视觉信息更能够准确的反映页面结构信息。VIPS算法的对象是普通Web页面,算法中使用了大量的启发式规则。本文利用视觉信息对数据密集型页面进行信息抽取工作,解决了基于DOM结构技术中的两个难点: (1)一条数据记录中的DOM节点在DOM树上是不连续的。 (2)节点相似度计算方法复杂,通常利用字符串编辑距离,但阈值的选择会受到不同页面结构的影响。本文处理的数据密集型页面中含有多条数据记录,利用重复模式检测算法,可以减少VIPS算法中对启发式规则的依赖。 本文的主要工作可以概括为以下几个方面: (1)页面视觉信息的重构。HTML页面经过页面排版引擎解析后,利用脚本引擎可以获取DOM节点视觉信息。但由于CSS对页面结构会造成一定的影响,导致节点大小发生变化。通过视觉信息重构可以得到每个DOM节点实际的大小信息,这也是本文后续工作的基础。 (2)基于视觉的页面分块。DOM结构的一个缺点是不能够正确的反映各个节点之间的关系,DOM树上距离很远的两个节点可能有较高的相关度。为了解决这一问题,本文首先对DOM树进行切分,使DOM节点从DOM树上独立出来,然后利用视觉信息计算这些节点间的相关度,进行节点重组工作。 (3)基于视觉重复模式的数据区域、数据记录检测算法。本文提出了基于视觉信息的节点相似度计算方法,利用数据密集型页面的视觉特征,提出了基于视觉的噪音节点过滤算法和迭代的数据区域检测算法。数据记录识别过程中,数据区域中通常含有多条数据记录。为解决这一问题,数据记录的检测算法采用了自底向上的方法,将数据区域划分成较小的节点,然后按照一定的规则组合成数据记录。 基于上述工作,本文设计和实现了一个在线购物集成检索系统。通过对多个网站进行实验以及对实验结果进行深入分析,验证了本文所提出的各种方法的效果。