基于视觉的数据密集型网页信息抽取

来源 :南京大学 | 被引量 : 0次 | 上传用户：huashu123

【摘要】

：

随着Internet的飞速发展，特别是Deep Web（暗网）的发展，Web信息资源越来越丰富。网上出现了大量数据质量较高、领域性较强的信息，但是能够快速、准确地获取这些信息的途径却比较有

【作者】

：

张文东

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2010年期

【关键词】

：

数据密集型网页视觉信息信息抽取技术工作原理检索系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的飞速发展，特别是Deep Web（暗网）的发展，Web信息资源越来越丰富。网上出现了大量数据质量较高、领域性较强的信息，但是能够快速、准确地获取这些信息的途径却比较有限，自动Web信息抽取成为一项必要的工作。本文主要对数据密集型页面进行信息抽取工作，并提出一套基于视觉的数据区域检测和数据记录检测算法。　　Web信息抽取由于受到文本抽取的影响，长期以来的做法是利用HTML源码进行文本分析，或者利用页面的DOM结构来抽取一些页面规则。这类方法往往涉及到文本语义，技术难点较多。微软在“基于视觉的页面分块”（VIPS）中提出了利用视觉信息进行Web信息抽取，并指出了视觉信息更能够准确的反映页面结构信息。VIPS算法的对象是普通Web页面，算法中使用了大量的启发式规则。本文利用视觉信息对数据密集型页面进行信息抽取工作，解决了基于DOM结构技术中的两个难点:　　(1)一条数据记录中的DOM节点在DOM树上是不连续的。　　(2)节点相似度计算方法复杂，通常利用字符串编辑距离，但阈值的选择会受到不同页面结构的影响。本文处理的数据密集型页面中含有多条数据记录，利用重复模式检测算法，可以减少VIPS算法中对启发式规则的依赖。　　本文的主要工作可以概括为以下几个方面:　　(1)页面视觉信息的重构。HTML页面经过页面排版引擎解析后，利用脚本引擎可以获取DOM节点视觉信息。但由于CSS对页面结构会造成一定的影响，导致节点大小发生变化。通过视觉信息重构可以得到每个DOM节点实际的大小信息，这也是本文后续工作的基础。　　(2)基于视觉的页面分块。DOM结构的一个缺点是不能够正确的反映各个节点之间的关系，DOM树上距离很远的两个节点可能有较高的相关度。为了解决这一问题，本文首先对DOM树进行切分，使DOM节点从DOM树上独立出来，然后利用视觉信息计算这些节点间的相关度，进行节点重组工作。　　(3)基于视觉重复模式的数据区域、数据记录检测算法。本文提出了基于视觉信息的节点相似度计算方法，利用数据密集型页面的视觉特征，提出了基于视觉的噪音节点过滤算法和迭代的数据区域检测算法。数据记录识别过程中，数据区域中通常含有多条数据记录。为解决这一问题，数据记录的检测算法采用了自底向上的方法，将数据区域划分成较小的节点，然后按照一定的规则组合成数据记录。　　基于上述工作，本文设计和实现了一个在线购物集成检索系统。通过对多个网站进行实验以及对实验结果进行深入分析，验证了本文所提出的各种方法的效果。

其他文献

基于用户信息的谣言检测方法研究

近年来，以微博、论坛为代表的社交媒体平台凭借其开放性、实时性等特点迅速成为公众获取新闻消息的重要渠道。然而，社交媒体平台给公众提供了方便快捷的信息渠道之余，也带来了泛

学位

谣言检测用户信息自编码器可信度传播

无线传感器网络的数据管理问题研究

无线传感器网络因其具有广阔的应用前景，目前已经受到广泛的关注。在传感器网络中，廉价的传感器节点被大量部署以提供如数据收集、安全监控以及目标追踪等应用。这些小型的传感

学位

无线传感器网络数据存储查询处理负载均衡

面向铝电解复杂生产过程的数据挖掘模型与算法研究

随着计算机控制技术的逐步普及，铝电解生产过程积累了大量的原始数据。用数据挖掘技术，找出这些数据中蕴含的新颖的知识，来指导生产，对改善我国铝电解行业决策多靠经验的现状，提高

学位

数据挖掘铝电解生成子聚类闭序列模式过程模型聚类算法

基于颜色分析的图像检索系统的设计与实现

随着信息技术的不断发展,各种各样的多媒体数据在不断地增加,而图像更是目前最直观和数量最多的多媒体数据之一。如何组织、管理和利用以图像为主的多媒体信息具有重要的意义

学位

人脸属性分析与编辑方法研究

人脸属性，例如眼镜、表情、姿态等，是对人脸除身份信息外的描述。不同于人脸属性预测，人脸属性分析与编辑解决了一个对偶问题，即在保持人脸身份信息的条件下，生成该人脸特定属性的

学位

人脸属性编辑技术生成对抗网络三维重建

无线传感器网络安全定位及应用的研究

无线传感器网络由于其广阔的应用前景，已成为近年来的研究热点之一。在无线传感器网络中，传感器节点的位置信息十分重要。这是因为传感器节点收集的数据一般需要与其位置进行绑

学位

污染攻击虫洞攻击检测无线传感器网络安全定位

隐含因果关联规则挖掘的研究

关联规则是数据挖掘领域最为成熟的研究内容之一，也是基于数据库的知识发现中知识的主要表示形式。但一般关联规则仅限于体现事物间的关联关系，是一种弱关系，在实际应用中往往不

学位

因果关系关联规则约束网络广义细胞自动机数据挖掘知识发现

基于“软件人”群的分布式入侵检测系统研究

随着入侵检测技术的不断进步，入侵检测系统(IDS)愈来愈呈现出分布性、智能化的特征。传统的分布式入侵检测系统，往往仅采取一种分布式数据采集和层次化数据分析的方法。这虽然

学位

分布式入侵检测软件人群网络通信负荷IDS功能模块结构模型

基于SaaS的内容管理系统访问控制的研究

内容管理系统常用于企业信息化建设和电子政务，利用内容管理系统可以协助企业和组织实现其内容的创建、存储、应用和更新。内容管理系统中对象资源客体可以是任何类型的数字信

学位

内容管理系统访问控制企业信息化软件即服务模式EB-RBAC模型

位置隐私保护技术研究

随着无线通信和移动定位技术的发展，基于位置的服务成为一种流行趋势，受到学术界和工业界的广泛关注。位置服务是与用户当前位置相关的增值服务，包括基于位置的紧急救援服务、基

学位

无线通信位置服务信息管理隐私保护控制技术

基于视觉的数据密集型网页信息抽取

其他学术论文