基于记录树模型的Deep Web数据抽取技术的研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户：pboss

【摘要】

：

Deep Web是指网络上众多可以在线访问的数据库,其中的数据对传统搜索引擎大部分是不可见的,它们可以通过网站提供的查询接口访问,数据量巨大。但HTML的无结构化、异质性、动

【作者】

：

吴晓晖

【机构】

：

中国人民大学

【出处】

：

中国人民大学

【发表日期】

：

2009年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Deep Web是指网络上众多可以在线访问的数据库,其中的数据对传统搜索引擎大部分是不可见的,它们可以通过网站提供的查询接口访问,数据量巨大。但HTML的无结构化、异质性、动态性使得这些数据难以使用与管理。　　基于DOM树的数据抽取技术通过对网页的清洗与降噪,按照树特征与树内容相似性实现数据抽取工作。但DOM树的大粒度对于复杂网页,比如“列表页面”的抽取在准确度上波动较大。　　本文根据Deep Web网页模板的特点提出了记录树模型。记录树粒度小、不需要对网页清洗与降噪。与DOM树的树匹配不同,采用是节点匹配实现数据抽取。　　根据记录树模型设计了一个树过滤器,运用树过滤器实现抽取器程序。数据抽取采用两段式实现:“记录HTML源码”抽取；记录内字段数据的抽取。　　树过滤器是根据HTML,标签与数据在记录树层次模型中特点,按节点匹配完成“记录HTML”在网页中的过滤及字段在“记录HTML”中的过滤工作。树过滤器采用开源式项目HtmlParser实现,具有通用性好、可靠性高、扩展性好的特点。　　抽取规则的生成采用有监督的人工学习方式。训练样本包括一个“列表页面”,有用户监督的两条数据记录。利用树滤器等组件实现了抽取规则的自动生成。实验证明,抽取规则获取方法可行,根据抽取规则运行抽取器获取的数据具有较高的准确度。　　采用两段式的数据抽取方式,便于多线程的应用,在抽取大量数据是有助于效率的提高。基于记录树的抽取器不需要进行网页的清理与降噪,而抽取数据之前进行的网页清理与降噪往往降低了Deep Web数据抽取的效率。

其他文献

数字集成电路测试功耗优化方法研究

研究表明，数字集成电路(IC: Integrated Circuit)测试模式下的功耗可能达到正常功能模式下功耗的两倍以上。因此，如何有效降低数字IC的测试功耗已经成为近年来学术界与工业界普

学位

测试功耗优化扫描链调整测试压缩测试访问机制数字集成电路

Linux下基于组件技术的蓝牙服务器的研究与实现

随着软件技术的发展，静态开发模式已经不能满足需求。以组件的形式开发出来的软件具有结构清晰、易于定制、便于动态扩展等特点，在Linux平台和手持移动设备上已经得到了广泛的

学位

Linux平台组件技术蓝牙服务器动态链接库

基于三角模糊数的关联规则方法研究

数据挖掘是近年来迅速发展的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息

学位

数据挖掘关联规则Apriori算法三角模糊数PRETI客户满意度

中文语料库分词不一致现象的分层校验

在中文信息语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而由于现阶段语料库的建立,需要

学位

语料库一致性校验切分不一致分词

互联网域名系统(DNS)的若干关键技术分析与研究

随着互联网应用和用户的飞速增加，猛增的域名查询量对根服务器和CN顶级域名(TLD)服务器造成了越来越大的负载压力。从降低根服务器和CN TLD服务器的负载、提高域名解析的性能

学位

域名系统根服务器查询日志报文压缩互联网流量特征

基于UML的面向对象的领域建模研究

面向对象分析与设计系统在当今软件企业中有着非常广泛的应用，它有目的地把系统分解为模块策略，并将设计决策与客观世界的认识相匹配，为复杂度越来越高、规模越来越大的软件系统

学位

领域模型UML语言面向对象分析统一软件开发过程敏捷建模

可信软件技术的若干研究

随着计算机应用的日益普及和深入，软件系统的规模和复杂性不断增大，研制可信软件技术以提高软件系统的质量已经成为十分重要和迫切的需求。　　软件开发生命周期可以分为需求

学位

可信软件技术形式模型转换软件开发生命周期需求分析

粒度支持向量机学习方法研究

支持向量机(Support Vector Machine,SVM)是近年来受到广泛关注的一类学习机器,它以统计学习理论(Statistical Learning Theory,SLT)为基础,具有简洁的数学形式、标准快捷的

学位

支持向量机粒度支持向量机粒度计算指数相似度粒度核

基于文本片段的多模式部分匹配算法研究

随着网络带宽越来越大，网络应用越来越复杂，网络安全问题也日益严重。在骨干网进行安全内容检测，作为国家信息安全的重要一环变得越来越重要。骨干网的主要功能需求是及时高效的

学位

P2P流量分析系统研究

P2P是Peer-to-Peer的缩写，简单地来说，P2P就是计算机系统之间通过直接交换的方式共享资源和服务。这些资源和服务可以包括交换信息、处理器计算资源、磁盘文件存储等。在P2P的

学位

P2P网络P2P流量检测地理信息系统可视化磁盘文件存储网络拥塞

基于记录树模型的Deep Web数据抽取技术的研究

其他学术论文