【摘 要】
:
Deep Web是指网络上众多可以在线访问的数据库,其中的数据对传统搜索引擎大部分是不可见的,它们可以通过网站提供的查询接口访问,数据量巨大。但HTML的无结构化、异质性、动
论文部分内容阅读
Deep Web是指网络上众多可以在线访问的数据库,其中的数据对传统搜索引擎大部分是不可见的,它们可以通过网站提供的查询接口访问,数据量巨大。但HTML的无结构化、异质性、动态性使得这些数据难以使用与管理。
基于DOM树的数据抽取技术通过对网页的清洗与降噪,按照树特征与树内容相似性实现数据抽取工作。但DOM树的大粒度对于复杂网页,比如“列表页面”的抽取在准确度上波动较大。
本文根据Deep Web网页模板的特点提出了记录树模型。记录树粒度小、不需要对网页清洗与降噪。与DOM树的树匹配不同,采用是节点匹配实现数据抽取。
根据记录树模型设计了一个树过滤器,运用树过滤器实现抽取器程序。数据抽取采用两段式实现:“记录HTML源码”抽取;记录内字段数据的抽取。
树过滤器是根据HTML,标签与数据在记录树层次模型中特点,按节点匹配完成“记录HTML”在网页中的过滤及字段在“记录HTML”中的过滤工作。树过滤器采用开源式项目HtmlParser实现,具有通用性好、可靠性高、扩展性好的特点。
抽取规则的生成采用有监督的人工学习方式。训练样本包括一个“列表页面”,有用户监督的两条数据记录。利用树滤器等组件实现了抽取规则的自动生成。实验证明,抽取规则获取方法可行,根据抽取规则运行抽取器获取的数据具有较高的准确度。
采用两段式的数据抽取方式,便于多线程的应用,在抽取大量数据是有助于效率的提高。基于记录树的抽取器不需要进行网页的清理与降噪,而抽取数据之前进行的网页清理与降噪往往降低了Deep Web数据抽取的效率。
其他文献
研究表明,数字集成电路(IC: Integrated Circuit)测试模式下的功耗可能达到正常功能模式下功耗的两倍以上。因此,如何有效降低数字IC的测试功耗已经成为近年来学术界与工业界普
随着软件技术的发展,静态开发模式已经不能满足需求。以组件的形式开发出来的软件具有结构清晰、易于定制、便于动态扩展等特点,在Linux平台和手持移动设备上已经得到了广泛的
数据挖掘是近年来迅速发展的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息
在中文信息语言处理领域里,以大规模真实文本为基础的语料库研究和知识自动获取越来越受到重视,建设大规模高质量的语料库成为首要的任务。然而由于现阶段语料库的建立,需要
随着互联网应用和用户的飞速增加,猛增的域名查询量对根服务器和CN顶级域名(TLD)服务器造成了越来越大的负载压力。从降低根服务器和CN TLD服务器的负载、提高域名解析的性能
面向对象分析与设计系统在当今软件企业中有着非常广泛的应用,它有目的地把系统分解为模块策略,并将设计决策与客观世界的认识相匹配,为复杂度越来越高、规模越来越大的软件系统
随着计算机应用的日益普及和深入,软件系统的规模和复杂性不断增大,研制可信软件技术以提高软件系统的质量已经成为十分重要和迫切的需求。
软件开发生命周期可以分为需求
支持向量机(Support Vector Machine,SVM)是近年来受到广泛关注的一类学习机器,它以统计学习理论(Statistical Learning Theory,SLT)为基础,具有简洁的数学形式、标准快捷的
随着网络带宽越来越大,网络应用越来越复杂,网络安全问题也日益严重。在骨干网进行安全内容检测,作为国家信息安全的重要一环变得越来越重要。骨干网的主要功能需求是及时高效的
P2P是Peer-to-Peer的缩写,简单地来说,P2P就是计算机系统之间通过直接交换的方式共享资源和服务。这些资源和服务可以包括交换信息、处理器计算资源、磁盘文件存储等。在P2P的