基于定位重复结构算法的DeepWeb数据抽取

来源 :宁夏大学 | 被引量 : 0次 | 上传用户:o9876521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
越来越多的研究者将精力投入到Deep Web的信息查询中去,而目前DeepWeb数据抽取方面的主流模式是用人工参与的方式将每一类网页解析成tag树的结构并找出其中有用信息所在的模块作为标尺然后抽取此类网页tag树中的同位置节点中的内容,但是这种抽取方式也有一定的弊端,由于HTML页面的结构自由和形式的多样性使得网络上HTML页面的结构类型非常繁多复杂,各种类型的页面都需要做出那一类型的标准树结构会导致数据抽取过程中手工成分非常繁多,因此如何有效的减少数据抽取中的手工参与的成份成为了一件比较有挑战性的任务。   本文提出了一种新的数据抽取的方式,即自动查找tag树中的最大重复结构来解决这一问题。在本文中通过将数据挖掘中的经典算法Apriori算法引入到Deepweb数据抽取系统中进行一些实验性的工作,从得到的实验结果以及相关的效率趋势分析来验证减少Deepweb数据抽取中人工参与的可行性。   本文首先将HTML页面转换成符合W3C标准的XHTML格式并解析成tag树来清洗掉与所需信息无关的广告,链接,下滑菜单等从信息,然后层序历变清洗后的tag树得到每一个节点及其子节点的集合并存入数据库,再利用挖掘关联规则频繁项集的Apriori算法实现自动查找tag树结构的最大重复模式,最后根据抽取规则将所需要抽取的数据存储在一个XML文档中。
其他文献
随着P2P网络在人们生活中的广泛应用,P2P网络管理技术成为了目前P2P研究中的热点问题。P2P系统中资源定位机制技术则是P2P管理中的关键技术。P2P网络资源定位技术涉及到节点
学习与记忆的认知能力一直是认知神经科学领域的热点问题。传统的关于数学学习与记忆的认知能力的研究主要集中在数字计算和数字处理上,已获得比较深入的认识。2004年,Poggio等
学位
在飞速发展的现代社会中,人们对发展智能交通的需求日益强烈。随着GIS(GeographicInformation System)技术和数据采集技术的发展,数据量越来越大,已拥有了庞大的空间交通数据,其
移动Ad Hoc网络是一种无基础设施支持的无线网络。与普通的无线网络相比,它具有分布式控制、网络自组织、动态拓扑、带宽有限、能量有限、多跳路由等特点。这些特点决定了MANE
随着互联网技术的发展,计算机网络越来越多地渗透到社会生活的各个领域,影响着我们生活的方方面面。然而,各种各样的网络安全问题也随之而来,网络攻击日益增多,信息安全事件频繁发
随着信息技术的发展,各个行业都建立起了基于网络的,分布式业务信息管理系统,并且应用范围越来越广。在日益频繁的数据传输和数据交换活动中,如何保证数据在传输与交换过程中
伴随互联网的高速发展,网络上的各种信息汇聚到一起,用户很难从大量的信息中搜索到所需的信息。搜索引擎能够根据用户输入的关键字进行搜索,减少用户查找时间。但是,搜索引擎
随着图像识别技术和基于内容图像检索技术的深入发展,自动图像标注技术受到了空前的关注,并渐渐成为了图像处理和模式识别领域里的一项重要的研究课题。自动图像标注方法的提
开放网络环境中存在大量异构节点,它们动态地自组织成不同的自治域。即使在一个自治域内部,由于节点的频繁迁徙,节点之间仍是相对陌生的。所以如何在陌生节点之间建立信任关系,是
视频中的人工文本是表达视频语义信息的重要手段之一,对它的有效检测、定位与提取对于视频的分析理解和检索等应用都具有十分重要的意义。论文在对现有文本检测方法的研究基