基于XML技术的WEB数据挖掘应用和研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:llizhixiong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper。关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性。 本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。为了快速的构造抽取规则,我们开发了一个信息抽取平台。除了手工编写抽取规则外,本文提出了新颖的方法自动归纳网页模板和记录模板,以及相应的抽取规则。网页模板可以用来抽取网页的主要内容。这对很多基于网页内容的工作很重要,比如网页信息检索,网页聚类与分类等等。记录模板可以用来抽取网页中的列表数据。另外,由于使用的是XSLT,抽取模式可以很容易理解和修改。 最后,我们开发了多网页信息抽取框架。实际的应用经常需要对多个网页进行抽取。基于本文所设计开发的Web信息抽取平台,可以快捷地构建出健壮和通用的网页信息抽取Wrapper。 本文主要进行了以下几项工作: 1.开发了网页信息抽取平台,包括一个帮助构造抽取模式的用户图形界面。使用本文的平台和图形用户界面,开发一个网页信息抽取程序只需很短时间。 2.研究了几种健壮的抽取模式构造方法。 3.开发了一个通用的链接组抽取模式。 4.网页模板的自动归纳。相同网站一般存在外表相似的网页。这些相似的网页都是由同一个网页模板所生成。相似网页除了主要内容不同外,其它的部分完全一样。这些相同的部分都属于网页模板中的内容。归纳模板,获取网页主要内容对各种基于网页内容的分析处理(比如信息检索、网页分类与聚类)有着极大的意义。本文通过比较相似网页结构完全自动的归纳出网页模版并生成网页主要内容的抽取模式。 5.记录模板的自动归纳。根据数据库查询结果所生成的页面往往包含多条相似的信息块,比如google的检索结果页面。每条记录都具有相似的外观和结构,因为它们都是由相同的记录模板所生成的。本文根据记录的相似性完全自动的归纳出一个网页的记录模板并生成相应的抽取模式。
其他文献
在地质相关各行业研究与应用中,绘制钻孔柱状图既是研究成果的一个重要表达方式,又是一个重要的研究过程,是进行下一步专业研究的重要依据。地质钻孔柱状图广泛用于石油勘探开发
颜色管理技术是与桌面出版和数字印刷息息相关的关键技术,合适的颜色管理使图形图像的颜色在不同颜色空间之间转换过程中失真最小,并可让用户预览到色彩效果。在GIS可视化中,图
随着新军事技术变革的到来,各种无人驾驶精确制导的飞行器对信息获取的精确性和时效性的依赖程度大幅度地提高,采用光学成像探测跟踪制导和追求高速飞行,已成为当代各种精确制导
改革开放以来,我国的城市化及其基础建设发展迅速,政府部门的对城市的管理难度大大增加。城市地下管网是城市建设的重要组成部分,它与人们的生活息息相关。随着城市的扩容,地下管
本文对软件构件库信誉管理子系统的设计与实现进行了研究。主要内容包括: 1) 选取“构件成本”,“构件描述信息完备性”,“构件可靠性”,“构件的易用性”,“构件的安全性”五
随着计算机技术以及Internet/Intranet的飞速发展,目前大多数企业、政府部门已经利用成熟的Web技术,采用目前常用的浏览器/服务器(Browser/Server)计算模式建立了Intranet系统
当今世界,科学技术迅猛发展,其中信息技术及其发展尤为璀璨夺目,它正在深刻地改变着世界的发展进程和发展路径,包括改变着人们的传统思维模式、思想方法、工作模式和生活方式。从
近年来,伴随着Internet技术的飞速发展,网络业务量开始持续快速增长,新兴的业务类型也不断多元化,致使以带宽为代表的计算机网络资源已成为一种典型的稀缺资源。国外研究者把微观
大气颗粒物的成分对人类的身体以及生活环境、大气的能见度、城市交通以及全球环境问题都具有很大的影响,尤其是随着近几年我国空气污染情况日益严重,因而越来越受到人们的广泛重视。传统的大气颗粒物分析手段主要是依靠整体颗粒物分析的技术以及人工识别颗粒物种类及来源的方法,但是这些手段耗时长、人工成本高、准确率低,没有办法满足目前人们的需求。本文的目的是依托目前已有的颗粒物质谱仪,开发出一套可以满足应用需求的、
由于一些系统的观察状态受到多种随机因素的影响,同时这些影响因素之间存在着某些依赖关系,可见这种系统具有非线性、不确定性和多参数的特点。因此在为此类系统构建状态预测模