论文部分内容阅读
随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper。关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性。
本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。为了快速的构造抽取规则,我们开发了一个信息抽取平台。除了手工编写抽取规则外,本文提出了新颖的方法自动归纳网页模板和记录模板,以及相应的抽取规则。网页模板可以用来抽取网页的主要内容。这对很多基于网页内容的工作很重要,比如网页信息检索,网页聚类与分类等等。记录模板可以用来抽取网页中的列表数据。另外,由于使用的是XSLT,抽取模式可以很容易理解和修改。
最后,我们开发了多网页信息抽取框架。实际的应用经常需要对多个网页进行抽取。基于本文所设计开发的Web信息抽取平台,可以快捷地构建出健壮和通用的网页信息抽取Wrapper。
本文主要进行了以下几项工作:
1.开发了网页信息抽取平台,包括一个帮助构造抽取模式的用户图形界面。使用本文的平台和图形用户界面,开发一个网页信息抽取程序只需很短时间。
2.研究了几种健壮的抽取模式构造方法。
3.开发了一个通用的链接组抽取模式。
4.网页模板的自动归纳。相同网站一般存在外表相似的网页。这些相似的网页都是由同一个网页模板所生成。相似网页除了主要内容不同外,其它的部分完全一样。这些相同的部分都属于网页模板中的内容。归纳模板,获取网页主要内容对各种基于网页内容的分析处理(比如信息检索、网页分类与聚类)有着极大的意义。本文通过比较相似网页结构完全自动的归纳出网页模版并生成网页主要内容的抽取模式。
5.记录模板的自动归纳。根据数据库查询结果所生成的页面往往包含多条相似的信息块,比如google的检索结果页面。每条记录都具有相似的外观和结构,因为它们都是由相同的记录模板所生成的。本文根据记录的相似性完全自动的归纳出一个网页的记录模板并生成相应的抽取模式。