论文部分内容阅读
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。Web信息抽取便是其中一项重要研究课题,研究范围覆盖数据挖掘、人工智能等多门学科。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支。
大多数的网络资源是以HTML页面形式展现的,但是从网络中自动抽取信息并将其转化为有用内容是非常困难的。本文提到了当前Web信息抽取中所用的各种方法,以及各种方法的优缺点。
接下来,本文提出了一种新的Web信息抽取方法。该方法借鉴了文档图像处理领域中的思想,从版面分析的角度考虑Web信息的抽取问题。本方法通过对网页上的信息进行双层聚类,以期得到网页的版式结构和信息罗列方式,从版式的角度对信息进行定位和抽取。
本文介绍了该方法的理论模型与系统实现,并对该方法的应用及实验结果进行了总结与评价。