论文部分内容阅读
表格作为网页的一部分,它简单,容易使用,是一个非常常见的表示图解,而且表格里面蕴含丰富的信息,所以它对信息抽取,数据挖掘等领域具有很大的吸引力。表格里面的内容可以为我们提供了丰富的信息,是一个宝贵的知识来源,因此从表格中抽取信息是一个很值得研究的课题。本文通过分析半结构化表格的布局和内容方面的特性,发现了表格的特征,提出了用最大熵方法进行训练。为了提高训练的精度,本文在选取特征的时候,考虑到了表格的跨多行、跨多列等的布局特征。本文把半结构化文本中的表格信息抽取技术研究分为两个部分:第一个部分是表格的识别工作,第二个部分是表格信息抽取工作。第一部分的表格识别研究,由于目前的启发式规则的方法取得的F度量不是太高,决策树方法比启发式规则的方法取得的F度量高,并且目前的表格识别研究没有用最大熵模型的。基于这两种原因,所以本文提出了用最大熵模型来进行表格识别,并和目前研究的F度量比较高的决策树方法进行比较,比较的时候选用了相同的语料库和特征。在运用最大熵模型训练选取特征的时候,本文分析了表格的布局特征与内容特征,发现内容特征比布局特征更能反映出表格的特性。本文把布局特征和内容特征结合起来作为表格的特征,利用多个专业领域的网页作为语料库进行训练,通过多次的迭代试验,证明了最大熵方法能够很好的解决表格识别问题,对表格识别的F度量能够达到91.31%,超过了决策树方法(F度量为87.87%)。试验验证了最大熵在处理大训练语料库的时候比决策树方法有优势,主要是因为决策树分类算法缺乏伸缩性,进行深度优先搜索时,受内存大小限制。第二个部分的表格信息提取研究,本文提出了用HTML Tidy工具来解决网页源代码中存在的很多不规范问题,比如丢失标签,标签顺序混乱等等。对于表格的内容抽取,本文简单介绍了基于Wrapper的提取方法和基于Dom的提取方法,因为Dom方法更适合于提取结构化的信息,而表格里面的内容恰好具有“属性-值”这样的结构化特性,所以在表格信抽取系统中,本文采用了基于Dom的抽取方法来提取表格内容。系统中,本文把表格表示成Dom Tree模型,抽取信息的时候就可以从根节点到叶子节点采用自上而下的方法进行抽取。本文把表格信息提取工作分为两步:第一步是发现表格,提取出表格的框架;第二步是提取出表格属性的信息和表格里面的内容,并把它们显示出来。