半结构化文本中的表格信息抽取技术的研究

被引量 : 0次 | 上传用户:wsykxc1429
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格作为网页的一部分,它简单,容易使用,是一个非常常见的表示图解,而且表格里面蕴含丰富的信息,所以它对信息抽取,数据挖掘等领域具有很大的吸引力。表格里面的内容可以为我们提供了丰富的信息,是一个宝贵的知识来源,因此从表格中抽取信息是一个很值得研究的课题。本文通过分析半结构化表格的布局和内容方面的特性,发现了表格的特征,提出了用最大熵方法进行训练。为了提高训练的精度,本文在选取特征的时候,考虑到了表格的跨多行、跨多列等的布局特征。本文把半结构化文本中的表格信息抽取技术研究分为两个部分:第一个部分是表格的识别工作,第二个部分是表格信息抽取工作。第一部分的表格识别研究,由于目前的启发式规则的方法取得的F度量不是太高,决策树方法比启发式规则的方法取得的F度量高,并且目前的表格识别研究没有用最大熵模型的。基于这两种原因,所以本文提出了用最大熵模型来进行表格识别,并和目前研究的F度量比较高的决策树方法进行比较,比较的时候选用了相同的语料库和特征。在运用最大熵模型训练选取特征的时候,本文分析了表格的布局特征与内容特征,发现内容特征比布局特征更能反映出表格的特性。本文把布局特征和内容特征结合起来作为表格的特征,利用多个专业领域的网页作为语料库进行训练,通过多次的迭代试验,证明了最大熵方法能够很好的解决表格识别问题,对表格识别的F度量能够达到91.31%,超过了决策树方法(F度量为87.87%)。试验验证了最大熵在处理大训练语料库的时候比决策树方法有优势,主要是因为决策树分类算法缺乏伸缩性,进行深度优先搜索时,受内存大小限制。第二个部分的表格信息提取研究,本文提出了用HTML Tidy工具来解决网页源代码中存在的很多不规范问题,比如丢失标签,标签顺序混乱等等。对于表格的内容抽取,本文简单介绍了基于Wrapper的提取方法和基于Dom的提取方法,因为Dom方法更适合于提取结构化的信息,而表格里面的内容恰好具有“属性-值”这样的结构化特性,所以在表格信抽取系统中,本文采用了基于Dom的抽取方法来提取表格内容。系统中,本文把表格表示成Dom Tree模型,抽取信息的时候就可以从根节点到叶子节点采用自上而下的方法进行抽取。本文把表格信息提取工作分为两步:第一步是发现表格,提取出表格的框架;第二步是提取出表格属性的信息和表格里面的内容,并把它们显示出来。
其他文献
为了节约空间,在市政建设中往往将天然气管道与电力、通讯、给排水等各种管线集中布置在同一个地下隧道中,即共同沟铺设。这样在安全上就存在很大隐患,而燃气报警器的报警响
药物载体材料的开发是当今新型药物传递系统研究领域的重要研究方向,理想的药物载体应具有良好的生物相容性、生物可降解性、生物稳定性、极低的毒性以及较高的载药量等。近
雨果的<致巴特雷上尉的信>以强烈的爱憎、澎湃的激情、诗一般的语言和绘声绘色的笔法,如泣如诉地控诉了英法联军劫掠圆明园的罪状,今天读来仍具有撼人心魄的感染力.雨果一生
在大型火力发电厂主厂房混凝土框架结构中,结构承担的竖向荷载较大(如层间布置有煤斗等质量过于集中的设备),因此框架柱的轴力很大。框架柱的截面面积直接由轴压比限值确定,
沉淀法是制备氧化铝纳米颗粒最常用的方法之一。在化学沉淀反应过程中,前驱体特性与溶液pH值有关,而前驱体的相转变又与前驱体特性紧密相关。因此,pH值是化学沉淀法制备Al2O3
文章阐述了长输管道河流穿跨越方案的选择原则,总结了长输管道河流穿跨越的几种主要形式,对这几种河流穿跨越方案的适用条件、穿越长度、施工工期、工程投资、施工、运行及维
招投标是长输管道建设项目管理中的一项关键性工作,单千米综合报价招投标方法适用于施工图尚未交付,且工期较紧的长输管道。文章介绍长输管道单千米综合报价招投标的方法、主
现代卫星需要完成的任务越来越复杂,对星载计算机系统的功能和性能提出了更高的要求。由于重量、体积和功耗的限制,在简化硬件系统的同时,需要软件来完成大多数任务功能,软件
在北南苏丹战争中,HEGLIGE油田两座5万m3原油储罐遭受火箭弹、子弹射击而损坏。文章以该储罐的修复工程为背景,从储罐修复工程风险分析、前期准备、应急演练、过程控制等各阶
工程视图作为一种以投影原理表达空间三维形体的有效手段,广泛地应用于产品模型设计,在机械工业中扮演着重要的角色。工程技术人员借助二维视图,可以很容易地读懂视图所表达