基于表格的Web信息抽取

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hanfeizifly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子商务的快速发展使Internet上的商务信息急速增长,在带给人们丰富信息的同时也为准确查找信息带来了不少困难。人们希望能较准确地抽取Web上商务信息,然后加以分析,发掘其中有用的商务模式。通过观察和分析发现,Web页面大量使用表格这种HTML元素,因此本文提出了一种基于表格的Web信息抽取方法,对Web信息抽取进行了一定的分析研究。 本文首先从表格之间的嵌套关系出发,针对叶子节点,提出Web信息抽取时有效表格和无效表格的概念,并分析其特点,用神经网络的方法加以区分和识别。本文还提出一种适应性较强的抽取方法。这种方法是首先确定表格的标题行和列,然后根据标题行或列确定表格内容与要抽取的内容有多少相关度。最后是抽取信息、填入模板。 为确定表格的标题行和列,本文提出一种简单的短语语义相似度度量的方法。用这种方法计算表格中各单元格的内容有多大的可能性是标题。最后根据每一单元的值,确定表格的标题。 根据表格的标题,本文提出一种简单的方法来度量该表格与所要抽取的内容有多大相关度,基本原理就是统计以往同类表格中各标题出现的概率,通过概率来进行计算。 为了正确抽取信息,最后要确定标题与抽取字段的对应关系。本文采用联合概率最大化的方法,即罗列出所有可能的对应关系的组合,取联合概率最大的组合为所选组合。
其他文献
空间查询及优化是空间数据库相关技术研究的难点和突破点,轮廓查询技术已经成为空间查询及优化领域的热点课题。目前轮廓查询技术还处于起步阶段,各方面的技术还不成熟,存在
进出口本体是实现进出口行业信息集成、信息共享、智能作业的重要手段。本文结合进出口领域的应用特点,探讨了进出口木体的作用、特点、表达结构与构建方法,提出一个支持HS编码
2000年Napster的Peer—to—Peer(P2P)MP3交换程序开始在网络上广为流传。文件共享是P2P网络初始目的的应用之一,允许任意终端用户对等点(Peer)通过Internet完成文件交换。在P2
随着计算机网络在政治、经济、文化等诸多方面的飞速发展,网络已经逐渐成为我们日常生活中必不可少的重要组成部分。IPv6作为下一代Internet的核心协议,能够满足互联网飞速发展
近几年来,掌纹识别技术发展迅速,引起了较为广泛的关注,相应的掌纹识别设备也趋于成熟并逐渐地投入到市场中。目前应用最为广泛的是基于CCD和PC机的掌纹采集识别装置,由于采
电子政务系统是辅助政府实现信息化建设的基础系统,它在整个信息化建设中有着举足轻重的地位。电子政务系统作为一类复杂的信息系统,通常由多个应用着不同的安全策略、地理上分
国内政府的信访系统建设刚刚起步,在国务院直属单位中只有少数的部委建设了网上信访系统。在国外JSP技术已比较成熟,各种与JSP相关的技术大量地使用在大型的B/S网络系统中。
最近邻(NN)查询技术是空间数据库领域中一个重要的研究课题。k-NN查询计算距离一个给定的查询点最近的k个对象。由于定位装置的广泛应用和定位服务的增加,对空间网络数据库中
过去数十年中,科技飞快的发展,数据存储发生了爆炸性的增长。科学数据、医疗数据、人口统计数据、财经数据和市场数据等等的大量出现,使我们迫切需要找到一种能在这浩如烟海
随着嵌入式技术的不断成熟与发展,嵌入式系统已经越来越广泛地应用于生产、生活的各个环节当中。嵌入式GUI为嵌入式系统提供了一种应用于特殊场合的人机交互界面,随着嵌入式系