基于网页版面分析的信息抽取

来源 :南开大学 | 被引量 : 0次 | 上传用户:yjun198
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。Web信息抽取便是其中一项重要研究课题,研究范围覆盖数据挖掘、人工智能等多门学科。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支。 大多数的网络资源是以HTML页面形式展现的,但是从网络中自动抽取信息并将其转化为有用内容是非常困难的。本文提到了当前Web信息抽取中所用的各种方法,以及各种方法的优缺点。 接下来,本文提出了一种新的Web信息抽取方法。该方法借鉴了文档图像处理领域中的思想,从版面分析的角度考虑Web信息的抽取问题。本方法通过对网页上的信息进行双层聚类,以期得到网页的版式结构和信息罗列方式,从版式的角度对信息进行定位和抽取。 本文介绍了该方法的理论模型与系统实现,并对该方法的应用及实验结果进行了总结与评价。
其他文献
随着社会的不断发展,人们生活水平得到了显著提高,建筑行业渐渐的成为了我们国家发展时能源的最大消耗者,我们必须要对能源的消耗进行节能,其中我们的重点是要对门窗幕墙行业
多传感器数据融合是一项前沿技术,主要应用于军事领域,如:自动目标识别,战场监控,自主车辆导航和控制,以及非军事领域,如:精密机械的监控,医疗诊断,智能楼宇和遥感系统。其涉及的技术包
本文应用小波变换结合递归分析方法对气液两相流电导波动信号进行处理,从多尺度及非线性信号分析的角度研究了气液两相流流型的动力学特性。研究结果表明:从各个尺度递归图上
目前,全市各区县领导班子换届工作正在紧张展开。换届必然涉及领导干部的进退留转,而能不能正确对待进退留转,是对党员干部党性和政德的重要考验。近年来,我市干部人事制度改
本文主要介绍了游戏机器人开发平台的总体设计和其部分实现。所谓游戏机器人是指一种计算机程序,该程序可以直接与其所对应的游戏进行交互,代替玩家来对游戏中所对应的实体进行
水是人民生活、生产必备的资源.没有水源的建筑物是不具备使用功能的.作为建筑物必不可少的一部分,水又扮演着一个十分重要的角色.其中最基本,也是最重要的就是给水、排水和
针对传统的数学实验室辅助管理系统响应性能差的问题,提出基于JSP技术的数学实验室辅助管理系统设计.系统硬件主要包括XC5VLX110T器件和TMS230C6678D器件电源电路设计.系统软
目的:探讨复杂子宫肌瘤腹腔镜下子宫全切术(TLH)的临床对比研究。方法:择取100例患者,随机分为研究组和对照组,研究组患者进行腹腔镜下子宫全切除术,对照组进行开腹子宫全切
伴随着大数据技术、移动技术与计算机技术在医疗领域应用日益深入与提高,智能化医疗分诊系统在解决患者看病排队时间长、挂号难、诊室多、流程繁等方面发挥了良好的作用;笔者
CT影像作为最灵敏的胸部成像模态,在肺部疾病的诊断中得到了广泛应用。尤其,多排螺旋CT技术的快速发展使得基于医学影像的肺部疾病计算机辅助诊断与量化评估成为了可能。肺气