基于网页版面分析的信息抽取

来源 :南开大学 | 被引量 : 0次 | 上传用户：yjun198

【摘要】

：

信息抽取研究旨在为人们提供更有力的信息获取工具，以应对信息爆炸带来的严重挑战。Web信息抽取便是其中一项重要研究课题，研究范围覆盖数据挖掘、人工智能等多门学科。过去十

【作者】

：

庄世杰

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2007年期

【关键词】

：

信息抽取版面分析标记字符串网页版面数据挖掘自然语言处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息抽取研究旨在为人们提供更有力的信息获取工具，以应对信息爆炸带来的严重挑战。Web信息抽取便是其中一项重要研究课题，研究范围覆盖数据挖掘、人工智能等多门学科。过去十多年来，信息抽取逐步发展成为自然语言处理领域的一个重要分支。大多数的网络资源是以HTML页面形式展现的，但是从网络中自动抽取信息并将其转化为有用内容是非常困难的。本文提到了当前Web信息抽取中所用的各种方法，以及各种方法的优缺点。接下来，本文提出了一种新的Web信息抽取方法。该方法借鉴了文档图像处理领域中的思想，从版面分析的角度考虑Web信息的抽取问题。本方法通过对网页上的信息进行双层聚类，以期得到网页的版式结构和信息罗列方式，从版式的角度对信息进行定位和抽取。本文介绍了该方法的理论模型与系统实现，并对该方法的应用及实验结果进行了总结与评价。

其他文献

论建筑门窗幕墙设计中的绿色节能技术

随着社会的不断发展,人们生活水平得到了显著提高,建筑行业渐渐的成为了我们国家发展时能源的最大消耗者,我们必须要对能源的消耗进行节能,其中我们的重点是要对门窗幕墙行业

期刊

建筑门窗幕墙设计绿色节能节能技术

数据融合技术在蒸发工段黑液浓度测量中的应用研究

多传感器数据融合是一项前沿技术，主要应用于军事领域，如：自动目标识别，战场监控，自主车辆导航和控制，以及非军事领域，如：精密机械的监控，医疗诊断，智能楼宇和遥感系统。其涉及的技术包

学位

数据融合技术人工神经网络碱回收黑液浓度浓度测量环境保护蒸发工段制浆

气液两相流流动结构多尺度及非线性特性分析

本文应用小波变换结合递归分析方法对气液两相流电导波动信号进行处理,从多尺度及非线性信号分析的角度研究了气液两相流流型的动力学特性。研究结果表明:从各个尺度递归图上

学位

气液两相流流型识别多尺度分析递归定量分析复杂性测度

在区县换届中增强党性锻炼

目前,全市各区县领导班子换届工作正在紧张展开。换届必然涉及领导干部的进退留转,而能不能正确对待进退留转,是对党员干部党性和政德的重要考验。近年来,我市干部人事制度改

期刊

党性锻炼领导干部党员干部换届工作领导班子配备考核评价体系人事制度改革领导职位组织部门人事纪律

游戏机器人开发平台的设计与实现——编译及相关部分

本文主要介绍了游戏机器人开发平台的总体设计和其部分实现。所谓游戏机器人是指一种计算机程序，该程序可以直接与其所对应的游戏进行交互，代替玩家来对游戏中所对应的实体进行

学位

游戏机器人契约式设计编译器逻辑错误接口开发

论给排水管道工程设计施工

水是人民生活、生产必备的资源.没有水源的建筑物是不具备使用功能的.作为建筑物必不可少的一部分,水又扮演着一个十分重要的角色.其中最基本,也是最重要的就是给水、排水和

期刊

给水方式排水方式高层建筑给水系统排水系统

基于JSP技术的数学实验室辅助管理系统设计

针对传统的数学实验室辅助管理系统响应性能差的问题,提出基于JSP技术的数学实验室辅助管理系统设计.系统硬件主要包括XC5VLX110T器件和TMS230C6678D器件电源电路设计.系统软

期刊

数学实验室辅助管理JSP技术系统设计响应性能系统测试

复杂子宫肌瘤腹腔镜下子宫全切术临床疗效观察

目的:探讨复杂子宫肌瘤腹腔镜下子宫全切术(TLH)的临床对比研究。方法:择取100例患者,随机分为研究组和对照组,研究组患者进行腹腔镜下子宫全切除术,对照组进行开腹子宫全切

期刊

子宫全切术腔镜术后排气时间阔韧带肌瘤临床疗效手术时间宫颈肌瘤临床对比研究阴道残端卵巢固有韧带

浅析现代医院智能化医疗分诊系统设计

伴随着大数据技术、移动技术与计算机技术在医疗领域应用日益深入与提高,智能化医疗分诊系统在解决患者看病排队时间长、挂号难、诊室多、流程繁等方面发挥了良好的作用;笔者

期刊

现代医院医疗分诊智能化系统设计

三维CT影像中肺气管树分割算法研究

CT影像作为最灵敏的胸部成像模态,在肺部疾病的诊断中得到了广泛应用。尤其,多排螺旋CT技术的快速发展使得基于医学影像的肺部疾病计算机辅助诊断与量化评估成为了可能。肺气

学位

CT图像气管树分割区域生长灰度重建模糊连接度

基于网页版面分析的信息抽取

其他学术论文