一种新的Web信息抽取模型的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：xmnp

【摘要】

：

Web已经成为一个庞大而复杂的信息仓库。如何利用程序从海量的Web中快速抽取信息从而提高人们获取信息的效率变得越来越重要。Web中一类重要的信息网页是数据提供网站的动态W

【作者】

：

关涛

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2009年期

【关键词】

：

信息抽取数对序列网页聚类模糊矩阵网页结构数字图书馆

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web已经成为一个庞大而复杂的信息仓库。如何利用程序从海量的Web中快速抽取信息从而提高人们获取信息的效率变得越来越重要。Web中一类重要的信息网页是数据提供网站的动态Web页面，如数字图书馆的学术论文元数据信息网页。这类网页往往数量巨大且内容丰富，因而抽取工作非常有价值；同时这些页面中自由文本数据少，网页结构化程度高，固定的文本数据很多。　　本文以国家“211”工程“中国高等教育文献保障系统”(China Academic library Information System，简称CALIS)“十五”项目“中国高等教育数字图书馆”为背景，针对上述数据提供网站的动态Web页面的特点，提出了一个新的web信息抽取模型，该模型主要包括数对序列分析算法、模糊矩阵信息抽取算法和web信息抽取子系统架构。　　首先本文提出了数对序列分析方法，能简化了网页结构相似度计算，改善了传统树模型与树路径模型方法的缺点与不足，提高了计算机的存储效率和计算效率，在数对序列分析基础上，本文进一步提出了更高效的网页结构相似度算法、网页聚类算法和模板生成算法。　　其次，本文提出了模糊矩阵信息抽取算法，结合了模板方法与概率统计方法两者各自的优势，利用模糊数学与矩阵计算等数学原理，对web信息做进一步的分析与计算，更有效地处理web信息抽取问题。本文给出了该算法的形式化描述和具体应用方式。　　基于上述算法，本文设计并实现了一个web信息抽取的原型系统，并在此基础上进行了网页信息抽取实验，实验证明，本文的web信息抽取模型比传统模型具有更高的准确度与召回率。

其他文献

基于流动公共设施的城市环境VANET路由算法研究

在我国，近些年城镇车辆保有量迅速增加，汽车日益成为人们生活的一个重要组成部分。为了满足人们日益增长的通过网络获取信息的需求，车辆网络(简称VANET)应运而生。VANET网络为安

学位

车辆网络路由协议网络吞吐量公共设施交通流量

863孵化器技术服务平台中服务可信性管理子系统的设计与实现

“面向863孵化器的综合技术服务平台”(简称：孵化器技术服务平台)是面向全国各863孵化器、软件技术服务机构和软件企业的综合技术服务平台。该平台采用开放的SOA技术架构，服务

学位

服务可信性可信性管理服务推荐信任网络孵化器技术管理子系统

合约在CERNET身份联盟中的应用研究与实现

中国教育与科研计算机网(CERNET)跨机构统一认证和资源共享基础设施(CARSI)项目旨在以跨机构联盟的形式搭建跨域应用资源和用户真实身份信息共享平台。跨域统一认证和资源共

学位

资源共享用户访问认证服务联盟服务

一种全流水可变密钥的AES加解密模块的设计

随着半导体行业的飞速发展，集成电路规模的不断提高，系统芯片SoC(System on Chip)技术已逐渐成为集成电路技术的主流。由于信息产业的迅猛发展，信息化已经深入到国计民生的各个

学位

加密标准可变密钥系统芯片集成电路

电力系统垂直搜索引擎的研究与设计

某供电局电力信息一体化平台整体结构复杂、信息量大，综合了设备台帐、电力生产、电力设备采购、电力管理办公、变电运行日志、无功管理、停电计划管理、电力培训等多个系统，但

学位

电力系统电力系统垂直搜索引擎垂直搜索引擎信息采集信息采集信息抽取信息抽取

一种基于上下文及复杂关系发现的本体映射方法研究

随着语义网的发展，本体越来越多地在各个领域被应用。然而由于本体的创建对领域知识的理解不同，侧重的角度不同，使用的建模方法不同，即使是在同一领域的共享概念上创建的本体，不同

学位

本体映射本体模型概念相似度上下文向量映射关系

半结构化业务流程的混合式构建方法的研究与实现

当前，信息系统已经从纯粹的信息展示窗口演变成包含实际应用逻辑的业务平台。这要求信息系统不仅能够支持数据的展现、存储、检索和管理，还应该支持对业务流程的管理。然而，在大

学位

业务流程感知半结构化信息系统操作序列感知映射结构

高维数据的非参数回归算法及在经济建模中的应用

在预测模型中，当自变量的维度增加时，预测精度和算法性能都会显著下降，这就是所谓“维度诅咒”的问题。针对这一问题的多数解决方法都依赖所谓稀疏性假设，即函数值只依赖高维变量

学位

非参数回归变量选择高维数据经济建模经济指标预测预测模型

一种基于聚类的Linux侧面挖掘技术的研究与实现

自提出至今，面向侧面编程(Aspect-Oriented Programming，AOP)技术已被证明可以有效地改善软件的可维护性、可理解性以及可演化性。为了使用AOP技术重构遗产软件，首先需要自动或

学位

面向侧面程序设计侧面挖掘文本聚类

无线传感器网络中的事件区域检测和目标跟踪问题研究

无线传感器网络是由大规模传感器节点利用无线信道组成的多跳自组织网络，其中，传感器节点在其微小的体积内集成了数据采集、数据处理和无线通信等多种功能。传感器网络引发了信

学位

无线传感器网络事件区域检测组目标跟踪多传感器协作节点唤醒多跳自组织网络容错算法

一种新的Web信息抽取模型的研究与实现

其他学术论文