一种新的Web信息抽取模型的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:xmnp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web已经成为一个庞大而复杂的信息仓库。如何利用程序从海量的Web中快速抽取信息从而提高人们获取信息的效率变得越来越重要。Web中一类重要的信息网页是数据提供网站的动态Web页面,如数字图书馆的学术论文元数据信息网页。这类网页往往数量巨大且内容丰富,因而抽取工作非常有价值;同时这些页面中自由文本数据少,网页结构化程度高,固定的文本数据很多。   本文以国家“211”工程“中国高等教育文献保障系统”(China Academic library Information System,简称CALIS)“十五”项目“中国高等教育数字图书馆”为背景,针对上述数据提供网站的动态Web页面的特点,提出了一个新的web信息抽取模型,该模型主要包括数对序列分析算法、模糊矩阵信息抽取算法和web信息抽取子系统架构。   首先本文提出了数对序列分析方法,能简化了网页结构相似度计算,改善了传统树模型与树路径模型方法的缺点与不足,提高了计算机的存储效率和计算效率,在数对序列分析基础上,本文进一步提出了更高效的网页结构相似度算法、网页聚类算法和模板生成算法。   其次,本文提出了模糊矩阵信息抽取算法,结合了模板方法与概率统计方法两者各自的优势,利用模糊数学与矩阵计算等数学原理,对web信息做进一步的分析与计算,更有效地处理web信息抽取问题。本文给出了该算法的形式化描述和具体应用方式。   基于上述算法,本文设计并实现了一个web信息抽取的原型系统,并在此基础上进行了网页信息抽取实验,实验证明,本文的web信息抽取模型比传统模型具有更高的准确度与召回率。
其他文献
在我国,近些年城镇车辆保有量迅速增加,汽车日益成为人们生活的一个重要组成部分。为了满足人们日益增长的通过网络获取信息的需求,车辆网络(简称VANET)应运而生。VANET网络为安
“面向863孵化器的综合技术服务平台”(简称:孵化器技术服务平台)是面向全国各863孵化器、软件技术服务机构和软件企业的综合技术服务平台。该平台采用开放的SOA技术架构,服务
中国教育与科研计算机网(CERNET)跨机构统一认证和资源共享基础设施(CARSI)项目旨在以跨机构联盟的形式搭建跨域应用资源和用户真实身份信息共享平台。跨域统一认证和资源共
随着半导体行业的飞速发展,集成电路规模的不断提高,系统芯片SoC(System on Chip)技术已逐渐成为集成电路技术的主流。由于信息产业的迅猛发展,信息化已经深入到国计民生的各个
某供电局电力信息一体化平台整体结构复杂、信息量大,综合了设备台帐、电力生产、电力设备采购、电力管理办公、变电运行日志、无功管理、停电计划管理、电力培训等多个系统,但
随着语义网的发展,本体越来越多地在各个领域被应用。然而由于本体的创建对领域知识的理解不同,侧重的角度不同,使用的建模方法不同,即使是在同一领域的共享概念上创建的本体,不同
当前,信息系统已经从纯粹的信息展示窗口演变成包含实际应用逻辑的业务平台。这要求信息系统不仅能够支持数据的展现、存储、检索和管理,还应该支持对业务流程的管理。然而,在大
在预测模型中,当自变量的维度增加时,预测精度和算法性能都会显著下降,这就是所谓“维度诅咒”的问题。针对这一问题的多数解决方法都依赖所谓稀疏性假设,即函数值只依赖高维变量
自提出至今,面向侧面编程(Aspect-Oriented Programming,AOP)技术已被证明可以有效地改善软件的可维护性、可理解性以及可演化性。为了使用AOP技术重构遗产软件,首先需要自动或
无线传感器网络是由大规模传感器节点利用无线信道组成的多跳自组织网络,其中,传感器节点在其微小的体积内集成了数据采集、数据处理和无线通信等多种功能。传感器网络引发了信