论文部分内容阅读
Web已经成为一个庞大而复杂的信息仓库。如何利用程序从海量的Web中快速抽取信息从而提高人们获取信息的效率变得越来越重要。Web中一类重要的信息网页是数据提供网站的动态Web页面,如数字图书馆的学术论文元数据信息网页。这类网页往往数量巨大且内容丰富,因而抽取工作非常有价值;同时这些页面中自由文本数据少,网页结构化程度高,固定的文本数据很多。
本文以国家“211”工程“中国高等教育文献保障系统”(China Academic library Information System,简称CALIS)“十五”项目“中国高等教育数字图书馆”为背景,针对上述数据提供网站的动态Web页面的特点,提出了一个新的web信息抽取模型,该模型主要包括数对序列分析算法、模糊矩阵信息抽取算法和web信息抽取子系统架构。
首先本文提出了数对序列分析方法,能简化了网页结构相似度计算,改善了传统树模型与树路径模型方法的缺点与不足,提高了计算机的存储效率和计算效率,在数对序列分析基础上,本文进一步提出了更高效的网页结构相似度算法、网页聚类算法和模板生成算法。
其次,本文提出了模糊矩阵信息抽取算法,结合了模板方法与概率统计方法两者各自的优势,利用模糊数学与矩阵计算等数学原理,对web信息做进一步的分析与计算,更有效地处理web信息抽取问题。本文给出了该算法的形式化描述和具体应用方式。
基于上述算法,本文设计并实现了一个web信息抽取的原型系统,并在此基础上进行了网页信息抽取实验,实验证明,本文的web信息抽取模型比传统模型具有更高的准确度与召回率。