论文部分内容阅读
随着Web上信息的迅速扩展,各项基于Web信息的应用也逐渐繁荣起来。Web数据挖掘作为一项新兴的技术被越来越多的Web与数据库技术的研究者所关注。作为Web数据挖掘技术的基础和重要组成部分,Web页面信息提取技术正应用于搜索引擎、站点结构分析、页面有效性分析、Web图形化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对Web提供的各项信息的利用要求越来越高,对Web页面信息的提取技术要求也越来越高,人们要求更准确、更完整的Web页面信息来满足各种各样的需求。Web数据挖掘技术研究者已经提出了很多提取Web页面信息的方法,这些方法各有所长,同时也有各自的局限性。
根据在Web页面信息提取技术领域的长期积累以及国内外在Web页面信息提取技术领域的研究与发展,本文在综述了国内外的研究情况后提出了一个基于模板的Web页面信息提取方法及其系统模型,该系统包括Web页面预处理、Web页面模板的生成、Web页面信息的提取、Web页面信息属性的提取以及Web页面信息的存储方式等一系列模块,对于每个模块,本文分别给出了主要工作的相关处理算法和流程,并针对研究过程中遇到的问题,提出了多个新的概念定义、判定定理及算法:
在定义页面记号串的类型的基础上,给出了基本型、元组型和集合型的定义及性质,并给出相关定理的证明。
在分析Web页面记号的基础上,提出了等频记号集合和频繁多记号集合的定义以及Web模板生成的算法。
根据Web页面模板,提出了提取Web页面信息以及页面信息属性的算法
根据Web页面信息的层次结构,提出了Web页面信息的树型结构存储方式以及向某个数据模型转换的必要性。
在系统实现的过程中,使用了页面信息提取的准确率(Precision)和页面信息的发现率(Recall)两个指标衡量系统对Web页面信息提取的结果。实验结果显示,使用本文提出的Web页面信息提取方法提取页面信息的准确率是非常高的,该系统具有较强的实用价值。