基于模板的Web页面信息提取技术研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:huacheng5215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web上信息的迅速扩展,各项基于Web信息的应用也逐渐繁荣起来。Web数据挖掘作为一项新兴的技术被越来越多的Web与数据库技术的研究者所关注。作为Web数据挖掘技术的基础和重要组成部分,Web页面信息提取技术正应用于搜索引擎、站点结构分析、页面有效性分析、Web图形化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对Web提供的各项信息的利用要求越来越高,对Web页面信息的提取技术要求也越来越高,人们要求更准确、更完整的Web页面信息来满足各种各样的需求。Web数据挖掘技术研究者已经提出了很多提取Web页面信息的方法,这些方法各有所长,同时也有各自的局限性。 根据在Web页面信息提取技术领域的长期积累以及国内外在Web页面信息提取技术领域的研究与发展,本文在综述了国内外的研究情况后提出了一个基于模板的Web页面信息提取方法及其系统模型,该系统包括Web页面预处理、Web页面模板的生成、Web页面信息的提取、Web页面信息属性的提取以及Web页面信息的存储方式等一系列模块,对于每个模块,本文分别给出了主要工作的相关处理算法和流程,并针对研究过程中遇到的问题,提出了多个新的概念定义、判定定理及算法: 在定义页面记号串的类型的基础上,给出了基本型、元组型和集合型的定义及性质,并给出相关定理的证明。 在分析Web页面记号的基础上,提出了等频记号集合和频繁多记号集合的定义以及Web模板生成的算法。 根据Web页面模板,提出了提取Web页面信息以及页面信息属性的算法 根据Web页面信息的层次结构,提出了Web页面信息的树型结构存储方式以及向某个数据模型转换的必要性。 在系统实现的过程中,使用了页面信息提取的准确率(Precision)和页面信息的发现率(Recall)两个指标衡量系统对Web页面信息提取的结果。实验结果显示,使用本文提出的Web页面信息提取方法提取页面信息的准确率是非常高的,该系统具有较强的实用价值。
其他文献
近年来,一种新的系统实现方式—可重构系统受到学术界的关注。它采用动态电路重构技术,在运行时根据需要动态改变系统的电路结构,从而使系统既有采用硬件优化所能达到的高速度和
在进行多Agent系统中具有互补性或可替换性关系的多个资源与任务分派时,人们通常选择使用组合拍卖机制来完成这样的分派工作。由于组合拍卖的竞价方式能够更好表达竞价Agent
随着嵌入式系统在消费类电子产品、数据采集系统以及工业控制系统中的广泛应用,作为嵌入式系统中最常用的存储设备,基于硅存储介质的海量闪速存储器的应用也日益广泛。 闪速
数据仓库实质是对大量的、多种类的企业数据的集成,目的是为了更好的利用已有的信息,从而实现“数据—信息—知识”的过程,为企业的管理层提供决策支持。传统的数据库技术与
近年来面向对象技术的迅速和成熟为软件开发提供了一种全新的视野,然而,与软件开发息息相关的数据存储技术,仍然是关系数据库一支独秀。由于关系数据理论和面向对象技术基于
本文首先研究和实现了一个简单的PKI系统,包括证书机构CA、注册机构RA和相应的PKI存储库.论文主要应用微软的CryptoAPI接口,实现了证书申请、发布,数字签名、数字信封和验证
本文从消息和服务本身的安全角度出发对WebService的安全机制进行了以下几方面的研究。   首先,基于WebService的安全性要求及安全现状,对WebService的安全体系进行了深
人脸检测是确定人脸的位置、大小、姿态的图像处理过程。近年来,它已成为计算机视觉、模式识别、人机交互研究中一个很受关注的研究热点。在自动人脸识别系统、视觉监控、基于
高新技术的不断革新,使得智能手机、平板电脑成了人们生活之中常见的工具。专家预测,手机、平板电脑等智能终端设备在将来很有可能会取代PC的地位,但是在现在甚至包括很长一段时
近年来,视频监控系统在各行业得到了广泛的应用,但是这些系统的功能局限于对场景的记录和保存。随着信息化进程的推进和人民生活水平的提高,人们对智能监控系统的需求越来越迫切