【摘 要】
:
随着信息技术的飞速发展,浏览器技术得到了不断创新。但是不同浏览器之间所带来的网页兼容性问题也变得愈发突出,网页兼容性问题已经成为制约开源软件发展的瓶颈。目前几乎所
论文部分内容阅读
随着信息技术的飞速发展,浏览器技术得到了不断创新。但是不同浏览器之间所带来的网页兼容性问题也变得愈发突出,网页兼容性问题已经成为制约开源软件发展的瓶颈。目前几乎所有的网站都包含大量非兼容性网页元素,当用户通过不同浏览器访问这些网站时,将会得到不同的显示效果。这种非正常显示严重打击了用户的使用信心,甚至使部分用户不再使用开源软件。本文针对上述问题进行研究,研究的主要内容有: (1)在探讨Web信息抽取技术的基础上,根据Web页面的特征,分析其结构,提出一种网页信息抽取的可行性方法——基于HTML树编辑距离的信息抽取方法。该方法通过考虑HTML标签表现特性进而改进树编辑距离。根据HTML标签在浏览器中所显示的数据对象的权赋予它们相应的不同节点值;通过两棵由HTML标签组成的,对应页面中数据对象构成的带权节点树之间的比较,求得最大映射值来获得其样式匹配。实验表明,该方法比简单树匹配方法更高效、更稳定。 (2)从HTML解析技术入手,结合Web信息抽取技术,设计了一个自主开发的HTML Wrapper解析器方案,并对它的组成部分词典、词法分析器以及语法分析器的设计做了详细研究。信息抽取详细方案的设计是本文的核心,其最大特色是抽取规则的语料库设计和不同浏览器对HTML标签和属性支持差异解决方案的设计。该方案的设计和应用可以更好地提取出那些产生兼容性问题的标签和属性,并将这些标签和属性加以改正。 (3)在上述工作的基础上,本文开发了相应的原型系统。该系统能够更好地完成对网页不兼容信息的抽取和改正,是一款符合HTML4.01规范的网页信息抽取和测试系统。
其他文献
航线问题关系我国重要的海运和海上贸易等领域,是一个重要的决策问题。随着国内国际贸易形势的良性发展、市场经济体制的日臻完善,国内各航运公司在同类市场的竞争日趋激烈。在
文件系统或裸设备被广泛使用在各种关键的集群系统中。随着应用对可用性要求越来越高,这两种技术都暴露出一些缺点。文件系统有两个主要问题。第一,冗余问题,既任一时刻它只
经过二十多年的发展,时态数据库理论研究取得了丰富的成果,而时态数据库实现技术尚处于起步阶段,目前国内外还没有一个真正意义上的时态数据库管理系统,因此开发一个时态数据库中
数据网格为用户屏蔽了底层的物理资源,实现了异构、分布海量数据的一体化访问、存储、传输和管理。副本管理是数据网格中的一个关键技术,它能极大地提高数据的安全性、可靠性以
安全是Web应用的核心。许多Web应用基于Windows的IIS服务,其安全控制全面集成于Windows安全体系,提供了包括多种措施在内的安全机制。然而,IIS安全机制过于简单,因此.NET平台对基
目标跟踪在目标运动的视觉分析中占有重要的地位,属于视觉的中层部分。利用目标的跟踪,可以方便地获得目标的运动、姿态、行为参数,为后续的高层的行为理解和识别奠定了基础。目
近年来,计算机和网络技术的发展呈加速态势,但各种应用的核心——数据,仍以不同形式存储在不同的系统中,分而不聚,聚而不合,呈分布异构状态。随着应用需求的不断增加,越来越多的用户
随着第三代通信技术(3G)和基于位置的服务(LBS)的发展,如何满足LBS用户随时随地的需要、以在线模式提地图服务及其它GIS服务,成为一个重要的问题。 针对3G环境下LBS对于在线
随着数据挖掘等相关技术的快速发展,数据发布过程中敏感信息的泄漏问题也日益突出。数据发布在为人们提供决策支持的同时,也对个人隐私带来了威胁,在数据发布的使用过程中,对数据
随着软件技术的飞速发展,软件产品的应用越来越广泛。软件产品的版权保护问题逐渐成为人们普遍关心的问题。软件水印技术作为软件产品版权保护的一种重要手段,已成为学术界研