WEB服务爬虫引擎的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:gdp1959
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,WEB应用在互联网上的迅速增多导致越来越多的WEB服务被企业发布到互联网上。WEB服务适用于企业内部及企业与企业之间,WEB服务在开发松散耦合的基于组件的系统或应用中起着重要的作用。如何抓取这类WEB服务成为当前服务搜索领域的一个研究热点问题。   本文正是在这样的历史背景下提出了一种面向WEB服务的通用爬虫引擎,该引擎不仅可以识别和抓取结构化WSDL式WEB服务网页,而且能够识别和抓取RESTful式的非结构化WEB服务网页。   本文首先从WEB服务搜索引擎的需求出发,给出了WEB服务爬虫引擎应该满足的需求,进而提出了一种WEB服务爬虫引擎的爬虫方案;然后对该WEB服务爬虫引擎中使用到的关键技术(即非结构化WEB服务的识别算法)进行了深入的研究,特别是对该引擎中使用的非结构化WEB服务的URL链接过滤算法和网页过滤算法进行了研究、实验并结合实验结果,证实了该算法作为WEB服务爬虫引擎识别算法的可行性;随后提出了WEB服务爬虫引擎的总体结构框架,并对总体框架的各个模块的功能进行了说明,特别是对WEB服务爬虫引擎中识别结构化WSDL WEB服务及识别非结构化RESTful WEB服务的处理器链的处理流程进行了说明;然后基于本文提出的爬虫框架,对各个功能模块进行了设计与实现,构建了原型系统,并给出了该WEB服务通用爬虫引擎的系统测试及测试结果;最后对全文进行了总结并指出了本文下一步的工作。
其他文献
行为学研究发现,持续注意过程中,反应时存在低频(0.05 Hz)振荡现象。传统的功能磁共振(fMRI)任务设计不适合进行频率分析。本研究中,提出一个新的实验范式:手指压力实时反馈(RT-
社会科技文明随着电子信息技术的高速发展大踏步地向前进发,这使得整个汽车电子软件开发领域向着多元化、复杂化的方向发展。为了解决不断升级变化的ECU处理器为汽车电子软件
学位
粗糙集理论是由波兰科学家Pawlak提出的一种处理不确定知识的数学模型,该工具能够很好地对符号数据进行如属性约简、规则提取等分析,并已经在人工智能、机器学习与数据挖掘领域
基于SaaS的软件产品有灵活配置、多租户、无需部署的特性,特别适用于中小型企业。但当前的SaaS软件研究成果均以管理企业静态数据为核心功能,并未提供良好的业务流程支持。工作
随着移动通信技术的飞速发展,传统互联网流量大量的导入到移动通信网中,促使了移动通信网数据业务流量呈指数增长时,给移动互联网带来了极大的挑战。首先要面临的是无限增长的数
图形组态软件通过组件装配的方式实现监控程序的开发[10]。图形组态软件中监控图的绘制即为UI的一个构建过程,传统图形组态软件在UI构建过程中不能复用已有的图形组件,意味着
在低功率无线个域网中引入IPv6技术,可以解决其在地址配置、管理、服务、安全及与现有网络融合的通信需求。基于IEEE802.15.4实现IPv6通信的IETF6LoWPAN草案标准的发布有望实
在21世纪的今天,计算机技术、信息技术、通信技术高速发展,多媒体技术和流媒体技术在用户对交流需求越来越高的情况下应运而生。多媒体技术使人们的交流方式不仅仅局限于语言和
无线多跳网络具有灵活自组,移动性强,易于部署设置等特性,基于该网络视频传输系统的研究引起多方关注。视频传输业务具有高实时性,对网络质量有着较高的要求。所以如何做到快