论文部分内容阅读
随着互联网的快速发展,WEB应用在互联网上的迅速增多导致越来越多的WEB服务被企业发布到互联网上。WEB服务适用于企业内部及企业与企业之间,WEB服务在开发松散耦合的基于组件的系统或应用中起着重要的作用。如何抓取这类WEB服务成为当前服务搜索领域的一个研究热点问题。
本文正是在这样的历史背景下提出了一种面向WEB服务的通用爬虫引擎,该引擎不仅可以识别和抓取结构化WSDL式WEB服务网页,而且能够识别和抓取RESTful式的非结构化WEB服务网页。
本文首先从WEB服务搜索引擎的需求出发,给出了WEB服务爬虫引擎应该满足的需求,进而提出了一种WEB服务爬虫引擎的爬虫方案;然后对该WEB服务爬虫引擎中使用到的关键技术(即非结构化WEB服务的识别算法)进行了深入的研究,特别是对该引擎中使用的非结构化WEB服务的URL链接过滤算法和网页过滤算法进行了研究、实验并结合实验结果,证实了该算法作为WEB服务爬虫引擎识别算法的可行性;随后提出了WEB服务爬虫引擎的总体结构框架,并对总体框架的各个模块的功能进行了说明,特别是对WEB服务爬虫引擎中识别结构化WSDL WEB服务及识别非结构化RESTful WEB服务的处理器链的处理流程进行了说明;然后基于本文提出的爬虫框架,对各个功能模块进行了设计与实现,构建了原型系统,并给出了该WEB服务通用爬虫引擎的系统测试及测试结果;最后对全文进行了总结并指出了本文下一步的工作。