论文部分内容阅读
随着网络及软件技术的快速发展,Web services的重要性越来越明显。为了更好的应用Web services,Web services分类成为重要的基础性工作,其在Web services的发布,发现,语义标注,组合匹配,发现等方面有着重要作用。
目前,常用的Web services分类算法可以分为三大类:基于文本分类技术,基于结构特征和基于语义信息的Web services分类。而这三类算法具有一定的局限性,难以满足实际应用对分类正确率和召回率的要求。
因此,本文从多个方面研究了Web services的分类问题,以提高分类正确率和召回率,主要研究工作如下:
(1)将预处理后的Web services的描述文档-WSDL文档作为普通的文本,采用传统分类器对其分类,并实验分析了各种分类器的分类效果。
(2)提出一种利用Web services结构特征,同时结合语义相似度计算的Web services分类算法-NACWS。该算法将一个WSDL文档表示为一个向量,并根据WSDL文档中的结构特征构建类别特征向量,最后通过基于语义的四层相似度计算一个WSDL文档与各类别特征向量的相似度,将其划分为相似度最大的类别。大量实验证明,NACWS算法具有较高的正确率和召回率。
(3)在上述算法的基础上,将WSDL中operation结构的input和output信息引入分类过程,设计特征向量的表示方法与相似度计算方法,通过该实验研究input和output信息在Web services分类中的作用。
(4)设计并实现了Web services分类原型系统。该系统可以对WSDL文档进行预处理,同时可用四种算法对WSDL文档进行分类。该系统为Web services分类提供了实验平台。