基于标签嵌入和注意力机制的Web服务长尾分类研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:mumuduck
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web服务作为一种在互联网环境下自适应、自描述、模块化并具有良好互操作能力的应用程序和功能独立的软件组件,已经在电子商务、企业应用集成和业务流程管理等应用领域扮演着重要的角色,不断影响着现代服务业创新模式推广与泛化应用。随着Web 2.0技术的兴盛,Web服务在过去的十年里呈现蓬勃发展的态势,目前规模最大的Web服务在线注册平台Programmable Web已注册23,038个服务,涵盖488个类别的应用领域。然而,当服务提供者发布新服务时,从规模庞大的服务类别中挑选出最相关的标签往往不仅耗时耗力,且难以精准选择满足服务需求的功能类别。因此,如何由发布者提供的功能描述实现服务自动分类,并推荐最匹配的标签供其选择是一种有效的解决方案,近年来已成为服务计算研究领域的热点研究问题。现有的Web服务分类方法大多将研究的重点放在如何更准确地得到服务的特征表示,尚存在如下不足之处:(1)现有研究在服务分类时考虑的类别数较少,难以实现多样化应用场景中的服务注册的标签推荐。(2)服务数据集具有不均衡性,即不同类别对应显著差异化的Web服务数,现有研究在服务分类时较少考虑服务的长尾分布特征。(3)Web服务描述通常文本较短,现有方法仍然难以准确地抽取服务的稀疏特征。在此研究背景下,本文以Web服务分类问题为研究对象,以服务分类的多样性为驱动,重点针对具有长尾特征的Web服务分类问题开展研究工作,以提高服务长尾分类的准确性为目标,创新性地提出了基于深度学习模型的Web服务长尾分类方法。本文所做的工作主要包含以下两个方面:(1)服务长尾数据采集与可视化。为了支撑本文研究的服务长尾分类问题所需的多样化服务类别和大规模Web服务数,本文利用Python爬虫采集Programmable Web在线服务平台中Web服务,构建包含多种类别和Web服务的服务长尾数据集。针对采集的服务,首先分析了Web服务数据集具有不平衡性,呈现出显著的长尾分布特征;同时分析了服务描述的平均长度在40个词左右,具有短文本特性;最后,为了便于应用据集,实现了一套服务查询和长尾数据可视化系统。(2)提出了基于深度学习模型的服务长尾分类方法。针对服务长尾分类问题,研究和实现了一种基于标签嵌入和注意力机制的长尾分类模型,该模型结合标签嵌入和多头注意力机制更准确地提取短文本服务的特征,同时采用针对长尾问题的损失函数解决数据集不均衡影响分类模型准确性问题。为了验证本文提出的服务长尾分类方法的有效性,在前面采集的服务长尾数据基础上,利用服务数最多的80个类别作为实验数据集,并划分了Overall,Niche-20,Niche-30和Niche-40四个测试集用于服务长尾分类问题的对比实验,实验结果表明本文提出的服务分类方法比目前效果最好的方法具有更好的长尾分类准确性。
其他文献
随着光伏接入电网的比例不断增加,其随机波动性对于电网供需平衡及安全稳定的影响也愈发严重,直接影响到电能质量以及光伏能源的有效消纳。通过对光伏功率输出量进行预测,对电能供应提前进行调度,可以保证供电侧与负荷侧的功率平衡,减小光伏发电波动对电力系统稳定运行的影响。目前,神经网络仍是最为常用的光伏功率预测方法之一,但传统的神经网络预测模型主要使用离线学习模式,依赖离线历史数据训练的模型投入在线运行后不再
近年来存储与计算能力出现的爆发式增长让人们相比以往能够更全面、更实时的获取信息数据。提供更便捷、高效的服务的同时也生成了数量庞大的数据信息。将海量数据转化为业务需求的极高的困难性,对各个领域造成巨大的冲击性。在安全领域更是带来更大的变革,传统的网络安全防护需要依靠安全专家自身知识领域的广度与深度。但随着安全漏洞层出不穷、攻击利用方式多种多样,依赖于专业人才的安全防护方式已经不能满足需求,人们开始着
Schr(?)dinger方程是揭示微观物理世界物质运动的基本规律的方程,1925年,由奥地利物理学家Schr(?)dinger建立的,它是量子力学的基本方程.本文主要考察两类初值条件的分数阶导数的
非线性偏微分方程在描述非线性现象中具有重要的作用,目前已在力学、物理化学、工程技术及大气科学等领域中广泛应用.由于非线性项的存在,使得非线性问题的解析解难以得到或
微博已经成为一种信息获取的重要途径和信息传播的载体,微博上的虚假信息的大量传播可能会造成恐慌,因此有必要对微博中相关的舆论话题进行监管。准确地预测微博的传播趋势有助于提前对舆论进行干预,并采取合理的管控措施,使其朝着积极的方向发展,使微博更好的服务大众。传播趋势预测在舆论监管、政府宣传、广告投放、票房预测、热点推送和企业营销等领域有着广泛应用。一方面,传统的微博传播趋势预测方法通常只关注微博自身内
扶新隆起带泉三段杨大城子油层是吉林油田下一阶段重点勘探开发的层系之一,具有良好的开发潜力。但其一直是泉四段兼探层位,前人投入的工作量和研究资料都较少,对整个扶新隆
“十二五”以后,我国经济发展进入一种新常态。在提质增效特征下的经济“新常态”,我国的经济发展的主要任务:一是深化改革,二是产业结构调整升级。在产业结构演进过程中可能会对财政收入产生相应的影响,进而对财政支出规模与支出结构产生相应的影响。宏观税负体现了一国的整体税收负担水平,它反应了国民经济的整体宏观调控能力,为一国制定合理的税收政策提供了依据。从以往研究来看,国内外学者普遍关注经济增长对税收增长的
随着我国互联网技术的快速发展,人们逐渐使用电子设备通过网络通道来进行日常的工作和交流,广大网民成为了网络舆情信息传播的主要介质,网络中的舆情信息爆发式增多。冗长的
[目的]戊型肝炎病毒(HEV)是戊型肝炎的病原体,已有研究表明HEV的一些基因型在动物中流行并且能够跨物种传播给人类。调查河北省饲养动物中HEV的流行情况、分析动物HEV的基因型分布,为戊型肝炎预防控制措施的制定提供依据。[方法]2017年10月-2019年5月从河北省不同地区的养殖场采集猪、家兔、牛、羊等动物粪便样本,从猪和家兔屠宰场采集血液样本,并从屠宰场及市场采集猪肉、猪内脏等样本。样本处理
随着网络技术的快速发展,用户需求已经从传统的以文字信息转向以音、视频为主的多媒体信息。用户需求的不断变化,使得以IP为主的传统网络体系架构在移动性支持、多径路由以及网络性能优化等方面体现出不足。由此,内容中心网络(Content-centric Network,CCN)被提出。CCN网络区别于传统TCP/IP网络的最大特点是拥有缓存机制,然而现有CCN网络缓存方法存在如缓存命中率低、请求时延长以及