【摘 要】
:
随着Web服务的发展不断深入,RESTful Web服务凭借其轻量级、扩展性等优势得到了飞速发展,但由于大多数RESTful服务文档只是普通的HTML页面,使得如何有效识别和抓取RESTful服
论文部分内容阅读
随着Web服务的发展不断深入,RESTful Web服务凭借其轻量级、扩展性等优势得到了飞速发展,但由于大多数RESTful服务文档只是普通的HTML页面,使得如何有效识别和抓取RESTful服务成为服务发现领域面临的一个重要研究问题。同时,移动应用市场也在飞速扩张,并具有应用数量大、用户覆盖广等特点,但由于移动应用信息的纷繁复杂,面临着难以提取和分析移动应用信息以及用户评论信息的问题。在这样的背景下,本文设计并实现了服务的信息抓取和分析模块,包括基于服务爬虫引擎的服务抓取子模块和基于网页信息提取和主题分析的服务信息分析子模块两个部分,能够完成对RESTful服务和移动应用信息的识别、抓取和分析。本文首先介绍了国内外对服务的抓取和分析问题的研究现状,并详细介绍了服务爬虫、RESTful服务识别、网页信息提取和用户评论主题分析等相关领域的技术知识。然后对服务的抓取和信息分析模块的需求进行了分析,并对RESTful服务的识别和移动应用的用户评论主题分析进行了深入的研究。本文提出了基于朴素贝叶斯分类器和向量空间模型的RESTful服务识别方法,能够分别分析网页的文本内容和结构特征并综合得到识别结果,实验验证了本文的识别方法能够得到较高的准确率和召回率。针对移动应用的用户评论主题分析问题,本文采用基于情感分类和LDA主题模型的主题提取方法,提取出正面评论和负面评论的热门评论主题以及主题词,并通过实验验证了本文的主题建模方法能够得到较好的建模效果。接下来本文给出了服务的信息抓取与分析模块的总体设计,并详细介绍了各个子模块的功能和处理流程,通过集成测试验证了本模块能够满足本课题的需求。最后对本文的工作进行了总结并展望下一步的工作。
其他文献
随着计算机技术和国际互联网的飞速发展,包括图像在内的各种多媒体数据的数量正以惊人的速度增长.另外,信息数字化技术给人们带来方便的同时,也面临着如何有效地针对海量数据
随着网络技术的不断发展,网络以其方便、快捷的特点进入到家庭,改变人们的生活方式,形成一种新的网络形式-家庭网络.通过运行于家庭网关上的家庭网络控制中心,家庭成员可以管
系统采用UML方法进行系统分析,建立系统的功能模型和对象模型,通过建立模型,更好的全面理解系统。系统在功能上分为文物业务和财政业务两大部分,这两个部分又分为几个子模块,各个
随着网络技术,特别是Internet的飞速发展与普及,对分布式计算技术提出了很高的要求。企业作为计算机应用的主体,需要使各自的业务系统具备与网络时代相适应,传统的客户机/服务器
该论文以"63"重大专题项目"新型网络服务器系统"为背景,详细分析了机群管理软件的概念和相关技术,对当前比较常见的机群管理软件进行了总结和分析.在此基础上,设计和实现了一
本文首先阐述了基于Web数据库技术的压裂软件产生的背景、研究目的和意义、Web数据库技术的应用现状.本文详细阐述了Web数据库应用程序的工作原理和体系结构,分析和比较了多
随着信息技术的迅速发展,网络管理理念也在发生深刻变化。面向用户、面向服务的管理体系结构和应用技术成为当前研究的热点和难点。以面向服务的思想为基础的网络管理中,各种
数据挖掘是从数据中提取模式的过程,是统计学、数据库技术和人工智能技术的综合.格机是用格代数理论对数据进行分类的一种抽象的学习框架.格机数据挖掘方法是一种基于超关系
该文分为并行工程的设计理论,并行工程的任务分解和用遗传算法实现柔性生产调茺的多目标优化三大部分.第一部分主要是介绍了并行工程的概念、特点、并行工程为制造业的发展提
该文对超大规模集成电路时钟布线优化算法作了较为深入的研究.针对当前的布线算法将时钟网布在多层布线平面上,由于引入大量的通孔而使时钟树延迟显著增加的问题,该文提出了