一种中文软件评论的挖掘方法及工具

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:DJ_BOY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,以用户为中心,反映了用户使用体验,包含了用户对软件功能、性能等各方面满意度的软件评论信息越来越多。通过对这些评论进行分析,软件开发者可以了解自身软件的不足和用户的真实需求以改进软件,同时可以对市场上其它同类软件的用户满意度情况进行分析,及时了解竞争对手的信息,从而增强企业的竞争力。因此,通过自动化的技术对这些软件评论信息进行挖掘研究,获取有价值的信息有着重大的意义。  评论挖掘就是意见挖掘技术在产品评论文本分析上的应用。它旨在从产品的评论信息中获取用户关注产品的主要特征,以及在这些特征上所持观点的情感倾向。目前,产品评论挖掘技术在英文领域已比较成熟,但在中文领域,许多问题还有待研究解决。另一方面,无论是中文还是英文,目前的评论挖掘研究对象一般都为电子产品、书籍、电影、餐馆等的用户评论信息,而暂没有发现专门针对软件评论的挖掘研究。但是近年来,随着移动互联网的迅速发展,Android、IOS等平台的快速普及,涌现出了一大批的移动应用,这些应用由于开发周期短、版本更新快,因此对于及时掌握用户反馈的需求更加迫切,而传统的基于问卷调查的方式显然已不能满足他们的要求,在这样新的环境下,用户软件评论的挖掘分析显得更加重要。  本文简述了产品评论挖掘的概念和关键技术,对一些关键步骤的已有方法进行了归类总结,并对比分析了这些方法的应用范围、特点和局限性。基于以上研究,本文提出了一种无监督的软件评论特征词-观点词对抽取方法,该方法针对软件产品特征和观点词之间对应的修饰关系,将用户发表的软件功能、性能等特征和表达了情感的观点词结合在一起进行挖掘,从而保留了特征和观点词的对应关系。无监督的学习方法不需要人工标注数据,减少了人的参与,增加了方法的实用性。同时,针对软件评论语言的特点,总结了一些带有极性色彩的网络词汇,构建了极性词词典,通过基于词典的方式获取特征词.观点词对的上下文极性。在以上算法的基础上,本文构建了一个中文软件评论挖掘的系统CSRM。系统通过对评论数据的分析,将结果以可视化的方式进行展示。最后通过在Android平台上软件评论数据的实验,验证了系统的有效性。
其他文献
近年来,智能视频监控系统在城市交通管理中的作用日趋重要,违章停车的检测成为智能视频监控应用的一个重要方面,在实现违章行为监管、提高城市管理效率中有着重要的作用。本文研
现场总线技术是20世纪80年代后期发展起来的一种先进的工业控制技术,它将计算机网络和数字通信技术应用到了工业控制领域。将现场总线技术应用到伺服驱动装置,使现场总线成为控
交叉证认是天文学领域中实现多波段数据融合的一项关键技术,它根据不同星表中天体分布位置上的相关性,来进行星表间的关联融合工作。交叉证认的主要意义在于,通过将不同波段
在软件测试的过程中,采用合适的方式构造测试用例,是非常重要的一环。传统的测试用例生成方式主要由测试人员手动生成或者通过随机的方式生成,这些方式都存在着缺陷,手动生成
面向服务的计算模式能够无缝地把各种应用及服务组合起来,形成新的增值服务来满足用户需求。然而由于网络环境的动态性、开放性、多样性以及服务数量的快速增加,使得如何从众多
发布/订阅是一种基于事件的通信范型,它在时间、空间和控制流上完全解耦,能够提供异步、匿名和一对多的通信机制。内容发布/订阅系统完全独立于网络层,依赖消息的内容来进行
学位
随着操作系统和计算机体系结构的快速发展,计算机基础平台出现了多样化的趋势,不同平台间的应用程序不能无缝迁移成为了制约基础平台发展的主要问题,应用程序跨平台的支持变得越
随着电动汽车技术的日益成熟,电动汽车将成为未来汽车发展的方向。中国政府也在加大投入,大力支持以电动汽车为代表的新能源汽车的研究、开发和市场应用。为了推动电动汽车规
近年来,随着互联网中多媒体应用的快速增长,业务对网络资源的需求越来越多,用户对应用服务质量的要求也越来越高,为了满足用户在不同网络环境状况下的服务质量需求,必须充分