论文部分内容阅读
随着互联网的快速发展,以用户为中心,反映了用户使用体验,包含了用户对软件功能、性能等各方面满意度的软件评论信息越来越多。通过对这些评论进行分析,软件开发者可以了解自身软件的不足和用户的真实需求以改进软件,同时可以对市场上其它同类软件的用户满意度情况进行分析,及时了解竞争对手的信息,从而增强企业的竞争力。因此,通过自动化的技术对这些软件评论信息进行挖掘研究,获取有价值的信息有着重大的意义。 评论挖掘就是意见挖掘技术在产品评论文本分析上的应用。它旨在从产品的评论信息中获取用户关注产品的主要特征,以及在这些特征上所持观点的情感倾向。目前,产品评论挖掘技术在英文领域已比较成熟,但在中文领域,许多问题还有待研究解决。另一方面,无论是中文还是英文,目前的评论挖掘研究对象一般都为电子产品、书籍、电影、餐馆等的用户评论信息,而暂没有发现专门针对软件评论的挖掘研究。但是近年来,随着移动互联网的迅速发展,Android、IOS等平台的快速普及,涌现出了一大批的移动应用,这些应用由于开发周期短、版本更新快,因此对于及时掌握用户反馈的需求更加迫切,而传统的基于问卷调查的方式显然已不能满足他们的要求,在这样新的环境下,用户软件评论的挖掘分析显得更加重要。 本文简述了产品评论挖掘的概念和关键技术,对一些关键步骤的已有方法进行了归类总结,并对比分析了这些方法的应用范围、特点和局限性。基于以上研究,本文提出了一种无监督的软件评论特征词-观点词对抽取方法,该方法针对软件产品特征和观点词之间对应的修饰关系,将用户发表的软件功能、性能等特征和表达了情感的观点词结合在一起进行挖掘,从而保留了特征和观点词的对应关系。无监督的学习方法不需要人工标注数据,减少了人的参与,增加了方法的实用性。同时,针对软件评论语言的特点,总结了一些带有极性色彩的网络词汇,构建了极性词词典,通过基于词典的方式获取特征词.观点词对的上下文极性。在以上算法的基础上,本文构建了一个中文软件评论挖掘的系统CSRM。系统通过对评论数据的分析,将结果以可视化的方式进行展示。最后通过在Android平台上软件评论数据的实验,验证了系统的有效性。