论文部分内容阅读
随着目前互联网行业的快速发展,人们对软件产品的需求日益增多。在这样的背景下涌现出了大量的软件下载平台,在这些平台上人们不仅可以下载软件,以及针对某个软件发表看法来表达对这个软件的喜好程度。同时,用户还可以通过阅读软件产品的历史评论来了解软件的特点,为用户在下载软件时提供决策支持。而对于软件开发商来说,他们可以通过这些评论及时的得到反馈,获取改进意见,从而开发出更加符合用户需求的软件产品。然而,软件评论数量随时间成几何趋势增长,无论是用户还是开发方都需要花费大量的时间从海量的评论数据中甄别出有用的信息。面对这种问题,利用情感分析技术对软件评论进行深度挖掘具有很强的实用价值。目前对软件评论的情感分析主要是基于情感字典的匹配来进行情感分类,由于软件领域中文本评论的特殊性以及情感字典的匹配模式不具通用性的问题。另外,对软件评论进行情感分析不能仅停留在篇章级和语句级层面,还要从软件评论中挖掘出软件功能的情感倾向。因此如何针对软件评论的特殊性进行情感分析是值得研究的。针对上述问题,本文主要从以下几个方面进行研究。1、分析软件领域的评论数据,基于情感词典匹配模式辅助人工标记,构建评论情感分析语料库,为中文软件领域进行机器学习提供了大数据集基础。2、爬取软件下载平台上的软件评论数据,对其进行文本预处理,然后利用多种特征选择方式和有监督机器学习分类算法对软件评论进行情感分析,研究了不同特征选择方法和分类算法对情感分类效果的影响,综合特征选择方式和分类算法的影响因素,优化情感分类效果,为探索软件产品评论情感挖掘模式提供了情感倾向的判断基础。3、设计对软件评论实体信息的实体抽取规则,探索了针对软件细粒度功能的情感倾向分析模式。将软件功能词和评价词抽取出来,并与软件评论的情感分类结果进行映射,从词的层面对软件评论情感进行细粒度的情感分类,实现软件特征、描述、极性三个维度模型的构建。从而获取更精细的情感分析效果。