论文部分内容阅读
随着电子商务的普及与发展,大部分网络消费者在购买商品前都会浏览商品的用户评论信息,这些评论信息不仅对消费者做购买决策有帮助,对生产厂家或电商公司获取商品市场反馈也有重要贡献。然而,从海量的商品评论中获取对用户有用的信息是一件很繁琐的事情,因此情感分析(Sentiment Analysis/Opinion Mining)应运而生。情感分析的主要工作就是挖掘并分析文本信息,实现相应的情感分类或情感极性判定。情感分析不仅在商品评论分析领域得到了广泛的应用,在网络舆情分析,金融股市分析和垃圾邮件处理等方面也有较高的研究价值。情感分析在自然语言处理,信息检索,数据挖掘以及机器学习等领域都有涉及,因此,研究情感分析的方法也比较全面。情感分析的主要内容分为两部分:倾向性信息识别和倾向性信息分类,在众多的研究方法中提高识别精度和分类精度一直是情感分析研究的重点。按分析的粒度的可以把情感分析分为篇章级别、句子级别、短语级别和词语级别。早期的情感分析主要集中在篇章级别和句子级别,随着用户提出的要求变高,短语级别和词语级别这种细粒度的情感分析逐渐成为了当前的研究热点。本文主要是对网络产品评论进行词语级别的情感分析研究,主要内容:1.研究了抓取网页数据的方法,并对数据进行了分词、词性标注和去噪声。2.研究识别情感词和评价对象词语的方法。情感分析中识别情感词和评价对象的精度一直是研究的重点,因此本文充分利用情感关系和词语本身的特性就如何有效地识别情感词和评价对象进行了详细的研究。除此之外,还实现了另外两种方法作为本文的对比实验,针对不同的抽取方法进行了详细分析。3.研究了情感词的情感倾向分析方法。把情感词的情感极性分为正面、中性和负面三个类别。首先分别用超限学习机、支持向量机和Softmax回归进行实验,然后选出分类结果做好的分类器。