论文部分内容阅读
随着web2.0时代的到来,电子商务行业迅速发展,网络上海量的商品评论数据蕴藏着巨大的商业价值。本文运用多种分析和建模方法对大量女装电商评论文本进行挖掘和分析,既为其它用户提供参考信息,也为商家提供反馈信息,同时也可作为电商网站利用推荐算法进行个性化推荐的参考指标。本文情感分析进行的主要工作有:一、挖掘评论文本中的高频词和短语,观察用户评论特征;二、通过匹配SentiWordNet情感词典,识别出文本中出现的情感词及其对应的否定词和程度副词,并通过规则计算情感词的情感值,以及句子以致整篇评论文本的情感极性值,从而进行情感倾向判断;三、在对数据进行了清洗、规范化、删除停用词、词干提取、分词等预处理后,考虑到单词对于情感分析的重要性不同,基于TF-IDF编码方式将评论文本映射到向量空间,并利用朴素贝叶斯、逻辑回归、LightGBM三种算法训练机器学习分类模型;四、利用循环神经网络RNNs算法,建立深度学习分类模型;五、利用已有的数据集进行测试,对实验结果进行比较和分析,判断各模型的分类效果。研究结果表明,LightGBM算法训练的模型具有最佳的分类效果。