论文部分内容阅读
随着互联网的普及和电商技术的快速发展,人们越来越喜欢网上购物。相比与线下购物,网购具有便携性,节省时间成本,受时间和空间的影响较小等特性。消费者在网上购买商品前一般会浏览商品下方的评论信息,在购买商品后,发表对商品或服务的评价。在线产品评论的出现使得企业改进产品质量的时间点也发生了变化。传统工业工程领域,企业改变产品质量的时间点是在产品离开生产线之前,现在,企业可以在用户使用产品之后,得到用户对产品的反馈信息,或者在产品制造之前,提前了解用户的真实需求,从而帮助企业理解消费者,改善产品质量。相比一些学者使用机器学习的方法来计算产品特征的情感值,本文更加关注文本评论的情感倾向,即识别文本所属的情感类别,是正向的情感还是负向的情感。本文所处理的评论级别是子句级,最终使用SVM和概率神经网络两种方法来识别子句的情感倾向,并比较结果。然后使用概率神经网络方法来预测子句的情感倾向,提取子句的产品属性,进行分类,得到消费者在各产品属性分类上情感分布情况。首先,以亚马逊网站上华为honor畅玩版4X手机为例,设定其在线产品评论数据抓取规则,然后使用八爪鱼采集器抓取在线评论数据。对抓取的数据进行向量化处理。识别每条评论中的有效子句,对有效子句进行分词、去掉停用词等预处理操作。根据相应的词典提取子句中情感词、否定词、程度副词和特殊符号等特征。然后,根据以上特征组合构建文本向量,使用SVM和概率神经网络两种方法来来建模,并验证模型的表现性能,判断概率神经网络是否可以用于文本情感识别。每种方法中,根据特征的不同组合,又分为五组实验,通过不同的实验组合,根据实验结果分析特征对文本情感识别的作用。最后,实验结果表明:子句中情感词数量和否定词数量对文本的情感识别作用很强,而程度副词和特殊符号的作用比较微弱;其次,从模型的准确度和运行时间两方面来分析,概率神经网络方法可以用于文本情感识别。接着,选用概率神经网络模型对实验数据进行分类预测,提取子句的产品属性,对其进行分类,得到消费者在各产品属性分类上情感分布情况,得到实验结果表明:该手机在相机和屏幕两个方面表现较差,企业可以在下代产品上改进这两方面。