基于SVM和概率神经网络多特征组合的在线产品评论情感信息挖掘

来源 :江苏大学 | 被引量 : 16次 | 上传用户:jaeiris
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和电商技术的快速发展,人们越来越喜欢网上购物。相比与线下购物,网购具有便携性,节省时间成本,受时间和空间的影响较小等特性。消费者在网上购买商品前一般会浏览商品下方的评论信息,在购买商品后,发表对商品或服务的评价。在线产品评论的出现使得企业改进产品质量的时间点也发生了变化。传统工业工程领域,企业改变产品质量的时间点是在产品离开生产线之前,现在,企业可以在用户使用产品之后,得到用户对产品的反馈信息,或者在产品制造之前,提前了解用户的真实需求,从而帮助企业理解消费者,改善产品质量。相比一些学者使用机器学习的方法来计算产品特征的情感值,本文更加关注文本评论的情感倾向,即识别文本所属的情感类别,是正向的情感还是负向的情感。本文所处理的评论级别是子句级,最终使用SVM和概率神经网络两种方法来识别子句的情感倾向,并比较结果。然后使用概率神经网络方法来预测子句的情感倾向,提取子句的产品属性,进行分类,得到消费者在各产品属性分类上情感分布情况。首先,以亚马逊网站上华为honor畅玩版4X手机为例,设定其在线产品评论数据抓取规则,然后使用八爪鱼采集器抓取在线评论数据。对抓取的数据进行向量化处理。识别每条评论中的有效子句,对有效子句进行分词、去掉停用词等预处理操作。根据相应的词典提取子句中情感词、否定词、程度副词和特殊符号等特征。然后,根据以上特征组合构建文本向量,使用SVM和概率神经网络两种方法来来建模,并验证模型的表现性能,判断概率神经网络是否可以用于文本情感识别。每种方法中,根据特征的不同组合,又分为五组实验,通过不同的实验组合,根据实验结果分析特征对文本情感识别的作用。最后,实验结果表明:子句中情感词数量和否定词数量对文本的情感识别作用很强,而程度副词和特殊符号的作用比较微弱;其次,从模型的准确度和运行时间两方面来分析,概率神经网络方法可以用于文本情感识别。接着,选用概率神经网络模型对实验数据进行分类预测,提取子句的产品属性,对其进行分类,得到消费者在各产品属性分类上情感分布情况,得到实验结果表明:该手机在相机和屏幕两个方面表现较差,企业可以在下代产品上改进这两方面。
其他文献
世界短篇小说三大巨匠莫泊桑、契诃夫、欧亨利作为批判现实主义大师,他们身上有太多的相似之处:作品中对现实的高度概括,精巧的构思,真实的细节描写,都向读者展示了他们生活
本文分析了动态链接库的作用和优势,介绍了创建和调用动态链接库的一种常用方法,并通过实例详细介绍了动态链接库的创建和调用的全过程。
经济的快速发展和购买力水平的提高使得国民能够消费的各类产品越来越多,物质生活愈加丰富的同时,也带来了废弃产品的规模呈爆发式增长,造成资源的浪费和对自然环境的破坏。
进入21世纪,经济全球化的进程加快,直接影响各个国家和地区的发展和建设。在当前经济全球化和区域经济合作相互推动、并存发展的同时,一些地域不相近,处于不同区域的国家、地
<正>1.氨氮吹脱的必要性含一定浓度的氨氮是许多工业废水和城市垃圾渗滤液的特征之一。垃圾渗滤液中高浓度的氨氮不仅加重了水的污染程度,而且也给其处理工艺的选择带来困难
<正> 陈存仁先生是著名的药物学家,曾主编《中国药学大辞典》,述古综今,网罗繁富,具有较高的实用价值.先生不仅对本草研究有素,而且临床经验亦极丰富,擅长内科调理,尤以治疗
介绍了移动视频监控技术在电力系统的应用现状,分析了移动视频监控系统应具备的功能和特点。从供电企业实际需求出发,提出一种利用原有视频监控平台建设基于3G网络的电力移动
本研究假设1980-2016利比里亚的经济是出口主导型的。从对利比里亚的经济增长的显著作用上看,利比里亚的出口增长率较1997-2005年间相比的33.8%,在2006-2013年间,平均增长率
"慎独"是儒家的一个重要概念,对该概念本义的解读学界始终未有定论。从"慎独"传统解读和本义入手厘清其含义,认为"慎独"意在强调内心对于仁义礼智圣的专注,并在此基础上分析"
研究背景卒中后抑郁(post-stroke depression, PSD)为脑卒中后常见并发症之一,是卒中后以持续情感低落、兴趣减退为主要特征的心境障碍。PSD的诊断必须具备脑卒中这个前提条