论文部分内容阅读
随着技术的发展和手机的普及,网络购物行为已经渗透到人们生活的方方面面,进行过网络购物的人数越来越多。在这个过程中,会不可避免地产生大量的商品评论数据。通过人工阅读的方式从海量的评论数据中发现有效信息是一件非常困难的事情,因此论文通过文本挖掘技术来解决这一问题。首先,为了利用文本挖掘技术获取评论数据中的有效信息,论文利用Python软件编写爬虫程序,分别从京东商城、天猫商城和苏宁易购获取了某款式冰箱的评论数据。为了更好地对评论数据进行情感分类和主题分析,论文对获取的评论数据进行了预处理,获得了规范化的评论数据。对规范化评论文本进行分词操作,并以词云图的形式进行可视化展示。其次,当获得规范化的评论文本后,分别使用基于情感词典的方法和基于优化的机器学习方法对评论数据进行情感分类,然后使用准确率指标对两种情感分类方法的效果进行比较。通过对比发现,优化的机器学习方法的情感分类准确率更高,效果更好。因此,选择优化的机器学习方法的情感分类结果,分别对三家电商平台的正负面评论构建语义网络,重现评论分词间的关系,对用户评论语句中的观点进行直观展示。最后,利用主题分析技术,分别对三家电商平台的正负面评论进行建模分析,从评论数据中发现潜在主题,对评论数据的主题进行总结,并结合词频和语义网络,挖掘出评论语句中包含的商品特点和电商平台特点。一方面可以辅助用户进行购买;另一方面可以帮助商品生产企业和电商平台了解用户诉求和自身优缺点,以便进行针对性改进。