论文部分内容阅读
随着电商平台的蓬勃发展,用户数量逐渐增多,使得商品评价数目飙升。如何能高效、精确获得基于这些语料的相关信息,在此基础上进行分析研究逐渐成为了当前信息科学和技术领域中面临到的重大挑战。电商网站因流量巨大,可为各种类别的产品提供交易平台,而这其中的电子类产品是在电商平台上非常热销的典型产品之一。尤其是随着物联网的普及带来了穿戴智能、智慧家装、健康医疗等一系列智能设备,智能手环是其中典型代表。本文即采用京东商城智能手环类产品用户评论作为数据集,充分结合机器学习及自然语言处理相关理论和方法,对文本语料进行了文本情感倾向性的建模、文本主题分析研究,从而提出高效、精确的文本挖掘技术和方法。本文所研究的技术成果可广泛用于各类电商门户、点评网站及线上交易平台。本文从文本挖掘的具体流程,包括语料数据采集、文本预处理、语义分析、情感分类、主题分析等为文本挖掘分析提供相关的技术指导,并着重介绍了数据获取、自然语言处理、算法选择与情感分类比较等多种技巧。首先通过python采集京东商城手环类产品评论文本语料数据,得到近20万条用户评论文本。然后对文本预料进行数据预处理,主要是文本语句间去重:删除行与行之间完全重复的内容,只保留唯一的一条评论;文本语句内去重:用多重遍历的方式对有单字、多字重复,从句间重复等进行筛查;后续处理和低含义词语删除:通过设置排查筛查的长度,剔除掉低于预设值的评论内容。特征选取部分,主要是采用TF-IDF值作为特征选择的方式,计算每个词的TF-IDF值,将其和设定的阈值进行比较,低于阈值的词过滤掉,最后剩余的词作为特征项,并且得到的特征项对应的权重值即为其所对应的TF-IDF值。语义分析,主要是将用户的评论中,出现频率最高的词语找出来,然后分析这些词语的含义或者关系,从得出用户对产品的重要评价或印象。情感分析,本文使用python的自然语言处理包NLTK及包含分类算法的工具包sklearn进行分类模型的训练。根据卡方统计量进行特征值选择,并把语料文本使用特征表示。用不同的分类算法构建分类器,并测试其准确度。LDA主题模型分析,主要是使用了Python中的Gensim包,把评论分词为词包,然后分配生成词典,建立语料库,把文本转换为稀疏向量,指定主题数量,进行LDA模型的学习和训练,最终形成多个正负主题,可以直观的了解到商品得到的好评究竟好在哪些特点,得到的差评究竟问题在哪些部分。在对模型设计环节完成之后,进行了数据实验验证,比较多个模型的准确率、召回率,结论表明,模型预测精度满足实际使用要求。