酒店领域文本情感分类研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:pz421769788
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近几年社交网络的迅猛发展,用户在网络中越来越频繁的发表各种各样带有情感色彩的评论,这些数量呈爆炸性增长的评论中包含着用户的主观信息。对这些进行主观信息挖掘,从中抽取出的有价值的信息对于商品改进、舆情监控和产品推荐等方面都着重要的意义。文本情感分类顺应成为了一个研究热点。文本情感分类主要采用无监督和有监督两种分类方法。本文对这两种分类方法中的关键步骤和相关技术进行了介绍并针对两种方法对酒店领域文本情感分类进行研究。在基于情感词典的无监督情感分类方法中,存在着情感词典中的情感词覆盖面不够广、情感倾向值计算方法考虑不够全面等问题。在有监督情感分类方法中,特征选择阶段存在对部分有用的特征无法识别的问题,在特征权重计算时,传统的计算方法也存在一定的不足。针对上述问题,本文的主要工作如下:一、构建酒店领域情感词典并提出情感倾向值计算方法。首先对将获取的知网词典、NTUSD词典以及褒贬义词典进行整合,并利用word2vec工具继续扩充词典,形成一个相对完整的酒店领域情感词典。同时考虑如否定词和总结词等特殊情况,对评论进行情感词和特殊词匹配并按照本文提出的情感倾向值计算方法进行计算。得到评论的情感倾向性,将酒店评论文本分为正面、负面情感类别。二、提出了特殊特征选择策略和改进的特征权重计算算法。特征选择时通常采用词而非词组,忽略了一系列带有情感色彩的如否定词加名词等特殊情况。经典的TF-IDF(词频率-逆文档频率)权重计算方法只考虑了词频率和逆文档频率的影响,并没有考虑特征词的内部分布情况对分类的影响。本文在经典的特征选择方法和特征权重计算方法TF-IDF的基础上,通过特殊特征选择策略扩充特征项集合,并结合特征词在评论中的位置分布信息,提出了改进的PW-TF-IDF算法。将支持向量机作为分类器,并利用训练以后的分类器对酒店领域的评论文本进行情感倾向性分类。对两种不同的分类方法在酒店领域评论性文本数据集上进行实验,均取得了较好的实验效果,初步验证了两种方法的可行性。
其他文献
由于高职院校室内设计实训课程教学环节存在问题,导致学生在毕业后仍需花费大量时间进行实践,如何缩短毕业生的实践时间乃至让学生在毕业后能够直接胜任设计师岗位是目前高职
简要讨论了近年来植物抗病毒基因工程的方法策略,主要包括:植物自身的抗病毒基因策略、来源于病毒的抗性基因策略。干扰素等抗性策略;并分析了其存在问题和发展趋势。
年末岁尾,新冠肺炎疫情彻底打乱了每个人的生活。今年春节大年初二,一场疫情防控的人民战争全面打响!根据疫情防控需要,作为方城县第十五届人大代表、古庄店镇人大主席,我和
期刊
针对雷达实装训练时所产生的效率低、损耗大等问题,设计了一种雷达发射机模拟器故障监控系统。该系统为某雷达模拟器中的一部分,根据故障监控需要完成的任务,对其控制信号、
二维码业务应用是一种新兴业务,本文即对二维码的基本概念、发展状况、业务类别、业务应用等进行了详细介绍,并提出了二维码识读业务应用的实现方案,从体系结构、网元功能、
<正>老年综合评估(comprehensive geriatric as-sess ment,CGA)是近年来在国外广泛应用的,多维角度检测评估老年人健康功能水平的工具之一,老年综合评估从患者的认知、生活能
本文首先对注浆技术进行简要概述,主要涉及其概念和分类。然后对注浆材料进行简要的统述,并提出选择注浆材料的考虑因素。然后通过对楼房病害的分类描述引出来注浆技术在房屋建
互联网的普及与发展使得网络上主观性文本如产品、新闻、社会事件的评论等大量出现。这些主观性文本蕴含着丰富的信息资源,如何对文本信息进行有效地处理和利用,是信息管理面