基于极大相容块的产品评论文本情感分类研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:A3512516
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅速发展,Internet已成为大多数人们表达自己观点和获取信息的平台。越来越多的商家通过网上出现的大量评论信息,了解用户对产品的消费意见或建议,以便改进产品的性能,提供更好的售后服务。当然,网上的评论也为消费者的购物行为提供了参考。但是,网上的新评论每天都会大量地涌现,针对这些评论,仅靠人工去跟踪和分析显然是不行的。近年来,人们开始重视并探索评论文本中对产品的情感倾向性判别问题。本文旨在研究面向产品评论文本的情感分类问题,主要有以下几方面的工作:(1)基于最大熵与Bootstrapping相结合的方法实现关联三元组的自动抽取。基于<产品特征Pfeature,情感词Sword>关联对的缺点,讨论了否定性副词与情感词进行搭配的必要性,提出了<Pfeature,Flag,Sword>关联三元组,能够更确切地表示文本中评论句对产品特征的客观情感倾向。对于关联三元组的获取,我们采用了两个步骤:首先,利用已经训练好的最大熵模型作为分类器,结合Bootstrapping方法完成了产品特征与情感词语关联对的抽取;其次,利用算法将情感词前的否定性副词抽取出来,合成关联三元组。(2)提出一种新的基于领域知识的特征重要性度量方法,完成了对文本情感分类的特征抽取。本文以汽车领域的评论文本作为研究对象,发现条件属性值与决策属性值往往具有强烈的相关性,利用这种相关性,针对非完备二分类决策信息系统,通过基于领域知识的条件属性值映射,考察数据关于决策的一致率和非一致率,以Shannon熵为基础,定义了信息正增益和负增益,用分类信息熵及其拓展公式度量了条件属性的重要性,并将其应用于中文文本情感分类的特征选择当中,实验结果表明这种新的属性重要性度量是有效的。这种新度量方法为基于领域的文本情感分类问题提供了特征选择方法。(3)提出了基于极大相容块的文本情感分类方法,可以实现文本情感的更细分类。以前的分类器大多是把文本的情感分成了褒和贬两类,这个分类的粒度是较粗的,本文以细化这种较粗的分类粒度作为研究目的,尝试了用极大相容块的方法构造分类器对评论文本中的情感倾向进行细分。创建了极大相容块分类器,通过设定域值的方法(投票法)对分类器中的极大相容块进行概念标注,最后,我们利用创建好的分类器,对测试集中的120篇文本进行分类。实验结果表明,该分类器可以很好地将文本中的情感细分成五类。
其他文献
随着数字视频和网络技术日新月异的发展,计算机视觉技术受到了越来越多的关注,逐步发展成为信息科学研究领域的一个重要分支。视觉目标跟踪技术是许多计算机视觉高层应用的基础
该文描述了为海军舰船维修所一发的电路原理图自动布图系统的方案、结构、所采用布图算法以及实现算法所用的数据结构.出于提高开发效率的软件兼容性的考虑,系统借用了Protel
随着计算机网络技术的快速发展,远程在线教育得到越来越多的关注,受教育人数也飞速增长。但对于实践性较强的在线课程,学习者不能到传统实验室内完成实验,无法锻炼实验操作能力。
该文主要论述了矫顽力自动精密测量仪的设计与研制.作者所做的工作包括硬件与软件两个部分.在硬件方面,设计中采用测量磁感应强度过零点的方法,克服测量机构的增益漂移与大量
该文针对"强力输送带横向断裂预报装置"在工业中的应用要求,对该装置做了深入的研究.主要包括以下几个方面:在企业局域网的基础上,开发了强力输送带横向断裂预报装置多媒体信
该课题以基金会现场总线为基础,构成多功能现场总线自动控制实验系统,用于自动化教学和科研.文中描述了基金会现场总线的通信模型和技术性能.多功能现场总线自动控制实验系统
该文的主要内容正是基于Internet的异步教学环境的设计开发.该文的研究内容之一是现代远程教育的教学管理系统,其目的是在网络上为用户提供信息传播途径和互动交流手段.我们
该文重点论述了以下四个方面的内容:1)免疫系统自身机制的模型描述与仿真;2)疫苗免疫算法的描述与仿真;3)免疫网络的组成、模型描述与应用;4)免疫模型、免疫算法和免疫网络结
该文首先讨论了静态图像中车辆检测的两种不同途径:基于局部特征融合的方法和基于统计学习的方法,然后在此基础上做了以下三部分工作:1.提出了一种基于角点检测和模糊聚类的
该文对支持企业经营过程重组的工作流管理体系的结构、运行机制和实现技术进行了系统的研究.论文的主要工作包括:分析了企业经营过程重组对工作流管理系统的新需求.通过介绍