基于主题序列的情感倾向性分类研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:qq13545197270
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网络应用的快速发展,人们积极参与到了电子购物和网络社交活动中,通过论坛、博客、微博、商品评论等分享自己的心情、观点和体验等。因此,互联网上产生了大量的具有潜在价值的对人、事和物的文本评论内容。对个人用户来说,网络评论往往影响着一个人对某一事物的认知和态度,从而会渗透到自身的网络行为模式中。对于商业组织说,分析用户观点可以使商业组织更全面的了解用户体验,进而完善产品功能和提高服务水平,使公司保持良好的市场竞争优势。对于国家政府而言,通过舆情监控可及时了解人民的需求和态度,发现导致国民负面情绪的关键事件,进行疏导与解决,为人民提供更好的服务。情感分析研究不但具有重要的社会意义和价值,而且日渐成为自然语言理解、文本挖掘、信息检索和网络智能信息处理等领域研究的热点问题。  随着LDA模型在机器学习、数据挖掘等领域内的广泛应用,基于LDA模型的情感分类方法如雨后春笋般出现,但是根据我们查阅的文献,目前的研究方法大部分都是从扩展LDA模型本身来提升情感分类的效果,并没有相关的工作考虑到利用主题之间的相对次序来解决情感分类的问题。本文通过探索情感文本中主题分布的相对次序对情感分类效果的影响,提出了一种基于主题序列的新的情感分类方法,主要工作包括:  (1)探索了主题之间的相对次序对情感倾向性分类的影响,提出了主题序列以及共现主题的概念,并通过实验分析具有不同情感倾向性语料库中主题序列相对次序之间的分布情况。  (2)以(1)中的实验结果为导向,提出了基于主题序列的情感分类方法。首先,采用LDA模型建模,得到情感文本的主题分布。其次,通过训练得到褒贬二类的主题共现矩阵。最后,通过褒贬二类的主题共现矩阵将情感文本分为褒贬二类。实验结果表明该分类方法在实验所采用的数据集上取得了跟SVM分类器相当的分类性能。  (3)在(2)的基础上,改进了基于主题序列的情感分类方法,将共现主题的概念进行扩大,提出了主题共现窗口的概念,通过相同的数据集进行实验验证,实验结果较SVM有了稳定的提升,取得了很好的分类效果。
其他文献
随着英文学习者的数量急剧增加,对能够辅助英文学习的工具的研究显得日趋重要。然而英汉两种语言的思维差异造成了中国学习者在英文学习中会碰到很多问题,而且这些问题的类型
GIS技术正在受到越来越广泛的重视,已深入到各行各业。交通地理信息系统(GIS-T)领域是GIS最重要和最具增长性的应用领域之一,已广泛应用在街道和公路的管理,如进行街道和公路路
最优化理论是数学的一个分支,也是一门应用相当广泛的学科。它研究的是某些数学问题的最优解,即对给出的实际问题,从众多候选方案中找到最优方案。目前,伴随着计算机技术的高速发
面向服务的软件架构已逐渐成为软件领域的一种重要设计模式,本文所研究的是其中的一个核心问题—组合Web服务。Web服务作为当前服务的主流实现形式,得到了广泛的关注。但由于可
USB(Universal Serial Bus)接口具有众多优良特性——即插即用,支持热插拔,传输速率高(USB2.0工作在高速模式时理论上传输速率达480Mb/s),配置灵活,扩展性能好(主机可同时支持127
光谱分析检测技术和光谱分析仪器在现代科学实验、生物研究、医学及医药研究、工农业生产、国防、天文观测等领域应用极其广泛。传统的光谱仪由于存在体积火、探测速度慢、集
自80年代中期以来,数据库中涉及数据分布性、多样性、数据共享和数据理解等问题被广泛研究;许多先进的数据模型被广泛利用,如扩展关系模型、面向对象模型、对象——关系模型、演
近年来,处理器的异构多核结构成为热门的研究方向,它被广泛应用到科学计算、图形图像处理、通信等各个领域中。与传统单核处理器以及对称多核处理器相比,异构多核系统中的加速核
近年来,由于软件的复杂性不断提高以及信息系统规模不断扩大,信息技术在给社会带来深刻变革的同时,其安全问题也越来越引起人们的关注,而软件漏洞便是导致一些安全问题的重要因素
以互联网为代表的信息产业为中国带来了巨大的机会和挑战,中国社会开始进入一个以信息为核心的时代。如何快速准确随时随地地获取所关心的信息,对人们的日常工作和生活已经具有