基于矩阵分解的社会媒体文本个性化情感分析技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:vl244
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会媒体作为一种新的在线交互平台,极大地改变了人们的沟通、交流和思维方式,同时促进了用户生成信息的爆炸式增长。用户生成的大量社会媒体文本,近年来已经成为大数据最具代表性的数据来源之一,挖掘与分析这些用户生成信息对于社会发展影响深远。社会媒体文本情感分析作为一种对带有情感色彩的主观文本进行分析、处理、归纳和推理的信息处理技术,近些年来得到学术界和工业界的广泛关注,并在互联网的诸多领域中均具有广泛的应用。传统的文本情感分析研究工作主要专注于从文本中分析情感,却忽略了用户在情感表达时的个性化差异,从而影响了分析结果的质量。针对上述问题,本文研究社会媒体文本的个性化情感分析问题。考虑矩阵分解技术在社会媒体处理中的广泛应用,提出多种基于矩阵分解技术的模型,解决社会媒体文本个性化情感分析研究中可能存在的挑战。具体地,本文的主要研究工作及创新点如下:(1)针对文本情感分析研究一直缺乏可靠、大规模的细粒度情感词典(或情绪词典)的问题,提出一种基于联合非负矩阵分解的方法,它可以从新闻语料构建细粒度的情感词典并将其用于文本情感分析任务。在众包标注的多标签新闻语料的基础上,该方法同时将“文档—词语”矩阵及“文档—标签”矩阵分解为话题相关子矩阵;随后通过子矩阵的组合语义法来生成细粒度情感词典。本文将不同方法生成的细粒度情感词典用在情感分析任务中,结果表明所提出的词典构建方法的有效性;此外,通过与现有最先进的细粒度情感词典进行比较,表明本文构建的词典具有更高的质量和更好的实用性;(2)针对用户在文本情感表达上的个性化差异,提出一种基于隐语义模型的微博个性化情感分类方法。在隐语义模型的基础上,提出将文本在词语级分解来解决个人数据稀疏性的问题;为了增强用户个性化偏好的捕捉,进一步引入用户间的关注关系来嵌入相似的兴趣偏好;为了对文本语义进行细粒度建模,通过词语间的句法依存关系来引入语法单元特征,从而更准确地从微博文本中获得用户的个性化情感。在真实的中文微博和英文推特数据集上的实验结果表明本文所提出的个性化情感分析模型比传统的情感分析模型更能有效地捕捉用户的个性化影响;(3)针对个性化的文本情感分析中的“冷启动”问题,考虑评论中的用户和产品信息并提出文本驱动的隐语义模型来对产品评论进行情感分析;为了解决“冷启动”用户和“冷启动”产品问题,提出成对评分对比优化策略PRC,从评论数据中挖掘评分间的对比信息用于增强用户和产品的特征参数学习,并实现评论文本个性化情感分析性能整体提升。在三个公开的点评数据集上的实验结果表明本文所提出的文本驱动隐语义模型在情感分析质量和学习效率上都要明显好于最先进的神经网络方法;(4)针对用户和产品对文档语义的全局影响问题,基于矩阵分解和深度神经网络的各自优势提出一种深度矩阵分解模型。首先,通过多层的感知器组件来捕捉用户—产品交互的高层表示;其次,通过卷积神经网络组件来捕捉评论文本中各种粒度的局部语义;最终,通过泛化的矩阵分解组件来融合交互表示和文本表示,进而对评论文本进行个性化情感分析。在三个公开的点评数据集上的实验结果表明本文所提出的方法比传统情感分析方法和协同过滤方法能更好地预测评分;(5)针对当前没有可用的实时个性化情感分析系统的问题,基于本文工作的研究成果实现了一个可用的实时个性化微博情感分析原型系统。该系统通过多种用户友好的图表分析了当前登录用户及其关注者的微博情感倾向,包括用户情感趋势走向预测和用户情感倾向比例分析,这为用户浏览、回复、转发和点赞等行为提供了情感知识的支持。综上所述,本文主要工作是基于矩阵分解的社会媒体文本个性化情感分析方法和技术的研究。对细粒度情感词典构建、微博个性化情感分析、产品评论个性化情感分析、“冷启动”问题和实时情感分析原型系统五个方面的问题进行了分析和解决。本文的研究成果将为更好地建立和实现社会媒体文本个性化情感分析提供理论基础和技术支持。
其他文献
<正>7月16日,中国老龄科学研究中心在京发布《中国养老机构发展研究报告》。这是中国发布的首部养老机构发展专题研究报告。报告系统梳理中国养老机构的发展历程与现状,分析
王充视著书立说之鸿儒为儒生的最高层次,肯定其文化创造力,空前突出鸿儒与&#39;立言&#39;的价值,其儒生观对于儒生的自我定位、儒学的发展具有积极的意义.
目的探究环境改良及功能干预在小儿哮喘护理中的应用效果及预后影响。方法选取四川省达州市中西医结合医院2017年1月—2018年9月收治的哮喘患儿160例,随机分为对照组和研究组
目的探讨高特质愤怒个体是否对负性情绪面孔有注意偏向。方法采用点探测任务,比较高低特质愤怒个体(高特质愤怒组24人,低特质愤怒组24人)对不同性质情绪面孔同异侧探测符号反
诗歌是高中语文学习的重要内容,教学比例大,且以中国古典诗歌为主.对诗歌文本的解读,关系到学生对诗歌内容的认知,以及对诗歌美的感悟,是诗歌教学的重点与难点.与文章的解读
随着新课程改革的不断推动和素质教育的大力提倡,多媒体技术在我国教育中有着非常重要的地位,在高职体育教学中使用多媒体技术,改变了传统的教学模式,让高职体育课程内容更加
目的了解广州市小、微企业的职业卫生管理现状和职业病危害风险程度。方法采用简单随机抽样法,以广州市150家小、微企业为调查对象,采用《广州市用人单位职业病危害风险分类
由于水基压井液对岩芯伤害高,本文研制了油基低伤害压井液并在修井中进行应用。应用油基低伤害压井液可以减少环境污染,提高原油的产量和采出率,经济效益明显。
中医药在提高消化性溃疡愈合质量、降低复发率和改善患者症状上有一定的优势,但中医辨证分型仍难以统一,在临床上不能真正起到指导、规范作用。本文从中医证的角度,对近年来
<正>段义孚这本《神州》是半个世纪之前写的。当时他受牛津大学地理学教授休斯顿之邀,为"世界风土丛书"(The World’s Landscapes)写一本关于中国地理景观历史的书,对象是英