面向新闻文本的读者情绪预测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:teiku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,各类媒体的形式与内容也得到了各种相应的创新,其重点之一在于能够更好更多的让用户参与其中以及分享个人感受体验,从而使得对大规模读者群的情绪分析与跟踪成为可能。通过对用户针对媒体内容产生的情绪进行分析与预测,不仅可以用于提升用户的搜索、阅读体验,同时在舆情监控等领域也有着更为广泛的应用。目前对于文本情绪计算的研究主要集中在对文本本身所表达的情绪进行分析,而对于读者情绪,即文本所引发的读者情绪的研究,总体上仍处在比较初级的阶段。本课题研究对读者阅读新闻媒体后的情绪反应进行预测的方法。也就是给定文本形式的新闻媒体报道,通过对其内容进行自动化的分析从而预测读者对该新闻事件的产生的情绪类别情况。本文的主要工作包括:第一,研究了利用新闻标题的语义特征进行读者情绪预测的方法。针对新闻标题文本较短、词数较少但种类较多、数据稀疏的特点,提出了一种结合多标签分类器和基于HowNet语义概念特征的读者情绪预测方法。在此基础上,提出了一种基于语义概念序列特征的情绪预测方法,通过引入词序特征从而进一步提升了预测性能;第二,由于目前缺少面向读者情绪认知和预测的词典资源,本文提出并建立了一种基于情绪表达与情绪认知分离的新型中文情绪词典。在此词典中,将情绪相关词语按照情绪表达与情绪认知加以区分,在支持传统情绪分析的同时,也能够支持情绪预测研究;最后,利用已建立的新型情绪词典,本文提出了一种基于情绪类别强度分布的读者情绪预测方法,分别应用于全文文本与经过扩展后的标题文本,并最终在标题文本上将此方法与基于新闻标题语义概念的方法相结合,有效地提高了读者情绪预测的性能。在利用社会化标注建立的读者情绪语料库上进行的实验中,基于标题语义特征的读者情绪预测方法在降低了特征维度和运算时间的同时,预测结果的各项性能相对于基线系统有6.8%以上的提升;而通过进一步结合人工标注的情绪词典,可以在较低特征维度下即可实现相对较好的分类效果。实验结果显示,本文提出的基于语义特征和情绪认知词典的方法可以明显提高读者情绪预测系统的性能。此外,本文实现的新型中文情绪词典可以广泛用于情绪计算相关领域的研究。
其他文献
本文主要是针对DCOM的负载平衡问题。所谓负载平衡就是将计算平均到多个机器上,将客户的请求发送到负载最轻的服务器上。本文从上层用户即编程用户的角度提出一种低成本平衡
近年来,随着竞争机制被引入电信领域,电信网络运营商必须以上层业务作为其核心竞争力。传统的网络层以下的电信专业网管系统也逐渐暴露出其缺陷,即由于缺乏信息的互通导致无
当前,知识管理已经成为企事业提高技术、竞争、商务和策略智能的重要手段。知识管理的任务就是使适当的人员在适当的时机能快捷地查询到以适当样式表示的所需知识,去帮助解决工
作为计算机视觉中的一大研究领域,行人检测技术在最近几年已经赢得了越来越多关注的目光。行人检测的主要目的是要把图片或视频场景中的行人与背景进行区分,并确定行人在图像中
经济的全球化和社会的信息化,特别是网络技术的迅猛发展,使得人们面临着更为广泛的活动范围和更多的合作机会,群体的规模越来越大,范围也越来越广。在教育领域,人们将目光也
本文对网格的安全需求进行了深入的分析,在此基础上提出了一种可扩展的网格安全体系结构,根据该体系结构的恩想,着重提出了一个网格的访问控制模型CG-RBAC。本文中各章节的安
目前企业级应用日趋复杂,它具有涉及资源众多、事务密集、数据量大、用户数多、对安全性要求高等特点。应用中间件技术特别是对象中间件技术可以大大缩短企业级应用的开发周
现在随着人们对互联网上的信息需求越来越大,能够准确快捷的获取到信息已经成为了搜索引擎研究方面的热点问题。在这其中,排序成为了搜索引擎技术中至关重要的一环。为了使得用
列车动力学分析主要包括运动稳定性、运行平稳性和曲线通过安全性三个方面,对一组设计参数的优劣评价和取舍便是根据这三个方面的近十项属性指标进行的。 本文阐述了模糊
本文建立了TCS热偶精馏模拟的通用数学模型,给出了在TCS热偶精馏简捷计算基础上的逐板计算数学模型和求解方法,与TCS热偶精馏简捷计算进行了比较,在此基础上对TCS热偶精馏进