论文部分内容阅读
随着互联网的发展,各类媒体的形式与内容也得到了各种相应的创新,其重点之一在于能够更好更多的让用户参与其中以及分享个人感受体验,从而使得对大规模读者群的情绪分析与跟踪成为可能。通过对用户针对媒体内容产生的情绪进行分析与预测,不仅可以用于提升用户的搜索、阅读体验,同时在舆情监控等领域也有着更为广泛的应用。目前对于文本情绪计算的研究主要集中在对文本本身所表达的情绪进行分析,而对于读者情绪,即文本所引发的读者情绪的研究,总体上仍处在比较初级的阶段。本课题研究对读者阅读新闻媒体后的情绪反应进行预测的方法。也就是给定文本形式的新闻媒体报道,通过对其内容进行自动化的分析从而预测读者对该新闻事件的产生的情绪类别情况。本文的主要工作包括:第一,研究了利用新闻标题的语义特征进行读者情绪预测的方法。针对新闻标题文本较短、词数较少但种类较多、数据稀疏的特点,提出了一种结合多标签分类器和基于HowNet语义概念特征的读者情绪预测方法。在此基础上,提出了一种基于语义概念序列特征的情绪预测方法,通过引入词序特征从而进一步提升了预测性能;第二,由于目前缺少面向读者情绪认知和预测的词典资源,本文提出并建立了一种基于情绪表达与情绪认知分离的新型中文情绪词典。在此词典中,将情绪相关词语按照情绪表达与情绪认知加以区分,在支持传统情绪分析的同时,也能够支持情绪预测研究;最后,利用已建立的新型情绪词典,本文提出了一种基于情绪类别强度分布的读者情绪预测方法,分别应用于全文文本与经过扩展后的标题文本,并最终在标题文本上将此方法与基于新闻标题语义概念的方法相结合,有效地提高了读者情绪预测的性能。在利用社会化标注建立的读者情绪语料库上进行的实验中,基于标题语义特征的读者情绪预测方法在降低了特征维度和运算时间的同时,预测结果的各项性能相对于基线系统有6.8%以上的提升;而通过进一步结合人工标注的情绪词典,可以在较低特征维度下即可实现相对较好的分类效果。实验结果显示,本文提出的基于语义特征和情绪认知词典的方法可以明显提高读者情绪预测系统的性能。此外,本文实现的新型中文情绪词典可以广泛用于情绪计算相关领域的研究。