论文部分内容阅读
随着信息技术的不断发展和Web2.0的到来,人们习惯于通过雅虎、搜狐、新浪等在线新闻网站获取最新的新闻资讯并发表自己的观点和态度,任何国内外新闻事件都有可能引发网民产生巨大的舆论压力。通过对用户针对新闻文本的情绪反馈进行分析,研究大规模网络人群的情绪动态,在舆情监控和信息检索等领域都有着重要意义。然而,由于新闻文本篇章结构的复杂性和中文语言表达的多样性,从新闻文本中准确地获取影响读者情绪的文本特征变得十分困难,而当前手工设计的特征提取方法需要很强的先验知识才能设计出区分力度大的特征,存在着普适性较弱的缺陷。其次,现有的文本读者情绪预测方法大多将任务转换成单标签或多标签文本分类,方法比较单一,且难以体现出人类多种相互关联的情绪之间的复杂性。为此,本文针对新闻文本的特点和影响读者情绪预测效果的主要因素进行深入研究,提出一种预测读者情绪分布的方法CNN-GRNN-AT(Attention-based CNN-GRNN)。具体的工作如下: (1)利用word2vec构建文本初始特征。首先,在大规模语料库上使用word2vec把词语映射成d维的分布式词向量表示,构建词向量词表。然后,将新闻文本中每个词语都替换成其对应的词向量,并对未登录词进行处理。这种方式得到的文本初始特征能携带词语本身的语义信息,从而达到表达文本初始语义的目的。 (2)根据文本语义的组成规则,构建一种层次结构的神经网络模型CNN-GRNN。以文本初始特征作为网络的输入,利用卷积神经网络提取句子级的特征表示,然后使用门限重复单元型循环神经网络对语句间的逻辑结构进行整合,得到文本级的特征表示,最后通过softmax预测读者情绪分布。此方法能同时考虑到句内局部语义信息和句间的语言逻辑依赖,能够自动从大量数据中学习文本深层次的语义信息。 (3)引入了注意力的思想。为进一步提取影响读者情绪的关键文本特征,将注意力机制应用于CNN-GRNN网络模型中,通过对文本中语句的重要性进行区分,利用注意力权重来得到更加准确的文本表示,从而有效提升情绪预测的准确度,并且能够对结果进行可视化解读。 为验证本文方法的有效性,在雅虎奇摩新闻语料上进行了三组实验:读者情绪分布预测、单标签情绪分类、多标签情绪分类,并对实验结果进行了分析和总结。实验结果表明,本文提出的CNN-GRNN-AT模型能够有效解决篇章级文本的读者情绪预测问题,情绪预测的平均性能高于目前主流的方法,具有一定的实用价值。