面向新闻文本的读者情绪预测研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:liongliong581
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展和Web2.0的到来,人们习惯于通过雅虎、搜狐、新浪等在线新闻网站获取最新的新闻资讯并发表自己的观点和态度,任何国内外新闻事件都有可能引发网民产生巨大的舆论压力。通过对用户针对新闻文本的情绪反馈进行分析,研究大规模网络人群的情绪动态,在舆情监控和信息检索等领域都有着重要意义。然而,由于新闻文本篇章结构的复杂性和中文语言表达的多样性,从新闻文本中准确地获取影响读者情绪的文本特征变得十分困难,而当前手工设计的特征提取方法需要很强的先验知识才能设计出区分力度大的特征,存在着普适性较弱的缺陷。其次,现有的文本读者情绪预测方法大多将任务转换成单标签或多标签文本分类,方法比较单一,且难以体现出人类多种相互关联的情绪之间的复杂性。为此,本文针对新闻文本的特点和影响读者情绪预测效果的主要因素进行深入研究,提出一种预测读者情绪分布的方法CNN-GRNN-AT(Attention-based CNN-GRNN)。具体的工作如下:  (1)利用word2vec构建文本初始特征。首先,在大规模语料库上使用word2vec把词语映射成d维的分布式词向量表示,构建词向量词表。然后,将新闻文本中每个词语都替换成其对应的词向量,并对未登录词进行处理。这种方式得到的文本初始特征能携带词语本身的语义信息,从而达到表达文本初始语义的目的。  (2)根据文本语义的组成规则,构建一种层次结构的神经网络模型CNN-GRNN。以文本初始特征作为网络的输入,利用卷积神经网络提取句子级的特征表示,然后使用门限重复单元型循环神经网络对语句间的逻辑结构进行整合,得到文本级的特征表示,最后通过softmax预测读者情绪分布。此方法能同时考虑到句内局部语义信息和句间的语言逻辑依赖,能够自动从大量数据中学习文本深层次的语义信息。  (3)引入了注意力的思想。为进一步提取影响读者情绪的关键文本特征,将注意力机制应用于CNN-GRNN网络模型中,通过对文本中语句的重要性进行区分,利用注意力权重来得到更加准确的文本表示,从而有效提升情绪预测的准确度,并且能够对结果进行可视化解读。  为验证本文方法的有效性,在雅虎奇摩新闻语料上进行了三组实验:读者情绪分布预测、单标签情绪分类、多标签情绪分类,并对实验结果进行了分析和总结。实验结果表明,本文提出的CNN-GRNN-AT模型能够有效解决篇章级文本的读者情绪预测问题,情绪预测的平均性能高于目前主流的方法,具有一定的实用价值。
其他文献
随着数字化技术的普及和互联网技术的飞速发展,数字媒体越来越深入到人们的生活和工作当中。矢量数字地图作为一种数字图像产品,因其占用空间小、放大不失真、数据精度高等特点
随着移动设备与无线网络技术发展,延迟容忍网络(DTN)[1]被研究者广泛关注。由于端到端网络无法持续连通,因此传统无线路由已经不适用于DTN环境。移动智能终端规模的逐渐扩大和
生物特征识别技术是基于人的生理或行为特征进行身份识别的技术。步态识别是一种新兴的生物特征识别技术,它根据人走路的姿势识别人的身份。与指纹、人脸、虹膜等生物特征相
随着嵌入式系统的不断发展,嵌入式控制系统也趋向于复杂化,针对嵌入式控制软件的逆向分析也变得越来越重要。通过汇编代码逆向分析,可以分析整个软件代码的架构、理解代码的功能
无线传感网络作为物联网的数据信息感知层,由大量传感器节点组成,节点能量受限和网络生存时间短是WSN的重要特征。为了提高无线传感网络的能量使用效率,并保存能量,设计能耗均衡
随着无线网络技术的快速发展和手持电子设备的日新月异,某些环境下传统的基于端到端的完整路径的通讯模式显然已经不再适用。一种新的网络体系应运而生。延迟容忍网络(delay to
车辆跟踪是智能交通系统(ITS,Intelligent Transportation System)中的重要技术,在图像的运动目标跟踪与识别中经常遇到车辆遮挡的问题,该问题是动态图像处理过程比较难以解决的
数据流聚类是数据挖掘领域的一个重要研究方向,其研究成果已被应用于诸多领域。然而传统数据流聚类算法不适应于不确定数据流,而且在聚类过程中不能对数据流中近期的数据进行详
近年来,随着互联网的进一步普及,电子商务一直保持着高速的增长状态,它不仅改变了人们的生活方式,还有力的推动经济的全球化进程。随着人们生活节奏加快以及对数据的实时性要求越
随着计算机技术的蓬勃发展及网络的日益普及,数据收集和存储技术快速发展带来的海量复杂数据,不仅导致了“数据危机”,还带来了“维数灾难”。随之而来的,在大数据时代为了消除噪