面向多模态社交数据的情感分析技术研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:yht52119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息与通信技术的发展加速了社交媒体融入到大众的日常生活中,用户从传统的信息消费者逐渐转变为信息的生产者。用户在社交平台上发布的内容携带着大量的个人情感和观点信息,在虚拟网络中不断传播、发酵,进而影响到现实世界的进程和发展。因此,分析和识别社交数据中潜在的情感信息始终是情感计算和自然语言处理领域的一项重要基础工作。但是通信技术的发展改变了传统社交数据的内容形式,用户发布的内容不再局限于单一的文本信息,而是混合文本、图像、语音的多模态数据。多模态社交数据的出现使得情感分析成为了跨领域、跨学科的难点问题,它不仅需要相应领域的处理技术解决多模态数据存在的异构性问题,还需要心理学和认知学的专家知识指导信息的融合和模型的设计。当前的情感分析研究已经取得了一定的进展,但是现有的方法大多忽略了具体应用场景中特殊数据类型所带来的问题,包括:(1)微博场景中的短文本表示问题。传统的情感分析工作大多关注于长文本内容,忽略了短文本表示存在的特征稀疏和信息匮乏问题,难以从有限的词语中学习到高效的特征表示。(2)商品评论场景中的单文本多图像融合问题。商品评论数据通常由一段文字和多幅图像构成,这些图像无法传递完整的情感信息,只能起到辅助增强文本情感的作用。而现有的图文情感分析方法通常假设文本与图像具有相同的重要性,不符合商品评论场景的实际情况。(3)视频场景中的多模态时序表示及融合问题。视频数据可以分解为文本、图像、语音三种类型的时序模态,该类数据具有序列特征,并且彼此之间存在着时间尺度上的交互关系。该类场景下的情感分析模型需要提取模态内部的序列特征,挖掘跨模态的时序交互关系。(4)多模态融合过程中的信息控制问题。当前方法只关注于对多源异质信息的聚合,忽略了对原始模态信息的选择和过滤。在多模态情感表达过程中,模态之间普遍存在着一致性和特异性信息,这要求模型能够捕获到完整的两类信息,并且过滤与任务无关的噪声信息,从而学习到紧致高效的融合表示。基于上述几点问题,本文针对性提出以下四点研究内容,并从特征表示、信息融合和模型设计的角度提出相应的创新和改进工作:(1)针对微博场景中的短文本表示问题,本文提出基于对抗变分贝叶斯的短文本情感分类模型。首先在模型设计上,采用端到端的学习框架,解决了上游主题模型与下游任务模型之间学习目标不一致的问题,并获得更具判别性的紧致主题特征。其次,通过引入谱规范化技术,缓解了原始模型在训练过程中出现的震荡性问题。最后,利用多阶段的融合过程,整合主题特征与预训练词向量的信息,克服了短文本存在的信息匮乏问题。(2)针对商品评论场景中的单文本多图像融合问题,本文提出基于决策多样性的图文融合情感分类模型。该模型首先以文本信息为主体,利用图像信息辅助定位文本中情感相关的词语,正确建模了特殊场景下的图文交互关系,实现了跨模态的特征级融合。然后基于集成学习的思想,设计了决策融合机制,对来自于单模态和融合表示的决策级信息进行融合。最后,通过添加决策相似性惩罚,提高了模型整体决策的多样性和泛化性。(3)针对视频场景中的多模态时序表示及融合问题,本文提出基于多任务学习的时序多模态情感分析模型。该模型集成卷积神经网络、双向循环神经网络和多头自注意力机制,对不定长的时序输入进行维度和长度的统一,提取局部和全局的关联信息,解决了时序单模态的特征表示问题。然后通过跨模态时序特征融合方法,建模时间尺度上的双向交互关系,解决了跨模态的时序融合问题。最后采用多任务模型设计,在关联任务间共享单模态和跨模态表示,利用相关任务的领域知识和监督信息提升模型的准确度和泛化性。(4)针对多模态融合过程中的信息控制问题,本文提出基于信息分解与融合的多模态情感分析模型。首先通过变分编码器推断单模态输入在子空间上的潜在分布,利用相似性和差异性约束,显式分离一致性和差异性信息。然后基于信息瓶颈原则,最大化融合表示与一致性和特异性表示的互信息以提取任务相关的信息,同时降低与原始模态的互信息以过滤无关的噪声信息。最后,为了避免在信息分解和融合过程中存在的信息丢失风险,设计重构任务,尝试从融合表示中恢复原始输入,从而为上游模块添加完整性约束。
其他文献
有机压致变色材料属于一种有机智能材料,能够在研磨、压缩、剪切等机械力作用下做出反应,发生颜色变化,具有光色便于调控、易于大量合成、价格低廉和可重复利用等优点,在光电显示、压力传感器、光学存储与防伪等领域显示出巨大应用前景。压致变色现象的产生,本质上是外力作用造成分子构象或聚集堆积结构改变,从而扰动电子能级、产生缺陷或相变作用,最终造成化合物的吸收光谱与发射光谱峰位与形状的改变。同分异构体通常具有相
航天器在太空运行的过程中,易遭遇太空垃圾的撞击,对防护材料表面和亚表面造成损伤,影响航天器的正常运行。因此防护材料撞击后损伤检测与评估在航天器研发、在轨运行、回收利用等过程中极为重要,如何快速定量化进行原位检测和评估撞击后的损伤情况是其中的难点问题之一。相较于其他无损检测技术,红外无损检测具有效率高、操作简便、能够对亚表面的损伤进行探测的优点,适用于航天器撞击损伤原位检测。但采集的温度场数据信息中
在工业智能化与产业化高度结合的时代,非公路车辆逐步以改善驾驶员工作舒适度及提高工作效率为发展目标,相应的对其转向系统性能提出了更高的要求。驾驶员在长期和高密度的转向操作过程中,直接操控转向控制机构——方向盘,其控制性能直接影响整车工作效率、转向的安全性和驾驶员的舒适性。因此,如何对转向系统的控制系统进行合理构建和改进是提高车辆转向操纵性能的关键技术途径。本研究依托国家重点研发计划项目,在传统负载敏
全球变暖等环境变化问题越来越受到关注,相关机构和科研人员对地表温度的需求也随之增长。地面和低空实测地表温度在同温像元卫星遥感地表温度产品验证、非同温像元辐射方向性等研究领域中发挥了重要作用。但在具有三维结构的非同温场景中,实测地表温度本身也受传感器光谱响应差异、传感器视场中地表辐射方向性差异和空间尺度差异等因素影响,导致多平台地表温度观测结果之间的对比、验证和协同应用等难以进行。本文针对上述主要问
湖泊蒸发对其下风方向站点降水的贡献(即湖泊水汽再循环)是局地水循环的重要组成部分。准确量化湖泊水汽再循环比例,能够促进我们对于地气相互作用的理解,并为区域气候模型中的大气水分收支预测提供独立的验证信息。稳定同位素法是量化湖泊水汽再循环比例的有力工具,但在应用时仍面临一些挑战:(1)缺乏湖泊上风和下风方向站点同步观测的降水同位素数据;(2)采用传统的Keeling曲线法估算湖泊蒸发同位素组成时,仍然
随着工业化和城市化的快速推进,越来越多的有毒有害气体被排放到环境中,导致空气污染问题日益严重。金属氧化物半导体(MOS)基气体传感器因其能够对环境中气体进行检测,而备受关注。由于其制作成本低廉、便于集成、与物联网技术兼容等优点,被广泛应用于气体泄漏预警、室内和室外空气质量监测、医疗诊断、公共安全以及航空航天等领域。然而,目前MOS气体传感器存在着工作温度高、功耗高、选择性差、灵敏度低等问题,这极大
吉林省白城市镇赉县地处吉林省西部,该地区土壤盐渍化严重,是我国典型的碳酸型盐渍土分布区。受气候条件影响,该地区又属于季冻土区,土中孔隙水周期性的冻结与融化使镇赉盐渍土的结构处于动态变化状态。镇赉盐渍土是典型的结构性土,土中结构的不断变化会严重影响土的强度及变形性质。工程上,开挖水渠和边坡等使在原位置已形成较稳定结构的盐渍土暴露在外,应力水平发生了变化,冻融循环作用成为了应力重分布和改造土结构的动力
铝合金具有耐腐蚀性强、轻质高强以及绿色环保等特点,近些年来被广泛应用于桥梁工程和空间结构。铝合金弹性模量低,仅为钢材的31,其结构的稳定性问题较为突出;并且铝合金的应力-应变曲线是非线性的、无屈服平台、以及在屈服点后具有显著应变硬化,其本构关系不能像钢材一样简化为理想弹塑性模型。铝合金本构关系的强非线性,增加了铝合金构件稳定性问题解析求解的难度。另一方面,随着高层建筑和大跨度结构的发展,普通铝合金
阵列天线由于其高增益及灵活的波束形成能力被广泛应用于各种无线电子信息系统。面对日趋复杂的电磁环境,新一代无线电子系统对阵列天线设计提出了更具挑战性的设计要求。传统相控阵天线只能通过调配各辐射单元的激励幅相以调控电磁辐射在空域的分布,无法调控时频域上的电磁辐射分布。因此,传统相控阵天线难以应对日益复杂的电磁环境。另一方面,复杂的电磁环境驱使着无线电子系统朝着雷达、通信、电子对抗等多功能一体化方向发展
能源是人类社会生存、生产和发展的重要物质基础。随着全球人口的急剧增长和世界经济的高速发展,世界气候变暖和能源短缺问题日益突出。因此,清洁可再生能源的利用与开发在推动能源结构转型和实现碳中和方面意义重大。深部地热能因其储量巨大、供应稳定、热品质高等优点具有巨大发展潜力。目前,地热钻井普遍采用常规回转钻进方式,但这种钻进方式存在岩石破碎效率低、钻头磨损严重、钻井周期长和钻井成本高昂等问题,严重制约了深