基于表示学习的中文短文本对话分析方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:digital78
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对话场合无处不在,产生的对话文本中蕴含着丰富的信息,不仅承载着人们谈论的主题,而且可体现出说话人的情感、态度和观点,具有很广泛的用途。近年来,深度神经网络在图像分类、语音识别等领域取得的突出进展,体现出了强大的表示学习能力,并进一步应用至自然语言处理应用中。文本表示是自然语言处理的基础,但传统方法存在着维度灾难和特征稀疏等问题,以深度神经网络为基础的表示学习方法可从数据中自动学习出低维、稠密的特征,可有效缓解以上问题。对话文本虽然在形式上与普通文档类似,都是由多个句子按顺序组合而成,但同时也具备有别于普通文档的结构特点。因此,本文相关研究工作紧扣中文短文本对话特点,面向特定领域的海量短文本处理需求,基于表示学习方法,开展针对中文对话的语义表示方法研究,并运用学习到的对话特征进行后续的处理任务,例如面向中文对话的主题分类、情感分析等。本文研究工作及主要贡献如下:  1、研究基于词向量和字向量组合的中文短文本表示方法。中文对话中的每个话语均属于中文短文本,针对中文短文本存在的特征稀疏和分词错误等现象,提出基于词向量和字向量组合的C-LSTMs/BLSTMs模型。在中文短文本分类数据集上的实验结果表明,该方法实现的字词组合特征比单独使用词特征或字特征具有更好的语义表示能力。该方法首次系统地探索了基于中文字词向量组合的RNN模型表示方法在中文短文本分类任务上的有效性,其性能超出了多个基准方法。  2、研究基于注意力机制的中文短文本联合语义表示方法。在C-LSTMs/BLSTMs模型基础上,提出基于注意力机制的中文短文本联合语义表示方法HANs,该方法引入注意力机制,通过CNN和RNN网络从输入文本的词向量和字向量序列中,自动学习选择出那些对文本语义起决定性作用的关键词或字。在中文短文本分类数据集上的实验结果表明,具有注意力机制的HANs模型进一步提升了针对中文短文本的语义表示能力。  3、研究面向中文短文本对话的层次化联合语义表示方法。结合对话文本结构特点,提出了面向中文短文本对话的句子和对话两级联合语义表示方法H-HANs,实现说话人信息和短文本内容的有效融合。在面向中文对话的主题分类数据集上的实验结果表明,H-HANs能有效地从中文对话中自动选择出可决定整个对话主题类别的关键话语特征,其性能超出了多个基准方法。此外,本工作构建的中文对话级主题分类数据集将公开发布以用于相关的科学研究。  4、研究面向中文短文本对话的情感分析方法。构建了一个面向中文短文本对话的情感分析语料库,该语料库将公开发布以用于相关的科学研究。基于该语料库进行的面向中文对话的情感极性分类和情感类别细粒度分类实验结果进一步表明,H-HANs能很好地对中文短文本对话进行语义表示学习,通过层次化的注意力权重学习,能从对话中识别出对整个对话语义起决定作用的关键句子信息,并最终得到了整个对话的统一语义表示向量。  综上所述,本文面向中文短文本对话,融合深度神经网络和注意力机制,从字、词、句子和对话多个层级进行联合表示学习,并基于学习出的中文对话统一语义表示向量,开展对话级的主题分类、情感分析等NLP任务研究。实验结果表明,对比已有方法,本文研究成果可进一步提升相应任务的性能。同时,我们将以上研究成果应用于面向特定领域的短文本分析系统中,基于海量短文本数据,实现短文本分类、中文对话主题分类和情感分析应用。
其他文献
随着Internet技术的兴起,B/S结构成为当今应用软件的首选体系结构。在这种结构下,用户界面完全通过WWW浏览器实现,一部分事务逻辑在前端实现,但是主要事务逻辑在服务器端实现,主要
存储数据的飞速增长,要求企业的信息系统不仅要提供更大的存储容量:同时还要提供更高的存储速度。分级存储是当前存储系统中解决容量和速度问题的重要技术。面对海量数据的存
计算机图形绘制技术是计算机科学的重要研究领域.近十几年来,图形加速硬件特别是普通PC机上的低端图形加速卡有了飞速发展,几乎每六个月处理速度就增加一倍,生成的图像色彩更
恶意域名指传播蠕虫、病毒和特洛伊木马或是进行诈骗、色情内容传播等不法行为的网站域名。随着Fast-Flux、DGA技术越来越广泛的被黑客采用,网络攻击更加隐蔽,恶意追踪更加困难
网格计算是构筑在Internet上的一组新兴技术,利用共享网络将分散在不同地理位置的计算资源、存储资源、网络资源组织成一台虚拟的超级计算机,提供强大的计算能力。QoS(Quality
智能化刺绣CAD是伴随CAD的迅猛发展而不断发展起来的一个应用于刺绣行业进行针位数据编程的软件系统。随着计算机技术的不断进步,电脑刺绣机的性能在不断提高,功能不断完善,促进
虚拟仪器就是在通用计算机平台上,用软件实现传统测试仪器的功能.它有许多优点,代表了当今仪器发展的方向.频率分辨力是频谱仪的关键性能指标,在这个性能上,FFT或频谱仪好于
语音合成是当今计算机智能应用领域的研究热点,目前它越来越广泛的应用于社会生活的各个方面,提高了人机交互性,发挥了很好的社会效益.但现阶段语音合成中存在的普遍问题是:
基于公钥密码技术构建的公钥基础设施(PKI)是目前公认的解决大型开放网络环境下信息安全问题最可行、最有效的办法。以实用的企业级PKI系统的设计与开发为背景,从理论和实际应
计算机技术和网络技术以惊人的速度在发展更新着,信息技术的应用正逐渐渗入生活和工作的每一个领域。近年来,移动计算设备和无线网络的迅猛发展在IT界显得格外的耀眼。各式各样