篇章级联想模型的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:crystal_z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理和文本挖掘技术推陈出新,快速发展,人们的需求也日益升级,给搜索引擎、深度问答等应用带来了新的挑战和机遇,对文本处理技术提出了更高的要求。应对挑战的方法主要是精准的语义分析技术。在现有的语义分析研究中,主要针对词汇级别、短语级别和句子级别的语义进行深入挖掘,篇章级别的语义分析研究目前尚未成熟。本文从篇章级别的语义分析角度出发,通过引入篇章外部的信息对文本内容进行补充,弥补计算机对篇章内容相关背景信息的缺乏这一问题,更好的完成篇章的语义分析。本文针对外部信息引入文本内部这一问题提出了三种模型,统称为联想模型,分别是基于序列迭代的联想模型、基于权重传播的联想模型和融合句间关系的联想模型。联想模型的设计结合了认知心理学和人类的阅读习惯、思维习惯以及信息检索领域经典算法,实现了对大量外部信息进行筛选,挑选出与文本语义更契合的一部分外部信息引入文本中。在引入外部信息之余,本文还将引入的外部信息应用在文本分类这一传统任务上,和未加入外部信息的方法相比取得了更好的结果。联想模型主要包含文本表示、知识表示和模型算法这三个方面。在文本表示方面结合认知心理学中的“可教的语言理解者”(Teachable-Language Comprehender,简称TLC)模型设计出了基于序列迭代的联想模型,结合“激活扩散模型”设计出了基于权重传播的联想模型。此外本文还关注到了篇章内部结构对引入外部信息的重要性,结合篇章结构分析中的句间关系识别和中文上主流的CDTB语料库,利用简便易行的句间关系识别方法,识别篇章结构,并将篇章的结构信息加入文本表示方案中,提出了融合句间关系的联想模型。在知识表示方面,本文采用目前大型语义知识库通用的三元组的表示方法,利用“Argument-Relation-Argument”这样的三元组表示知识概念。通过隐含狄利克雷(LDA)模型对词进行向量化,并将词向量整合成三元组的向量表示,最后将三元组表示为连续的实数向量的形式。在模型算法方面,文本结合了序列模型和图模型这两种经典模型,并借鉴Page Rank算法和标签传播算法(LPA),完善联想模型的算法。通过控制联想模型的参数实现对效果的调优。综上,本文从利用外部信息辅助理解篇章语义的角度出发,结合认知心理学、文本挖掘的经典算法,提出篇章联想模型,并在文本分类的任务上验证外部信息对文本语义的有效性,为篇章的语义理解提供了可行的解决方案。
其他文献
人类社会不断发展,当今社会已步入信息时代。进入90年代以来,随着移动通信技术的迅速发展和投入使用,许多计算结点已在自由移动的过程中保持网络连接,于是,“移动计算”和“
随着软件系统的日益庞大,对软件的质量要求也越来越高,性能测试作为保证软件质量的重要手段,受到人们前所未有的关注,同时,基于UML的软件设计方法也日益成为一个行业标准。因
目前,政府各个部门的业务系统各自为政,相互之间缺少信息资源共享和业务协同,造成了所谓的“信息孤岛”;另外,业务系统间存在安全边界,造成用户在访问不同应用系统时需要多次
Turbo码作为一种性能优异的信道编码方案,从提出到现在已经有20多年历史了。人们对它的理论研究已经深入到方方面面;在各个领域的通信系统里Turbo码得到了广泛的应用,取得了
随着自然语言处理中词法分析的日趋成熟,句法分析已经成为当前研究的重点和难点,组块识别的提出是为了降低完全句法分析的复杂性。通过采用“分而治之”的策略将句法分析分为组
伴随着信息技术的高速发展,经过十多年的建设,我国电子政务建设取得了巨大的成就,政府各部门已经有很多的应用系统投入应用。但是这些系统采用不同的开发平台、不同的开发语
随着自然语言处理、机器学习和大数据的蓬勃发展,英文语法纠错吸引了越来越多的研究者。一个有效的英文语法纠错系统,既可以惠及成千上万的英文写作者,又可以辅助解决自然语
数据库安全已经成为信息安全的重要研究领域。为了保证存放在文件中数据的安全性,所采用的主要技术是将一些重要或敏感的数据库信息以密文的形式存储起来。透明加密技术实现
进入21世纪以来,云计算的爆炸性扩散,使得全球的数据中心蓬勃发展。然而与此同时,大规模数据中心增长带来的巨额电力资源消耗以及二氧化碳的大量排放,已经渐渐成为制约数据中
电力变压器作为电力系统中最重要的设备之一,其故障诊断技术的研究一直是国内外学者关注的热点。否定选择算法对于变压器故障中一些缺乏大量训练样本数据的故障是很有优势的。但是现有的否定选择算法也存在着一些不足,针对这些不足,论文研究了一种变异的否定选择算法,在检测器生成过程中加入变异的思想,保证了抗体的多样性。本文还将另外一种免疫算法应用于变压器故障诊断中,这种方法是将独特型免疫网络理论和模糊逻辑结合起来