基于半监督学习的隐式篇章关系识别与研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:mouliyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章关系自动识别是自然语言处理领域一项非常具有挑战性的任务,该任务通过挖掘自然语言文本之间的结构信息、语义信息和词信息等来识别文本单元之间的逻辑关系,对自动问答系统、机器自动文摘、文本蕴含等都具有十分重要的实践和指导意义。根据文本单元中是否存在连接词可将篇章关系分为显式篇章关系和隐式篇章关系两种。显式篇章关系仅仅根据连接词就可以轻易分辨出文本之间的关系,而隐式篇章关系由于连接词的缺失使得其自动识别成为一个难点。目前,隐式篇章关系识别主要采用有监督机器学习的方法,对候选关系实例的表示也处于探索阶段。然而有监督学习需要大量的人工标注数据来增强模型的可靠性和健壮性,考虑到人工标注数据难度大、代价高的困境,本文首次提出基于自训练和互训练的半监督策略来识别隐式篇章关系,并对候选关系实例的表示进行了进一步探索。本文研究内容主要包括三部分:(1)用The Penn Discourse Treebank (PDTB)2.0作为研究载体,提取First-Last-First3、Inquirer Tags、产生式规则、依赖式规则、词的极性,动词特征、情态动词、实体特征、一元词对特征共9种特征以及特征之间的组合来表示候选关系实例。(2)用有监督的方法对隐式篇章关系进行分类,实验结果表明,结构信息和语义信息相结合能取得比单一特征更好的效果。我们的结果比baseline提高了一到两个百分点。(3)根据有监督的实验结果,选取效果最好的组合特征构建基于自训练和互训练的半监督模型,利用少量标注数据和大量的无标注数据来识别隐式篇章关系,并对不同大小的标注数据集下的有监督模型、自训练模型、互训练模型的实验结果进行对比。结论表明,少量标注数据的情况下,半监督策略能取得更好的效果。
其他文献
深层网络指的是位于表层网络之下所隐藏的数据,需要用户填写表单发送查询请求才能获取,其数据量远远超过表层网络且信息价值巨大。由此原因,如何挖掘出位于深层网络中的海量数据
随着信息技术的快速发展,如何在保证隐私数据安全的同时提高计算机信息系统发布数据的可用性,已成为当前计算机系统安全领域面临的挑战问题之一。本文针对静态、动态环境下数
无线传感器网络适用于在恶劣的场景中进行信息获取,是一种新型的网络。无线传感器网络通过将传感器节点感知的数据通过单跳或者多跳的方式发送给基站,然后由基站通过互联网、
马赛克是一种非真实感的渲染效果,源图像被不同颜色、形状的嵌片组合而成。本文提出一种基于测地距离度量下的保持源图像特征信息的自适应马赛克图像生成方法。我们方法结合
本文提出稀疏表观模型和高效分类器作为研究对象,旨在解决复杂跟踪环境中目标表观变化导致跟踪算法鲁棒性下降的问题。视觉目标跟踪属于计算机视觉的底层研究范畴,在安全监控、
设施农业在我国农业面积中所占的比重日益增长,是解决我国人多地少制约可持续发展的有效工程,然而设施农业病虫害日益严峻的形势是发展设施农业所面临的重要难题。目前病虫害
射频识别技术(RFID技术)诞生于上个世纪五六十年代,其存储容量巨大,变革性质的信息处理方式使之具有革命性的信息技术优点。比如其快速、稳定、精准的捕获信息的特点以及重复
随着人们社会文化生活水平的不断提高,音乐在各种场合逐渐扮演起十分重要的角色。很多时候人们需要根据内心的情感需求迅速找到自己满意的歌曲,而不想过多地去了解歌曲具体是什
笔迹自古以来是验证书写者身份的一项重要方法。相比于人工笔迹验证,使用计算机进行笔迹验证有避免人工操作的主观性、验证速度提升、可以联网异地工作等优点,近十年来已经广泛
无线传感器网络是近些年发展起来的一项新技术,被广泛地应用在国防军事、环境监测、医疗卫生、抗灾抢险等领域。在无线传感器网络普及应用中,如何保证通信质量的前提下,降低传感