长句切割在依存句法分析中的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:zhuliner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是连接词法分析和语义分析的桥梁,在自然语言处理中有着重要的意义。依存文法是句法中的一种,相比于短语结构文法,它直接刻画单词之间的依存关系,具有描述简洁、易于分析处理等特点,更是特别适合于词序较为自由的中文,在机器翻译、自动文摘、文档分类、问答系统等任务中有着广泛的应用,受到了研究人员的关注。当句子较长时,统计依存句法分析效率变低、结果变差。现有的一般做法是利用标点将其切割为短句,先对短句进行依存分析,然后再对短句中心词组成的新句子进行分析,最后把短句分析结果嵌入进来组成长句的依存分析结果。该做法的问题是,短句的依存错误会传播到后续步骤中,短句中心词之间的依存分析结果往往也不是很理想。针对以上问题,论文做了以下工作:1、提出了一种新的基于标点切割的依存分析方法。首先对长句进行依存分析;然后基于标点对长句进行切割,再对各短句进行依存分析;最后对两个分析结果进行综合得到最终分析结果。该方法可以弥补错误传播和短句间依存分析结果较差的一些缺陷。实验表明,该方法对提高依存句法分析结果的质量有着较大的帮助。2、为了进一步提升长句切割的精度,论文还借助序列化标注模型CRF对标点符号的功能进行了标记,根据不同的功能确定是否进行切割。实验表明使用CRF对标点进行标记在长句切割中有着积极的提升意义。3、设计并实现了依存分析结果的可视化交互工具,能以多种形式展示依存树并进行错误的高亮显示,该工具提供了高级搜索和统计功能,还可以对语料进行标注,满足了依存分析中的绝大部分应用需求。
其他文献
随着数字图像采集设备的普及,互联网中以图像为代表的海量数据正在与日俱增。数字图像在实际应用中极具价值,并已深入到生产、生活的各个方面。而图像索引技术又是大多数图像
该文对神经网络规则抽取和连续属性离散化领域的现状进行了深入分析,在此基础上,从功能性的角度出发提出了-神经网络规则抽取算法STP(基于统计的产生-测试法),并对其进行了改
本文是这样组织的:第一章概述了软件构架的起源和发展现状.第二章介绍了基于层次总线的软件构架模式JB/HMB(Jade Bird/Hierarchical Message Bus Based Pattern)和构架描述语
安全底纹防伪作为一种极为重要的防伪手段,之所以经久不衰,是因为其美观性与防伪功能.安全底纹防伪功能在于其底纹图案的造型复杂性,所以图形的几何造型对于安全底纹的设计极
在该文中,人们提出了基于最佳并行度的任务调度模型,设计了一种混合式的调度算法,分别在静态时刻和动态时刻动态对任务进行高度,较好地解决了自动并行编译中的调度问题.在算
传统的Internet中没有服务质量(Quality of Service, QoS)的保证,网络只提供最大努力(Best effort)的数据传输服务。由于传统的Internet中的应用主要是象FTP, WWW, Email等以数
该论文乎先综述了智能卡、Java语言及Java智能卡的国内外发展现状.该论文对JCVM(Java Card Virtual Machine)、Java语言的执行方式、Java处理器及智能卡CPU扫展趋势进行了较
人脸自动识别一直是一个计算机科学工作者研究的极具难度的课题,但它在理论和应用上的价值激励着人们一直去努力解决这个问题.该文从基于结构的人脸识别和算法之间的融合两方
随着计算机在日常工作中的广泛应用,人们的许多工作已经依靠计算机来完成,与此同时,各种类型的信息系统也被广泛使用来支持这些工作。但是这些系统基本上是独立运行的,相互之间缺乏必要的交互、协作与感知,从而使得它们在协调多个人的活动、以协同完成某个共同的任务方面有较严重的不足。这也就是工作流管理系统WFMS从90年代以来吸引来自研究机构和产业界广泛关注的重要原因。 作为计...
随着Internet的出现及普及、移动信息技术的发展,计算机软件运行的环境也开始从封闭、静态的环境逐步转换成一个开放、动态的环境中。环境对应用程序的影响越来越明显,尤其是