汉语句法分析中多重结果重排序技术的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:stevewen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句法分析是自然语言处理中的一个基本问题。许多自然语言处理中的任务,比如语义分析、机器翻译、信息抽取等,其完成的好坏依赖于句法分析的准确率。另一方面,话语是人与人之间交流的外在形式,做好话语的句法分析有助于理解人的思维。所以,对句法分析的研究有着重要的理论和实用价值。 汉语句法分析,由于起步较晚,加之训练树库的匮乏,其发展远不如英语句法分析。而且,目前汉语句法分析的技术还远不能满足各种信息处理系统的需求,所以对汉语句法分析的研究有着迫切的现实需求。 目前汉语句法分析的研究主要集中在两个方向,一个是改进英语句法分析中成熟的技术和模型,加入新的特征,移植到汉语句法分析中;另一个是将汉语句法分析看成是基本短语结构和复杂短语结构的识别过程,采用马尔科夫模型的相关理论进行分析。本文把句法分析分为K-Best和重排序两个阶段,主要研究有了多重结果后的重排序技术。本文的工作分为三个部分,具体内容如下: 1.概率CYK算法和概率Earley算法是概率上下文无关文法中有代表性的两个算法。本文在分析第一阶段,改进这两个算法,使其能输出K-Best结果,并根据各自算法的特性,引入合适的特征。 2.中心驱动模型改进了概率上下文无关文法,对规则的生成进行更合理的概率建模。本文在分析第二阶段,改进中心驱动模型,用改进后的模型实现重排序。 3.把机器学习理论运用到第二阶段的重排序中,采用基于树核的投票感知机算法来实现重排序,并对树核的理论进行合理的改进。
其他文献
随着计算技术的迅速发展和广泛应用,计算机的形态、结构和使用环境也发生了本质上的变化,当前以普适计算为代表的计算模式正逐渐改变着人们办公、交流的方式。普适计算最重要的
本文针对蓝天数控NC210系统,采用VC++6.0为开发工具,开发了基于Windows平台的,模拟NC210系统完整工作过程的仿真软件,实现了在普通PC机上进行数控文件操作、程序检错、工作方
互联网信息挖掘是数据挖掘技术在互联网信息处理方面一个新的应用领域,呈几何级数快速增长的互联网信息正在对各个领域产生深远影响,尤其是对金融投资领域影响,金融信息的时效性
地形可视化在三维游戏、虚拟现实及飞行训练等众多领域的应用越来越广泛。随着地形规模越来越大,细节越来越复杂,绘制算法的时间和空间连续性问题成为亟需解决的问题之一。本
时间序列相似查询是从时间序列数据中查找与给定序列相似的序列或子序列,是一种新型的、重要的时间序列数据分析方法,具有广阔应用前景。本文在综合分析国内外时间序列相似查
伴随着计算机网络技术的进步,企业、政府机关等单位信息化建设蓬勃发展,极大提高员工工作效率的同时,也带来了非常严峻的网络安全问题。计算机病毒、木马和黑客入侵时时威胁着企
从20世纪60年代至今,地理信息系统(GIS)已迅速发展成为一个独特的研究与应用领域,并形成一个全球性的重要行业。GIS的应用非常广泛,它可以应用在公用事业、电信、交通、城市应急
随着喷墨技术及其应用的高速发展,喷墨质量的自动和精确检测越来越重要。喷头喷出的墨滴运动是喷墨质量的直接和重要表现,墨滴运动的主要特征是大小、长度、飞行速度、飞行方向
虚拟环境是一种逼真的视、听、触觉一体化的计算机生成环境,用户可以借助必要的装备以自然的方式与虚拟环境中的物体进行交互作用、相互影响,从而获得亲临等同真实环境的感受和
Internet正在由最初的内容服务的提供者开始逐渐发展成为以提供计算能力为核心的高层次应用服务的提供者。越来越多的计算资源以服务的形式加入到Internet中,通过某种方式实现