融合多种语言学线索的汉语新词发现方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:luojing0825
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息多元化时代,社会生活中的热点事件层出不穷,随之而来的是新概念、新词语的大量出现。新词发现是自然语言处理领域的核心问题之一,对自动分词、机器翻译以及知识库构建等领域都具有重要意义。伴随互联网内容的爆炸式增长,新词产生的速度更快、数量更多,在词形、语义、语用等方面的变异也更为复杂,这给新词发现带来了挑战。针对这些问题,本文基于词法句法联合分析的方法,提出一种面向互联网,融合句法结构、语义和词语定义等多种线索的新词发现框架。  新词发现与自动分词有着紧密的联系,一方面新词发现依赖于分词结果提供的词语边界信息,另一方面新词作为未登录词影响着分词的性能。因此,本文将新词发现融入分词过程,以期更好地建模两者之间的关系。具体实现基于词法句法联合分析,在解码过程中引入新词发现,根据识别的新词约束解码,减小搜索空间。新词发现包括新词检测和新词验证两个子任务,新词检测通过后验概率度量汉字串成词并具有某种词性的可能性,挑选较高概率的汉字串作为新词候选;新词验证借助搜索引擎从互联网获取含有新词候选的大量文本,经过词法句法联合分析、语义角色标注和定义抽取后,分别融合句法结构、语义和词语定义三种语言学线索验证新词。  融合句法结构线索的新词发现需要词法和句法分析等关键技术的支持。本文在词法句法联合分析的基础上,提出一种以新词候选在不同上下文中成词或强制成词后句法置信度变化为准则的新词发现方法。本文从构词法知识入手,分析了命名实体特点和普通词语字族化现象后,通过语素类别及词缀库标注了宾大中文树库中词语的内部层级结构,以捕获词语的构词规律,进而采用隐标记的句法分析方法实现了词法句法联合分析。本文实现的联合分析在分词、词性标注和句法分析上均达到较好性能。  本文基于语义角色标注和词义消歧的关键技术,提出将新词候选在知网中的相似概念作为语义线索发现新词的方法。为了匹配到知网中的相似概念,首先,本文通过解析知网概念定义的形式化描述,抽取义原之间的语义角色关系以构建义原的语义表示;其次,针对新词候选的语义表示,基于语义角色标注抽取的谓词论元结构以构建词语的语义表示;最后,计算语义表示的向量夹角的余弦值以度量概念相似度。为了获取词语的语义表示,本文构建了一个语义角色标注系统,并针对词汇特征的数据稀疏问题,引入知网语义知识和构词法知识,有效提升了系统性能。  定义为理解新词提供了有效途径,本文在定义抽取的基础上,提出以词语定义为准则发现新词。为了抽取新词候选的定义,本文提出了一种面向互联网,规则和统计相结合的定义抽取方法。对于新词候选,通过定义模板粗匹配的方式过滤互联网文本得到定义候选,分析定义候选的句法结构、语义角色等,利用最大熵模型融合这些特征,实现了定义的自动抽取。  在宾大中文树库和微博语料上的实验表明,本文提出的在词法句法联合分析过程中融合句法结构、语义和词语定义三种线索发现新词并约束解码的方法,显著提升了新词发现的性能,验证了这些线索对于新词发现的有效性。
其他文献
合成孔径雷达(Synthetic Aperture Radar,SAR)是现代微波遥感领域的重要技术手段,具备全天时、全天候、远距离、高分辨对地成像能力,具有非常重要的军事和民用价值。分辨率和幅
该文对车辆牌照自动识别系统做了较为深入的理论研究,并做了大量的实验加以证明.文章首先讨论了车牌的定位的方法.鉴于以往方法的优缺点,在对车牌图像区域进行分析的基础上提
合成孔径雷达(SAR)图像在国防建设和国民经济中都具有重要的应用价值。随着SAR系统的日趋成熟,高质量的SAR图像迅速增加。然而,SAR图像信息提取技术方面的研究相对滞后,阻碍了SA
该文所做的工作是国家计委"九五"高科技攻关项目"可化通信平台的研究与实现"中的重要组成部分,论文讨论了ITU-TT.120系列协议的主要内容、系统框架,并在TCP/IP网络上较完整地
该文主要研究在直接序列扩频码分多址(DS-CDMA)系统中的多用户检测问题,分为三 个部分.第一部分从多用户检测的基础理论入手.较国地讨论了其中的解相关检测技术,并分析了其优
本文提出了一种基于小波框架和包络检测算法及两点相关函数的纹理特征提取方法.小波包框架变换是小波变换的推广,它继承了小波变换适合于处理非平稳信号的特点,又克服了小波
该文在现有集群称动移信系统的基础上,结合铁路的具体需求,提出了适用于铁路应用的集群移动通信系统的功能结构,讨论了各工能实体的性质与功能;分析了铁路集群移动通信网络两
该课题是结合日本富士施乐公司(Fuji Xerox CO.)Browser/Server三层体系结构的全员工程信息系统的开发而提出的.超文本检索系统是全员工程信息的一个独立系统,本身是一个基于
学位
随着智能交通的不断发展,车联网的研究也备受关注。车辆自组织网络(VANET)是汽车在高速移动的环境中,以车辆上装置的通信设备实现高速行驶下的无线接入,构建车辆与车辆之间、
MPEG-4作为ISO的活动图像专家组制定的一个应用于多媒体网络通信的国际化标准,是一个支持视听数据即自然或人工视听对象的通信、存取和管理,能实现交互性和高压缩比,以及具有