自然语言的标注标准迁移与句法结构映射研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:Test_518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计技术在自然语言处理领域逐渐呈现出健壮和高效的优势,大规模人工标注语料和先进统计学习方法的结合不但催生出更精确的语言处理系统,也将研究工作者从繁重的规则编写中解脱出来。作为统计建模的知识来源,人工标注语料是决定最终系统性能的重要因素。构建大规模高质量的语料库成为统计自然语言处理最根本和最迫切的需求。   英语等一些欧洲语言的研究起步较早,通过长时间的积累储备了大量优质的语料资源。而世界上大多数其他语言,人工标注语料的种类和规模都要落后得多,成为制约统计自然语言处理水平的第一道门槛。许多语料资源并不丰富的语言还存在严重的浪费现象,对于同一个自然语言处理任务,并存着多个性质各异的人工语料库。这些语料库的构建基于不同的理论体系,每种理论从各自的视角对语言现象刻画和建模,标注标准的差异使得不同的语料库难以融合利用。   为缓解多种标注标准的语料并存所带来的资源浪费,我们提出了形式化的标注标准迁移问题,并设计出一种通用的标注标准迁移方法。通过判别式模型和算法,该迁移方法能够在不同标注标准的语料间自动地学习标注变换规律。利用这种变换规律,我们既能够将一种标注标准的数据变换为另一种标注标准,又能够把不同标注标准的语料中的知识有效融合起来,从而获得更高性能的自然语言处理系统。以汉语词法分析为例,该方法能有效地融合宾州中文树库和人民日报语料库中的知识,使中文词法分析取得显著的性能提升。   对于资源贫乏的世界大多数语言,虽然构建人工标注语料库特别是句法树库代价高昂,却往往可以较容易地获得其与资源丰富语言(如英语)的双语平行语料。我们提出一种高效且容错的双语间句法结构映射方法,用于将资源丰富语言的句法知识通过双语平行语料映射到资源贫乏语言。借助一个类似句法分析过程的动态规划算法,该方法在目标(资源贫乏语言)语句可能的映射句法树候选集合中,搜索出与源(资源丰富语言)语句句法树对应概率最高的映射树。由于映射所得的句法树更倾向于源语言的构成特性,映射树库可被视为服从一种未知的、扭曲的标注标准。因此,通过前述的标注标准迁移方法,映射树库可用于提高句法分析的性能。在依存分析和短语结构句法分析的实验中,映射树库所含的句法知识显著提升了现有基准分析器的精度。这既间接证实了句法映射方法的有效性,也再次验证了标准迁移方法的通用性。   将整个树结构进行映射的策略使得目标语言被迫接受源语言的句法标注标准。为突破这一局限性,我们在句法映射方面进一步深入探索,为依存句法映射和成分句法映射分别提出了非同构句法映射策略。对于依存句法映射,映射的基本单位不再是完整树结构,而是最基本的词对依存关系实例。借助判别式分类的建模方法,映射依存分析器可在词对依存关系实例集上训练得到。对于成分句法映射,我们不是将源语句句法结构映射过来,而是借助目标语句的各跨度在源句法树中的对应子结构信息,从目标语句集合中推导出一部PCFG文法,并进而根据该文法和单个句对的双语约束信息得到映射的成分句法树库。实验证明,非同构的映射策略摆脱了同构映射的局限,能够得到更符合目标语言句法构成规律的映射树库和映射分析器。
其他文献
随着Internet技术的迅猛发展,网络新应用层出不穷,网络结构从传统的C/S、B/S模式,逐渐转向P2P、P2SP结构的应用模型。各种P2P,P2SP应用占用了大量的带宽资源,在增加运营商运
随着Web服务的增多,Web服务请求者在选择服务时就不只是重视服务是否满足用户功能需求,还要考虑Web服务的质量。由于面向服务架构(Service-Oriented Architecture,SOA)的企业级
中性束注入(简称NBI)作为一种行之有效的等离子体加热方式,具有加热效率高和物理机制清楚的优点。正在建造中的EAST-NBI是国家大科学工程项目全超导托卡马克EAST实现高参数运
激光技术在现代科学实验,医学治疗,光刻以及国防等领域得到了极其广泛的应用。在用于集成电路光刻的大功率准分子激光光源中,采用了MOPA双腔结构,要求出光时间精确,因此对同
多线程并发软件中,并发程序执行行为的不确定性和复杂性,使得并发程序中的并发缺陷被成功捕获的概率很小,并且很难再现。而并发缺陷一旦发生,将造成难以估计的损失。对于并发缺陷
本文研究一些最优化约束满足问题的计算复杂性、近似算法以及近似困难性。包括:构造了一个同时优化查询复杂度、随机源以及可靠性三个参数之间权衡的群上同态函数局部检测系统
开放式数控系统是目前数控系统发展的趋势,它具有模块化、标准化、可再次开发、平台无关性以及适应网络操作方式等特点。开放式数控系统为了满足高速的要求可采用多处理器方案
实时性和鲁棒性一直是信息传输过程中最关注的焦点之一。对需求日益增长的流媒体信息来说,实时性和鲁棒性更是迫切需要解决的问题。流媒体信息传输时需要经过压缩编码处理,接
AMR-WB是由3GPP/ETSI于2001年制定,适用于WCDMA和GSM的宽带语音编解码标准,ITU-T于2002年将其选为16KHZ采样率的宽带语音编解码标准G.722.2。从此无线网络与有线网络具有了相同
基于IEEE802.11的WLAN技术的飞速发展和普及,适时满足并引导了移动互联网用户的需求,将用户从固定的办公和生活方式中解放了出来。近年来,不断有支持更高数据传输率的IEEE802.11