论文部分内容阅读
统计技术在自然语言处理领域逐渐呈现出健壮和高效的优势,大规模人工标注语料和先进统计学习方法的结合不但催生出更精确的语言处理系统,也将研究工作者从繁重的规则编写中解脱出来。作为统计建模的知识来源,人工标注语料是决定最终系统性能的重要因素。构建大规模高质量的语料库成为统计自然语言处理最根本和最迫切的需求。
英语等一些欧洲语言的研究起步较早,通过长时间的积累储备了大量优质的语料资源。而世界上大多数其他语言,人工标注语料的种类和规模都要落后得多,成为制约统计自然语言处理水平的第一道门槛。许多语料资源并不丰富的语言还存在严重的浪费现象,对于同一个自然语言处理任务,并存着多个性质各异的人工语料库。这些语料库的构建基于不同的理论体系,每种理论从各自的视角对语言现象刻画和建模,标注标准的差异使得不同的语料库难以融合利用。
为缓解多种标注标准的语料并存所带来的资源浪费,我们提出了形式化的标注标准迁移问题,并设计出一种通用的标注标准迁移方法。通过判别式模型和算法,该迁移方法能够在不同标注标准的语料间自动地学习标注变换规律。利用这种变换规律,我们既能够将一种标注标准的数据变换为另一种标注标准,又能够把不同标注标准的语料中的知识有效融合起来,从而获得更高性能的自然语言处理系统。以汉语词法分析为例,该方法能有效地融合宾州中文树库和人民日报语料库中的知识,使中文词法分析取得显著的性能提升。
对于资源贫乏的世界大多数语言,虽然构建人工标注语料库特别是句法树库代价高昂,却往往可以较容易地获得其与资源丰富语言(如英语)的双语平行语料。我们提出一种高效且容错的双语间句法结构映射方法,用于将资源丰富语言的句法知识通过双语平行语料映射到资源贫乏语言。借助一个类似句法分析过程的动态规划算法,该方法在目标(资源贫乏语言)语句可能的映射句法树候选集合中,搜索出与源(资源丰富语言)语句句法树对应概率最高的映射树。由于映射所得的句法树更倾向于源语言的构成特性,映射树库可被视为服从一种未知的、扭曲的标注标准。因此,通过前述的标注标准迁移方法,映射树库可用于提高句法分析的性能。在依存分析和短语结构句法分析的实验中,映射树库所含的句法知识显著提升了现有基准分析器的精度。这既间接证实了句法映射方法的有效性,也再次验证了标准迁移方法的通用性。
将整个树结构进行映射的策略使得目标语言被迫接受源语言的句法标注标准。为突破这一局限性,我们在句法映射方面进一步深入探索,为依存句法映射和成分句法映射分别提出了非同构句法映射策略。对于依存句法映射,映射的基本单位不再是完整树结构,而是最基本的词对依存关系实例。借助判别式分类的建模方法,映射依存分析器可在词对依存关系实例集上训练得到。对于成分句法映射,我们不是将源语句句法结构映射过来,而是借助目标语句的各跨度在源句法树中的对应子结构信息,从目标语句集合中推导出一部PCFG文法,并进而根据该文法和单个句对的双语约束信息得到映射的成分句法树库。实验证明,非同构的映射策略摆脱了同构映射的局限,能够得到更符合目标语言句法构成规律的映射树库和映射分析器。