论文部分内容阅读
句本位语法是汉语传统语法中最重要的一个流派,以黎锦熙先生在《新著国语文法》一书中建立的黎氏语法体系为代表。它以讲句子成分和句法格局为主要特征,强调汉语语法分析应以句子为本位,用句法控制词类。句法格局的缺失是当前中文信息处理句法分析与句子语义理解相脱节,从而造成所谓“语义瓶颈”的重要原因之一。 本文针对这一领域现状提出将句本位语法思想引入中文信息处理,并以黎氏语法体系及其图解析句法为原型,改造设计出一套形式化的句法分析框架。在此基础上架构了一个包含标准规范、数据资源和软件系统三层次的句本位语法数字化平台,并实现了其中的可视化标注、语料检索和句式归纳三个软件系统。以可视化标注系统为工具,分别选择《论语》、《唐宋八大家文钞·45篇》和《汉语语法教材》例句作为上古汉语、中古汉语和现代汉语的生语料,标注得到了11.4万字规模的语法树库。最后利用这三部分语料,借助语料检索系统和句式归纳系统开展基于句式的句法应用研究,样例式地抽取了《论语》语料的总词库、动宾短语库,以及兼语句式、连动句式的骨架句义。 论文主体内容包括以下四个部分:(1)汉语语法体系及其形式化概述,简要回顾汉语语法体系的发展历史,从中文信息处理中汉语树库的角度分析当前各形式化语法体系的得失,为句本位语法体系的引进和改造提供理论依据。(2)图解法的形式化设计,从黎氏语法体系图解总公式出发,设计图解图形控件及相应的数据存储结构,形成句本位语法树库的标注规范。(3)数字化平台的架构与实现,为数字化平台规划三个层次的系统架构,并具体介绍三个软件系统的功能设计和技术实现。(4)基于数字化平台的应用研究,又分为三项:以归纳得到的核心句式为纲对黎氏语法图解格局展开系统测查和评价,找出其设计中的不足和改进空间;通过句式分布的统计,分析唐宋仿古文言相对于先秦文言的句法继承和发展;讨论基于句本位语法体系的自动句法分析系统必需解决的词库构建和知识获取问题。