论文部分内容阅读
随着计算语言学、语料库语言学以及计算词典学等领域的发展,大规模语料库在英美等国成为词典编纂的前提和主要工具。在词典编纂的过程中,人们需要对语料库中的词汇使用实例进行归纳,抽象出词义并写入词典。词汇获取是填补现有词典编纂手段的不足的重要手段,而词语搭配是词汇获取的一项重要内容,近年来也得到国内外广泛关注。
前人的搭配提取方法大多采用基于窗口的词频统计方法,有些辅以简单词类搭配模式对提取结果进行伪搭配过滤。本文着重分析了词汇间的“语法依赖关系”来提高搭配分析的正确率和有效性,以句法分析结果基础,从以下几个方面进行了研究:
依据“现代汉语短语规则”的研究、现代汉语句法结构与分析以及对语料库中的实词相邻词进行分析,本文定义了六种句子内部词项之间的语法结构关系。在确定了这些关系之后,将语料库中的符合各种关系的实例抽取出来,建立一个数据库,其基本信息包括<语法关系,词1,词2>。
在上述数据库基础上,本文采用词频、MI、修正的MI、T检验和x2检验等多种方式来计算词语搭配的显著性。本文以某个词W为核心计算其参与的所有语法结构关系的搭配显著性,称之为该词的“搭配框架”。进一步,本文还提出对近义词的搭配框架进行了“差异比较”,对给定的两个近义词可以给出它们参与的所有搭配关系的差异,称之为该词的“搭配差异”。
实验表明本文的方法能够大大提高词语搭配的准确率,其中词语搭配框架对词语的语义和用法的有效汇总,搭配差异对近义词的用法和语义的区分有重要的借鉴意义。本文的成果被集成到一个软件包中,可以作为“基于语料库的双语编纂平台”的一个有效扩展。