基于语料库的汉语搭配框架分析

来源 :北京大学 | 被引量 : 0次 | 上传用户:Linuxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算语言学、语料库语言学以及计算词典学等领域的发展,大规模语料库在英美等国成为词典编纂的前提和主要工具。在词典编纂的过程中,人们需要对语料库中的词汇使用实例进行归纳,抽象出词义并写入词典。词汇获取是填补现有词典编纂手段的不足的重要手段,而词语搭配是词汇获取的一项重要内容,近年来也得到国内外广泛关注。 前人的搭配提取方法大多采用基于窗口的词频统计方法,有些辅以简单词类搭配模式对提取结果进行伪搭配过滤。本文着重分析了词汇间的“语法依赖关系”来提高搭配分析的正确率和有效性,以句法分析结果基础,从以下几个方面进行了研究: 依据“现代汉语短语规则”的研究、现代汉语句法结构与分析以及对语料库中的实词相邻词进行分析,本文定义了六种句子内部词项之间的语法结构关系。在确定了这些关系之后,将语料库中的符合各种关系的实例抽取出来,建立一个数据库,其基本信息包括<语法关系,词1,词2>。 在上述数据库基础上,本文采用词频、MI、修正的MI、T检验和x2检验等多种方式来计算词语搭配的显著性。本文以某个词W为核心计算其参与的所有语法结构关系的搭配显著性,称之为该词的“搭配框架”。进一步,本文还提出对近义词的搭配框架进行了“差异比较”,对给定的两个近义词可以给出它们参与的所有搭配关系的差异,称之为该词的“搭配差异”。 实验表明本文的方法能够大大提高词语搭配的准确率,其中词语搭配框架对词语的语义和用法的有效汇总,搭配差异对近义词的用法和语义的区分有重要的借鉴意义。本文的成果被集成到一个软件包中,可以作为“基于语料库的双语编纂平台”的一个有效扩展。
其他文献
现场可编程门阵列FPGA具有性能好、规模大、可重复编程、开发投资小等优点,在现代电子产品中应用得越来越广泛。随着微电子技术的高速发展,成本的不断下降,FPGA正逐渐成为各种电
信息技术的日新月异使得各个领域的数据量激增,在此背景下诞生的知识发现和数据挖掘给人们提供了一种新的认识数据、理解数据的智能手段。序列模式发现是其中的一个重要研究
近年来,随着软件复用技术的发展,基于构件开发作为一种软件复用的有效的方法学,得到了广泛的关注和发展。   多语种构件库设计与实现是多语种软件技术支撑平台的开发与应用的
本课题研究的内容是嵌入式IP-PBX中的网络流量控制相关问题研究。近年来,随着统一通信概念的提出和推广,嵌入式IP-PBX产品已经日渐成熟,开始在企业中部署和应用。嵌入式IP-PB
类人型机器人是根据人类的行为机制设计而成的,它适合于在人类生活的环境下活动。所以,近年来对两足机器人的研究,已引起了世界各国机器人专家的重视。可是,类人型机器人能够产生
以Artifact为中心的业务流程管理是BPM技术发展的一个新的趋势。在这一趋势下,一种以Artifact为中心的业务过程模型——ArtiFlow应运而生。该模型的出现,将BPM与SOA很好地融
门户网站把各种应用系统、数据资源集成起来,以统一的界面为用户提供综合信息的访问入口。作为基于表示层的信息集成框架,门户中间件是构建门户网站的支撑平台。然而,实践表明,单
射频识别(Radio Frequency Identification,RFID)技术是20世纪90年代开始兴起并逐渐走向成熟的一种自动识别技术。它具有高速移动物体识别、多目标识别和非接触识别等特点,显示
WS-BPEL(Web Service Business Process Execution Language,简称BPEL)是Web服务规范族中服务复合层的重要标准。BPEL支持通过对Web服务的编制(Orchestration)来构建业务流程,
目前,三维地质建模及其应用已经渗透到多个学科,并在地质问题研究、油气藏勘探、地理信息系统、矿业工程、岩土工程、地球物理等领域取得了一定的成果。许多国家和地区的政府及