汉语隐喻知识获取方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:m1598745
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。G.Lakeoff和M.Johnson认为,隐喻不仅仅是一种语言修辞手段而且是一种思维方式,是人们对客观世界的一种认知形式,是对文化的一种反映。  本项研究全面考察了汉语词汇和句子中最常出现的隐喻形式,利用机器学习的方法自动获取隐喻知识。具体研究成果包括以下方面:  (1)提出了一种聚类与分类相结合的隐喻短语识别方法  本工作首先给出了基于区分词的的汉语隐喻短语识别方法,但是基于区分词的识别方法存在数据稀疏的问题。针对数据稀疏问题本工作提出一种基于聚类与分类相结合的隐喻短语识别方法。该方法首先利用源域词识别模块获取名词源域词S,然后从汉语词汇集中抽取以该源域词S结尾的名词短语,通过一种基于上下文信息聚类的方法来区分名词短语的隐喻和非隐喻集合。最后,将聚类结果抽象成特征,并结合其他特征利用机器学习方法识别隐喻短语。  (2)提出了一种基于语义文法和统计相结合的V+N的隐喻句子识别方法  本工作针对统计方法识别V+N隐喻句子的难点,分析了基于语义方法识别的可行性,提出了一种基于语义文法与统计相结合的动词隐喻识别方法。本方法首先将隐喻动词从动词集中抽出,发现只需要定义641个动词的语义文法。其次通过定义语义文法发现,动词的隐喻义只与施事、受事和句中定语有关,文法只需要定义这三者的语义限定。上述的两个发现证明基于语义文法的识别方法无需大量的人工参与。同时,针对部分语义文法无法定义语义限定的问题,本工作提出了基于Word2Vec相似度计算的动词隐喻识别方法。实验结果表明本方法具有很高的准确率和召回率。  (3)提出了一种基于多类特征分类的A-is-B模式隐喻句子识别方法  本工作首先介绍上下位关系、识别句摸、识别类词以及相似度四类特征,同时给出了一种迭代式抽取类词的方法,然后利用SVM分类器进行隐喻句子识别。为证明本方法具有较高的通用性,在构造A-is-B的隐喻和非隐喻句训练集时,利用《国家行业分类标准》,对每个行业都通过搜索引擎找到该行业的隐喻句和非隐喻句。实验表明本方法的正确率达到95.5%,召回率达到92.5%。
其他文献
超龙一号系统是国家智能计算机研究开发中心提出的一种以应用为导向的技术路线。其中的算法可重构加速卡基于FPGA实现,是整个系统的一个重要组成部分,关系到整个系统的效率。而
随着计算机、通信、网络、嵌入式等技术的发展,普适计算的硬件环境和软件环境正在发生巨大变化。这种变化使得普适计算的信息空间,与人们生活和工作的物理空间逐渐融为一体。在
随着企业信息系统中的数据量飞速增长,用于实现数据缩减的重复数据删除技术日益为人们所重视。重复数据删除技术主要应用于数据备份系统和数据归档系统。由于数据归档系统需要
面部特征点定位是指在输入人脸图像上自动检测面部关键特征(如眼睛中心点,眼角点,嘴角点等)的技术,可以用于对齐待匹配的人脸图像,因而是全自动人脸识别中的关键步骤之一。此外,精
设A是一个字母表。如果语言X,Y(C)A*满足XY=YX,则称X,Y是可交换的。如果语言X,Y(C)A*满足XY(C)YX或YX(C)XY,则称X,Y是部分可交换的。目前已知:在自由半群A*上,若x,y∈A+,xy=yx,则存在t
生物信息学是当今世界非常热门的课题,近年来,人们注重对生物信息的数据整合和应用开发,使得生物学家能方便的进行生物信息研究。在和所内专家交流后发现:首先,面对庞大繁杂的生物
二十世纪七十年代,E.F.Codd提出了数据库的关系模型,开始了数据库关系方法和关系数据理论的研究,并逐渐应用到各个领域。这使得人们借助数据库对海量数据进行处理以及查询成
生物信息学是一门新兴学科,它综合运用生物学、统计学和计算机科学的各种工具和方法,来挖掘海量的生物学数据背后丰富的内涵。中国科学院微生物研究所网络信息中心多年来一直开
无论是在计算机领域还是更为宽泛的数据处理领域中,数据信息的采集、处理、存储以及传输之间的速度“趋异问题”普遍存在。本文提出使用“暂存技术”解决此类趋异问题。文章将
煤炭安全生产涉及到对煤矿生产现场的人、设备、生产环境各方面的监测,随着矿井自动化技术的提高,大多矿井已建立了多种自动化系统,如监测井下生产环境(瓦斯、CO、温度等)的瓦斯安