中文实体名称的识别和语义分析方法研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:ohngahng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识获取被认为是人工智能发展的瓶颈所在,知识获取研究对人工智能理论和应用都具有极其重要的意义。实体名称一方面指称人类所认知的客观事物,是知识的基础元素之一,另一方面本身蕴含着丰富的知识,是知识的基本载体之一,需要知识获取研究人员进行深入研究。   本文从知识获取的角度出发,研究了中文实体名称的识别和语义分析方法。实体名称识别是文本知识获取的基础工作之一,实体名称语义分析是从实体名称中进行知识获取的有效途径。在我们的工作中,中文词汇间的语义相似度计算是中文实体名称识别和语义分析的基础。因此,本文整体上按照“中文词汇语义相似性计算(第二章)→中文实体名称识别(第三章)→中文实体名称中的知识获取(第四、五章)”思路展开。   本文的主要创新性成果包括:   1.提出了一种英语语言学知识库WordNet的英,汉自动映射方法。映射方法依靠双语词典和术语翻译工具,首先在义项层次上对英文词汇进行翻译,然后用监督学习方法选择词汇在特定概念中的正确义项。实验结果表明,该方法对WordNet3.0中概念自动翻译的覆盖率为85.14%,准确率为81.37%,表明对某些耗时耗力的汉语语言学知识库构建问题,自动映射其他语言中的相应资源可以取得一定效果。在映射结果上,我们对比实验了常见的基于语义词典的词汇相似度计算方法,取得最好为0.862的中文词汇语义相似度相关系数,为中文实体的识别和语义分析工作奠定了基础。   2.提出了一种基于大规模二词实体名称集合的中文词汇语义相似度计算方法。通过在大规模语料中进行基于上下文的词汇相似度计算实验,发现这种方法在效率上比较低,并且上下文中含有大量的噪声词汇,使结果精度难以保证。二词实体名称体现了词汇在构造短语时的搭配特征,而这种搭配特征往往是与词汇的语义特征具有紧密联系的,因此本文提出了基于大规模二词实体名称集合的词汇语义相似度计算方法。方法在名/动/形容词上分别取得了0.7/0.5/0.7的相关系数,执行效率较高,需求资源较少,词汇处理范围不受限,是一种行之有效的词汇间语义相似度计算新方法。   3.提出了一种基于概率句法构造模式、语义构造模式和邻接词统计特征三层递进的中文实体名称识别系统。中文实体名称在构造上不存在统一的句法规律,其识别具有较大难度。我们首先利用实体名称在句法层次上的构造规律进行识别,发现部分实体名称在句法上具有歧义,对于这些实体名称,进一步利用实体名称的语义构造规律进行处理。对于这两种方法都没有办法处理的实体名称,进一步根据实体名称的邻接词统计特征进行验证。在基于关系抽取的任务测评中,该方法可以达到约93%的识别准确率,并且不受限于具体领域和实体名称类型,具有很好的实用性。   4提出了一种中文二词实体名称的深层语义分析方法。实体名称中蕴含着大量知识,特别是句子或篇章中不显式出现的常识性知识,对实体名称进行语义分析是获取这些知识的有效途径。我们将实体名称语义分析看作是多值分类问题,首先归纳了三类主要二词实体名称中蕴含的语义关系类型,并采用二层的结构进行组织;然后在词汇语义相似度计算的基础上,采用监督学习中多值分类的思路,为实体名称标注一个或多个语义类。实体名称语义分析是一个较新的研究课题,具有较大的难度。在N+N型二词实体名称分析中,方法取得了0.823的准确率和0.823的召回率;V+N型中分别取得了0.842和0.732的准确率和召回率;N+V型中分别取得了0.996和0.835的准确率和召回率。   5提出了一种中文实体名称中的上下位关系获取方法。中文实体名称普遍为后心复合结构,其中富含上下位知识,将这些知识抽取出来,将是非常可贵的资源。我们采用了一种基于统计的抽取方法和一种基于规则的关系验证方法,从大规模实体名称集中获取了准确率约93%的上下位知识。   最后,对工作的成果和存在的不足作出总结,并对中文实体名称相关研究下一步工作做出展望。
其他文献
Deep Web是指网络上众多可以在线访问的数据库,其中的数据对传统搜索引擎大部分是不可见的,它们可以通过网站提供的查询接口访问,数据量巨大。但HTML的无结构化、异质性、动
学位
在知识社会的今天,知识的建构性、社会性、情境性、复杂性和默会性得到重视,为学习提供了新的见解、方法和手段。整个社会的学习活动在资源、群体、观念、内容和环境上正在发生
学位
随着用户对审批系统动态性以及适应性要求的提高,传统的审批系统在需求变化时,调整需要付出高昂的代价,很难适应当前审批的需求。当前审批流程越来越复杂并且流程具有不确定
地理信息系统发展到现在,提出了位置智能的概念。它是从传统的GIS应用发展衍生而来的,不过其已经不仅仅局限在GIS应用上。   文章首先介绍了与位置智能相关的技术和理论,对其
随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量的数据。如何从大量的数据中快速提取有用的和感兴趣的信息,成为海量信息处理面临的瓶颈。聚类分析技
随着网络技术的飞速发展,一种新型的以流形式存在于分布式网络中的数据模型——数据流,引起人们越来越多的关注。近些年来,数据流已广泛应用于传感器网络、金融数据分析、网络数
材料是人类社会赖以进步和发展的重要物质基础,在国民经济与人民的日常生活中扮演着不可或缺的角色。随着我国改革开放的不断深入,综合国力的不断增强,国家在材料领域的投入也日
C3I(Command,control,communication,Intelligence)信息融合技术已成为现代战争系统、工业领域和民用领域的重要支撑技术之一,数据处理技术的急剧发展也为这些领域带来了显著的进
随着社会信息化进程的加快,大量的数据逐渐被累积下来,为了从这些数据中发现有用的信息,数据挖掘应运而生,这十几年来人们对数据挖掘研究的热情有增无减,研究领域不断扩大,不
学位
对于任何计算机系统而言,内存都是非常重要的资源。然而,系统中没有任何一个模块可以独立承担内存管理工作,这也是内存管理与其他资源管理的最显著的区别。也就是说,内存管理
学位