论文部分内容阅读
知识获取被认为是人工智能发展的瓶颈所在,知识获取研究对人工智能理论和应用都具有极其重要的意义。实体名称一方面指称人类所认知的客观事物,是知识的基础元素之一,另一方面本身蕴含着丰富的知识,是知识的基本载体之一,需要知识获取研究人员进行深入研究。
本文从知识获取的角度出发,研究了中文实体名称的识别和语义分析方法。实体名称识别是文本知识获取的基础工作之一,实体名称语义分析是从实体名称中进行知识获取的有效途径。在我们的工作中,中文词汇间的语义相似度计算是中文实体名称识别和语义分析的基础。因此,本文整体上按照“中文词汇语义相似性计算(第二章)→中文实体名称识别(第三章)→中文实体名称中的知识获取(第四、五章)”思路展开。
本文的主要创新性成果包括:
1.提出了一种英语语言学知识库WordNet的英,汉自动映射方法。映射方法依靠双语词典和术语翻译工具,首先在义项层次上对英文词汇进行翻译,然后用监督学习方法选择词汇在特定概念中的正确义项。实验结果表明,该方法对WordNet3.0中概念自动翻译的覆盖率为85.14%,准确率为81.37%,表明对某些耗时耗力的汉语语言学知识库构建问题,自动映射其他语言中的相应资源可以取得一定效果。在映射结果上,我们对比实验了常见的基于语义词典的词汇相似度计算方法,取得最好为0.862的中文词汇语义相似度相关系数,为中文实体的识别和语义分析工作奠定了基础。
2.提出了一种基于大规模二词实体名称集合的中文词汇语义相似度计算方法。通过在大规模语料中进行基于上下文的词汇相似度计算实验,发现这种方法在效率上比较低,并且上下文中含有大量的噪声词汇,使结果精度难以保证。二词实体名称体现了词汇在构造短语时的搭配特征,而这种搭配特征往往是与词汇的语义特征具有紧密联系的,因此本文提出了基于大规模二词实体名称集合的词汇语义相似度计算方法。方法在名/动/形容词上分别取得了0.7/0.5/0.7的相关系数,执行效率较高,需求资源较少,词汇处理范围不受限,是一种行之有效的词汇间语义相似度计算新方法。
3.提出了一种基于概率句法构造模式、语义构造模式和邻接词统计特征三层递进的中文实体名称识别系统。中文实体名称在构造上不存在统一的句法规律,其识别具有较大难度。我们首先利用实体名称在句法层次上的构造规律进行识别,发现部分实体名称在句法上具有歧义,对于这些实体名称,进一步利用实体名称的语义构造规律进行处理。对于这两种方法都没有办法处理的实体名称,进一步根据实体名称的邻接词统计特征进行验证。在基于关系抽取的任务测评中,该方法可以达到约93%的识别准确率,并且不受限于具体领域和实体名称类型,具有很好的实用性。
4提出了一种中文二词实体名称的深层语义分析方法。实体名称中蕴含着大量知识,特别是句子或篇章中不显式出现的常识性知识,对实体名称进行语义分析是获取这些知识的有效途径。我们将实体名称语义分析看作是多值分类问题,首先归纳了三类主要二词实体名称中蕴含的语义关系类型,并采用二层的结构进行组织;然后在词汇语义相似度计算的基础上,采用监督学习中多值分类的思路,为实体名称标注一个或多个语义类。实体名称语义分析是一个较新的研究课题,具有较大的难度。在N+N型二词实体名称分析中,方法取得了0.823的准确率和0.823的召回率;V+N型中分别取得了0.842和0.732的准确率和召回率;N+V型中分别取得了0.996和0.835的准确率和召回率。
5提出了一种中文实体名称中的上下位关系获取方法。中文实体名称普遍为后心复合结构,其中富含上下位知识,将这些知识抽取出来,将是非常可贵的资源。我们采用了一种基于统计的抽取方法和一种基于规则的关系验证方法,从大规模实体名称集中获取了准确率约93%的上下位知识。
最后,对工作的成果和存在的不足作出总结,并对中文实体名称相关研究下一步工作做出展望。