论文部分内容阅读
                            
                            
                                复述是自然语言表达中存在的一种普遍现象,即相同语义的不同表达方式。复述识别即判别两个给定语言表达式或者模板是否表达相同或相似的意思,其研究结果可广泛应用于自然语言处理各个领域,如信息检索、机器翻译、自动问答等。复述在自然语言中的普遍性及广泛应用让复述研究显得尤为重要。本文分析了国内外关于复述识别的研究技术和研究成果,发现现存方法主要集中在利用句子传统特征,如将句子看成字符串、语义符号或者抽取词法特征、句法特征等来进行复述识别,忽略了句子作为信息载体本身随着知识背景的积累不断发展变化的特性,即知识的不确定性。前人基于传统特征的复述识别方法试图将一种连续的变化的语言离散化确定化,忽略了自然语言不确定性问题。而复述本身是自然语言不确定性的一种反应,其具有的语义多样化,不确定性和发展变化性是复述识别研究中不可忽视的因素。为解决前人采用传统特征进行复述识别的方法中所忽略的两个问题:(1)概念作为整体具有的语义完整性和边界不确定性,(2)概念在具体语境中表现出语义差异性和多义性导致的歧义问题。本文从传统特征和概念特征两个方面进行语义特征抽取,采用对应特征进行复述识别。本文主要研究内容包括以下几个方面:].基于多层传统句子特征的复述识别技术。通过研究现存方法,句子传统特征的某一方面被用于复述识别相当普遍,本文考虑到句子特征的多面性,本文提出基于多层次结合句子特征的复述识别技术。首先在标准语料库的训练语料上进行词法分析,得到句子主语、谓语、宾语成分;其次进行句法分析得到句法依存关系;然后结合两个层次句子特征,训练出句对相似度计算模型;最后将训练模型运用到标准语料库的测试语料上进行测试。与先前方法相比,本方法在识别准确率和F值上表现突出。2.基于云模型数字特征的复述识别技术。考虑到自然语言本身具有发展变化和不确定性,传统特征无法满足自然语言发展变化和整体刻画的要求。与此同时,定性特征定量化的研究还很不够。通过对复述识别问题本质的分析,为解决词汇作为概念整体在复述识别中的知识表示问题和词汇多义性问题,提出基于概念的词义关联模型,用云模型加以表示,提出基于概念数字特征的复述识别方法。首先对在标准语料库的训练语料中复述句对包含的词进行相关词群扩展,利用云模型理论知识将句对中词汇以及其相关词群转换成概念;然后基于概念的数字特征进行复述识别。这是首次将云模型运用到复述识别研究中,在词汇语义的表示中抽象出一个概念层次。通过在标准复述语料库上进行详尽对比实验,结果显示概念特征在复述识别中表现较好。3.基于云概念跃升的复述识别技术。为了解决句子作为一个整体对象的知识表示问题,以及句子内部成分的多义性和不确定性造成的歧义问题,提出基于云概念跃升的复述识别方法。在云模型概念数字特征的复述识别方法基础上,将句子作为一个概念整体对待,将构成句子的细粒度概念进一步跃升成粗粒度概念以表示整体句义。利用云模型所具有的无限纵深特点挖掘出句子本身的不确定性知识,以更客观描述句子语义。最后根据所获得数字特征对句对进行复述识别。通过解决概念多义性问题,云概念跃升方法较云模型方法有更好的表现,同时也较传统方法有一定的突破。本文提出的基于概念的复述识别方法优点表现在三个方面:(1)既考虑到句子词汇本体意思,也考虑到词汇外延信息,即概念不确定性和完整性;(2)通过概念跃升挖掘句子概念特征,解决词汇在具体语境中的歧义问题;(3)利用概念数字特征代替传统字符串表面特征、词法特征、句法特征等,更能体现句子作为自然语言具有的鲁棒性。复述识别研究在自然语言处理诸多领域有广泛应用,这些领域都涉及到知识表示、知识评价,研究还很不够。在我们所了解范围内,这是首次将概念数字特征运用到复述识别研究中,意在挖掘句子语义模糊性或不确定性。实验结果表明,本文提出的方法在标准语料库上的识别率有一定提高。同时也间接地证明本文从不确定性知识角度进行复述识别的有效性。更为重要的是,该方法可以无缝转移到大部分相关研究中,为其他领域的研究提供便利。