基于传统特征与概念数字特征的复述识别方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:yanglch234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复述是自然语言表达中存在的一种普遍现象,即相同语义的不同表达方式。复述识别即判别两个给定语言表达式或者模板是否表达相同或相似的意思,其研究结果可广泛应用于自然语言处理各个领域,如信息检索、机器翻译、自动问答等。复述在自然语言中的普遍性及广泛应用让复述研究显得尤为重要。本文分析了国内外关于复述识别的研究技术和研究成果,发现现存方法主要集中在利用句子传统特征,如将句子看成字符串、语义符号或者抽取词法特征、句法特征等来进行复述识别,忽略了句子作为信息载体本身随着知识背景的积累不断发展变化的特性,即知识的不确定性。前人基于传统特征的复述识别方法试图将一种连续的变化的语言离散化确定化,忽略了自然语言不确定性问题。而复述本身是自然语言不确定性的一种反应,其具有的语义多样化,不确定性和发展变化性是复述识别研究中不可忽视的因素。为解决前人采用传统特征进行复述识别的方法中所忽略的两个问题:(1)概念作为整体具有的语义完整性和边界不确定性,(2)概念在具体语境中表现出语义差异性和多义性导致的歧义问题。本文从传统特征和概念特征两个方面进行语义特征抽取,采用对应特征进行复述识别。本文主要研究内容包括以下几个方面:].基于多层传统句子特征的复述识别技术。通过研究现存方法,句子传统特征的某一方面被用于复述识别相当普遍,本文考虑到句子特征的多面性,本文提出基于多层次结合句子特征的复述识别技术。首先在标准语料库的训练语料上进行词法分析,得到句子主语、谓语、宾语成分;其次进行句法分析得到句法依存关系;然后结合两个层次句子特征,训练出句对相似度计算模型;最后将训练模型运用到标准语料库的测试语料上进行测试。与先前方法相比,本方法在识别准确率和F值上表现突出。2.基于云模型数字特征的复述识别技术。考虑到自然语言本身具有发展变化和不确定性,传统特征无法满足自然语言发展变化和整体刻画的要求。与此同时,定性特征定量化的研究还很不够。通过对复述识别问题本质的分析,为解决词汇作为概念整体在复述识别中的知识表示问题和词汇多义性问题,提出基于概念的词义关联模型,用云模型加以表示,提出基于概念数字特征的复述识别方法。首先对在标准语料库的训练语料中复述句对包含的词进行相关词群扩展,利用云模型理论知识将句对中词汇以及其相关词群转换成概念;然后基于概念的数字特征进行复述识别。这是首次将云模型运用到复述识别研究中,在词汇语义的表示中抽象出一个概念层次。通过在标准复述语料库上进行详尽对比实验,结果显示概念特征在复述识别中表现较好。3.基于云概念跃升的复述识别技术。为了解决句子作为一个整体对象的知识表示问题,以及句子内部成分的多义性和不确定性造成的歧义问题,提出基于云概念跃升的复述识别方法。在云模型概念数字特征的复述识别方法基础上,将句子作为一个概念整体对待,将构成句子的细粒度概念进一步跃升成粗粒度概念以表示整体句义。利用云模型所具有的无限纵深特点挖掘出句子本身的不确定性知识,以更客观描述句子语义。最后根据所获得数字特征对句对进行复述识别。通过解决概念多义性问题,云概念跃升方法较云模型方法有更好的表现,同时也较传统方法有一定的突破。本文提出的基于概念的复述识别方法优点表现在三个方面:(1)既考虑到句子词汇本体意思,也考虑到词汇外延信息,即概念不确定性和完整性;(2)通过概念跃升挖掘句子概念特征,解决词汇在具体语境中的歧义问题;(3)利用概念数字特征代替传统字符串表面特征、词法特征、句法特征等,更能体现句子作为自然语言具有的鲁棒性。复述识别研究在自然语言处理诸多领域有广泛应用,这些领域都涉及到知识表示、知识评价,研究还很不够。在我们所了解范围内,这是首次将概念数字特征运用到复述识别研究中,意在挖掘句子语义模糊性或不确定性。实验结果表明,本文提出的方法在标准语料库上的识别率有一定提高。同时也间接地证明本文从不确定性知识角度进行复述识别的有效性。更为重要的是,该方法可以无缝转移到大部分相关研究中,为其他领域的研究提供便利。
其他文献
无线传感器网络用于监测特定区域内的信息,是由若干价格便宜的无线传感器节点组成的,用于采集网络覆盖区域内感兴趣的信息。信息经过加工处理后,节点间将数据通过单跳或多跳
在当代快速发展的信息社会中,地理信息系统(GIS)逐渐显现出它的重要性,大规模三维地形数据的快速高效地处理以及实时动态可视化已经成为GIS领域研究的重点和难点。为了满足人
随着Internet的日益普及和广泛应用,越来越多的网民开始在Internet上发表自己的观点,意见和评论。网络上的这些评论文本包含了大众群体对热点事件的态度,或者消费者对所购买
随着科技的发展和社会的进步,工业自动化成为目前的研究热题之一,而实现自动化必不可少的一个环节是精准的抓取。目前在工业自动化中采用的多为电磁技术、真空吸附和机械夹取
自1977年恢复高考以来,普通高等院校招生考试为我国社会主义建设做出了巨大贡献,得到了社会的广泛认可。然而,目前的高考招生录取投档模式仍然存在诸多如资源分配不合理、考生“
随着互联网应用技术的飞速发展,以网络音/视频为代表的流媒体业务早已成为Internet上最为流行的业务之一。与传统业务相比,流媒体业务具有高流量、高并发、高敏感性等特征,如
随着图像在人们生活中应用越来越广泛,不同的图像传感器可以对同一场景获取不同的图像。红外图像与可见光图像是典型的多源传感器获取的图像,红外图像是一幅灰度图像,图像分
车标识别系统(VLR)是智能交通系统(ITS)的重要组成部分,在交通管理中充当着重要的角色。本文介绍了车牌定位技术和车标识别算法。车标识别是以车牌定位为先验知识,首先介绍车
在21世纪,IT行业中的云计算领域有了快速的发展,同样,在IT行业的影响下,DNA科技也取得了快速而有效的发展。因此,本文的主要目标是将云计算和DNA相结合实现一个完整的系统。  本
传感器网络节点硬件失效、监测环境恶劣、网络拥塞等客观问题,使得传感器网络数据的不完全性成为必然。不完全数据给数据融合、数据存储和数据挖掘等技术带来严峻考验,传统针