论文部分内容阅读
框架消歧技术研究是国际语义评测SemEval-2007中新增的语义分析评测任务“Frame Semantic Structure Extraction”中的一项子任务。该研究以框架语义知识库资源FrameNet为基础,针对给定的句子以及句子中的歧义目标词(能够激起多个框架的目标词语),根据目标词当前所在句子的上下文信息,在该歧义目标词所能激起的多个框架中,选择一个最能代表当前句子语义信息的框架,最后为该歧义目标词标注具体的框架信息。目前,语义分析是自然语言理解领域的研究热点及难点,框架消歧作为语义分析的一个中间环节,它的研究对语义分析甚至自然语言理解领域的发展至关重要。如果能够高效地处理好语义分析环节中的框架消歧问题,不仅可以为框架语义角色标注系统奠定坚实的基础,还可以为语料库的构建提供有力的保证,更可以为信息检索、问答系统、机器翻译、语音识别等自然语言处理的相关应用系统提供有用的语义信息。本文主要研究框架消歧技术问题。基于框架语义知识库FrameNet,针对选取的句子以及句子中能够激起多个框架的目标词,对句子进行词法分析、依存句法分析,并利用这些信息来构建特征模板,为句子中的歧义目标词选择一个适合上下文的框架。实验采用统计机器学习方法条件随机场(Conditional Random Fields,CRF)算法进行框架消歧技术探索研究。具体研究内容如下:(1)构建实验语料。从FrameNet知识库中选取能够激起两个或两个以上框架的代表性词元10个,分别是“can”、“name”、“kill”、“say”、“suggest”、“number”、“sense”、“show”、“see”、“know”,实验中,针对所选取每个的歧义词元,摘取包含该词元的句子2000条,并对句子中明显的错误进行了校对,以此作为本实验的实验语料。(2)特征选择。针对每条句子,使用斯坦福大学的句法分析器Stanford Parser来进行词性标注以及依存关系句法分析,在此基础上,进行了基本特征模板选取和依存特征模板的选取,最终选取了10种特征模板。(3)训练和测试。使用具有序列标注思想的条件随机场算法来建模,充分利用它的的序列标注思想,使用CRF++工具包进行训练和测试,并对实验结果进行了对比分析,最好结果取得了82.78%的精确率。(4)探索新的方法。目前国内外还未使用条件随机场算法对FrameNet进行研究。本文首次使用条件随机场算法来进行建模,改变了目前条件随机场算法在框架消歧领域处理英文语料FrameNet的空白局面。