论文部分内容阅读
在Web2.0时代,互联网已经成为包含人类社会各种知识的信息库,人们越来越依赖互联网作为查询信息的重要来源。其中,人物之间的关系是一类非常重要的信息。特别是当网民面对一个个热点讨论的话题时,总是希望能够迅速、准确的了解话题中包含的人物关系网,直观便捷的获得人物关系的结构化摘要。基于以上需求,面向主题的人物关系抽取课题应运而生。
人物关系抽取是隶属于实体关系抽取的子任务。在面向主题的人物关系抽取问题上,存在着人物关系定义不清、关系种类多变、语料总量受限等难点,该问题目前的研究成果较少。本文在分析已有工作的基础上,实现了基于条件随机场模型的主题下人物关系抽取研究方法。
本文首先对能够有效反映主题的主要人物关系对进行识别与排序。自动采集了新浪新闻专题中的60个专题作为研究语料,通过同句共现进行关系对识别;进而提出了基于共现频度、互信息、信息熵的相关特征,进行关系对过滤与筛选,并进行关系对的综合排序,以反映关系对相对于主题的重要性以及关系对本身的链接松紧度。依据权重排序获得到相对于主题的强关系对集合。
在上述基础而上,本文实现了基于条件随机场模型的关系词识别算法。在对研究语料进行关系词人工标注的基础上,采用基于概率图的条件随机场模型,通过训练学习识别关系词,并在词形词性基础上,挖掘了新的基于依存句法、距离等特征,提高了关系词的识别效果。在此基础上,实现了关系词与关系对的匹配。实验结果表明,与基于窗口的识别关系词的方法相比,本文提出的基于条件随机场模型的面向主题的人物关系抽取效果取得了明显的提高。
以上述算法框架为背景,本文实现了主题下的人物关系网演示系统,并在系统中设计加入了人物本身相对主题的权重,得到形象化的展示效果。