论文部分内容阅读
社会网络研究与分析是计算机领域的热门研究方向之一,而社会网络构建则是其基础。互联网中存在着大量的文本信息,其中蕴含着丰富的人物社会关系,因此从中抽取类型丰富且可靠性高的人物关系对社会网络的研究具有十分重要的意义。本文深入研究了基于树核函数的人物关系抽取方法,并在此基础上构建社会网络,主要研究内容归纳如下:首先,研究中英文实体关系抽取中的关键技术。提出一种基于近似随机测试技术的显著性测试方法,系统地比较了三种句法分析器和三种结构化信息对基于树核函数的中英文关系抽取性能的影响,并对实验结果作深入的分析,为下一步的人物关系抽取研究提供了基准系统。其次,探索基于树核函数的人物关系抽取方法。针对人物关系的语言表达形式的特殊性,提出新的结构化信息优化方案;考查语义信息对人物关系抽取性能的贡献;利用重采样技术缓解语料库数据不平衡问题,为社会网络构建打下基础。最后,研究基于人物关系抽取技术的社会网络构建方法。通过人物关系语料库的标注信息构建标准社会网络,再利用自动获取的人物关系信息构建预测社会网络,并评价预测网络的性能和可信度。同时,从特定网站上挖掘人物活动语料,利用现有技术在真实语言环境中构建社会网络。在ACE人物关系语料库上的实验表明,本文提出的一系列方法能够有效的提高人物关系抽取的性能;并且该方法可以推广到特定的新闻专题领域,从文本中抽取可靠性高的人物社会关系,进而构造社会网络。