论文部分内容阅读
信息抽取就是将无结构化的信息转换为结构化或者半结构化信息的过程。目前大部分信息抽取系统是从文本中抽取特定的实体信息,包括时间、机构、地点等。自然文本中不仅蕴含了大量的实体信息,还蕴含着实体之间关系的信息这些实体关系信息能够帮助人们更方便的获取知识。
信息抽取有三个基本任务,命名实体识别、实体关系抽取和事件发现。实体关系抽取不仅是信息抽取的一项重要任务,也是事件发现和多种应用系统的基础,具有重要意义。实体关系抽取的基本任务是寻找并判定实体对之间存在的特定关系。
本文的关系抽取方法属于半监督的Bootstrapping方法,目标是从大量未标注的自然语言文本中学习用于发现某种特定二元关系的模式,并找出具有此种关系的实体对。其中,本文利用了词语相似度计算来进行词概念的扩充,以提高抽取效果。主要研究成果如下:
1.提出一种结合了同义词词林分类体系知识和实际语料库的统计规律的词语相似度计算方法,这种方法一定程度上克服了基于分类体系的方法和基于大规模语料库的统计方法各自的缺点,词语相似度的值也比较合理,并通过数据平滑进一步改善了结果,实验证明了该方法的有效性。
2.深入研究了半监督的Bootstrapping实体关系抽取方法中各个关键技术问题,提出了利用全文检索系统来获取待抽取的候选文本的方法,并设计了一种新的模式的表示方法,模式中的词以selective属性相区别,以反映不同的词对于抽取过程的重要性,其中最重要的词称为核心词,即最能说明“关系是什么”的词。
3.针对汉语句子结构灵活,表意词汇丰富的特点,使用了词语相似度改进了模式匹配的算法,提高了模式的覆盖度。
4.提出了一种用于Bootstraping半监督抽取过程的种子元组生成方法,减轻了此类系统中用户挑选种子元组的难度。
5.在以上研究的基础上,设计并实现了一个基于半监督的Bootstrapping方法的实体关系抽取系统。