论文部分内容阅读
实体识别是自然语言处理中一个十分重要的问题,同时也是一项关键性基础技术。
本文首先对实体识别中的命名实体和一般实体识别问题分别进行了概要性描述,并综述了当前实体识别的主要研究方法。
随后针对命名实体识别中的其中较为复杂的机构名,提出自己的方法。设计和实现了一个基于混合策略的机构名识别系统。
最后,描述了一般实体的特点,通过中心语的概念,分析了一般实体的组成形式,提出了一种基于实例的识别一般实体的方法。为方便对实例的检索,设计和实现了一个高效的查询器。
文章的主要创新点:
1)通过分析机构名的特点,提出了一种简单的基于规则的机构名识别方法,并取得了较好的结果;
2)提出了一种完善机构名识别的混合处理策略,在规则系统的基础上,引进了最大熵模型,提高了原有规则系统的效果;
3)提出一种基于实例的一般实体识别方法。通过实例库中的实体短语来对候选的实体短语进行评价。