论文部分内容阅读
命名实体的识别是自然语言处理工作的基础,更是推动信息抽取、信息检索、机器翻译等信息工作进一步发展的保证,因此,如何将各种文本中的命名实体识别出来以供检索成为一个关键的问题。
特定领域文本中的命名实体往往包含领域知识,不同领域的命名实体之间往往在构词方式、词汇长度、内部结构之间相差较大,为了提升命名实体识别工作的效果,一个重要的途径就是在专有领域中进行专有名词的识别。
目前,专有领域命名实体的识别方法主要有基于字典的方法、基于规则的方法、基于统计机器学习的方法以及以上三种方法的交叉使用,并以基于统计机器学习的识别方法使用最多且取得的效果最佳。
本文以有机化学领域为背景,使用基于统计机器学习的方法进行中文化学物质名称的识别。为了比较不同统计机器学习算法的识别效果,分别使用支持向量机(SupportVector Machine,SVM)和条件随机场(Conditional Random Fields,CRFs),并选取相同的特征在相同的训练样本中进行训练,再将得到的两个识别模型(Model)在相同的测试样本中进行测试,从而得到两种算法的识别结果。同时,为了比较字一级序列标注和词一级标注的识别效果,本文在这两种序列标注下分别采用SVM和CRF进行实验,实验结果表明,字一级序列标注下两种算法的识别效果均好于词一级序列标注。
另外,实验还研究了从特征的选择角度进行算法识别性能的提升,与以往研究侧重特征的甄别和选取不同,本文从特征值区间的合理划分出发,考察特征值不同分档下,SVM和CRF的识别效果。实验发现,合理特征值区间划分可以提升CRF的识别性能,但对SVM影响不大,同时实验中还发现,字一级序列标注下的识别效果相对于词一级序列标注对特征值分区的变化更加敏感。