论文部分内容阅读
人名存在歧义性,给人物信息检索、实体语义知识库构建、实体信息抽取等带来了严重的困难。人名消歧技术研究如何将同名人物实体指称项按照现实中具体的人进行分类,是近几年自然语言处理技术的一个研究热点。本文主要研究人名消歧技术,包括:基于聚类的人名消歧和基于实体链接的人名消歧,取得了如下研究成果: (1)职业是人物实体的代表性特征,能够有效地区分人物实体。本文对职业特征进行扩展,提出了基于职业特征的人名消歧算法。首先,构建基础职业词典;其次,将维基百科的所有中文页面作为训练语料,通过词激活力(Word Activation Force,WAF)模型扩展基础职业词典,得到职业特征词典;然后,根据职业特征词典从文本中提取职业特征,并抽取社会关系特征作为其补充特征;最后,采用凝聚层次聚类实现人名消歧。在CLP2010人名消歧训练语料上进行实验,结果表明,该算法能够有效地提高人名消歧的性能。 (2)传统基于聚类的人名消歧算法中,每类特征仅反映人物实体的部分信息,且不同聚类算法各有优缺点。本文对不同特征在不同聚类算法所得的划分进行集成,提出了一种基于聚类集成的人名消歧算法。首先,从文本中提取上下文特征、实体特征、社会关系特征得到三个相似度矩阵,并对这三个相似度矩阵进行融合得到一个融合相似度矩阵;然后,把这四个相似度矩阵以及基于职业特征与社会关系特征的联合相似度矩阵作为输入,利用不同的聚类算法得到不同的划分;最后,采用基于均方误差邻接矩阵聚类(Squared Error Adjacency Matrix Clustering,SEAM)算法对这些划分进行集成,实现人名消歧。在CLP2010人名消歧训练语料上进行实验,结果表明,新算法有效地提高了人名消歧的准确性和鲁棒性。 (3)在基于实体链接的人名消歧中,知识库中单条实体定义的特征稀疏、覆盖面不全。为此,本文提出了一种基于分步聚类的人名消歧算法。首先,从知识库的实体定义中抽取人物属性特征作为查询词,利用文本检索的方式实现了知识库文本的初次聚类;然后,利用初次聚类的结果,采用凝聚层次聚类算法实现知识库人名消歧;最后,进行非知识库人名消歧,包括Other类识别和S类聚类。在CLP2012人名消歧测试语料上进行实验,结果表明,新算法能够有效地提高人名消歧的召回率和准确率。