人名消歧关键技术研究

来源 :中国人民解放军信息工程大学 解放军信息工程大学 | 被引量 : 0次 | 上传用户:wynfloodforce
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人名存在歧义性,给人物信息检索、实体语义知识库构建、实体信息抽取等带来了严重的困难。人名消歧技术研究如何将同名人物实体指称项按照现实中具体的人进行分类,是近几年自然语言处理技术的一个研究热点。本文主要研究人名消歧技术,包括:基于聚类的人名消歧和基于实体链接的人名消歧,取得了如下研究成果:  (1)职业是人物实体的代表性特征,能够有效地区分人物实体。本文对职业特征进行扩展,提出了基于职业特征的人名消歧算法。首先,构建基础职业词典;其次,将维基百科的所有中文页面作为训练语料,通过词激活力(Word Activation Force,WAF)模型扩展基础职业词典,得到职业特征词典;然后,根据职业特征词典从文本中提取职业特征,并抽取社会关系特征作为其补充特征;最后,采用凝聚层次聚类实现人名消歧。在CLP2010人名消歧训练语料上进行实验,结果表明,该算法能够有效地提高人名消歧的性能。  (2)传统基于聚类的人名消歧算法中,每类特征仅反映人物实体的部分信息,且不同聚类算法各有优缺点。本文对不同特征在不同聚类算法所得的划分进行集成,提出了一种基于聚类集成的人名消歧算法。首先,从文本中提取上下文特征、实体特征、社会关系特征得到三个相似度矩阵,并对这三个相似度矩阵进行融合得到一个融合相似度矩阵;然后,把这四个相似度矩阵以及基于职业特征与社会关系特征的联合相似度矩阵作为输入,利用不同的聚类算法得到不同的划分;最后,采用基于均方误差邻接矩阵聚类(Squared Error Adjacency Matrix Clustering,SEAM)算法对这些划分进行集成,实现人名消歧。在CLP2010人名消歧训练语料上进行实验,结果表明,新算法有效地提高了人名消歧的准确性和鲁棒性。  (3)在基于实体链接的人名消歧中,知识库中单条实体定义的特征稀疏、覆盖面不全。为此,本文提出了一种基于分步聚类的人名消歧算法。首先,从知识库的实体定义中抽取人物属性特征作为查询词,利用文本检索的方式实现了知识库文本的初次聚类;然后,利用初次聚类的结果,采用凝聚层次聚类算法实现知识库人名消歧;最后,进行非知识库人名消歧,包括Other类识别和S类聚类。在CLP2012人名消歧测试语料上进行实验,结果表明,新算法能够有效地提高人名消歧的召回率和准确率。
其他文献
无线传感器网络是一种新型的集数据采集、传输和处理于一身的网络,通过大量微型、智能化、低成本的感知节点,完成自动化的、大范围的信息采集任务。数据采集是无线传感器网络
NTRU公钥密码体制是一种典型的快速公钥系统,其解决了困扰公钥密码体制的速度问题,更因其密钥体积小、产生方法简单等特点,使其可广泛应用于电子商务、通信、嵌入式等领域。
无线局域网(WLAN)以其具有的高速率、低成本、使用便捷等特性,逐渐成为互联网接入的主要方55式。随着大量无线宽带用户的接入,WLAN的规模和密度迅速增长。网络密度的增大和频
杂波抑制是机载预警雷达下视工作时的关键问题。除了采用低副瓣天线、偏置天线相位中心(DPCA)等传统杂波抑制技术,能够有效提高机载相控阵雷达地杂波抑制能力和动目标检测性
感应式磁力计具有稳定、可靠以及工作原理简单等优点,在地震电磁辐射观测领域应用广泛,实践证明其在短临预报方面存在着很大的潜力,因此分析和设计一种高性能感应式磁力计对
高速无人飞行器对于实时定姿精度指标要求很高,故为节省研制费用,降低系统风险,针对飞行器信号处理系统各项指标要求进行先期系统方案设计是必要的。本文主要工作是针对某新
本文主要介绍了基于PCI的遥感图像测试系统的设计与实现方法。测试系统主要由PCI专用芯片PLX9054和FPGA组成,由PFGA实现对本地数据的处理,PLX9054完成测试系统与电脑间的数据传输。基于PCI的遥感图像测试系统,通过PLX9054、FPGA以及大容量存储器,完成对图像数据的测试和相机模拟源的实现。系统不仅可以完成对16bit图像数据的并行发送和接收,还可以对不同的相机传输系统进行数据
随着多媒体应用的发展,越来越多的场合要求视频数据能在不同格式、不同标准间进行交互。为了使异构网络之间、不同种类的终端设备之间能够无缝连接,压缩视频流的编码转换成为
理想条件下阵列信号处理在多通道系统中具有良好的性能,但实际存在的系统误差,会导致算法估计性能或系统输出性能严重恶化。本文主要研究阵列幅相误差校正技术,在分析前人方
互联网的发展正在从“以地址为中心”向“以内容为中心”发生转变,内容中心化的发展趋势让用户更加关注获取内容的速度和质量,为用户提供高质量的QoS保证是未来网络的核心内