基于CRF的面向主题的人物关系抽取

来源 :北京大学 | 被引量 : 0次 | 上传用户:Rita519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web2.0时代,互联网已经成为包含人类社会各种知识的信息库,人们越来越依赖互联网作为查询信息的重要来源。其中,人物之间的关系是一类非常重要的信息。特别是当网民面对一个个热点讨论的话题时,总是希望能够迅速、准确的了解话题中包含的人物关系网,直观便捷的获得人物关系的结构化摘要。基于以上需求,面向主题的人物关系抽取课题应运而生。   人物关系抽取是隶属于实体关系抽取的子任务。在面向主题的人物关系抽取问题上,存在着人物关系定义不清、关系种类多变、语料总量受限等难点,该问题目前的研究成果较少。本文在分析已有工作的基础上,实现了基于条件随机场模型的主题下人物关系抽取研究方法。   本文首先对能够有效反映主题的主要人物关系对进行识别与排序。自动采集了新浪新闻专题中的60个专题作为研究语料,通过同句共现进行关系对识别;进而提出了基于共现频度、互信息、信息熵的相关特征,进行关系对过滤与筛选,并进行关系对的综合排序,以反映关系对相对于主题的重要性以及关系对本身的链接松紧度。依据权重排序获得到相对于主题的强关系对集合。   在上述基础而上,本文实现了基于条件随机场模型的关系词识别算法。在对研究语料进行关系词人工标注的基础上,采用基于概率图的条件随机场模型,通过训练学习识别关系词,并在词形词性基础上,挖掘了新的基于依存句法、距离等特征,提高了关系词的识别效果。在此基础上,实现了关系词与关系对的匹配。实验结果表明,与基于窗口的识别关系词的方法相比,本文提出的基于条件随机场模型的面向主题的人物关系抽取效果取得了明显的提高。   以上述算法框架为背景,本文实现了主题下的人物关系网演示系统,并在系统中设计加入了人物本身相对主题的权重,得到形象化的展示效果。
其他文献
航空航天可靠性的评估是航空航天领域的热点和难点。由于航空航天器可靠性关系到航空航天产品的造价、寿命以及其在空间的运行情况等多个方面,因此航空航天可靠性技术的发展
确定性启发式路径规划算法能够利用启发函数高效地进行目标搜索,在导航、制图、地理信息系统以及机器人学等方面得到广泛应用,是人工智能领域的研究热点之一。本文在分析传统确
本文研究基于突发信息(Burst)的高效率事件挖掘技术,并在中国网络信息博物馆(Web Infomall)[2]的历史网页数据上实现了一个事件挖掘系统。本文的主要内容包括三个部分:  
随着互联网络的不断发展壮大,出现了很多基于P2P网络应用,如bitcomet,emule,share,maze,迅雷等P2P应用软件层出不穷,为互联网用户带来了极大的便利。   本课题的研究工作源自国家
论文和在线课程网页都是科研人员重要的学习和参考资料,目前有很多论文的管理平台或者在线课程的管理平台,但是还没有一个平台能够将这两类资源有机地整合在一起。本文基于以论
机器翻译旨在实现不同语言之间的自动化翻译,降低不同语言使用群体之间的沟通代价,促进全球各个国家和地区之间的经济、政治和文化交流,具有巨大的研究意义和实际使用价值。从提
随着Internet的飞速发展,计算机网络的安全问题日渐突出,杀毒软件、防火墙技术和针对单机的入侵检测技术,其局限性也随之逐步显现,尤其对分布式的入侵行为,已不能很好地满足
分布式计算技术和网格存储技术的迅猛发展使得用户可以使用提供商所开放的近乎无限的计算资源搭建属于自己的计算基础设施,这种计算资源的提供和使用模式被称为“云计算”。
列车故障诊断系统是一种当列车某个设备发生故障或失效时时,通过人机对话形式达到及时有效诊断故障的复杂系统,是列车网络控制系统的一个关键子系统,是保证列车安全运行的必需手
光照条件的变化是导致人脸识别率下降的主要原因之一。当人在室内进行人脸注册,室内条件下可以正常识别,但在室外的识别效果就非常差。这就需要针对实际工作中的人脸识别问题