面向互联网新闻评论的中文命名实体识别与消解

来源 :北京大学 | 被引量 : 0次 | 上传用户:gundamchen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别和共指消解是自然语言处理中的两个基本问题,在文本的很多相关任务中都有着重要应用。当前对这两个问题的研究工作主要针对新闻、广播等一些正规的文本语料。随着人们在互联网扮演的角色逐渐从信息的获取者向信息的提供者转变,互联网上出现了大量的用户生成内容。这类用户生成内容的规范性较差,因此传统的NLP方法在处理这类语料时效果往往不够好。新闻评论就是其中重要的一种。本文主要研究中文新闻评论中命名实体识别及消解问题。   针对中文新闻评论中的命名实体识别问题,本文在应用了传统的条件随机场模型的基础上,利用新闻正文和新闻评论间的联系,基于互联网搜索及挖掘技术,引入了正文核心命名实体识别算法及相关实体扩展算法以提高识别的准确率。并使用了一个基于字典的修正方法进一步改善效果。   针对中文新闻评论中的命名实体消解问题,本文首先分析了该任务和传统的共指消解任务的不同,给出了其特有的任务定义。然后在传统的二元分类框架的基础上,提出了一种基于评论中心的改进算法。并结合新闻评论的特点,引入了新的特征集合以提高消解效果。   我们从国内重要门户网站-新浪网中人工标注了60篇新闻语料及对应的评论作为我们的数据集。实验结果证明本文的方法能有效提高命名实体识别和消解的准确性。
其他文献
随着经济的发展,我国的社会化进程加快,各方面都取得了快速的发展和提高,这就产生了一个需求,即如何更好的适应和指导这些发展变化。而这些都离不开对宏观经济走势的把握,无论是对
学位
禽流感的每次爆发都会对全球的经济产生巨大的冲击,而野生鸟类是禽流感感染的主要群体,是疫情传播的主要源头之一。当前对禽流感的预防和控制一直是一个巨大的科学难题,目前采用
随着集成电路制造工艺的进步和处理器设计技术的发展,单发射处理器凭借其在低成本、低功耗和高可扩展能力方面的优势,获得了日益广泛的应用,表现出了强劲的生命力。为进一步满足
学位
随着互联网上提供相同功能Web服务的数量日益增加,如何找到适合服务请求者需求的Web服务已成为服务计算领域研究的热点。目前普遍关注的基于QoS的Web服务发现的研究工作中还
访问控制是网络安全标准化的ISO国际标准组织在信息系统的安全基础设施的定义(ISO7498-2)必须包括5个安全服务,信息安全和保护一对主要的技术和有效的手段。传统的访问控制是
学位
Maze是目前中国教育网内最大的P2P文件共享系统,系统中有着大量的用户共享文件,Maze中部署着一个提供共享文件查询服务的索引和检索系统。现有的Maze索引和检索系统认为所有
信息和网络技术的发展,给人们传播和获取信息带来快捷和方便的同时,也对信息安全方面带来了挑战。如何保证信息在网络中的安全传输是人们非常关切的问题。传统的加密技术通常
语音识别技术的发展已经有50多年的历史,并达到了相当高的水平。在国内,汉语语音识别也得到了充分了研究,已走出实验室达到实用化的阶段。但少数民族语言的语音识别还处于起
学位
在互联网成为人们必不可缺的生活方式的今天,电子邮件是最为快捷、经济的互联网应用之一。同时电子邮件也逐渐成为包括移动通讯在内的,人们主要的信息交互方式之一。但是,垃圾邮
无线传感器网络(Wireless Sensor Networks,WSNs)是一种集信息采集、信息处理、信息传输的综合智能网络系统。在WSNs中,传感器节点以随机自组织的方式协作地感知和采集各种环境