中文实体识别相关技术的实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:jievons
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体识别是自然语言处理中一个十分重要的问题,同时也是一项关键性基础技术。 本文首先对实体识别中的命名实体和一般实体识别问题分别进行了概要性描述,并综述了当前实体识别的主要研究方法。 随后针对命名实体识别中的其中较为复杂的机构名,提出自己的方法。设计和实现了一个基于混合策略的机构名识别系统。 最后,描述了一般实体的特点,通过中心语的概念,分析了一般实体的组成形式,提出了一种基于实例的识别一般实体的方法。为方便对实例的检索,设计和实现了一个高效的查询器。 文章的主要创新点: 1)通过分析机构名的特点,提出了一种简单的基于规则的机构名识别方法,并取得了较好的结果; 2)提出了一种完善机构名识别的混合处理策略,在规则系统的基础上,引进了最大熵模型,提高了原有规则系统的效果; 3)提出一种基于实例的一般实体识别方法。通过实例库中的实体短语来对候选的实体短语进行评价。
其他文献
当今,面对市场、资金、和竞争的快速变化,给企业的IT战略提出了全新的挑战,促使企业向随需应变型企业转变,所以企业需要重新建立一个新的基础架构。面向服务架构(SOA)思想的提出
远程监控指在距离被监控对象很远的地方对设备进行监视和控制。远程监控作为一种重要的信息技术,在现代工商业和日常生活中已经得到广泛的应用。一些典型的应用包括视频监控系
近年来随着网络化的发展,各行各业的数据呈现爆炸式增加态势。据IDC预测,到2020年全球的数字信息总量将达到惊人的35ZB,信息内容监管将面临巨大挑战。模式匹配算法是文本处理
面对全球化和信息化时代的到来,为了引入先进的管理方式来提升企业竞争力,企业迫切需要信息系统的支撑。但由于客户对管理软件多种多样的个性化需求,软件开发项目往往周期长、效
面对网络安全的严峻形势,为促进防火墙等网络安全技术的发展,以齐德昱教授为所长的计算机系统结构研究所,紧跟时代步伐,站在IT技术前沿,承担了粤港关键领域重点突破项目——《综合
中间件是基于Internet的网络分布计算的重要组成部分。为满足网络分布计算环境下对大规模用户的并发服务,中间件多采用服务器集群结构,以使中间件具有高可伸缩性、高可靠性和高
卫星网络是由携带传感器、天线、电源、推进系统等各类有效载荷的航天器、卫星(星座)组成的分布式、智能化综合信息网络,它具有空间三维立体化、信息提供网格化、运行管理智能
数据网格着眼于如何在一个动态的、多单位参与的虚拟组织内实现数据资源共享与协同工作,而对分布式的、异构的海量数据资源的共享与访问是现代大部分科研工作不可或缺的一部分
模型驱动软件开发是当前研究的热点之一,然而其相关理论和技术的不成熟却影响了它的广泛应用。   本论文以基于UML的模型驱动开发为背景,研究了模型驱动开发过程相关问题及
ERP(Enterprise Resource Planning,企业资源计划系统)是建立在信息技术基础上,以系统化的管理思想,为企业决策层及员工提供决策运行手段的管理平台。Oracle ERP作为全球第二大E