基于条件随机场的命名实体识别

被引量 : 12次 | 上传用户:say_8139
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别技术是自然语言处理技术中的重要工作,随着互联网信息越来越多样化和复杂化,如何提取最重要信息便成为了一个至关重要的问题。命名实体识别技术就正是机器翻译、信息检索、摘要提取等技术中的关键技术。本文从命名实体的特点出发,主要研究了基于人名、地名、组织名这三类重要命名实体的识别问题。本文以条件随机场模型为主要框架,实现了一个命名实体识别系统,并设计了多组实验来验证系统的性能。总的来说,本论文的主要工作有:首先,本文的前三章就命名实体识别的分类、特点、技术难点进行了简要的剖析,并对命名实体识别方法的分类进行了介绍。然后我们对于已经成熟的命名实体识别方法进行了深入研究,针对于隐马尔可夫模型和最大熵马尔可夫模型的缺陷,提出了基于无向图模型的条件随机场模型,并对于条件随机场理论中的关键步骤进行阐述。接着,在本文的实验部分,针对本文研究的条件随机场模型,实现了命名实体识别的训练、评测系统,并在系统结构上进行了详细的分解与阐述。并且,本文提出了一种新的特征模板选择方法,以提高算法的识别效果。为了验证方法的有效性,我们针对于识别系统本文设计了几组实验,分别从训练集大小、特征模板的选择、不同语种的识别效果进行纵向分析。最后又针对于最佳特征模板,将条件随机场模型与最大熵模型的识别效果进行对比,条件随机场模型的优势明显。最后,通过本文的实验,得到了最适宜训练数据的训练集大小,验证了本文提出的基于特征模板选择的数据训练方法。实验证明,在本文采用训练集和测试集下,本文提出的特征模板选择方法已经达到了良好的准确度、召回率与F值。
其他文献
钱穆是中国现代著名的历史学家,对历史研究方面有自己独特的见解,在钱穆史学思想中有三个关键词,一个是专,一个是通,一个是变。钱穆比较重视通史的研究,也重视专门史领域的开
通过参考相关数据,运用因子分析法,选取中东西部6省市的11项指标和江西省农产食品加工业竞争能力进行实证分析。结果证明,江西农产食品加工业竞争力在全国范围内仍属中下游水
“咖啡”是世界三大饮品之一,因其具有独特的醇香口味和提神、兴奋的作用,逐渐成为现代人不可缺少的日常饮品,它已成为世界上最常见的饮料之一。因此在发展中国家中,发展咖啡
虚拟现实技术是运用计算机对现实世界进行全面仿真的技术,在高校教学中得到了广泛应用,具有巨大的应用前景。本文探讨了虚拟现实技术的优越性以及对高校教学的影响,指出开展
在通过技术创新来获取市场竞争优势和市场地位的21世纪,创新已经成为企业发展的不竭动力。但是,创新是一项高风险的投资活动,对于企业来说,由于自身资源的有限性,已经不能满足日新
戒律是僧人生活中之最高法旨,具有至高无上的地位,僧人修行程度之高低与是否能够遵守戒律关系密切。随着佛教中国化进程的推进,自印度而来的佛教戒律自身也出现了某些松动,这
出于对舒适度及便利度的考虑,加之多数景区缺乏直达中长途交通方式,因此旅游者往往将城市作为暂住地。尤其长线旅游中,旅游者不能通过一次性交通乘坐到达景区景点,须有交通较为便
随着网络传输技术和科学技术的高速发展,新词正以前所未有的速度产生和发展着,新词产生的原因,新词的特点,新词的构词方式,新词的规范等等都受到了广泛的关注。词汇的存在是
<正>广告主:小糊涂仙酒投放平台:长沙移动电视时间:2007年~2008年3月频率:每天多次广告画面:仙境中,一个仙女飞上来,提篮散红花,接着是小糊涂仙酒产品亮相。广告评价画面美感
研究了软硬段分子链结构、硬段含量、n(NCO)/n(OH)摩尔比和DMPA含量等,对水性聚氨酯(WPU)贴合料的活化温度和剥离强度影响。以结晶性较好的聚酯二元醇PBA-3000为起始原料,在