一种基于组合模型的中文未登录词词性猜测方法

来源 :云南大学 | 被引量 : 0次 | 上传用户:xulele2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息时代,伴随社会、经济、文化等的飞速发展,生活中不断涌现了大量的中文未登录词语。这些未登录词语在丰富了语言色彩的同时,也给中文信息处理领域带来了前所未有的挑战,因为中文未登录词语没有统一、规范的定义,并且用法灵活多变。就目前来看,面对现实生活中各种庞大的信息资源,要人工来编纂词典显然是不可能的,要想让计算机能够自动准确识别出未登录词语来,必然涉及到未登录词语词性(POS, Part Of Speech)的自动判断。论文研究重点正是中文未登录词语POS猜测,即给未登录词语指派一个合适的POS,也就是对每个未登录词语确定其是名词、动词、形容词还是其它POS的一个过程。中文未登录词语POS猜测是中文信息处理领域的关键技术,也是“瓶颈”问题和热点研究问题。目前,中文信息处理领域吸引了众多计算机学界和语言学界专家投入了大量相关研究,但针对中文未登录词语POS猜测的研究还相对较少。见诸书的方法各有特色,但总体来说都存在着不足之处,POS猜测效果还不是很理想,还具有相当大的研究潜力和空问。本文是在前人研究的基础上,提出了一种基于组合模型的中文未登录词语猜测方法。该方法综合考虑了未登录词语的内部特征和外部特征,其包括了三个模型:第一个模型(机器学习方法),利用未登录词语的内部特征来猜测未登录词语的POS,接着对猜测结果的可信度进行评测,对于低可信度的未登录词语,按论文中提出的组合算法,使用第二个模型(基于上下文的POS猜测模型,考察了词语外部特征即:词语相邻的上下文信息)和第三个模型(基于字符位置的POS猜测模型,考察了词语内部特征即:词语每个位置上字符作用)来猜测它们的POS。目的是,通过三种单一方法的优势整合,提高未登录词语的POS猜测准确率,从降低中文未登录词语对中文分词的影响、优化分词结果。通过实验验证,取得了94.92%的准确率,表明该方法的应用使中文未登录词语POS猜测准确率较已有方法得到了明显提高。
其他文献
现代装备制造技术的发展,对伺服运动控制系统精度的要求越来越高,监控与数据采集系统可以实时获取伺服系统的状态反馈,为检测装置提供数据支持,为控制单元提供计算基础,对提高伺服
随着社会与生产技术的高速发展,决策在人们日常生活中越来越重要。影响图是描述复杂决策问题的图模型,作为一种不确定性决策问题的描述、推理和决策工具已被广泛的应用于预测
道路交通安全与效率已成为目前全世界共同关注的热点问题。作为智能交通系统重要基础之一的车载自组网,是专门为车辆间通信而设计的自组织网络,其目标是通过为车辆和旅行者提供
网络融合是未来网络发展的主旋律。网络融合包括业务融合、核心网络融合、接入网络融合、终端融合、运维融合等多个方面。由于业务用户对于综合业务的体验要求在不断提高,使
企业内网资源整合需要对企业中的应用系统、主机系统以及网络设备等资源的账号进行统一管理。远程桌面访问用于管理运维人员访问和维护企业内网的主机系统。然而,传统的远程桌
随着多重中断在航天型号嵌入式系统中的推广,多重中断程序的调试和测试技术的研究也受到重视。现有的多重中断分析方法多采用静态分析技术,不能准确的分析多重中断程序不确定性
随着计算机和互联网技术的快速发展,普适计算,这种以用户为中心的计算,作为分布式计算和移动计算在新的技术条件下的继续发展,日渐得到人们的重视。在普适环境中,分布有很多
即时通讯(Instant Messaging,简称IM)已经成为继电话、电子邮件之后又一流行的通信手段。近年来,随着移动网络和移动终端技术的快速发展,IM技术在移动平台上获得了大规模的应
图像融合的基本思想就是采用某种算法将两幅或多幅图像合成一幅或几幅含有更多信息的新图像,从而减少数据量,便于观察者对目标进行探测、识别或使之更适合于计算机视觉及后序
随着网站数据量的急剧增加,如何让用户高效、快捷地检索出所需要的数据信息显得越来越重要。传统的检索方式是直接从数据库中进行查询,这种方式简单易行,但查询速度较慢,效率不高