论文部分内容阅读
在当今信息时代,伴随社会、经济、文化等的飞速发展,生活中不断涌现了大量的中文未登录词语。这些未登录词语在丰富了语言色彩的同时,也给中文信息处理领域带来了前所未有的挑战,因为中文未登录词语没有统一、规范的定义,并且用法灵活多变。就目前来看,面对现实生活中各种庞大的信息资源,要人工来编纂词典显然是不可能的,要想让计算机能够自动准确识别出未登录词语来,必然涉及到未登录词语词性(POS, Part Of Speech)的自动判断。论文研究重点正是中文未登录词语POS猜测,即给未登录词语指派一个合适的POS,也就是对每个未登录词语确定其是名词、动词、形容词还是其它POS的一个过程。中文未登录词语POS猜测是中文信息处理领域的关键技术,也是“瓶颈”问题和热点研究问题。目前,中文信息处理领域吸引了众多计算机学界和语言学界专家投入了大量相关研究,但针对中文未登录词语POS猜测的研究还相对较少。见诸书的方法各有特色,但总体来说都存在着不足之处,POS猜测效果还不是很理想,还具有相当大的研究潜力和空问。本文是在前人研究的基础上,提出了一种基于组合模型的中文未登录词语猜测方法。该方法综合考虑了未登录词语的内部特征和外部特征,其包括了三个模型:第一个模型(机器学习方法),利用未登录词语的内部特征来猜测未登录词语的POS,接着对猜测结果的可信度进行评测,对于低可信度的未登录词语,按论文中提出的组合算法,使用第二个模型(基于上下文的POS猜测模型,考察了词语外部特征即:词语相邻的上下文信息)和第三个模型(基于字符位置的POS猜测模型,考察了词语内部特征即:词语每个位置上字符作用)来猜测它们的POS。目的是,通过三种单一方法的优势整合,提高未登录词语的POS猜测准确率,从降低中文未登录词语对中文分词的影响、优化分词结果。通过实验验证,取得了94.92%的准确率,表明该方法的应用使中文未登录词语POS猜测准确率较已有方法得到了明显提高。